队名:无能万金油
2020中国高校计算机大赛·华为云大数据挑战赛–热身赛
热身赛:Rank 7
CSDN博客:我的博客
数据相关知识和分析参考:[上分指南] 2020华为云大数据挑战赛热身赛如何“未卜先知”
Github代码:2020华为云热身赛
(建议直接下载热身赛code.ipynb
,里面有详细代码分析说明)
2020中国高校计算机大赛·华为云大数据挑战赛-正式赛现在已经开始了!
报名人数已达到4133! 赛题非常有趣,华为还为参赛的小伙伴准备了代金卷,没有资源的小伙伴也可以参加哦!
热身赛和初赛的奖品也非常丰厚!!!
本Blog也会持续跟进比赛的最新消息和思路分享,感谢大家关注!
初赛(6月2日 – 6月30日)
复赛(7月13日-8月10日)
决赛(8月下旬
比赛地址:华为云大数据挑战赛
赛题说明
热身赛题——交通流量预测
随着电子信息和移动通信技术高速发展和不断融合,人工智能在各个领域都相继取得了巨大的突破,城市智能体也应运而生,而城市交通又是城市智能体的核心。交通流量数据既是城市交通中的基础数据,又是反应交通状况的重要指标之一,准确预测交通流量对城市交通具有重大意义。本题以交通流量预测为目标,邀请各个队伍以历史交通流量数据建立对应的算法模型,预测目标流量数据,通过预测值和真实值之间的对比得到预测准确率,以此来评估各队伍所提交的预测算法。
数据处理即预测
通过基本清洗,构建合理的数据集,分数是可以达到68、69 的成绩的,但是想进一步突破却比较难, 毕竟数据有限,我们能得到的信息很少。
但是我们发现,只要训练数据构建的好,分数就会有明显的提升,那么怎么才算好呢,其实就是越靠近,线上数据作为训练数据,效果就越好,因为回归模型的本质其实就是拟合数据。
那这样我们是不是可以人为构造线上数据,而不 是用模型预测(因为模型会有误差)。
通过实验是肯定的,后期我们还做了平滑的操作(自平滑),直接线上达到了76+
我们这里还得到了,另外一个赛题的数据,也是流量相关的,但是他们的题目是预测交通指数,些许不一样.可以作为分析数据的参考。
这里简单画了下图:(详细参考Github代码)