十个Kaggle项目带你入门数据分析
我是yulang,曾经是北大物理专业的硕士研究生,毕业后任职于普华永道、滴滴和阿里巴巴担任商业分析师。
以下这些案例都是比较经典的数据分析项目,内容来自Kaggle官网,适合学习pandas、numpy和matplotlib库的数据分析爱好者。
因为目前kaggle网站注册有限制,这里为了方便使用,可以直接点击下面链接获取原始数据:
链接: https://http://pan.baidu.com/s/1NIpTjSeW7BHy5hsrTf5ylw 提取码:data
为了方便小白入门,这里特别推荐知乎大V猴子老师的实战课程【 知乎知学堂数据分析3天实战训练营 】,将带你从实际案例中掌握数据分析的核心技能,更重要的是,参加这门课程能了解数据分析师在一线工作中常用的思维方法。对于没有实际做过数据分析专业的粉丝,这门课是必听的。
1 New York City Airbnb OpenData纽约市Airbnb开放数据
实际因为找到了北京和上海的Airbnb数据,就没有继续分析纽约市的数据了,北京市的房源列举了30000多条,文件非常大,CSV足足有100M以上,主要有以下数据。
类似项目:
- ysiwgtus:探索Airbnb数据 周贰毛:Airbnb(爱彼迎)产品数据分析
- 小嘿同学:Airbnb出租数据探索以及可视化
- 涛aaaa涛:Airbnb数据分析报告
- 阿姆斯特丹AB-和鲸社区 - Kesci.com 大叔22号:Airbnb房源分析—天池数据集
- 小嘿同学:Airbnb出租数据探索以及可视化
- 朝歌:北京airbnb民宿数据分析及可视化
- yhh:Airbnb短租房源数据集分析 羊小高:Tableau-实现Airbnb数据运营分析可视化
- 卜贰:2019年 Airbnb 纽约订单数据集 EDA
- 小小猫依米:想成为Airbnb超赞房东?数据揭秘什么样的房子最受欢迎!(连载一)
- 斯基大人:Tableau——airbnb房源数据分析
扩展学习:关于数据增长模型的案例
- 涛aaaa涛:Airbnb数据分析报告
- jobmesboger:Airbnb产品数据分析(SQL&Tableau)
- 海胜同学:Airbnb产品分析报告
- 爆米花炒番茄:基于python的Airbnb销售渠道数据分析
- jobmesboger:Airbnb产品数据分析(SQL&Tableau)
-
艾伦SJ:大数据之火爆全球的Airbnb
2 The Movies Dataset电影数据集分析
数据来源 : Kaggle链接 (貌似获取这些数据有点门槛)
替代方案 :可以点击这里 和鲸社区 - Kesci.com
用途 :多表关联、评分排序、收入分析、推荐引擎
参考资料 :
- 曾露:Kaggle:电影数据分析
- 朱文华:电影数据分析
- 太湖刁民:数据分析实战02-探索电影数据集
- hanajya:像制作人一样思考——电影数据分析
- 邓芊:数据可视化-电影数据分析
- 默言:电影数据分析案例
- toyama123:电影数据分析项目
- 韩籽:电影数据之推荐系统
- 曾露:Kaggle:电影数据分析
3 Telco Customer Churn电信客户流失问题
数据来源 :
- Kaggle链接 (需注册)
- 和鲸社区 - Kesci.com (备用)
用途
- 流失客户分析
- 客户终生价值LTV
详情可以点击:
4 Lending Club Loan Data贷款数据分析
数据下载:
用途 :金融小贷、逾期分析、逾期预测
我之前分析用的代码:
附一些案例分析
4.1. 拍拍贷互联网金融数据
4.2. kaggle上的 give me some credit 数据集
- Give Me Some Credit
- 小叶子:基于Python的信用评分卡建模分析
- Carl:基于Python的信用评分卡模型分析
- Avenger:Kaggle项目:信用评分卡建模(一)
- 未知:python之信贷数据分析
- 蓝色:Python信用评分卡建模
4.3. 狗熊会在线实习项目相关资料
5 Bitcoin Historical Data比特币数据分析
数据下载 :
用途 :时间戳、数据清洗、价格预测
6 共享单车
比赛地址 : https://www.http://kaggle.com/c/bike-sharing-demand
数据参见 : 和鲸社区 - Kesci.com
需要通过不同时间和环境的数据,预测共享单车的需求分布。
- 我们可以看到2012年共享单车的租借数量比2011年是有明显提升的,一年中6-10月是租借的高峰期。
- 租车数量随季节变化趋势大体是一致的,春天租车最少,冬天最多。
相关链接 : CaiNiao:共享单 车项目——数据可视化赡葡:kaggle 共享单车项目,排名前8%沫沫:数据可视化——基于Kaggle的共享单车项目【数据分析】Kaggle项目之共享单车数据分析(一)_人工智能_ccszbd的博客-CSDN博客
相关代码:
更多链接:
- 大祎:plotly 数据可视化——地图
- anne:共享单车的数据分析
- foremost:共享单车数据可视化分析报告(PPT)
- 追风者G:数据可视化——共享单车案例
- 端午:共享单车数据分析及可视化
- 吴小剑:共享单车项目-数据分析篇
- 随遇而安:共享单车数据分析-python
- cloverzxl/4root
7 Hotel booking demand酒店预订需求
数据下载:
该数据集包含城市酒店和度假酒店的预订信息,包括预订时间、停留时间,成人/儿童/婴儿人数以及可用停车位数量等信息。
适用场景 :社会科学、旅行、酒店、用户行为,不具有明显的行业标识,可进行常规用户行为分析。
数据量: 32列共12W数据量。
可以定义的问题 :
- 1)基本情况:城市酒店和假日酒店预订需求和入住率比较;
- 2)用户行为:提前预订时长、入住时长、预订间隔、餐食预订情况;
- 3)一年中最佳预订酒店时间;
- 4)利用Logistic预测酒店预订。
相关代码:
8 Video Game Sales电子游戏销售分析
数据下载
包含游戏名称、类型、发行时间、发布者以及在全球各地的销售额数据。
适用场景 :电商、游戏销售,常规销售数据 。
数据量 :11列共1.66W数据量。
可以定义的问题 :
- 1)电子游戏市场分析:受欢迎的游戏、类型、发布平台、发行人等;
- 2)预测每年电子游戏销售额。
- 3)可视化应用:如何完整清晰地展示这个销售故事。
9 US Accidents 美国交通事故分析(2016-2019)
数据下载:
覆盖 全美49州 的全国性交通事故数据集,
时间跨度 :2016.02-2019.12,包括事故严重程度、事故开始和结束时间、事故地点、天气、温度、湿度等数据。
适用场景 :无明显行业标识,通用。
数据量 :49列共300W数据量。
可以定义的问题 :
- 1)发生事故最多的州,什么时候容易发生事故;
- 2)影响事故严重程度的因素;
- 3)预测事故发生的地点;
- 4)可视化应用:讲述4年间美国发生事故的总体情况
感谢: 如何自己找数据分析项目来做?
10 预测模型——如何用python对今年的经济数据预测
感兴趣可以点击这个链接参加知乎知学堂数据分析训练营的学习
11 NBA球员的数据分析与可视化
网上有公开的NBA球员统计数据,包括乔丹、勒布朗·詹姆斯、科比·布莱恩特、卡特等等在内,数据有他们的身高体重、得分、篮板、命中率、效率值、出场时间、犯规、三分命中率等等。
数据来源 :kaggle网站
NBA Players stats since 1950 https://www.http://kaggle.com/drgilermo/nba-players-stats
有了这些数据,可以完成各种有趣的统计:
- 竹林:数据分析——哪所大学为NBA输出了最多的优质球员? https://http://zhuanlan.zhihu.com/p/49028688
- 跳投哥:【NBA大数据】争夺激烈,究竟谁才是空砍群群主? https://http://zhuanlan.zhihu.com/p/47918004
- Crossin:[Python数据分析]NBA的球星们喜欢在哪个位置出手 https://http://zhuanlan.zhihu.com/p/71875050
- 可视化数据分析:NBA的字母哥如何拿到2415万美金年薪 https://http://zhuanlan.zhihu.com/p/77403864
工资数据可视化
Finding the Worst, Highest-Paid NBA Player, Ever
Using advanced NBA stats to rank player performance against pay.
Source: Basketball Reference
顺便介绍一下这个网站,网址 The Pudding explains ideas debated in culture with visual essays. ,内容非常惊艳