十个Kaggle项目带你入门数据分析

十个Kaggle项目带你入门数据分析

我是yulang,曾经是北大物理专业的硕士研究生,毕业后任职于普华永道、滴滴和阿里巴巴担任商业分析师。

以下这些案例都是比较经典的数据分析项目,内容来自Kaggle官网,适合学习pandas、numpy和matplotlib库的数据分析爱好者。

因为目前kaggle网站注册有限制,这里为了方便使用,可以直接点击下面链接获取原始数据:

链接: https://http://pan.baidu.com/s/1NIpTjSeW7BHy5hsrTf5ylw 提取码:data


扫码可以获取原始数据

为了方便小白入门,这里特别推荐知乎大V猴子老师的实战课程【 知乎知学堂数据分析3天实战训练营 】,将带你从实际案例中掌握数据分析的核心技能,更重要的是,参加这门课程能了解数据分析师在一线工作中常用的思维方法。对于没有实际做过数据分析专业的粉丝,这门课是必听的。

1 New York City Airbnb OpenData纽约市Airbnb开放数据

实际因为找到了北京和上海的Airbnb数据,就没有继续分析纽约市的数据了,北京市的房源列举了30000多条,文件非常大,CSV足足有100M以上,主要有以下数据。

类似项目:

扩展学习:关于数据增长模型的案例

2 The Movies Dataset电影数据集分析

数据来源 Kaggle链接 (貌似获取这些数据有点门槛)

替代方案 :可以点击这里 和鲸社区 - Kesci.com

用途 :多表关联、评分排序、收入分析、推荐引擎

参考资料

3 Telco Customer Churn电信客户流失问题

数据来源

用途

  • 流失客户分析
  • 客户终生价值LTV

详情可以点击:

4 Lending Club Loan Data贷款数据分析

数据下载:

用途 :金融小贷、逾期分析、逾期预测

我之前分析用的代码:

附一些案例分析

4.1. 拍拍贷互联网金融数据

4.2. kaggle上的 give me some credit 数据集

4.3. 狗熊会在线实习项目相关资料

5 Bitcoin Historical Data比特币数据分析

数据下载

用途 :时间戳、数据清洗、价格预测

6 共享单车

比赛地址 https://www.http://kaggle.com/c/bike-sharing-demand

数据参见 和鲸社区 - Kesci.com

需要通过不同时间和环境的数据,预测共享单车的需求分布。

  1. 我们可以看到2012年共享单车的租借数量比2011年是有明显提升的,一年中6-10月是租借的高峰期。
  2. 租车数量随季节变化趋势大体是一致的,春天租车最少,冬天最多。

相关链接 CaiNiao:共享单 车项目——数据可视化赡葡:kaggle 共享单车项目,排名前8%沫沫:数据可视化——基于Kaggle的共享单车项目【数据分析】Kaggle项目之共享单车数据分析(一)_人工智能_ccszbd的博客-CSDN博客

相关代码:

更多链接:

7 Hotel booking demand酒店预订需求

数据下载:

该数据集包含城市酒店和度假酒店的预订信息,包括预订时间、停留时间,成人/儿童/婴儿人数以及可用停车位数量等信息。

适用场景 :社会科学、旅行、酒店、用户行为,不具有明显的行业标识,可进行常规用户行为分析。

数据量: 32列共12W数据量。

可以定义的问题

  • 1)基本情况:城市酒店和假日酒店预订需求和入住率比较;
  • 2)用户行为:提前预订时长、入住时长、预订间隔、餐食预订情况;
  • 3)一年中最佳预订酒店时间;
  • 4)利用Logistic预测酒店预订。

相关代码:

8 Video Game Sales电子游戏销售分析

数据下载

包含游戏名称、类型、发行时间、发布者以及在全球各地的销售额数据。

适用场景 :电商、游戏销售,常规销售数据

数据量 :11列共1.66W数据量。

可以定义的问题

  • 1)电子游戏市场分析:受欢迎的游戏、类型、发布平台、发行人等;
  • 2)预测每年电子游戏销售额。
  • 3)可视化应用:如何完整清晰地展示这个销售故事。

9 US Accidents 美国交通事故分析(2016-2019)

数据下载:

覆盖 全美49州 的全国性交通事故数据集,

时间跨度 :2016.02-2019.12,包括事故严重程度、事故开始和结束时间、事故地点、天气、温度、湿度等数据。

适用场景 :无明显行业标识,通用。

数据量 :49列共300W数据量。

可以定义的问题

  • 1)发生事故最多的州,什么时候容易发生事故;
  • 2)影响事故严重程度的因素;
  • 3)预测事故发生的地点;
  • 4)可视化应用:讲述4年间美国发生事故的总体情况

感谢: 如何自己找数据分析项目来做?

10 预测模型——如何用python对今年的经济数据预测

感兴趣可以点击这个链接参加知乎知学堂数据分析训练营的学习

11 NBA球员的数据分析与可视化

网上有公开的NBA球员统计数据,包括乔丹、勒布朗·詹姆斯、科比·布莱恩特、卡特等等在内,数据有他们的身高体重、得分、篮板、命中率、效率值、出场时间、犯规、三分命中率等等。

数据来源 :kaggle网站

NBA Players stats since 1950 https://www.http://kaggle.com/drgilermo/nba-players-stats

有了这些数据,可以完成各种有趣的统计:

  1. 竹林:数据分析——哪所大学为NBA输出了最多的优质球员? https://http://zhuanlan.zhihu.com/p/49028688
  2. 跳投哥:【NBA大数据】争夺激烈,究竟谁才是空砍群群主? https://http://zhuanlan.zhihu.com/p/47918004
  3. Crossin:[Python数据分析]NBA的球星们喜欢在哪个位置出手 https://http://zhuanlan.zhihu.com/p/71875050
  4. 可视化数据分析:NBA的字母哥如何拿到2415万美金年薪 https://http://zhuanlan.zhihu.com/p/77403864
跳投哥:【NBA大数据】争夺激烈,究竟谁才是空砍群群主?

工资数据可视化

Finding the Worst, Highest-Paid NBA Player, Ever

Using advanced NBA stats to rank player performance against pay.

Source: Basketball Reference

顺便介绍一下这个网站,网址 The Pudding explains ideas debated in culture with visual essays. ,内容非常惊艳

  1. 流行音乐 Are Pop Lyrics Getting More Repetitive? An Interactive Visualization of Every Line in Hamilton Are Men Singing Higher in Pop Music?
  2. 体育 The NBA Has a Defensive Three Seconds Problem
  3. 文化 What Does the Path to Fame Look Like? A People Map of the US

这样的数据可视化交互网站是怎么做出来的? @洪日日 @Michelllsm

编辑于 2023-04-24 19:29 ・IP 属地北京

文章被以下专栏收录