Python 基础有 想涉及数据分析,有没有什么好课程呢

2019-07-09 08:59:50 +08:00
 jakeyfly

我属于自己的兴趣爱好,不是科班出身。爬虫自己写过一个,用 APS 定时调度,MQ 做管道的爬虫。WEB 开发 学过 FLASK 不熟练,一边查笔记一边做,肯定能做出来。也不知道自己 PYTHON 什么水平,流畅的 PYTHON 完整看这三四次,也经常翻。现在真心想学习数据分析,请问有没有什么好课程吗。现在自己看 PANDAS 那本书,感觉收获很小。

1047 次点击
所在节点    问与答
2 条回复
wqzjk393
2019-07-09 09:37:39 +08:00
数据分析的核心是统计学,其次才是各种封装好的科学计算包( pandas/numpy/scipy )可视化包(matplotlib/seaborn)。个人经验,统计学就老老实实看教材,包的话建议先从 numpy 入手,掌握和理解 numpy 的切片操作以后再学 pandas 就轻松多了。
pandas 其实用的多的还是读写 excel/csv,lambda 和 map/apply/applymap,pivot_table/cross_tab (其实很类似于 oracle 的分析函数"聚合函数+over(partition by/group by)" ),groupby,筛选(包括 where、df[df['aaa']=='bbb']等多种方式筛选,其实就类似于 sql 的 select where)、merge (相当于 sql 的 join )、drop_duplicates (去重)、dropna/fillna(删除空值或者填充空值)。所以你看 pandas 其实大部分时间用到的东西很有限的,学过 sql 的用 excel 分析过报表再学这个就感觉很轻松。
其实关键分析的还是要用 numpy 和 scipy,统计学应用就是要使用这两个的。而且 pandas 如果是做数据分析而不是仅仅做自动化报表,大部分还是要使用 df.values 转换成 numpy.ndarray 做分析。numpy 里面最麻烦的还是切片操作,这个很绕而且开始学的时候可能会感觉和自己的习惯很不一致,这没办法只有慢慢习惯才行。numpy 和 scipy 提供了均值方差峰度偏度中位数分位数等等各种统计函数,基本上能满足你大部分需求了。但是你要应用这些函数还是要理解均值方差峰度偏度等等这些概念的意义和作用,所以说关键还是在统计学理论知识,而不是科学计算包
marco25
2019-07-09 10:07:38 +08:00
找一个自己感兴趣的话题,金融的,体育的,各行各业的边做边学。如果你会爬虫就不用受现成数据集的限制可以自己创造数据集了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/581193

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX