关于 Python 适合数据分析,有一事不解

2018-12-18 14:10:37 +08:00
 jakeyfly
不是说专业的数据分析都要上 SPARK 吗? pandas 都只是玩具。
那 python 不是就没用了? spark 不就得上 java 或者另一个叫啥的语言
3089 次点击
所在节点    Python
15 条回复
holajamc
2018-12-18 14:18:56 +08:00
巧了最近也在看 Spark,不如看看官方文档?-> https://spark.apache.org/docs/latest/quick-start.html
richzhu
2018-12-18 14:20:49 +08:00
兄弟,玩什么不重要,重要的是你玩的怎么样
devqin
2018-12-18 14:26:57 +08:00
https://spark.apache.org/docs/latest/api/python/index.html

最新版 2.4.0 Spark Streaming 也可用 python。
andylsr
2018-12-18 14:27:47 +08:00
看你数据量,市面上几千条数据也拿来分析的~有必要 spark 么,
kzfile
2018-12-18 14:38:23 +08:00
这个就看实际的需求环境了
yab119074412
2018-12-18 14:54:56 +08:00
spark 也有 Python 版的 pyspark
janxin
2018-12-18 14:59:29 +08:00
pyspark,另外也取决于数据量

是时候拿出这个文章了了 Don't use Hadoop - your data isn't that big https://www.chrisstucchio.com/blog/2013/hadoop_hatred.html

当然,老外也有可能没见识,不知道我天朝的大数据
ftexplore
2018-12-18 15:43:42 +08:00
python 适合数据分析的原因是,很多非计算机领域的大牛,例如数学家,他们用 python 比较顺手,所以有大量的 lib 可以用
mwiker
2018-12-18 15:51:51 +08:00
另一个叫啥的语言:scala。因为 spark 是由 scala 编写的,用 scala 支持更多的 api。不过熟悉 python 的用 pyspark 也可以了。
yak9dd
2018-12-18 16:06:40 +08:00
python 只是接口,把数据灌倒 spark,flink,tensorflow 里跑。python 真的很慢,但其处理数据的简洁性使得绝大部分数据处理框架都是 Python 接口
yanzixuan
2018-12-18 16:58:16 +08:00
pandas 难道不专业?数据量少用 pandas,数据量大用 dask,数据量很大用 spark。
cyspy
2018-12-18 17:14:13 +08:00
pyspark+numpy 是常用做法。
fyxtc
2018-12-18 17:31:10 +08:00
有时间纠结工具,不如先找一个上手试试
visitantzj
2018-12-18 22:14:05 +08:00
python 数据分析有优势的是大数据 /ML 这些离工程领域近的生态圈强,单纯说数据分析语法上没有 matlab/r/julia 这些适合,用 python 经常感觉脑子里要想一想语法 namespace 之类的,不像那些语言思维那么流畅。
googlefans
2019-01-03 23:05:46 +08:00
spark 要多大量级的数据?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/518604

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX