为啥 Python 爬虫这么火,相比 Java 爬虫有啥优势?

2020-06-28 21:53:07 +08:00
 gejun123456

java jsoup,多线程也方便,python 有哪些 java 爬虫没有的优势?

7891 次点击
所在节点    Python
47 条回复
tikazyq
2020-06-28 22:03:04 +08:00
动态语言做爬虫不香?
lenqu
2020-06-28 22:27:32 +08:00
用的人多,方便实现
echo1937
2020-06-28 22:29:29 +08:00
因为库多,搞起来方便,尤其是应付反爬这一块。
xiri
2020-06-28 22:32:17 +08:00
写起来快
Nich0la5
2020-06-28 22:37:44 +08:00
开发快,而且爬虫是最不在乎运行效率的
EminemW
2020-06-28 22:54:16 +08:00
自己写爬虫用 Python 当然是因为写的快。
em70
2020-06-28 22:55:10 +08:00
目标经常变化,JAVA 花 1 周做个爬虫可能 3 天就不能用了,明显不合理,这方面动态语言优势明显

当然如何是搜索引擎这种通用爬虫,JAVA 比 python 更适合
catxo
2020-06-28 22:56:16 +08:00
我只知道我接手的一个 java 爬虫,刚启动就吃了 2G 内存,emmmmmm
movistar
2020-06-28 23:05:53 +08:00
当你的爬虫在几百台机器上都跑满了 CPU,但是 QPS 也没多少,抓的没有别人更新的快的的时候,你就知道为什么要换 Java/Golang/C++跑爬虫了...
CPU 比内存贵多了.大部分机器 CPU:内存都是 1:8 甚至 1:16 以上的.内存空着就是浪费了,超卖了也就 1:4
当然大部分人的爬虫跑不了几台机器,也不是用来吃饭的家伙,当然什么好写用什么,没什么数据量的我也选 Python
binux
2020-06-28 23:37:15 +08:00
@movistar #9 带宽更贵
limuyan44
2020-06-29 00:05:44 +08:00
爬虫从来都问题都不在语言上而在反爬上,至于为什么用 Python,纯粹是因为代码行数短或者说大部分人接触爬虫都是从 python 开始的。总而言之,对于普通人来说无非因为简单二字,一般网站几行代码就能爬到需要的数据。你要谈性能,一般人可碰不上。
airqj
2020-06-29 00:39:14 +08:00
@movistar 什么爬虫用 cpp 来写?
musi
2020-06-29 00:45:23 +08:00
开发效率快,特别是对于那种经常更换反爬策略的,等你爬虫写完了别人也更新完了反爬策略你还爬个鸡儿
alexkkaa
2020-06-29 07:09:33 +08:00
crawler 和 spider 是不一样的 像那些全网爬不在乎个别网站是否能爬到的可以用静态语言。但是针对特定网站的 crawler 需要灵活迅速的跟对方打游击战,你用 java 黄花菜都凉了
LokiSharp
2020-06-29 08:49:28 +08:00
Python 是个人就能写了。。。
cat9life
2020-06-29 09:18:01 +08:00
Python 最大的优点就是简单好用,上手快,2 天入门几行代码就能跑起来,别跟我谈什么性能,大部分就是玩票的性质。要性能九别用 Python
passerbytiny
2020-06-29 09:50:31 +08:00
我是一个 java 开发,我现在轻易不想写代码。一个小功能就要动好几个源文件,还要写相对大量的单元测试代码,就算有 CI 还是感觉累。

看上面的回复,怕虫是超高频变化的,用 java 真不合适。
no1xsyzy
2020-06-29 10:05:51 +08:00
@movistar #9 你的误解大概是搞错了爬虫和蜘蛛。见 #14
cweijan
2020-06-29 10:28:22 +08:00
以前我看 python 爬虫很火就跟着写了个, 但发现维护起来实在头疼, 现在已经用 Java 重写了, 使用 webmagic 开发效率完全不输 python
wysnylc
2020-06-29 10:49:18 +08:00
@cweijan #19 py 写爬虫纯粹是老手图简单快速新手只会 py,真要想长久发展不可能用动态类型的语言维护成本爆炸
还有吹 py 包多的,java 笑抽

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/685438

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX