Java 做爬虫有没有什么比较牛的地方?

2019-08-02 13:21:06 +08:00
 harley27
现在做爬虫的几乎全都是 pythonpythonpython
甚至还有些接单的用易语言做(因为好学么?不明真相)
如果用 Java 做的话会不会使客户觉得这个人比较超脱凡俗,比较靠得住……
当然,我们这里还是讨论技术。不知道技术层面上用 Java 实现爬虫有没有什么特殊的好处
7956 次点击
所在节点    Java
31 条回复
axwz88
2019-08-02 13:36:09 +08:00
python 写爬虫好处是工作量小,轮子也多,用 java 写爬虫和 python 实现的没太大区别,很多搜索引擎爬数据量特别大还要追求速度的用 c 和 c++写爬虫
flyingghost
2019-08-02 13:40:27 +08:00
java 做爬虫它牛就牛在爬虫业务两不误。
招个 py 做完爬虫是开掉还是开掉呢?
kaiccc
2019-08-02 13:52:59 +08:00
@flyingghost 哈哈哈
ddup
2019-08-02 13:54:40 +08:00
搜索引擎爬虫就选 Nutch 大神作品。
python 有个 GIL 全局锁,性能上有瓶颈,大规模爬行会吃不消。
salamanderMH
2019-08-02 13:55:02 +08:00
我用 nodejs 写的,编译型语言( java,go 这些)工程化好一点
zjyl1994
2019-08-02 13:59:14 +08:00
python 轮子多而已,java 并不会觉得靠得住,人家不会看语言的只要数据
daozhihun
2019-08-02 14:07:47 +08:00
做过爬虫的说一句。
楼上说的对,老板 & 客户要的数据+准确性,人家才不管你用啥语言。
况且爬虫最麻烦的地方是对付反爬,你得有一定的思路,语言倒是次要的。
lihongjie0209
2019-08-02 14:15:41 +08:00
语言无所谓, 关键是生态
leopku
2019-08-02 14:27:04 +08:00
@ddup 有道理,我选 go 系爬虫
shuizhengqi
2019-08-02 14:31:36 +08:00
说 GIL 全局锁的,这对爬虫有什么影响?爬虫主要是爬,又不是计算,这有什么吃不消的
janxin
2019-08-02 14:31:45 +08:00
码农不值钱?
ben1024
2019-08-02 14:42:32 +08:00
主要是反爬的解决方案
Mazexal
2019-08-02 14:47:53 +08:00
java 不适合做爬虫, 强类型处理很容易报错..........
HOU
2019-08-02 14:57:18 +08:00
java + web-harvest + xpath,爬得很美
hotcool100
2019-08-02 15:02:34 +08:00
对不起,跟我走一趟,我是国家反爬局的……
wysnylc
2019-08-02 15:44:51 +08:00
强类型处理报错的了解下 optional
java 做爬虫的话就在于分布式了,如果单机能做的爬虫任务没必要用 java
java 爬虫推荐一个许雪里的 XXL-CRAWLER,链式编程一行代码一个爬虫!
Cellei
2019-08-02 16:13:39 +08:00
Go 爬虫哪位大佬再给讲解下
duanxianze
2019-08-02 16:19:18 +08:00
@flyingghost 哈哈哈
392039757
2019-08-02 16:28:25 +08:00
没有好用的 java 爬虫框架,自己写轮子太难受
cweijan
2019-08-02 16:30:06 +08:00
@392039757 webmagic

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/588496

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX