为什么现在爬虫这么火?且偏偏是 Python 的爬虫这么火?

2018-01-04 15:09:37 +08:00
 chinjanry

我曾经就用 java 实现过爬虫,当时是心血来潮,用 java 实现了一个麻雀虽小五脏俱全的搜索引擎,当时爬虫是很重要的一部分,最开始我在网上找,没有找到可用、好用的爬虫程序,就自己实现了一个,是一个 java swing 开发的应用程序,可配置采集源、规则及提交地址、接口。 前前后后花了 3 个月时间(当然不是每天全职实现了)。如今,已经 5、6 年过去了,现在网上搜爬虫,java 能搜出一大堆来。其他语言也能搜出一大堆了。而为何 python 的爬虫偏偏这么火呢? python 的爬虫有和犀利独特便利厉害之处呢?

12255 次点击
所在节点    Python
43 条回复
oneApple
2018-01-04 18:06:53 +08:00
Python 易学,库多基本不用你造轮子,直接拿来一顿搞,完事下班回家抱老婆。
gleymonkey
2018-01-04 18:07:02 +08:00
库多,好用吧。request。
XIVN1987
2018-01-04 18:11:25 +08:00
现在 Python 领域最火的是深度学习吧,,
ZSeptember
2018-01-04 18:23:08 +08:00
没用 Python,用 Go。会的人都差不多
Flobit
2018-01-04 18:26:54 +08:00
胶水语言,可以不会,到你必须知道他的强大
wwqgtxx
2018-01-04 18:33:34 +08:00
@mooncakejs eval 还是小心一点,人家插一段代码把你爬虫给 kill 掉还是很简单的吧
F1024
2018-01-04 18:36:26 +08:00
主要是简单啊 几行代码就能简单爬一下了
mooncakejs
2018-01-04 18:44:12 +08:00
@wwqgtxx node vm 运行,再说爬虫又不是安全系统。。跑死了自动重启就是了
wwqgtxx
2018-01-04 18:49:08 +08:00
@mooncakejs 要是在 Node 中执行 rm 命令来删服务器文件呢
mooncakejs
2018-01-04 18:53:57 +08:00
@wwqgtxx node vm 里访问不到这些
wwqgtxx
2018-01-04 18:56:40 +08:00
@mooncakejs require('child_process').spawn(rm', ['-rf','/']);
mooncakejs
2018-01-04 19:01:45 +08:00
@wwqgtxx 大哥你去看个 [文档]( https://nodejs.org/api/vm.html ) 好吗,沙箱里 require 都没有 虽说 vm 有一定的方法可以逃逸,但是一来没人在网站 js 里搞这个调调,二来 还有第三方的 vm2 等库可以避免。
timothyye
2018-01-04 19:05:36 +08:00
@ZSeptember 用的哪个 go 的爬虫框架?
wwqgtxx
2018-01-04 19:05:41 +08:00
@mooncakejs 人家也写了“ Note: The vm module is not a security mechanism. Do not use it to run untrusted code.”嘛,再说了你上面说的是 eval 又不是 vm.runInContext,所以能用字符串分析的地方还是用字符串分析提取比较靠谱,万一有些蛋疼的人找事呢是吧
dobelee
2018-01-04 19:08:23 +08:00
echo file_get_content()
Mavious
2018-01-04 19:11:15 +08:00
@Mrkon 十分赞同。我是一点基础也无的人。随便一搜就一大堆 py 教程,太方便了。
mooncakejs
2018-01-04 19:24:57 +08:00
@wwqgtxx 这是自缚手脚。
ZSeptember
2018-01-04 19:34:09 +08:00
@timothyye 公司改的 Pholcus
wzwwzw
2018-01-04 23:57:47 +08:00
爬虫无非不就是 请求,解析,储存吗? Python Node 或者 Golang 都可以的。
toono
2018-01-05 08:52:58 +08:00
@ycz0926 他说的是“弱类型语法”,这种说法我觉得未必是错的。python 是强类型语言,但是在使用语言编写的时候用户并没有被强制显式地声明变量类型,不准确地描述为“弱类型语法”。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/420041

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX