为什么现在爬虫这么火?且偏偏是 Python 的爬虫这么火?

2018-01-04 15:09:37 +08:00
 chinjanry

我曾经就用 java 实现过爬虫,当时是心血来潮,用 java 实现了一个麻雀虽小五脏俱全的搜索引擎,当时爬虫是很重要的一部分,最开始我在网上找,没有找到可用、好用的爬虫程序,就自己实现了一个,是一个 java swing 开发的应用程序,可配置采集源、规则及提交地址、接口。 前前后后花了 3 个月时间(当然不是每天全职实现了)。如今,已经 5、6 年过去了,现在网上搜爬虫,java 能搜出一大堆来。其他语言也能搜出一大堆了。而为何 python 的爬虫偏偏这么火呢? python 的爬虫有和犀利独特便利厉害之处呢?

12240 次点击
所在节点    Python
43 条回复
zachguo
2018-01-04 15:14:18 +08:00
培训班实战教程第一课吧
qsnow6
2018-01-04 15:16:11 +08:00
import requests

response = requests.get("http://www.baidu.com")
print(response.text)
whwq2012
2018-01-04 15:16:21 +08:00
python 的 requests 模块和 java 的比简直是爽得不行
crysislinux
2018-01-04 15:21:01 +08:00
写的快就要弱类型语法相对传统简单的语言,满足这一条的语言除了 Python 你还能想到啥。。现在 js 还分了一杯羹,以前真是独步天下。
yangzhezjgs
2018-01-04 15:25:29 +08:00
感觉知乎在推广 Python 上功不可没。。最早知道 Python 和爬虫就是在知乎上。。
laycher
2018-01-04 15:33:40 +08:00
我认为 python 简单几句就实现了爬虫,所以比较广泛吧。
chen2016
2018-01-04 15:39:11 +08:00
Python 写爬虫简单
LeungJZ
2018-01-04 15:39:41 +08:00
py 不知道,但是 js 写爬虫也很简单,啪啪啪的就写好了。
反观,java 呢?
linuxchild
2018-01-04 15:40:54 +08:00
你都说了,前前后后三个月
rogwan
2018-01-04 15:43:39 +08:00
弱类型也有坑的时候,刚就遇到一个整形 int 变量习惯性的就直接用了,结果那里拼接的其他变量都是 str,OS 的操作,还没能在逻辑中直接提示出错位置
tscat
2018-01-04 15:43:43 +08:00
因为 python 简单
mooncakejs
2018-01-04 15:46:33 +08:00
爬虫 py 只是成名早,要说比较,nodejs 用起来更顺手。
碰到 js 对象或者 js 代码,直接 eval。
flyico
2018-01-04 15:47:07 +08:00
python 的 http 库太多了 不写几个爬虫拿他们干嘛啊 (斜眼)
wwqgtxx
2018-01-04 17:13:28 +08:00
@mooncakejs 小心人家网站偷偷注入你的爬虫
moshao6
2018-01-04 17:13:40 +08:00
培训班实战教程第一课吧
mooncakejs
2018-01-04 17:18:21 +08:00
@wwqgtxx node vm 是干啥吃的?
Xrong
2018-01-04 17:20:51 +08:00
借楼问下有没有防爬虫的一些开源框架,可以自定义开发啥的,没找到好用的。。。
Mrkon
2018-01-04 17:47:02 +08:00
学下去的动力。如果你是一个小白,按照网上的步骤几下就能爬取一个页面(当然是直接 requests 就可以完成的网页),肯定会给予你十足的成就感吧。
J0shusean
2018-01-04 18:02:12 +08:00
天下语言为快不破
ycz0926
2018-01-04 18:03:21 +08:00
@crysislinux 大 xd,python 是强类型的,好不

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/420041

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX