最近正在学爬虫,主要用来抓取门户网站的评论,选用 Python 语言。有没有大神给点好的资料,或者一个好的指导方向。

2014-10-04 18:57:29 +08:00
 initialD
5023 次点击
所在节点    Python
16 条回复
mrytsr
2014-10-04 19:09:44 +08:00
Scrapy
mhycy
2014-10-04 19:17:18 +08:00
手写....
Requests + re + threading + logging
各种爽~

PS.其实是觉得框架太不灵活了
paulw54jrn
2014-10-04 20:22:04 +08:00
不是很复杂就是楼上说的
requests + re + threading/greenlets

或者是楼上上说的
Scrapy..
ShiehShieh
2014-10-04 20:37:56 +08:00
有没有什么好点的材料能学习嘛? 0.0
binux
2014-10-04 20:42:33 +08:00
no13bus
2014-10-04 21:32:13 +08:00
@binux 感觉torado经常用来监控,celery的监控flower就是用他来做的。
XadillaX
2014-10-04 21:40:50 +08:00
-。 - 为什么没多少人学 node 做爬虫呢?
chemzqm
2014-10-04 22:44:35 +08:00
node异步回调太恶心,占用内存太高,低配机器跑不了几个进程
GeekGao
2014-10-04 23:13:37 +08:00
曾经用twisted自己写过一个,后来才知道有scrapy这个爬虫框架,推荐scrapy
Codist
2014-10-04 23:35:52 +08:00
scrapy简单又方便,selector用起来也很舒服,不用写正则了
kenis
2014-10-05 02:54:57 +08:00
推荐用Scrapy,比较成熟的爬虫框架,资源也不少。
zqhong
2014-10-05 06:12:50 +08:00
briefcopy
2014-10-05 09:38:11 +08:00
imn1
2014-10-05 10:40:13 +08:00
我抓取的量很大,所以分离过程用wget抓取,py做parse,95%用正则,少量用 lxml+xpath
无论用什么,通读http协议+抓包工具是跑不掉的
ericls
2014-10-05 14:07:54 +08:00
requests pyquery
helloworld00
2014-10-05 18:24:36 +08:00
快速构建实时抓取集群

http://blog.nosqlfan.com/html/2604.html

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/137044

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX