开源一个 python 脚本驱动的定向爬虫

2014-03-09 16:53:56 +08:00
 binux
python爬虫绝大多数都是定向抓取,并进行一定程度的结构化解析

这套爬虫设计采用python脚本驱动抓取动作,适用于各类页面(要实现通用爬虫也没问题)
经过实践证明好用的更新调度机制,以及灵活稳定的抓取环模型
辅以 WEB 化的脚本编写、调试、监控,看图你就懂了:



这套爬虫是我一年多前设计开发的,抓取200个站点,在至少2个商业环境中运行,现在在Apache协议下重写开源。希望能终结各种自己写python爬虫的必要。

github项目: https://github.com/binux/pyspider
快速开始: https://github.com/binux/pyspider/wiki/Quickstart
其他更详细的文档: https://github.com/binux/pyspider/wiki
16074 次点击
所在节点    分享创造
55 条回复
cooiky
2014-03-10 13:07:47 +08:00
这个长时间抓,会被目标站ban掉么
binux
2014-03-10 13:08:25 +08:00
@cooiky 有流量控制 和 代理支持
sjrong
2014-03-10 13:51:28 +08:00
我已经通过贡献1GB空间来支持啦 呵呵~
yupeng
2014-03-10 14:19:37 +08:00
赞,支持一下
primer
2014-03-10 14:42:22 +08:00
楼主你好,你这款爬虫适用于非结构式的网页信息爬取吗?

还有如果我想爬取Google play商店上APP下的所有用户评论,能做到吗? 谢谢楼主!
binux
2014-03-10 15:39:15 +08:00
@primer 可以,如果要所有的,需要分析出翻页的url
simapple
2014-03-10 16:47:50 +08:00
顶起
manhere
2014-03-10 16:52:35 +08:00
@binux 你那个推广链接识别错误,汉字连一块了
binux
2014-03-10 17:22:19 +08:00
@manhere 不能改没辙啊。。
vaneoooo
2014-03-10 18:27:09 +08:00
@primer 抓这个作用在于?
sobigfish
2014-03-10 18:33:39 +08:00
很牛的样子,请问如果采集到了一个索引页,怎么把索引页里的url自动加到task里?并调用不同的Handler
binux
2014-03-10 19:09:27 +08:00
@sobigfish self.crawl 用于创建 task,这里设计上不是通过不同的 Handler,而是不同的 callback函数来区分的。一个 Handler 固定处理同一个站点(project)的各类页面。
如果确有必要跨 Handler,第二里程碑会实现 send_message 特性可以实现。
darklowly
2014-03-11 14:51:01 +08:00
一天写5个爬虫,有什么好开源节流的价值?
darklowly
2014-03-11 14:52:45 +08:00
定向爬一天可以写几十个
binux
2014-03-11 15:30:39 +08:00
@darklowly 然后你怎么管理这几十个?怎么知道哪些挂了?
zhkzyth
2014-03-11 23:14:29 +08:00
拜读过lz的代码,赞~
vigoss
2014-03-12 14:18:35 +08:00
@darklowly 能省一天是一天啊。
chens
2014-03-17 17:57:39 +08:00
@binux 请教下啥叫作抓取环模型?
binux
2014-03-17 18:40:14 +08:00
@chens 你知道流式吗?把它的头和尾连起来就是环了。

blog上有张图
chens
2014-03-17 21:11:00 +08:00
@binux http://blog.binux.me/assets/image/pyspider-arch.png
看明白了,多谢啦。
多问一句,用QQ或者gtalk之类的IM吗?有抓取相关问题请教。:-)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/103525

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX