再次分享 pyspider 爬虫框架

2014-11-16 21:16:51 +08:00
 binux
虽然 252 天前已经分享过,但是第二个里程碑 commit 数已经快到第一个的 2 倍了。。
功能上丰富了非常多,甚至已经部分超过原来不开源的版本了。。
请允许我再次分享一次 pyspider

github 地址: https://github.com/binux/pyspider
demo 地址: http://demo.pyspider.org/ (感谢 @phoenixlzx

* python 脚本,可以用任何你喜欢的 html 解析包(内置 pyquery )
* WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出
* 支持 MySQL, MongoDB, SQLite
* 支持抓取 JavaScript 的页面
* 组件可替换,支持单机 /分布式部署,支持 Docker 部署
* 强大的调度控制

由于功能太多,更多请参考: https://github.com/binux/pyspider/wiki
pycon 上的 slide: http://www.slideshare.net/roybinux/pyspider-pycon2014beijing

39959 次点击
所在节点    分享创造
96 条回复
wusuopuBUPT
2014-11-17 13:32:43 +08:00
@phoenixlzx 好啊-_-
wusuopuBUPT
2014-11-17 13:33:43 +08:00
牛!
hustlzp
2014-11-17 13:39:01 +08:00
碉堡了!
withrock
2014-11-17 14:53:48 +08:00
我觉得更牛逼的是你博客里写的那个“如何从 WEB 页面中提取信息”
http://blog.binux.me/2014/07/how-to-extract-data-from-web/
micro-data
Yiph
2014-11-17 14:54:16 +08:00
MARK
binux
2014-11-17 15:14:06 +08:00
@withrock micro-data目前需要在html里面加标签,而且太理想了。。
staticor
2014-11-17 15:17:56 +08:00
mark/ 对比着scrapy学习学习。。。
geew
2014-11-17 15:40:17 +08:00
已收藏 好东西 不过这star数也是醉了


可能是我看的原因...
Mrabbit
2014-11-17 16:31:27 +08:00
谢谢分享,已star
zhchyu999
2014-11-17 16:35:09 +08:00
好东西
oaix
2014-11-17 17:09:19 +08:00
上HN首页了,恭喜恭喜
yanchao7511461
2014-11-17 19:37:52 +08:00
好东西啊 好东西
shoumu
2014-11-17 21:22:36 +08:00
@binux how
binux
2014-11-17 21:43:17 +08:00
@shoumu 能说的就是blog写的那些了。。
qloog
2014-11-17 22:30:51 +08:00
看起来很牛掰的东西~
binux
2014-11-18 16:33:08 +08:00
HN 上有人提出要测性能。。于是。。
多线程下 5700 pages/min,作为对比 scrapy bench 4800 pages/min
多进程都不想欺负它了。。

PS:我用了无限制消息队列,流量直接往下一个模块上压。。由于不清楚 scrapy 的实现其实结果不好说。。
https://gist.github.com/binux/67b276c51e988f8e2c31
crossmaya
2014-11-20 14:18:24 +08:00
windows上跑不起来,我只是过来说一声。。
binux
2014-11-20 14:32:15 +08:00
@crossmaya 我没有windows,前面有人报过issue,然后可以了啊
crossmaya
2014-11-20 14:40:36 +08:00
@binux 我从拉一下代码吧,昨天试过,启动后python进程就出错退出了,出错信息具体没看,我在试试。
crossmaya
2014-11-20 14:43:13 +08:00
看了一下,可能pycurl模块的问题!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/147008

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX