Node.js 实现的一个 Scrapy like 爬虫框架

2015-11-28 14:37:07 +08:00
 SteveZhang1995

闲来无事想用 Node.js 写点东西练手,同时又想些爬虫,于是乎就有了这样一个爬虫项目。之前有过 Scrapy 的开发经验,于是乎就模仿 Scrpay 的 api 用 Node.js 实现了一套。
附上 github 地址: https://github.com/SteveZhangBit/leiobunum

名字取做 leiobunum 意思是长脚蜘蛛,感觉很形象啊~

本身 Node.js 就是异步 IO ,非常适合爬虫这种高 IO 的程序,并且本身 Scrapy 也是建立在 Twisted 上的,所以用 Node.js 实现起来简直爽歪歪。

自己还加上了一个 Redis 的支持,可以实现简单的分布式,实际测试原来要用数小时的爬去过程,缩短到了 10 来分钟,哈哈哈

欢迎大家 fork 和 star

8647 次点击
所在节点    Node.js
8 条回复
coolicer
2015-11-28 15:04:26 +08:00
什么文档都木有?
SteveZhang1995
2015-11-28 15:26:42 +08:00
@coolicer 呃,文档逐步完善。。。
jziwenchen
2015-11-28 15:48:07 +08:00
nodejs + jquery 来实现爬虫和数据分析 感觉就像写 前端一样 呵呵.
carlhan
2015-11-28 15:59:26 +08:00
README 都没有?
SteveZhang1995
2015-11-28 21:55:59 +08:00
这几天我会尽快完善一下基本文档,给出一个最简单的例子
fishlee
2015-11-29 08:37:56 +08:00
不知道能不能搞 search 这种情况: 最终数据要 3 个级联页才能拿到。 get(获取参数), post(中间页面,获取最终页地址及参数), post(结果)
SteveZhang1995
2015-11-29 15:17:25 +08:00
@fishlee 目前爬虫只是最简单的形式,就是请求某个页面。对于这种情况,我觉得可能得用 phantomjs 才行
kan831019
2016-12-13 16:14:04 +08:00
@SteveZhang1995 casperjs

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/239624

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX