开源、分布式爬虫系统 - Tarantula. 求 star

2017-12-30 15:19:43 +08:00
 514146235

Tarantula 的设计初衷是面向工程师的,支持大规模的任务爬取。此前日完成任务数平均在百万级( JS 渲染)。 友好性在不断完善中,但是不会发展成为点选式的爬取。因为在真实场景中这种方式局限性比较大。

https://tarantula.tech

2934 次点击
所在节点    分享创造
6 条回复
thursday
2017-12-30 17:20:16 +08:00
项目太大,是不是写个项目架构介绍的其他人好了解自己感兴趣的那块
514146235
2017-12-30 18:21:37 +08:00
@thursday 文档方面后续会慢慢完善的。谢谢
fiht
2017-12-31 10:19:52 +08:00
弱弱的问一句,楼主你这种解析 JS 的爬虫遇到那种挖矿的网站是怎么解决的。(就是后台 JS 不停不停不停地占用 CPU 的情况)
514146235
2017-12-31 11:04:55 +08:00
@fiht
js 挖矿通常是在一些用户停留时间比较长的页面才会部署。而且一般都是后台工作,不会影响用户的浏览行为。

所以爬取任务在打开页面的完成的时候,抽取到了数据就会立即关闭这个页面。js 挖矿运行的时间不会很长,所以影响不大。如果真的是 js 执行时间较大,导致流程卡住了,那么最终调度程序也会限制每一个任务的超时时间,超过之后会直接 kill 掉。
sunwei0325
2018-01-04 04:00:19 +08:00
为什么会依赖 python2 呢?
514146235
2018-01-04 09:48:03 +08:00
@sunwei0325 安装和编译环境需要依赖。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/418859

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX