开源、分布式爬虫系统 - Tarantula. 求 star

支持私有部署
支持 JS 渲染
工作节点水平扩容
内置动态 IP
在线导出数据

Tarantula 的设计初衷是面向工程师的，支持大规模的任务爬取。此前日完成任务数平均在百万级（ JS 渲染）。友好性在不断完善中，但是不会发展成为点选式的爬取。因为在真实场景中这种方式局限性比较大。

https://tarantula.tech

thursday

2017-12-30 17:20:16 +08:00

项目太大，是不是写个项目架构介绍的其他人好了解自己感兴趣的那块

514146235

2017-12-30 18:21:37 +08:00

@thursday 文档方面后续会慢慢完善的。谢谢

fiht

2017-12-31 10:19:52 +08:00

弱弱的问一句，楼主你这种解析 JS 的爬虫遇到那种挖矿的网站是怎么解决的。（就是后台 JS 不停不停不停地占用 CPU 的情况）

514146235

2017-12-31 11:04:55 +08:00

@fiht
js 挖矿通常是在一些用户停留时间比较长的页面才会部署。而且一般都是后台工作，不会影响用户的浏览行为。

所以爬取任务在打开页面的完成的时候，抽取到了数据就会立即关闭这个页面。js 挖矿运行的时间不会很长，所以影响不大。如果真的是 js 执行时间较大，导致流程卡住了，那么最终调度程序也会限制每一个任务的超时时间，超过之后会直接 kill 掉。

sunwei0325

2018-01-04 04:00:19 +08:00

为什么会依赖 python2 呢？

514146235

2018-01-04 09:48:03 +08:00

@sunwei0325 安装和编译环境需要依赖。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/418859

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.