scrapydweb 和 spiderkeeper 有什么区别?

2019-08-22 15:29:22 +08:00
 aaronhua

要做一个 scrapy 的集群管理平台,看了 Github 的项目。

scrapydweb 比较活跃,新一点。

spiderkeeper 已经一两年没有更新了,star 比较多。

scrapydweb 和 spiderkeeper 有什么区别?

有用过的 v 友说一下。

3200 次点击
所在节点    Python
12 条回复
zqjilove
2019-08-22 16:33:00 +08:00
scrapydweb 功能完善,目前首选,spiderkeeper 没用过,大致对比过
lshu
2019-08-22 16:36:22 +08:00
说白了 一个新小区,一个老小区。都是基于 scrapyd 的封装。
locoz
2019-08-22 16:43:49 +08:00
我赌五毛,不超过半天时间 tikazyq 老哥就会来给你推荐 crawlab
aaronhua
2019-08-22 16:54:57 +08:00
@lshu 买新不买旧么?
@zqjilove 活跃点的项目靠谱点
@locoz 杀你,赌 10 个铜币
tikazyq
2019-08-22 17:05:06 +08:00
@locoz 不会来硬推了,大家都看烦了。。。来推一下几个平台的对比吧。

https://juejin.im/post/5d5298f05188255f7c1c4979

"总的来说,SpiderKeeper 可能是最早的爬虫管理平台,但功能相对来说比较局限; Gerapy 虽然功能齐全,界面精美,但有不少 bug 需要处理,建议有需求的用户等待 2.0 版本; Scrapydweb 是一个比较完善的爬虫管理平台,不过和前两者一样,都是基于 scrapyd 的,因此只能运行 scrapy 爬虫;而 Crawlab 是一个非常灵活的爬虫管理平台,可以运行 Python、Nodejs、Java、PHP、Go 写的爬虫,而且功能比较齐全,只是部署起来相对于前三者来说要麻烦一些..."
locoz
2019-08-22 17:14:48 +08:00
@aaronhua #4 你看,他来了吧。其实 Crawlab 挺好用的,可以试试。
aaronhua
2019-08-22 17:17:19 +08:00
@locoz 我服,哈哈。铜币给你
lshu
2019-08-22 17:24:19 +08:00
@aaronhua scrapydweb 感觉还行的,就是页面有点复杂。不过国人开发居然不给个页面语言切换。
my8100
2019-08-22 23:50:03 +08:00
1. 可靠性:持续集成,目前代码覆盖率 > 89%。
2. 实用性:集成 LogParser,爬虫进度可视化,基于 Scrapy 日志分析的监控和警报。
3. 可扩展性:在爬虫集群的任意多个节点实现一键操作,包括部署,运行,停止和删除项目,汇总分布式爬虫的日志分析报告等。
4. 权威性:Scrapyd 开发者成员之一,及时适配新版本新特性。

在线体验就完事了: https://scrapydweb.herokuapp.com/
aaronhua
2019-08-23 09:22:25 +08:00
@my8100 又一个开源开发者出现啦,现在开源都这么拼的?
my8100
2019-08-23 09:58:35 +08:00
“请尽量让自己的回复能够对别人有帮助”
15399905591
2019-08-29 09:07:48 +08:00
之前使用 spiderkeeper + scrapyd 进行部署,bug 真的是一大堆,都不知道从那里入手(很多 bug 并不是 spiderkeeper 的问题,而是使用 scrapyd 的原因),后来使用干脆使用 docker 打包解决了,不过调度得自己写。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/594209

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX