如何才能提高爬取效率

2017-05-29 20:57:17 +08:00
 xiaoyu9527

最近玩 scrapy 终于掌握了 采集规则 下载图片 发布到 WORDPRESS

但是现在感觉抓取效率十分低下。

抓取的 CPU 总是只能跑 5%。

带宽也跑不起来。 有没有办法查到到底是哪里导致的 delay 我看别人抓取 CPU 都是 80%左右。

999 次点击
所在节点    问与答
2 条回复
meepo3927
2017-05-31 09:49:27 +08:00
不懂后端,
猜测应该是瓶颈在 I/O ? 线程开的不够多?
xiaoyu9527
2017-05-31 11:04:29 +08:00
@meepo3927 目前实际测试感觉是两个部分 一个是 request 部门 一个 download 部门。

但是我不知道为啥会这么慢。。

我用 wget 下载明明感觉没啥问题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/364645

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX