请教 Linux 下 Scrapy 内存占用非常大的问题

2019-01-24 01:19:52 +08:00
 warcraft1236
我是爬取一个视频网站,爬取到地址放到 file piplines 中去下载

在 Mac 上占用内存很小,只有 100M 多

放到了阿里云上,内存占用非常大,有 700M 多

请教这是怎么回事
1666 次点击
所在节点    Python
4 条回复
wind3110991
2019-01-24 01:42:13 +08:00
贴代码,还有两个环境部署的文件配置,阿里云什么系统什么配置
warcraft1236
2019-01-24 02:10:07 +08:00
@wind3110991 配置用的默认的,阿里云就是最低配的那个 1 核 1G 内存 Ubuntu 18 的系统
warcraft1236
2019-01-24 02:11:25 +08:00
@wind3110991 我自己分析发现,减少并发数量可以降低内存,推测是由于服务器网速快,所以默认的 16 个线程都能满速下载,然后下载的时候,scrapy 用的 requests 应该设置的 chunked 比较大
warcraft1236
2019-01-24 02:35:00 +08:00
@wind3110991

我这个推测应该不准,我修改了配置文件,改成了 ip 域名,都是 3 个线程,依然内存会爆

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/530029

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX