请教 Linux 下 Scrapy 内存占用非常大的问题

2019-01-24 01:19:52 +08:00

warcraft1236

我是爬取一个视频网站，爬取到地址放到 file piplines 中去下载

在 Mac 上占用内存很小，只有 100M 多

放到了阿里云上，内存占用非常大，有 700M 多

请教这是怎么回事

1903 次点击

所在节点

4 条回复

wind3110991

2019-01-24 01:42:13 +08:00

贴代码，还有两个环境部署的文件配置，阿里云什么系统什么配置

warcraft1236

2019-01-24 02:10:07 +08:00

@wind3110991 配置用的默认的，阿里云就是最低配的那个 1 核 1G 内存 Ubuntu 18 的系统

warcraft1236

2019-01-24 02:11:25 +08:00

@wind3110991 我自己分析发现，减少并发数量可以降低内存，推测是由于服务器网速快，所以默认的 16 个线程都能满速下载，然后下载的时候，scrapy 用的 requests 应该设置的 chunked 比较大

warcraft1236

2019-01-24 02:35:00 +08:00

@wind3110991

我这个推测应该不准，我修改了配置文件，改成了 ip 域名，都是 3 个线程，依然内存会爆

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.