scrapy 中内存溢出应该怎么调试啊

2014-05-07 17:30:02 +08:00

touch

跑了一段时间之后发现8G的内存用的只剩下几十MB了，爬虫吃掉的太快。
看了官方的文档里面有个“使用 trackref 调试内存泄露”，没看到怎么调用。
不知道有熟悉scrapy的吗？

在此感谢@marchtea 及其其他翻译scrapy文档的诸位。

6059 次点击

所在节点

7 条回复

codingpp

2014-05-07 17:34:46 +08:00

是减去buffer以后的内存占用吗

touch

2014-05-07 17:54:23 +08:00

@codingpp 这个没被告之，估计是加上buffer的。

marchtea

2014-05-07 19:25:05 +08:00

不客气~
文档上说明了，是调用telnet连接，在终端里头使用prefs()来看的。再看看文档试试呢？

codingpp

2014-05-07 21:53:19 +08:00

@touch top命令看到的是加上buffer的内存占用
用free -m 看第二行那个是减去buffer的内存占用，这个才是主要看的
我感觉scrapy内存应该不会用的那么多吧

reverland

2014-05-07 23:09:55 +08:00

你是读什么大文件了么……

touch

2014-05-08 09:40:36 +08:00

@codingpp 主要每一次爬虫调用都会request，不知道scrapyd中能不能再每一次调度之后释放上一次spider的内存占用

touch

2014-05-08 09:41:35 +08:00

@reverland 在一直深度爬行网站

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.