服务器上面运行爬虫,抓取速度越来越慢,这可能是什么原因呢?

2014-04-11 08:17:30 +08:00
 ooh
刚开始和本地数度一样,可是一觉醒来发现只有8w,正常情况下应该有20w以上数据。
我在本地做过测试,可是放服务器上面过一整子速度就会很慢,不知道是什么原因。
3618 次点击
所在节点    问与答
5 条回复
YouXia
2014-04-11 09:35:12 +08:00
1.是否使用了多进程,看看有没有产生僵尸进程。
2.网络带宽。
mahone3297
2014-04-11 09:54:56 +08:00
你是直接抓取?还是会做判断(抓取下来,查询本地有没有,有就update,没有就create)?随着数据越来越多,select会越来越慢。
ooh
2014-04-11 12:09:00 +08:00
@YouXia
@mahone3297
1.是用了多线程,每个线程存活周期不超过3秒。
2.带宽这个问题好像不是的,我晚上再回去确认下。
3.我是直接抓起插入,我数据源已经做成唯一的了。
4.同样数据源本地机器和服务器配置差不多,但是,服务器好像上了几w后速度就变得非常慢,前几w都很快。
mahone3297
2014-04-11 13:00:10 +08:00
@ooh 加点log,benchmark,看看到底耗时在哪里吧。。。
mmoaay
2014-04-11 15:47:21 +08:00
是不是抓取的源拒绝你的访问了,还有就是你用的开源的爬虫么?会不会内部存在阻塞的情况

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/108078

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX