如何优化爬虫能最快的抓取到商品信息?

2014-01-06 16:04:06 +08:00
 pythonfan
在写一个小程序,目的是采集最新的商品列表,通过scrapy定时采集,但是遇到一个问题,从商品发布到最后被抓取到会有一段时间的间隔,希望能尽量缩短这个时间差,还有哪些办法能做一些优化呢? 商品从发布到前台缓存更新有一定的时间,缓存用的MemCache,目前时间设定为一分钟扫描一次。
补充: 比如某个商品14:35发布更新了,我的爬虫14:38才会抓取到(这期间是每分钟整点都在抓取的)但是在我抓到之前,已经有人把商品抢拍了。。。也就是他的爬虫可能在14:36就已经抓到了。很纳闷,该如何优化才能像他那样及时的得到更新呢?
4337 次点击
所在节点    Python
11 条回复
9hills
2014-01-06 16:13:46 +08:00
既然你每分钟整点在抓,为什么商品14:35发布了,你14:38才会抓到呢?
vbs
2014-01-06 16:22:53 +08:00
秒杀?
pythonfan
2014-01-06 16:32:51 +08:00
@9hills 现在就是怀疑缓存的原因,导致前端搜索列表更新有延迟,否则没道理啊,每分钟我都去这个列表抓取一遍的,但是商品详情页面显示的发布时间跟我抓到的时间差了2,3分钟。。。
pythonfan
2014-01-06 16:34:24 +08:00
@vbs 嗯,类似的吧。
xmover
2014-01-06 17:24:38 +08:00
抓回来lz怎么解析入库?
cooiky
2014-01-06 17:39:53 +08:00
@pythonfan 也可能是两边时间没统一
pythonfan
2014-01-06 18:01:21 +08:00
@xmover 直接用scrapy的api就可以了啊
pythonfan
2014-01-06 18:01:51 +08:00
@cooiky 这个倒是没考虑到,我测试看看。。。
pythonfan
2014-01-06 23:08:33 +08:00
@cooiky 测试过了,不是时间问题。。。
tempdban
2014-01-07 00:30:05 +08:00
scrapy用的是django的orm
dgango 的orm会缓存数据
各种数据库驱动也会缓存数据
keven
2014-03-26 00:23:19 +08:00
采集频率要更快

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/95864

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX