V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
bigdude
V2EX  ›  问与答

请教各位,通用spider的程序的几个问题?

  •  
  •   bigdude · 2013-05-17 15:52:25 +08:00 · 2438 次点击
    这是一个创建于 4022 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近想做一个通用的spider框架,可以针对不同的网站抓取信息,并进行处理。抓取方面用gevent+requests或者直接用scrapy,有几个问题想问:

    1. 如何实现断点保存?抓取过程难免出错,有时出错必须重来,如何让程序从出错的地方继续抓下去?当然已抓的URL肯定已经保存了。

    2. 要不要保存原始网页?以前都是抓取了直接处理,把有用的数据存储下来就行了。但是有时抓到一半发现有个重要的数据忘了爬下来,就又要改程序重抓一遍。看了42qu的教程用的是nginx 的cache保存网页的,但是抓多了非常占用空间,如何取舍?

    3.如何实现爬虫的控制台?做一个后台页面控制爬虫的运行,停止,还有比如控制gevent pool的并发数,爬虫进程状态的汇报?用socket和爬虫进程通信?

    4.爬虫的更新策略。爬虫抓过一次以后,该多长时间再来。有些有rss的网站相对简单,没有rss的网站怎么确定爬虫的更新频率?

    写过不少相对简单的爬虫程序,但是以上这几个是我一直想解决或者完善的。各位有成功解决的经验吗?
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2896 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:41 · PVG 19:41 · LAX 04:41 · JFK 07:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.