请教各位，通用spider的程序的几个问题？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 4022 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近想做一个通用的spider框架，可以针对不同的网站抓取信息，并进行处理。抓取方面用gevent+requests或者直接用scrapy，有几个问题想问：

1. 如何实现断点保存？抓取过程难免出错，有时出错必须重来，如何让程序从出错的地方继续抓下去？当然已抓的URL肯定已经保存了。

2. 要不要保存原始网页？以前都是抓取了直接处理，把有用的数据存储下来就行了。但是有时抓到一半发现有个重要的数据忘了爬下来，就又要改程序重抓一遍。看了42qu的教程用的是nginx 的cache保存网页的，但是抓多了非常占用空间，如何取舍？

3.如何实现爬虫的控制台？做一个后台页面控制爬虫的运行，停止，还有比如控制gevent pool的并发数，爬虫进程状态的汇报？用socket和爬虫进程通信？

4.爬虫的更新策略。爬虫抓过一次以后，该多长时间再来。有些有rss的网站相对简单，没有rss的网站怎么确定爬虫的更新频率？

写过不少相对简单的爬虫程序，但是以上这几个是我一直想解决或者完善的。各位有成功解决的经验吗？

目前尚无回复

爬虫抓取出错