Scrapy 断点续爬

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 373 天前的主题，其中的信息可能已经有所发展或是发生改变。

使用 scrapy 框架爬一些数据，大概上千万，但是是不是的会出现问题，导致中断，不知道有没有什么办法能够实现断点续爬。爬的类型就是典型的新闻列表，然后进入详情页抓取新闻内容。

感谢

2 条回复 • 2024-09-18 14:04:58 +08:00

NoOneNoBody

2024-09-18 13:47:24 +08:00

你没有记录已经爬过的 link 么？重启任务得到 link 的时候去掉爬过的就是了

Phant0m

2024-09-18 14:04:58 +08:00