使用 scrapy 框架爬一些数据,大概上千万,但是是不是的会出现问题,导致中断,不知道有没有什么办法能够实现断点续爬。爬的类型就是典型的新闻列表,然后进入详情页抓取新闻内容。
感谢
1
NoOneNoBody 2024-09-18 13:47:24 +08:00
你没有记录已经爬过的 link 么?重启任务得到 link 的时候去掉爬过的就是了
|
![]() |
2
Phant0m 2024-09-18 14:04:58 +08:00
Jobs: pausing and resuming crawls
https://docs.scrapy.org/en/latest/topics/jobs.html |