首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Coding
V2EX  ›  问与答

怎么判断爬虫已经将网站的数据完整的爬取下来了

  •  
  •   diffworld · 2018-06-20 11:41:28 +08:00 · 1809 次点击
    这是一个创建于 540 天前的主题,其中的信息可能已经有所发展或是发生改变。
    scrapy 新手,想到一个问题,比如京东有很多商品,不能确定它们的总数,所以即使爬回来很多数据,怎么判断是否已经把所有的商品都爬取到了

    如果不能判断,应该采取什么方法尽可能多的爬数据

    crawlspider 可以做整站爬取,但是是不是真的能够取尽所有的 url ?

    跪求大神解答
    5 回复  |  直到 2018-06-21 13:48:42 +08:00
        1
    nine99   2018-06-20 12:09:23 +08:00
    没有通用的方法,得看你爬的思路
        2
    tozp   2018-06-20 15:27:06 +08:00
    只要思路是正确的,爬虫 finish 的时候就爬完了。
        3
    rootx   2018-06-20 15:39:02 +08:00 via iPhone
    自己想
        4
    shangfabao   2018-06-20 17:49:56 +08:00
    自己判断
        5
    icy37785   2018-06-21 13:48:42 +08:00 via iPhone
    木有通用方法
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   978 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 22ms · UTC 21:09 · PVG 05:09 · LAX 13:09 · JFK 16:09
    ♥ Do have faith in what you're doing.