V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
lieyan
V2EX  ›  程序员

关于分布式爬虫的问题

  •  
  •   lieyan · 2020-12-25 17:06:48 +08:00 · 1444 次点击
    这是一个创建于 1214 天前的主题,其中的信息可能已经有所发展或是发生改变。

    请教一下,目前有没有那种开源的或者付费的分布式爬虫系统?可以进行深度爬取整个网站的那种?

    优先考虑开源的,自己撸了一个,效率不大行。。。

    10 条回复    2020-12-26 08:31:02 +08:00
    czfy
        1
    czfy  
       2020-12-25 17:08:33 +08:00
    深度爬取整个网站,这是想干嘛
    付费的肯定有,八爪鱼之类的
    不过你这想要深度爬取,可行性不是问题,风险才是问题
    lieyan
        2
    lieyan  
    OP
       2020-12-25 17:09:43 +08:00
    @czfy 我这里风险不是问题,可行性差了点。。。我们做的都是合法的,爬取之前会得到用户的授权 。
    lieyan
        3
    lieyan  
    OP
       2020-12-25 17:10:59 +08:00
    @czfy 八爪鱼不符合我们的业务,我们不做页面数据分析。。只需要爬取出来就 ok
    manzhiyong
        4
    manzhiyong  
       2020-12-25 17:12:15 +08:00
    抓起来的都是获得过授权的
    RudyS
        5
    RudyS  
       2020-12-25 17:12:16 +08:00
    我们自己开发
    lieyan
        6
    lieyan  
    OP
       2020-12-25 17:14:01 +08:00
    @manzhiyong 这个。。。。不过我们业务特殊,没这个风险
    lieyan
        7
    lieyan  
    OP
       2020-12-25 17:14:29 +08:00
    @RudyS 有啥建议吗?包括突破反爬技术这个你们是怎么弄的?
    snappyone
        8
    snappyone  
       2020-12-25 21:41:22 +08:00
    @lieyan 你都合法了,还搞啥反爬?
    Lemeng
        9
    Lemeng  
       2020-12-25 23:56:47 +08:00
    爬整个站啊,好吧
    sjmcefc2
        10
    sjmcefc2  
       2020-12-26 08:31:02 +08:00
    teleport
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   5415 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 07:21 · PVG 15:21 · LAX 00:21 · JFK 03:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.