首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

这种专门索引百度网盘的搜索,它的爬虫不会被 ban 掉么?

  •  
  •   easychen · 2015-10-11 11:49:38 +08:00 · 9791 次点击
    这是一个创建于 1518 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近一直在用 http://kaopu.so/ 看样子索引了很大量的内容,话说百度本身不对访问 IP 做频次控制么?

    第 1 条附言  ·  2015-10-11 14:10:35 +08:00
    发现百度 site:pan.baidu.com 70 多页以后就没数据了 T_T
    30 回复  |  直到 2016-08-22 23:12:07 +08:00
        1
    lizheming   2015-10-11 11:53:37 +08:00
    看过之前一个爬虫的帖子,说是 5 分钟一次,做好频率控制多 IP 轮流就好了吧…
        2
    d7101120120   2015-10-11 11:54:00 +08:00
    嘘小声点~~~~
        3
    pathletboy   2015-10-11 11:54:16 +08:00
    频次控制不大好做的,现在网络很多都内网了,出口都是一个 IP 。
        4
    gzlock   2015-10-11 11:54:51 +08:00 via Android
    也没法证明是用同一 IP 爬的啊
        5
    easychen   2015-10-11 11:58:19 +08:00
    @lizheming 最近看这类网盘的索引量都到千万级了。感觉计算轮着来,也要抓好久来着……
        6
    easychen   2015-10-11 11:59:06 +08:00
    @gzlock 除非用客户端爬,否则都会有 IP 的问题吧。( 就算是多个 IP ,也是蛮有限的。
        7
    kslr   2015-10-11 12:02:04 +08:00
    比如 Coding 支持运行程序的,可以做个 Proxy ,类似的还很多,也很稳定。
        8
    lizheming   2015-10-11 12:08:43 +08:00
    @easychen https://www.v2ex.com/t/226413 刚才回顾了下这个帖子,他上面说的是 30w/天,如果是有 3 -5 个 IP 的话也就半个月就能爬到千万数量级了吧....
        9
    easychen   2015-10-11 12:15:43 +08:00
    @lizheming thanks :) 百度自己给出来的总量也就在 6000 万。
        10
    wbingeek   2015-10-11 12:19:57 +08:00
    最近用的是这个 http://www.bdybbs.com/
        11
    cevincheung   2015-10-11 13:28:58 +08:00 via Android
    代理 ip 资源十几块一大把还是高质量高出口带宽的
        12
    easychen   2015-10-11 13:59:27 +08:00
    @cevincheung 求个链接看看~
        13
    cdwyd   2015-10-11 14:04:28 +08:00 via Android
    @cevincheung
    求地址
        14
    zdyx123   2015-10-11 14:07:39 +08:00
    @cevincheung 同求一个地址
        15
    gzlock   2015-10-11 14:24:28 +08:00   ♥ 1
    @easychen
    @cdwyd
    @zdyx123
    淘*搜 拨号
        16
    Coxxs   2015-10-11 14:25:26 +08:00
    曾经抓过一年左右,索引过一亿+文件,每秒都在抓,用 1 、 2 个 IP 没被封。 https://so.cqp.cc/
        17
    easychen   2015-10-11 14:29:49 +08:00
    @Coxxs 偷偷问一句从哪个入口开始抓比较方便哇…… 搜索结果页好像限制显示页数……
        18
    Coxxs   2015-10-11 14:33:26 +08:00
    @easychen 以前每个文件有“相关文件”,可以通过相关文件抓,但是现在没有了。后来用的方法就是获取用户 ID ( uk ),然后遍历用户分享的文件。
        19
    easychen   2015-10-11 14:34:39 +08:00
    @Coxxs thanks :)
        20
    techyan   2015-10-11 14:36:03 +08:00
    @Coxxs 网站已收藏。。
        21
    cevincheung   2015-10-11 14:43:57 +08:00   ♥ 1
        22
    fighter2011   2015-10-11 14:47:08 +08:00
    这种不会被 ban 吧,有很多都是磁力搜索的啊。
        23
    easychen   2015-10-11 14:47:59 +08:00
    @cevincheung thanks :)
        24
    gamecreating   2015-10-11 19:25:47 +08:00   ♥ 2
    来吧.... 把百度云搞瘫..
    http://yun.baidu.com/share/homerecord?uk=1848672288&page=1&pagelength=60
    看连接 你懂的
        25
    Pepsigold   2015-10-12 08:29:38 +08:00 via Android
    @gamecreating 怎么进去都是代码了?
        26
    starAsh   2015-10-12 09:33:26 +08:00
    直接 google 搜 xxx site:pan.baidu.com 即可,然后对搜索出来的结果处理就行了
        27
    Roope   2015-10-12 14:25:06 +08:00
    @gamecreating 这个好啊。
        28
    xgdy   2015-10-12 16:19:24 +08:00
    @wbingeek 这个是什么程序?
        29
    dotmark   2016-07-19 09:50:32 +08:00
    这个也不错 12so.cc
        30
    3023369823   2016-08-22 23:12:07 +08:00
    失效链接怎么判断,这才是关键,求解释?@dotmark @Coxxs @Pepsigold @cdwyd @d7101120120 @dotmark @easychen @gamecreating @fighter2011
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2336 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 27ms · UTC 13:47 · PVG 21:47 · LAX 05:47 · JFK 08:47
    ♥ Do have faith in what you're doing.