V2EX 首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Sponsored by
二向箔安全
​一对一的线上 web 安全培训服务
咨询微信:twosecurityrefer
Promoted by 二向箔安全
V2EX  ›  程序员

求关注~一个 low 的爬虫框架,你可以吐槽!

  •  1
     
  •   intohole · 9 天前 · 512 次点击

    想实现自带策略的抓取框架,现在努力中,你有兴趣加入这个工程吗? 求轻虐,我小白!

    https://github.com/intohole/xspider

    我想各种解耦爬虫框架,奈何我小白!求各位大神照顾,多关注下,给我点动力 ,谢谢

    主要是,为了各种节省资源(文件队列/ bloomfilter 过滤/文件存储),抓取网站使用!

    8 回复  |  直到 2017-12-09 23:29:42 +08:00
        1
    lhx2008   9 天前 via Android
    感觉是不是有点为了解耦而解耦的感觉,扩展性也不太好
        2
    intohole   9 天前
    @lhx2008 可以看下这个~写了一段时间,感觉有些问题,自己在用,想不断优化;
        3
    cheesea   9 天前
    我比较想知道你怎么做限流的?
        4
    intohole   9 天前
    @cheesea 我也在思考这个问题
        5
    intohole   8 天前
    @cheesea 请问你这面有什么好项目或者策略推荐吗
        6
    cheesea   8 天前
    @intohole
    木有~
    我只知道 pyspider 用令牌桶算法来控制请求速率.
        7
    cheesea   8 天前
    @intohole
    或许你可以写一个根据响应来智能调整请求速率的策略~
        8
    intohole   7 天前
    @cheesea 谢谢 我原来跟 pyspider 是一家公司的,我在策略组 , 我会想想怎么集成策略
    DigitalOcean
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   840 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.0 · 49ms · UTC 00:35 · PVG 08:35 · LAX 16:35 · JFK 19:35
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1