首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
华为云
V2EX  ›  程序员

求关注~一个 low 的爬虫框架,你可以吐槽!

  •  1
     
  •   intohole · 313 天前 · 1093 次点击
    这是一个创建于 313 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想实现自带策略的抓取框架,现在努力中,你有兴趣加入这个工程吗? 求轻虐,我小白!

    https://github.com/intohole/xspider

    我想各种解耦爬虫框架,奈何我小白!求各位大神照顾,多关注下,给我点动力 ,谢谢

    主要是,为了各种节省资源(文件队列/ bloomfilter 过滤/文件存储),抓取网站使用!

    8 回复  |  直到 2017-12-09 23:29:42 +08:00
        1
    lhx2008   313 天前 via Android
    感觉是不是有点为了解耦而解耦的感觉,扩展性也不太好
        2
    intohole   313 天前
    @lhx2008 可以看下这个~写了一段时间,感觉有些问题,自己在用,想不断优化;
        3
    cheesea   313 天前
    我比较想知道你怎么做限流的?
        4
    intohole   313 天前
    @cheesea 我也在思考这个问题
        5
    intohole   313 天前
    @cheesea 请问你这面有什么好项目或者策略推荐吗
        6
    cheesea   312 天前
    @intohole
    木有~
    我只知道 pyspider 用令牌桶算法来控制请求速率.
        7
    cheesea   312 天前
    @intohole
    或许你可以写一个根据响应来智能调整请求速率的策略~
        8
    intohole   311 天前
    @cheesea 谢谢 我原来跟 pyspider 是一家公司的,我在策略组 , 我会想想怎么集成策略
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3200 人在线   最高记录 3762   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 20ms · UTC 07:21 · PVG 15:21 · LAX 00:21 · JFK 03:21
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1