首页   注册   登录
 resolvewang 最近的时间轴更新
ONLINE

resolvewang

  •   V2EX 第 181389 号会员,加入于 2016-07-12 10:35:43 +08:00,今日活跃度排名 143
    分布式微博爬虫:https://github.com/ResolveWang/WeiboSpider。欢迎大家试用
    resolvewang 最近回复了
    8 天前
    回复了 arawn 创建的主题 MySQL 你们喜欢用 navicat 还是 sqlyog
    datagrip 了解一下?
    @chi1st #70 感谢支持。可以直接调用 ProxyFetcher,为 scrapy 写一个中间件就行了。

    目前在找工作,精力不是很够。预计下一次大的更新会在几个月之后,可能会扩展一些客户端、添加对一些爬虫框架的原生支持和优化筛选和调度算法
    @iamnoten #67 此外,你也可以将它的镜像下载下来,在本机再打包之类的
    @iamnoten #67 TLS 这个感觉是网络问题啊,握手失败了。你能用 docker pull 拉取其它镜像吗?如果不行的话,可以搜索一下 docker 镜像加速,比如设置阿里云的 docker 镜像源等

    你也可以尝试另外一台虚拟机或者宿主机上试试啊,我没遇到过这个问题,无法给出建设性的解答,不好意思哈
    @salamanderMH #65 嗯,是的,我开源它的主要目的在于分享这种校验和筛选 IP 的策略,虽然现在代理源还算多,但是可能也经不住成千上万的用户同时使用,特别是抓取网站大都相同的情况。正是考虑到你说的这种情况,所以写了几个文档,用以让用户了解所有组件的作用,怎么进行代理源扩展和定制校验器。这样大家可以接入一些项目没包括的代理源,甚至付费代理源。效果肯定是能通过项目的策略来保证的
    @hao0 感谢回复。希望有的时候能再发个帖 :)
    成都美团没 Python 的职位吗
    @EricInBj #63 谢谢支持
    https://github.com/SpiderClub/haipproxy/releases

    这里下载

    同时也要注意 IP 池有个预热的过程,大概在半小时到一小时之间,因为刚启动是不可能马上就有已校验的代理 IP 的
    @Betsy #60 master 分支更新了一些代码,不向后兼容,目前文档由于精力原因还没更新,你可以下载 release 当中的 0.1 版本进行测试  2.你可以使用 redisdesktopmanager 来查看已抓取到的代理,肯定是没问题的
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   2687 人在线   最高记录 3541   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 13ms · UTC 04:08 · PVG 12:08 · LAX 21:08 · JFK 00:08
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1