V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
suyuanhxx
V2EX  ›  分享发现

前段时间学习 go 写了一个 tumblr 图片爬虫

  •  
  •   suyuanhxx · 2018-03-28 15:29:19 +08:00 · 2935 次点击
    这是一个创建于 2214 天前的主题,其中的信息可能已经有所发展或是发生改变。

    tumblr 爬虫(爬取指定主页)

    -- 食用方法

    1. sites.txt中添加指定 tumblr 主页,比如http://allthingseurope.tumblr.com/只需要添加allthingseurope
    2. 多条分行添加
    3. 修改代理。将common/proxyHttp.go中的127.0.0.1:1080改成自己代理
    4. 下一步工作,获取高清大图......、

    项目链接:https://github.com/suyuanhxx/crawler

    10 条回复    2018-04-27 07:56:11 +08:00
    Danswerme
        1
    Danswerme  
       2018-03-28 15:31:10 +08:00 via Android
    🐴
    Danswerme
        2
    Danswerme  
       2018-03-28 15:31:29 +08:00 via Android
    🉑
    suyuanhxx
        3
    suyuanhxx  
    OP
       2018-03-28 21:17:21 +08:00
    欢迎各位 star
    flyzero
        4
    flyzero  
       2018-03-29 09:40:01 +08:00
    同时差不多 50 并发,官方不反爬虫吗
    suyuanhxx
        5
    suyuanhxx  
    OP
       2018-03-29 09:44:20 +08:00
    @flyzero #4 不会,这个并发量也不大
    liyaojian
        6
    liyaojian  
       2018-03-29 11:17:17 +08:00
    tumblr 不是有开放 api 吗
    suyuanhxx
        7
    suyuanhxx  
    OP
       2018-03-29 11:18:59 +08:00
    @liyaojian #6 开放的 api 需要注册开发者模式,我没弄
    guonning
        8
    guonning  
       2018-03-29 11:29:00 +08:00 via Android
    能否加个也可下视频功能?
    suyuanhxx
        9
    suyuanhxx  
    OP
       2018-03-29 11:34:01 +08:00
    @guonning #8 本打算做的,有时间就会继续的
    DukeAnn
        10
    DukeAnn  
       2018-04-27 07:56:11 +08:00
    666
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2573 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 04:36 · PVG 12:36 · LAX 21:36 · JFK 00:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.