V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
www6688w
V2EX  ›  程序员

最近正在学习 Go,想写一个爬虫来练练手,希望大家出个好点子

  •  
  •   www6688w · 2019-08-27 18:01:03 +08:00 · 5428 次点击
    这是一个创建于 1076 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近正在学习 Go,想写一个爬虫来练练手。

    但是不知道该爬些什么,大家有没有什么建议的目标站点或者好玩的点子,都可以提出来。

    这个主要是练习和玩,写完之后代码会直接开源。

    37 条回复    2019-08-29 09:43:12 +08:00
    meik2333
        1
    meik2333  
       2019-08-27 18:09:32 +08:00   ❤️ 1
    upczww
        2
    upczww  
       2019-08-27 18:12:53 +08:00 via Android
    爬携程,美团,淘宝,这些都非常好爬
    ylsc633
        3
    ylsc633  
       2019-08-27 18:15:27 +08:00
    我曾入行时学习 php 的时候 用 php 的 cUrl 趴了 达盖尔 板块的图!
    Ritter
        4
    Ritter  
       2019-08-27 18:17:43 +08:00
    @upczww 好爬+1
    siriussilen
        5
    siriussilen  
       2019-08-27 18:18:31 +08:00
    @Ritter 好爬+2
    TomStark
        6
    TomStark  
       2019-08-27 18:20:02 +08:00
    @ylsc633 开,往城市边缘开
    www6688w
        7
    www6688w  
    OP
       2019-08-27 18:36:06 +08:00
    @upczww 淘宝防爬不是很厉害麽,大兄弟 (⊙ˍ⊙)
    cxsz
        8
    cxsz  
       2019-08-27 18:38:34 +08:00
    豆瓣 爬电影信息,评分,观影人数啥的
    Rorshach
        9
    Rorshach  
       2019-08-27 18:39:12 +08:00
    @www6688w 没有吧,我半年前爬的时候只要带上 cookies+代理就可以了
    roryzh
        10
    roryzh  
       2019-08-27 19:36:30 +08:00   ❤️ 1
    jav
    default7
        11
    default7  
       2019-08-27 22:43:04 +08:00
    为什么不是 py
    skiy
        12
    skiy  
       2019-08-27 23:19:22 +08:00 via Android
    fivestrong
        13
    fivestrong  
       2019-08-27 23:38:38 +08:00 via iPhone
    爬 dmm 吧,整个电影库。
    XxxxD
        14
    XxxxD  
       2019-08-27 23:49:39 +08:00
    从自己兴趣出发啊
    misaka19000
        15
    misaka19000  
       2019-08-27 23:56:07 +08:00
    写啥爬虫啊,没什么技术含量
    rayhy
        16
    rayhy  
       2019-08-28 00:00:49 +08:00 via Android
    写个 golang 版本的 rsshub 吧,能考验下自己怎么组织代码,怎么设计 API,怎么方便别人帮你写某个网站的爬虫。
    herozzm
        17
    herozzm  
       2019-08-28 00:17:24 +08:00
    @siriussilen 好爬+3
    mumbler
        18
    mumbler  
       2019-08-28 00:35:47 +08:00
    爬 youtube 所有带中文字幕的视频
    MMMMMMMMMMMMMMMM
        19
    MMMMMMMMMMMMMMMM  
       2019-08-28 08:10:20 +08:00
    某 hub 视频
    omph
        20
    omph  
       2019-08-28 08:44:57 +08:00
    微信、微博、豆瓣等资源大户
    ctro15547
        21
    ctro15547  
       2019-08-28 08:49:35 +08:00
    国内外各种大秀直播平台的流媒体地址抓取,做个整合,做成 api,外接个播放工具,或者动手写写安卓,就取名叫 XX 聚合直播吧,放墙外收费,到手的钱,写个监控各挖矿币种走势的爬虫,自动买币,一条龙
    snoopygao
        22
    snoopygao  
       2019-08-28 08:56:05 +08:00
    @herozzm 好爬+4
    sadfQED2
        23
    sadfQED2  
       2019-08-28 09:13:02 +08:00 via Android
    https://github.com/Jinnrry/getAwayBSG 上次看见的,跟进一下?
    sadfQED2
        24
    sadfQED2  
       2019-08-28 09:13:29 +08:00 via Android
    @snoopygao 好爬+5
    qq7790586
        25
    qq7790586  
       2019-08-28 10:19:57 +08:00
    顺便借楼问下,爬虫是 python 还是 go 好呢?
    ClericPy
        26
    ClericPy  
       2019-08-28 11:37:52 +08:00
    golang 实现其他语言的著名 爬虫框架, 主要是模仿 API 或者架构
    或者最简单的模仿其他语言的好用的 http 请求库, 主要了解下设计和命名方式
    或者实现 curlparse, 也就是 curl string 和 struct 互转

    边看边学, 最简单的还是直接照抄 Github 已有项目, 很多时候自己摸索的进度完全不如直接看好代码, 刚入门多学学别人的设计和风格比自己瞎写有用得多
    mozutaba
        27
    mozutaba  
       2019-08-28 11:43:41 +08:00
    @upczww 还有公众号也非常适合入门
    tushile928
        28
    tushile928  
       2019-08-28 13:32:12 +08:00
    爬可用 6 位数以内域名
    andy1ee11o2
        29
    andy1ee11o2  
       2019-08-28 13:37:43 +08:00
    Fanza
    amwyyyy
        30
    amwyyyy  
       2019-08-28 13:49:37 +08:00
    我之前刚玩的时候把某 h 网站的图片全下了
    encro
        31
    encro  
       2019-08-28 13:57:47 +08:00
    网易考拉 趁倒闭前收集 SKU 分析分析
    laravel
        32
    laravel  
       2019-08-28 13:58:16 +08:00
    p 站(p**nh*b)视频中文留言
    None123
        33
    None123  
       2019-08-28 14:02:35 +08:00
    @Rorshach 不会有假数据吗?
    www6688w
        34
    www6688w  
    OP
       2019-08-28 14:48:07 +08:00
    @qq7790586 看个人习惯吧,,我比较喜欢 Go 这种类型的,不过 py 可能会简单一些
    qiuBiLiBiLima
        35
    qiuBiLiBiLima  
       2019-08-28 17:00:07 +08:00
    大神,求抖音视频批量去水印下载,GitHub 上之前有个大神做过,1000 多个 star,但是现在好像不维护了,求大神接力做下去
    qiuBiLiBiLima
        36
    qiuBiLiBiLima  
       2019-08-28 17:02:27 +08:00
    大神,求抖音视频批量去水印下载,GitHub 上之前有个大神做过,1000 多个 star,但是现在好像不维护了,求大神接力做下去 这个是地址 https://github.com/loadchange/amemv-crawler
    roryzh
        37
    roryzh  
       2019-08-29 09:43:12 +08:00
    @amwyyyy 我给某 x 网全视频都下了
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4252 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 03:40 · PVG 11:40 · LAX 20:40 · JFK 23:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.