V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
leverestfish
V2EX  ›  程序员

[爬虫]如何获取公众号的所有文章(的链接)

  •  
  •   leverestfish · 363 天前 · 3289 次点击
    这是一个创建于 363 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求简单来讲就是 [如何获取一个微信公众号的所有文章的链接] 。微信搜狗搜索早就跪了。现在还有办法实现吗?

    求大佬们提供点思路,谢谢~

    23 条回复    2020-10-28 22:18:23 +08:00
    hunk
        1
    hunk   363 天前   ❤️ 1
    总之,很难。
    研究过用真机自动化操作获取的方法,太麻烦了。
    OldActorsSmile
        2
    OldActorsSmile   363 天前   ❤️ 1
    xposed
    wangyzj
        3
    wangyzj   363 天前 via iPhone   ❤️ 1
    逆向吧
    opengps
        4
    opengps   363 天前   ❤️ 1
    缺少公开的索引入口,天然的防爬虫
    lithbitren
        5
    lithbitren   363 天前   ❤️ 1
    主要把地址复制出来就好办了,闲置笔记本拿去做过些自用的挂机类小游戏的按键脚本,公众号没搞过但感觉比做小游戏的脚本还简单点,公众号聊天列表里按一次 page up/down 刚好是一屏,其他所有关键点的位置都是固定的,也不会误点广告,做脚本应该不太难,先拿完了地址再用别的东西爬就容易了
    leverestfish
        6
    leverestfish   363 天前
    谢谢各位回复,太难了哈哈哈,看来我的水平就不用惦记真自动方法了 hhh
    最后顺便不抱希望问问大家有没有见过这样需求的案例 /项目啊
    IllBeBack
        7
    IllBeBack   363 天前 via Android   ❤️ 1
    GitHub 有开源的 Python 代码,几个月前试过,模拟 Chrom 登入公众号后台,然后模拟插入别人的公众号文章链接到自己的文章。不过得到的是长连接。
    heiheidewo
        8
    heiheidewo   363 天前   ❤️ 1
    懒得抓啊,有现成的 api 接口卖嘛
    locoz
        9
    locoz   363 天前 via Android   ❤️ 1
    量多大?量大还愿意花钱就很好解决
    airqj
        10
    airqj   363 天前 via Android   ❤️ 1
    每个微信号每日请求公众号接口数量是有限制的
    具体多少没注意 大概两三百
    所以没法一次性拿到所有数据
    Leigg
        11
    Leigg   363 天前 via Android   ❤️ 1
    转换思维,你不行,有人行,高报酬求 xxx 爬虫源码,带文档,钱够了,没有找不到。所以说啊,典型的技术人思维,跳不出来。
    Leigg
        12
    Leigg   363 天前 via Android
    百度都查不到的东西,你指望会有人给你免费解答?
    gochat
        13
    gochat   362 天前   ❤️ 1
    不麻烦,有买家嘛?
    leverestfish
        14
    leverestfish   362 天前
    @IllBeBack 我去找找,我的需求不大哈哈哈,每天爬几十条最多了(增量爬阶段)。您这能否大致给个关键词,我之前搜过没搜到这个。

    @locoz 量的话就是给二三十个公众号做聚合搜索,要动态更新(不用特别及时,一天更新两次足够)。

    @Leigg 哈哈谢谢指点,还没工作呢,以后或许可以改变思维。

    @gochat 简单讲下我的需求吧,非商业需求算是志愿服务吧,想给几个常用的公众号做一个聚合搜索而已,所以花钱还是不太能承受的,最主要的是我需要增量爬取动态更新。但一个月十几块钱我还是能接受的。
    gochat
        15
    gochat   362 天前
    @leverestfish 可以的,增量更新文章,同时抓取阅读量,评论,数据全部入库
    leverestfish
        16
    leverestfish   362 天前
    Tianyan
        17
    Tianyan   362 天前   ❤️ 1
    这个网站做到了 wemp.app
    locoz
        18
    locoz   362 天前 via Android   ❤️ 1
    @leverestfish #14 量这么少你直接爬西瓜数据、二十次幂之类的就好了
    kingba
        19
    kingba   361 天前   ❤️ 1
    [Chrome 插件让微信公众号历史文章阅读不再痛苦,在 PC /Mac Chrome 浏览器上就能看,而且支持文章列表导出 CSV (开源) - V2EX]( https://www.v2ex.com/t/692681)
    自荐一下
    leverestfish
        20
    leverestfish   359 天前
    @kingba 已经失效了诶,打开历史页面看不到任何文章。
    leverestfish
        21
    leverestfish   359 天前
    @locoz 我需要特定公众号,这两个网站不一定有吧。
    locoz
        22
    locoz   359 天前
    @leverestfish #21 没有的就添加监控啊,让别人帮你爬就好了
    kingba
        23
    kingba   358 天前
    @leverestfish 可以参考下 github 上的 readme 说明哈,我试了下在 Windows 下是可以的,但你如果需要增量爬可能就不适合了。
    关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   4073 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 02:58 · PVG 10:58 · LAX 19:58 · JFK 22:58
    ♥ Do have faith in what you're doing.