• 请不要在回答技术问题时复制粘贴 AI 生成的内容
alangz
V2EX  ›  程序员

行业信息提取汇总方案请教

  •  
  •   alangz ·
    xyalan · Sep 23, 2025 · 2501 views
    This topic created in 246 days ago, the information mentioned may be changed or developed.

    老婆因为工作需要,需要定期获取 IP 行业联名最新资讯。这些 IP 联名的最新资讯现在一般都在微博、小红书、公众号上最先发布。目前想到的方案就是通过模型进行信息资源搜集整理,但这里最重要的一环就是信息源获取。

    微博、小红书、公众号的内容好像也不提供公开搜索引擎检索,爬虫似乎也有一定风险,属于不合法渠道吧。所以有什么好的方式获取到这些信息源?

    7 replies    2025-09-23 20:48:31 +08:00
    danbai
        1
    danbai  
    PRO
       Sep 23, 2025   ❤️ 2
    有这种社交软件的订阅
    https://docs.rsshub.app/zh/
    kenilalexandra
        2
    kenilalexandra  
       Sep 23, 2025
    最好的还是爬虫,已知的 Github 上有微博、小红书、抖音的爬虫工具,其他的可能需要找一找了
    NICEghost
        3
    NICEghost  
       Sep 23, 2025
    这些应该都是有自己工具采集的吧,能有实力联名的大品牌本就不多,要是错过补充进去就好了,已经看过几个这样的营销号了
    Solix
        4
    Solix  
       Sep 23, 2025
    只有爬虫,没别的,为啥不让你获取,就是因为这些信息有价值
    Hopetree
        5
    Hopetree  
       Sep 23, 2025
    当你的爬虫影响的对方的服务的时候才有风险,只要你别变成 DDoS 攻击就没事,再说现在的这些媒体 APP 都是一套反爬措施自我防御,没那么容易被个人爬虫搞出问题
    YJi
        6
    YJi  
       Sep 23, 2025
    只有爬虫。个人用频率不高就自己爬,我司有数据基本都是 toB 的用。
    longlonglanguage
        7
    longlonglanguage  
       Sep 23, 2025
    可以考虑上午获取一次,下午获取一次。每次抓取当天和上一天的信息,然后把信息存储数据库,重复的舍弃掉,然后再通过 ai 比对,相似的也舍弃掉。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5726 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 99ms · UTC 02:09 · PVG 10:09 · LAX 19:09 · JFK 22:09
    ♥ Do have faith in what you're doing.