行业信息提取汇总方案请教

63 天前
 alangz

老婆因为工作需要,需要定期获取 IP 行业联名最新资讯。这些 IP 联名的最新资讯现在一般都在微博、小红书、公众号上最先发布。目前想到的方案就是通过模型进行信息资源搜集整理,但这里最重要的一环就是信息源获取。

微博、小红书、公众号的内容好像也不提供公开搜索引擎检索,爬虫似乎也有一定风险,属于不合法渠道吧。所以有什么好的方式获取到这些信息源?

2079 次点击
所在节点    程序员
7 条回复
danbai
63 天前
有这种社交软件的订阅
https://docs.rsshub.app/zh/
kenilalexandra
63 天前
最好的还是爬虫,已知的 Github 上有微博、小红书、抖音的爬虫工具,其他的可能需要找一找了
NICEghost
63 天前
这些应该都是有自己工具采集的吧,能有实力联名的大品牌本就不多,要是错过补充进去就好了,已经看过几个这样的营销号了
Solix
63 天前
只有爬虫,没别的,为啥不让你获取,就是因为这些信息有价值
Hopetree
63 天前
当你的爬虫影响的对方的服务的时候才有风险,只要你别变成 DDoS 攻击就没事,再说现在的这些媒体 APP 都是一套反爬措施自我防御,没那么容易被个人爬虫搞出问题
YJi
63 天前
只有爬虫。个人用频率不高就自己爬,我司有数据基本都是 toB 的用。
longlonglanguage
62 天前
可以考虑上午获取一次,下午获取一次。每次抓取当天和上一天的信息,然后把信息存储数据库,重复的舍弃掉,然后再通过 ai 比对,相似的也舍弃掉。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1161257

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX