构想：浏览器/浏览器插件/……，用于收集访问的网页/应用呈现的信息，供收集语料用于 AI 大模型的训练

现在 AI 大模型的语料收集是一个难题：绝大多数平台，登录、甚至是下载 APP 才能访问其提供的内容。当然，搞逆向工程也能去抓取数据，但是平台那边肯定不能容忍这种行为的。如果是用户按照一般的方式访问，获取内容应该更加顺利。因此我就有了该构想。

用户访问内容的时候，这个工具可以读取访问的文本、图像、视频等信息，收集给工具的提供方，由提供方处理分析，获得能够用于训练的语料。读取方式包括但不限于：读取页面文本等信息、读取浏览器已下载的内容、截屏 OCR 。

这个工具可以做成浏览器、浏览器插件或者是 App ，用户能够通过该工具获得一定的报酬。

这种方式的优势基本上就是稳定、不容易被拦截，可以以众包的方式做到大范围的抓取，比较容易防止千人千面、大数据杀熟等情况对收集得到的信息造成影响。

但是劣势也非常明显：极易侵犯用户的隐私。

不知道是否有已经做这种东西的，先写出来看看大家的想法吧。

hamsterbase

2024-01-23 23:29:41 +08:00

如果只是为了保存自己的数据, 然后训练, 可以试试看 hamsterbase .

本地软件，数据都在你本地，也有 API 可以获取全部的数据。

如果要开发 chrome 插件获取网页内容，可以用 chrome.pageCapture.saveAsMHTML 这个 API 。或者也可以直接用开源的 singilefile 插件, 他提供了打开网页后自动保存完整 html 的功能。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1010945

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.