AI 编程数据提问

13 小时 6 分钟前
 collen
我把我之前和 gpt 的对话下载下来了,我想做清洗数据,但是我发现我之前大量和 gpt 的聊天就是编程,解决我的问题,现在这些数据是垃圾数据吗,应该过滤吗,或许,有可能,我在对话中提出了万中无一的解决方法,或者当时网络上没有解决方案,我通过自己的思考解决了,这种有可能吗,要记录吗,顺便如果我不是程序员,我是一个作家,我让他帮我生成了大量小黄文,这个小黄文也算是数据吗,要保留吗,医生呢,我让他帮我找了一堆类似的病例和文献,这些也是有意义的数据吗
427 次点击
所在节点    问与答
4 条回复
coreJK
12 小时 20 分钟前
1. 编程领域:解决过的问题,或者是和 AI 对话过程中解决过的方案,应该总结成可以复用的解决方案,这个还是有价值的(不过 AI 本身已经汲取了大量人类解决过的一些问题的答案),和 AI 对话过程中,更像是一种“查询”的过程,只是呈现方式变了,由 AI 组织语言回答,而且还存在说错的概率;
2. 作家:这个不好界定感觉,应该归纳为素材吧;
3. 医生:这个行业应该需要更加严谨的态度,如何保证病例和文献的真实性是个问题

导出来的数据,如果是结构化的 json 应该还是好处理,MD 还得额外转换一次

不过感觉对于对话历史记录,现在几个主流的都支持对话历史记录检索了
collen
11 小时 48 分钟前
@coreJK 但是我 1 万多条对话,大概有 6000 多条都是问编程的,或者项目代码让他帮我改,比较古老了,2023 和 2024 年的,那个时候没有 claude code 我直接全部复制粘贴过去的,现在清洗起来要跑很久,这些代码都应该没有意义了吧
coreJK
11 小时 21 分钟前
@collen #2 这个意义得看你自己了,如果确认是有用的数据,花多少时间整理都是值得的(个人观点),没必要为了整理而去整理数据吧

感觉现在 op 是也不知道那些数据是有用的,所以一直在纠结中
CLMan
3 小时 11 分钟前
类似的包括下载文件、浏览器打开的标签等。当堆积到一定程度后,就很难有心思去整理了。

建议实在拿不定主意,保存在文件然后压缩存储,以后有精力再整理。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1192363

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX