V2EX › secsilm 的所有回复 › 第 2 页 / 共 36 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 36

❮

❯

2022-12-05 14:50:21 +08:00

回复了 Morii 创建的主题 › OpenAI › 请问有没有办法在 V2EX 屏蔽 chatGPT 回复？

理论上来讲是可以做个模型来尝试筛选出有可能是 chatGPT 生成的内容，从 OpenAI 对其的说明中可以看出，尤其是 [Limitations]( https://openai.com/blog/chatgpt/#:~:text=AI%20supercomputing%C2%A0infrastructure.-,Limitations,-ChatGPT%20sometimes%20writes) 部分，目前其生成的内容还是有较为明显的特征的。但重难点是如何快速收集足够且有效的正反例数据。

下面我简单描述一下这些 limitations：

- 生成的内容有时会看似合理但实则错误或者毫无意义，就像大家说的套话；
- 模型对输入扰动比较敏感，即我在之前其他帖子的回复中说过的 LLM 普遍存在的稳定性问题，你换个词或者多个少个标点都可能导致回答差别较大；
- 生成的内容通常较长且容易总是重复某些话，比如总是重申自己是一个 OpenAI 训练的语言模型。仍然和数据有关，training data bias ，GIGO ；
- 当你问一个摸棱两可的问题的时候，模型通常会自己猜测你的意图，而不是让你澄清；
- 可能会回应那些有害请求。

2022-12-05 12:27:38 +08:00

回复了 bjzhush 创建的主题 › OpenAI › 为什么我看到 chatGPT 的回复就恶心？

就像咨询客服时，看到一堆所谓的智能客服的回复一样恶心

2022-12-05 12:25:53 +08:00

回复了 catfly 创建的主题 › OpenAI › OpenAI 推出超神 ChatGPT 注册攻略来了

赚钱行当来了

2022-12-05 10:20:16 +08:00

回复了 qdwang 创建的主题 › OpenAI › ChatGPT 还不是最可怕的

@clockwise9 #70 我们这边也观察到 LLM 的确定性或者说稳定性比较差，受输入的影响比较大，当然可能是数据的原因。现在 distil 版的模型基本上速度很快了，准确率也不会下降很多（ 1-2 个点），可以满足我们的需求，base 版的模型其实速度也还可以，毕竟有一些专用的加速芯片等手段来加速（虽然还不完善）。

@wangxiaoaer #74 这个难以确定，毕竟我也没有 GPT 的训练集😂要注意的一点是，你在网上搜不到不代表不在训练集里。

2022-12-04 19:22:00 +08:00

回复了 qdwang 创建的主题 › OpenAI › ChatGPT 还不是最可怕的

作为 NLP 从业者，首先我对 GPT 系持怀疑态度，我就基于我的经验，发表一下个人愚见。

先不说文本生成这种难度较高的任务，就连文本分类这种最最基础的任务，在很多场景下达到 95% 以上的准确率仍然是很困难的（ Bert 系），他就是学不会。楼上有人说模型参数量很大，有人说模型不是单纯记训练集，可是现实是，模型很可能就是在背书，参数量越大背得越好。

不知道大家有没有想过，GPT 这种 LLM （ Large Language Model ）的训练集是非常之巨大的，那么在评测模型的时候，也就是在测试集中是不是有可能出现训练集中的数据或者类似数据？这个现象叫 benchmark data contamination 。GPT 的作者也发现了这个现象，但是他已经来不及重新训练了（费用太高）。

我个人认为，现阶段模型的作用已经相对较小了，最重要的是数据，也就是 Andrew Ng 所说的 data-centric AI ，正所谓 GIGO （ Garbage In Garbage Out ），构建一个成熟稳定强大的人工智能系统，现在重点和难点已经变成如何获取干净、有效、足够的数据。模型已经基本定型，小修小改影响不了多少。

关于背书和数据的重要性，还可以参见 GitHub Copilot ，是不是很多是直接拿的现有代码（训练集）？

希望模型在背背背之后，某一天可以突然真正理解其中奥义，那时候才是真正变成了自己的知识，就像我们小时候死记硬背古诗，长大后某天突然理解了真正含义。那要造成这个突变，是数据扮演了更重要的角色还是模型？以后还难说。

个人愚见。

2022-11-27 20:09:56 +08:00

回复了 googleplus 创建的主题 › 分享发现 › 你们的博客运行多少年了，清理收藏夹的发现

7 年了，今年由于太忙，更新少了点。

2022-11-26 17:43:31 +08:00

回复了 Titzanyic 创建的主题 › 问与答 › 如何才能把招商银行信用卡账单导出为 excle 或 csv

@secsilm #13 ![image.png]( https://s2.loli.net/2022/11/26/Bp7AigU3IdePvOC.png)

2022-11-26 17:42:45 +08:00

回复了 Titzanyic 创建的主题 › 问与答 › 如何才能把招商银行信用卡账单导出为 excle 或 csv

发现现在招行专业版客户端导出账单只能导出为 PDF 了，还是说我没找对地方？

2022-11-06 07:13:12 +08:00

回复了 secsilm 创建的主题 › 问与答 › iPad Pro 2021 扩展坞接显示器没反应

@shfan #1 好吧，我用的是绿联六合一的