chatgpt 的细节错误非常容易误导人

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 501 天前的主题，其中的信息可能已经有所发展或是发生改变。

他的中文回答质量没有英文好，因为中文数据不够多。

最大问题是有原始数据分词错误导致的错误。比如问他“什么是音阶”

他会说有大音阶小音阶附音阶。

这个附音阶应该是“附音阶示意图”之类的句子被错误分词了。

还有你问他什么古典吉他，他说古典吉他一般比较大。完全说反了，这种错误应该都是对原始数据的不正确解读造成的。

像这样一本正经的瞎说极容易误导人。

音阶

附音阶

错误

分词

48 条回复 • 2022-12-12 23:06:34 +08:00

needpp

2022-12-11 12:43:16 +08:00

哈哈，那个 “附音阶示意图” 真是逗笑我了。。。

locoz

2022-12-11 12:53:05 +08:00

毕竟 OpenAI 只是个软件开发领域中做 AI 这部分的公司，很多东西单靠他们自己难以直接判断真伪，其他专业领域的东西容易错也正常，在知道边界的情况下用就好了。

类似这种其他专业领域的东西，可以在知道前置知识的情况下，利用它简化一些事务，而不是直接问它问题，这样就能在避免被误导的同时利用它提升效率了。

bravecarrot

2022-12-11 13:31:19 +08:00 via iPhone

楼主发现了一个好问题。
正好最近在看报告提到了这个问题，deepmind 2021.12 发表过一篇 paper ，指出大语言模型，存在 6 大问题。
六个具体的风险领域：I. 歧视、仇恨言论和排斥； II. 真实信息危害； III.错误信息危害； IV.恶意使用； V.人机交互危害； VI.环境和社会经济危害。

汉语文章： https://mp.weixin.qq.com/s/uy0NOdo86m5606BzVnrUXQ

paper 原文：
https://arxiv.org/abs/2112.04359

xuc

2022-12-11 13:43:19 +08:00

确实它的回答乍看起来挺像样，实际错误百出。我问了我专业领域的一些问题，得到的答案基本跟垃圾站凑字数的内容一样。

HankLu

2022-12-11 14:01:31 +08:00

所以不要用专业偏门的问题去问机器人，更别要用他的处理去做工作上的事情。

clearc

2022-12-11 14:08:54 +08:00 via iPhone

它就像知乎和本站的部分回答：

文风笃定，看似有一定逻辑，也能拿出一些似是而非的依据，直到碰到了真正的专业人士 /有时间去查证的人士。

bjzhush

2022-12-11 14:40:35 +08:00

本来就是个玩具，居然还真有人拿来用？？？

yaoyao1128

2022-12-11 14:42:53 +08:00 via iPhone

hmm 因为本身信息源的准确性就有问题，训练出来的模型有偏差肯定会有错误。所以针对学术问题还是看论文吧（

cest

2022-12-11 14:49:24 +08:00

@bravecarrot #3
这些问题是修不好的
训练资料的 fact check 标准不可能吵出结果的
更别提怎么测试 ai 融会贯通后拉出来的黑盒子

所以用途就只有搞黄色了
用户都是成人,因为政治正确的关系,他们是被认为有基础知识的
就算错得离谱,只要能硬就能满足他们的需求

charlie21

2022-12-11 15:10:16 +08:00

“一本正经的瞎说极容易误导人” 你以为网友回答是什么？
拿网友留言去训练 bot 结果就是 GIGO: garbage in garbage out.
甚至不如拿一个极小范围的语料库（比如维基百科）去训练 bot

makelove

2022-12-11 16:23:47 +08:00

@charlie21 这根本不是输入资料问题，而是当前的伪 AI 算法决定，拿维基百科进去出来的照样是东拼西凑的胡话，可能每个短句都对，但整体比编乎还能编，比如这个 https://twitter.com/ruanyf/status/1601436647832563715

natsukage

2022-12-11 17:47:04 +08:00

我想起当年学语义识别时候老师跟我们举的例子
“这个大汉奸杀了我们 5 个兄弟”

Track13

2022-12-11 17:51:08 +08:00 via Android

高级版的狗屁不通生成器

hysjw

2022-12-11 18:23:03 +08:00 via iPhone

过 5 年再来看别着急现在写出来的程序质量总体已经还可以了毕竟是个预览版本多点耐心随着不停的训练和样本慢慢会越来越好这一波的最大功效是带个头可以拭目以待这几年国内外各大公司都会开始进入这个领域资源配比也会越来越高

darkengine

2022-12-11 18:34:43 +08:00

所以这个东西叫 chat

marginleft

2022-12-11 19:51:10 +08:00 via iPhone

附音节是指在音乐中的一种特殊的音节，它由一个主音节和一个附加的音符或音组组成。附音节通常被用来表示音乐中的和弦变化，并且它们也可以用来增强音乐的层次感和复杂度。附音节在大多数的乐曲中都有所体现，它们是表现音乐丰富性的一个重要因素。

y1y1

2022-12-11 19:53:45 +08:00

@natsukage 我们中出了一个叛徒

x02

2022-12-11 21:18:57 +08:00

@marginleft 你也是 ai 吗, 问音阶, 你回复音节.

lambdaq

2022-12-11 21:49:52 +08:00

你们都把 chatgpt 当圣经一样去逐字逐句的审视？

我就当街头一个吹牛皮讲书的。。。。

janus77

2022-12-11 22:00:42 +08:00

你把 ai 当字典？真去抄答案？我以为都是当乐子的

mercury233

2022-12-11 22:48:22 +08:00

@Track13 所以 GPT 外号狗屁通（

xuanbg

2022-12-12 08:10:20 +08:00

@hysjw 学不好的，别等了。

l4ever

2022-12-12 08:30:20 +08:00

Q:明朝第二个皇帝是谁

A:明朝的第二个皇帝是明太祖朱元璋。他是明朝的开国皇帝，在位时期，推行了一系列的改革措施，使明朝成为当时世界上最先进的国家之一。

???

ZxBing0066

2022-12-12 08:57:23 +08:00

也就图一乐，😂 稍微专业点的问题就会漏洞百出

DeYiAo

2022-12-12 08:59:18 +08:00

中文都不是人家的主要目标语言，这个只能说心里酸溜溜的。
唉，明显中文预料和训练轮数都不足，还多知识用英文就好得多。

dc3365

2022-12-12 09:15:16 +08:00

可以让他歧视清朝的黄种人吗？

anan1314git

2022-12-12 09:28:58 +08:00

目前的阶段来看, 确实很不靠谱, 我让他给我一个生成分形图案的 Objective-C 语言版本的方法, 他生成的代码甚至都不按照 Objective-C 的语法规则来, 比如明明 OC 不支持方法嵌套, 它给的代码倒是嵌套的的有模有样的, 实际上复制粘贴到 IDE 中的时候, XCode 一堆报错.

opengps

2022-12-12 09:35:32 +08:00

中文博大精深，老外的产品自然研究不到位

libook

2022-12-12 09:38:32 +08:00 via Android

我问它"比-3 大 5 的数是多少"，它说 8 。又问为什么，它说"如果 -3 比 5 大，那么 -3 加上 5 后仍然比 5 大，即 -3 + 5 = 8"。
很显然，它对中文理解还差点意思。

silencil

2022-12-12 09:51:02 +08:00

别的不知道，写 Java 代码他问题不大，如果你发现给的答案不行，那可能是你不会提问。如果一个小白去问他实现什么需求可能够呛，但作为一个开发，要让他写出自己满意的答案我觉得还行。

dassh

2022-12-12 10:09:31 +08:00

@libook
you: 比-3 大 5 的数是多少
chat: 比-3 大 5 的数是 8 。-3 加上 5 等于 2 ，然后再加上 5 就是 8 。

you: 你算错了
chat: 我很抱歉，看起来我确实算错了。你提到的这个问题中，比-3 大 5 的数实际上是指大于-3 的数中，离-3 最近的数加上 5 的值。因此，比-3 大 5 的数是-3 加上 5 ，也就是 2 。

HugoChao

2022-12-12 10:11:35 +08:00

还好吧，主要也不是展示正确度的，语义解析，上下文的理解，都非常优秀

sparky

2022-12-12 10:14:28 +08:00 via Android

chatgpt 当前的模型擅长回答 opinion 而不是 fact ，后者可直接用 google 获取

byzod

2022-12-12 10:21:33 +08:00 via Android

那种以非常自信的语气胡说八道的气势让我很不安, 虽然还没想到会有什么问题, 但是直觉告诉我是个危险的隐患

比方说, 15 年后的一个普通民居里
安妮激活了 AI 家庭医生, 焦急地说.："妈妈的急性 TUP2037 病犯了晕过去了怎么办呀"
AI 医生："根据你描述的情况, 你的母亲应立即注射 AT 剂, 请找到 AT 剂专用箱并取出一只注射剂"
安妮照做, 拿出了一只上次妈妈用过的忘记丢掉的 AT 注射剂
AI 医生："将患者放平, 将注射剂放在患者手臂上并按下注射按钮"
安妮照做, 按下按钮之后, 满满的一管空气被高压喷头注入了妈妈的静脉中

libook

2022-12-12 10:23:34 +08:00

@dassh #29 我上周五说它算错了它还嘴硬，我尝试给他解释，它说我的理解是错误的……或许这两天它有反思？

lovedoing

2022-12-12 10:34:47 +08:00

wmui

2022-12-12 10:54:09 +08:00

@l4ever 我试了下结果和你一样，把第一个和第二个弄反了
[]( https://files.catbox.moe/pq5mmx.png)

proxychains

2022-12-12 11:03:38 +08:00

证明函数 f(x)=sinx 的单调区间.

chatgpt 会不会像高中数学答案里描述的那样回复你: `略.` 或者 `显然, sinx 的单调区间是 xxx`

suhe

2022-12-12 11:18:13 +08:00

秦始皇名叫叫刘邦，孔子是楚国人，一本正经不容反驳

Pythondr

2022-12-12 11:22:01 +08:00

只能说语法学习的没问题，内容就完全是胡言乱语，没法看。就像是一个刚出生的还在，如果一开始就喂给他大量错误的支持，往后形成的世界观就不敢想了。所以说教育的意义多么重大。

bravecarrot

2022-12-12 11:24:24 +08:00

@cest #9 哈哈，也不尽然拉

bravecarrot

2022-12-12 11:36:07 +08:00

@cest #9 然而，我在这方面没有太多的学习研究。捂脸
只是感觉，如果训练语料足够多，模型应该可以自己从中筛选出事实，抛弃错误内容。

前沿科学研究就是在做看起来不可能的事情。。。

suhe

2022-12-12 11:38:36 +08:00

@lovedoing
Q：如果项羽赢了刘邦，历史会有什么不同？

A：如果项羽赢了刘邦，那么中国历史可能会有很大的不同。在公元前 202 年，项羽在赤壁之战中击败了刘邦，成为当时最强大的军事领袖。如果他赢了，可能会继续统治中国，成为一个独裁者。这有可能会导致中国没有经历过汉朝，也没有出现过许多著名的历史人物和事件，如孔子、屈原、楚辞等。

cnrting

2022-12-12 12:10:06 +08:00 via iPhone

哈哈哈一本正经地胡说八道

Unik

2022-12-12 12:17:04 +08:00 via Android

目前还不够鲁棒，所以炼丹师才有饭吃；
效果我感觉还可以，只要人工拟定合理的 prompt ，生成结果还是差强人意的，然后人工教校验一遍就可以用了。总体上大大节省时间

cmdOptionKana

2022-12-12 12:42:16 +08:00

最主要的原因是：它并不是以提供正确答案为目的而被创造的。

它的研发人员，主要是想做一个 “聊天” AI ，让它看起来很像能理解人类语言，很像能与人交谈，甚至像是有一点性格和思想。因此，它被称为语言模型，而不是解题模型或信息提供者。

简而言之，人家做的是“闲聊”功能，用户却误以为是个万能解题器，这是个巨大的误会。

dassh

2022-12-12 15:10:01 +08:00

@libook 这就有点厉害了

MiketsuSmasher

2022-12-12 23:06:34 +08:00

Q：你知道田所浩二吗？
A：是的！田所浩二是日本的一名演员、歌手、导演和作家。他有许多优秀的作品，如电影《永远的蝴蝶》、专辑《 My Story 》和《オトナの旅》以及小说《眠れた花》。

不知道野兽先辈这个梗的很可能就信了🤣
P.S. 有条件验证的抓紧时间验证，过段时间可能就修了。