看到说国内的 ai 发展不起来其中一个原因是因为中文语料库

2023-03-27 14:13:03 +08:00
 woshipanghu

中文优质开源的语料库信息太少

如果觉得少不能去把国外的英文语料库翻译成中文

然后再训练

是我想的太简单了吗 有做 ai 相关的大佬吗 这种可行吗

16591 次点击
所在节点    程序员
120 条回复
YUCOAT
2023-03-27 14:21:47 +08:00
我认为不可行,因为我觉得翻译的工作量太大了
shyangs
2023-03-27 14:24:50 +08:00
可以,建議把履歷投百度試試。
worldqiuzhi
2023-03-27 14:26:35 +08:00
有没有可能人家已经做出来了很厉害的中文,chatgpt 中文已经很厉害了 很复杂的中文语法逻辑都能理解
woshipanghu
2023-03-27 14:43:21 +08:00
@YUCOAT 现在机器翻译还是很准的
woshipanghu
2023-03-27 14:44:50 +08:00
@shyangs 好的 马上过去教他们写代码
@worldqiuzhi 也是 做不好的一个理由而已
lithiumii
2023-03-27 14:54:04 +08:00
虽然少,但是做搜索引擎的公司不会缺。话说回来,以前搜狗有个 SogouT ,寄硬盘就能拷一份过来,现在没了。
huijian222
2023-03-27 15:04:53 +08:00
现在都是做的 ChatGPT 的蒸馏,想要什么语料直接和 ChatGPT 交互一下就有了。。
8355
2023-03-27 15:18:30 +08:00
很多国内能发展起来的都是海外成熟的商业模式然后国内照搬同样的模式仿照开发然后取得的商业上成功,也通常是这种模式资本才愿意投钱做。
国内的资本巨头最不喜欢干的事就是单纯为爱发电好几年看不到头的项目,格局上还是稍微差点意思,微软一朝翻身也就是押宝这一个,从 github 到 Office ,chatgpt 这种项目往大了说对人类的发展都是起到关键性的作用,但国内资本只想赚钱。。。。。
seres
2023-03-27 15:28:53 +08:00
有些英文涉政的内容翻译成中文就违规了。。
janus77
2023-03-27 15:41:11 +08:00
现代中文已经对机器来说越来越难识别了,各种新名词就连人都不一定全懂。
不过如果刨去现代的流行名词,只谈中文基本的表达,那其实不难的,chatGPT 也可以理解一些文章甚至能帮你润色、能模仿某个人的语气编段子,注意我说的这些都是中文的情况。他能做的很好,而且是在中文数据相对匮乏的情况下(我相信他训练的材料里中文材料肯定没有简中网络的材料这么庞大),他能做的这么好,足以说明并不难。
Hancock
2023-03-27 15:51:04 +08:00
腾讯在这个领域拥有更丰富的资源,包括公众号+知乎+小红书+大众点评+reddit+搜狗,前几年投资的文娱传媒板块要收获成果了
Jetsru
2023-03-27 15:54:51 +08:00
CHATGPT 的中文语料也就占不到千分之二,汉语能力不也挺出色的吗...大语言模型自己能摸清楚各种语言的共性。https://github.com/openai/gpt-3/tree/master/dataset_statistics
ufan0
2023-03-27 15:59:29 +08:00
吴军老师的书和得到课程中,多次提到了相关内容,可以看看。

我学习到的主要观点是:问题并不是出在中文上。

此外上述回帖提到的一些问题也同样出现在各种语言中。
yuanxin1999
2023-03-27 16:10:51 +08:00
还有就是中文是组词的,会有:
武汉市长江大桥分词:武汉市\长江大桥和武汉市长\江大桥两种语境
介绍一下武汉市长江大桥,这个句子就很难分析
xingye163
2023-03-27 16:12:21 +08:00
在 AI 产业中,有一个环节叫上游数据处理环节,这些环节是有专门公司负责的,不是网上搜索资料来学习的,因此并不会说存在语种的问题,中国也有好几家做这个的大型公司的,清洗数据,格式数据,标记数据,投喂数据,都是流程化的。
terrysnake
2023-03-27 16:48:40 +08:00
现在有个观点说 GPT3.5 和 4 披露少的原因是语料可能有侵权
NoOneNoBody
2023-03-27 16:54:35 +08:00
英翻中?我扔两个成语看你的 AI 怎么回应

如果说“其中一个原因”,那当然是对的,但说主因,就不是语料这么简单,还是语法和文化区别
中国人很多,但同时汉语和 AI 都精通的就很少,放到世界与英语相比就少之又少

纯文字、正统汉语文法还好,一扯上口语就复杂了,个人感觉汉语口语跟文字语法相差比较大,还有地域问题
“中国女排大败美国女排”,“中国女排大胜美国女排”

别说 AI 了,连“24 口交换机”、“java”……都未解决呢

按 @yuanxin1999 #14 思路再举个例子
“乒乓球拍卖多少钱”,99%汉语交流者都会理解主语是“乒乓球拍”,谓语是“卖”,但“乒乓球”+“拍卖”呢
Pin
2023-03-27 16:59:52 +08:00
@NoOneNoBody “中国女排大败美国女排”,“中国女排大胜美国女排” 试过了,翻译的没什么问题啊
LaurelHarmon
2023-03-27 17:01:26 +08:00
@NoOneNoBody 你的例子放 chatgpt 里试试不就行了,所有可能情况人家都给出了,这还只是 3.5
maggch97
2023-03-27 17:01:42 +08:00
@yuanxin1999 大模型要是连这种歧义都处理不了就不是大模型了。现在根本不需要做分词这种中间任务了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/927530

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX