gpt-3 通过区区 30w 篇文章就掌握了汉语。。。。

2023-02-20 17:42:28 +08:00
 lambdaq

https://github.com/openai/gpt-3/tree/master/dataset_statistics

类别 语言 数量 比例
文章数量 en 235987420 93.68882%
文章数量 zh 292976 0.11631%
字数 en 1051665177484 92.09864%
字数 zh 1828425488 0.16012%
词数 en 181014683608 92.64708%
词数 zh 193517396 0.09905%
3042 次点击
所在节点    OpenAI
4 条回复
vektor
2023-02-20 19:59:26 +08:00
https://raw.githubusercontent.com/openai/gpt-3/master/175b_samples.jsonl
搜样本中的中文有惊喜,简中互联网的含金量
yuhuan66666
2023-02-20 23:11:35 +08:00
@vektor #1 你说的是 搜了个 “美”字 第三个 嗯 低俗广告 😂
lambdaq
2023-02-20 23:46:49 +08:00
@yuhuan66666 蚌埠住了。23333
lambdaq
2023-02-20 23:50:24 +08:00
https://twitter.com/janleike/status/1625207251630960640

openai 的人也不明白为啥英语学会了,其他语言就一通百通。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/917704

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX