那他为啥对中文支持还挺好,而且中文的回答并不比国内模型差呢?
既然不让中国人用(甚至港澳 IP 也用不了),为何搞简体中文版本?
难道是为了海外华人特别是还用简中的人使用的吗? 那才有多少人啊,数量级也就百八十万吧。
还是说这 AI ,在训练或推理时,对于多一种语言支持,其实并不费什么事儿?
还有就是到底是中国想用而不得,还是 GFW 也墙了 claude ,这个有懂的吗
那他为啥对中文支持还挺好,而且中文的回答并不比国内模型差呢?
既然不让中国人用(甚至港澳 IP 也用不了),为何搞简体中文版本?
难道是为了海外华人特别是还用简中的人使用的吗? 那才有多少人啊,数量级也就百八十万吧。
还是说这 AI ,在训练或推理时,对于多一种语言支持,其实并不费什么事儿?
还有就是到底是中国想用而不得,还是 GFW 也墙了 claude ,这个有懂的吗
1
aes114514gcm 1h 37m ago
google 的大部分业务中国大陆也用不了,为什么还要做简体中文的本地化呢?
|
2
capric 1h 37m ago
用中文预料训练啊
|
3
mytsing520 PRO 1.境外华人华侨,使用中文,并且使用简中的比重在逐渐增大;
2.境内,用中转站喂养大模型的中文能力; 3.没法用是双向奔赴,对面既不想给中国用,中国也不想让这个东西因为不受控而在国内用途广泛,参考 Google 。 |
4
jaoyina 1h 35m ago
大模型的训练资料包括整个互联网,理所当然包括各种语言的互联网资料,没必要特别去排除吧。
|
5
idblife 1h 35m ago
你这是小看海外华人数量了
你可以问问 claude 海外有多少人使用简体中文 |
6
junoho 1h 35m ago
还有新加坡,马来西亚也是用简体
|
7
zhaiyuxin103 1h 34m ago
|
8
bzkmsjy 1h 28m ago via Android 因为需求的人少就不用理会,这种思想是很可怕的,或许这也是国内软件无障碍如此糟糕的原因之一吧。
|
9
nc 1h 28m ago 感觉楼主就是揣着明白装糊涂,这种帖子都月经了
|
10
ndxxx 1h 27m ago via Android 两个冷知识:
1. 「简体中文」不仅仅在我国被广泛使用。 2. 「简体中文」/「简化字」不是你裆的创造发明。 |
11
intoext OP @nc 真不是装糊涂,虽然上面大家的回答我也能猜出一二三--不然不配在 v2 混了,但是主要还是想印证一下。并且 google 有中文版,也是历史原因, 一开始中国大陆是允许 google 运营的。但是 A\的东西明显不是,一开始就有“歧视”中国大陆的意味在。
|
12
cppc 1h 25m ago
中国不能用是政策问题,模型支持中文语料是技术问题。 哪天政策变了,重头训练模型?
|
14
106npo 1h 18m ago
如果你真的是想讨论大模型训练
那结论是 多支持一个语言并不需要太多语料 |
15
crysislinux 1h 16m ago via Android
虽然海外华人多,但是我感觉中文比当地语言好的人比例不大吧。
|
17
zfyime 1h 11m ago
你说百八十万 我都想笑 真是没概念啊
|
18
jiangzm 1h 11m ago
任何技术都要在党的指导下开展工作,大模型也不例外。没有内容过滤的大模型岂不是洪水猛兽,使不得使不得。
|
19
Duolingo 1h 10m ago
就是拿你的数据训练,然后不给你用,你能咋地 doge 。
A\还切了不少实体书用来训练,我相信其中肯定有珍贵的版本无了。 从表面上看,毕竟和军方有着合同关系,不给用也是正常操作。 |
20
diudiuu 1h 8m ago
他的网站还有 app 始终没有简体中文,人家不给用
|
21
ntdll 1h 6m ago
以我浅薄的基础,LLM 对于语言的支持并不困难,主要还是在 Tokenization 阶段,训练阶段语料少的语种需要更多的 token 才能达到相同的效果。
|
22
ndxxx 1h 2m ago @ndxxx 既然楼主号称自己不是在装糊涂,那么我就稍微认真的回答一下。简单来说就是机器/AI 翻译的能力或者说模型的能力进化了:
1. 早期的统计机器翻译和早期神经机器翻译,很多时候是按语言对训练的:A 语言 ->B 语言; B 语言 -> C 语言; A 语言 -> C 语言。此时如果没有足够的“泰语 ->冰岛语”双语平行语料,那么就会引入 pivot language:泰语 -> 英语(pivot) -> 冰岛语 2. 现代 LLM 早已不需要显式 pivot ,是因为它不是简单的 A 语言词句映射到 B 语言词句,而是在一个统一模型里学到了很多语言和知识之间的关联。这个“跨语言迁移”的能力,底层机制就是常说的共享语意空间 shared semantic space 。 |
23
JiMuChan 37 mins ago
盲道、无障碍设施根本就没几个人用,干嘛还要建设呢
|
24
ixcode 36 mins ago
因为大(语言)模型最擅长的就是搞语言,不管是中文英文这样的自然语言,还是 java python 这样的编程语言,都是 LLM 最擅长的内容,也是对翻译和编程这两个领域带来最大的革命性的原因
|
25
XenoGear 33 mins ago
谷歌有全世界的数据,中文语料实际上比中国绝大多数团队都强,而且真洗数据不会分那么细的,到底洗不洗某个语言的数据,尤其网页数据很多就是中英混杂的
|
26
jonty 29 mins ago
你先明确一下,他们实际上不是针对中国人,是针对中国地区...
|
27
94 22 mins ago
@intoext #11 ,那就从你这个角度出发延展。虽然 A\ 有点魔怔,但也只是因为当前政治环境下 PRC 是对立面。可以理解为是“敌意”,并不是“歧视”。如果政治环境变化了就不一定还是对立面了。
|
28
dyvdy 18 mins ago via iPhone
非中国大陆,会讲中文的华人应该就有 5000 万以上,台湾 2300 万,香港 700 万,马来西亚 700 万,新加坡 300 万,美国 300 万+,再加上其他国家零零散散的移民,市场已经挺大了吧…
|
30
lmmlwen 11 mins ago
可以看看 Anthropic 首席科学家的采访,对中国或者“共产主义”的看法
|
31
docx 11 mins ago via iPhone
Cladue 本来就没支持中文,你可以去 web 设置里看有哪些语言。至于语料是中文,这是另外一回事。
|
32
urlk 10 mins ago
claude api 文档是有中文的, 反观 OpenAI 的却没有
|
33
zzutmebwd 1 min ago
Anthropic ( Claude 开发团队)的核心技术与研究团队中,华人或华裔比例大约在 16.4% 至 20% 之间。
|