有个问题我始终没有弄明白，如 claude 这样的模型，中国大陆 IP 不能访问

那他为啥对中文支持还挺好，而且中文的回答并不比国内模型差呢？

既然不让中国人用（甚至港澳 IP 也用不了），为何搞简体中文版本？

难道是为了海外华人特别是还用简中的人使用的吗？那才有多少人啊，数量级也就百八十万吧。

还是说这 AI ，在训练或推理时，对于多一种语言支持，其实并不费什么事儿？

还有就是到底是中国想用而不得，还是 GFW 也墙了 claude ，这个有懂的吗

模型

中文

访问

33 replies • 2026-05-21 14:49:37 +08:00

aes114514gcm

1h 37m ago

google 的大部分业务中国大陆也用不了，为什么还要做简体中文的本地化呢？

capric

1h 37m ago

用中文预料训练啊

mytsing520

PRO

1h 36m ago

1.境外华人华侨，使用中文，并且使用简中的比重在逐渐增大；
2.境内，用中转站喂养大模型的中文能力；
3.没法用是双向奔赴，对面既不想给中国用，中国也不想让这个东西因为不受控而在国内用途广泛，参考 Google 。

jaoyina

1h 35m ago

大模型的训练资料包括整个互联网，理所当然包括各种语言的互联网资料，没必要特别去排除吧。

idblife

1h 35m ago

你这是小看海外华人数量了
你可以问问 claude 海外有多少人使用简体中文

junoho

1h 35m ago

还有新加坡，马来西亚也是用简体

zhaiyuxin103

1h 34m ago

只能说 claude 模型强，并不是对于中文的回答强
市场这里的话，感觉就是中国市场大都想试试，不想斩钉截铁的直接放弃，但是不知道 A\ 的 CEO 怎么想的，自己的猜测拙见

bzkmsjy

1h 28m ago via Android

因为需求的人少就不用理会，这种思想是很可怕的，或许这也是国内软件无障碍如此糟糕的原因之一吧。

1h 28m ago

感觉楼主就是揣着明白装糊涂，这种帖子都月经了

ndxxx

1h 27m ago via Android

两个冷知识：

1. 「简体中文」不仅仅在我国被广泛使用。

2. 「简体中文」/「简化字」不是你裆的创造发明。

intoext

1h 25m ago

@nc 真不是装糊涂，虽然上面大家的回答我也能猜出一二三--不然不配在 v2 混了，但是主要还是想印证一下。并且 google 有中文版，也是历史原因，一开始中国大陆是允许 google 运营的。但是 A\的东西明显不是，一开始就有“歧视”中国大陆的意味在。

cppc

1h 25m ago

中国不能用是政策问题，模型支持中文语料是技术问题。哪天政策变了，重头训练模型？

1h 20m ago

@intoext 国外 AI 公司都被 GFW 墙了，普通人压根用不了，能在国内直连的都不是普通人，主动屏蔽中国 IP 防的就是这些奉旨翻墙的，我觉得这是件好事。

106npo

1h 18m ago

如果你真的是想讨论大模型训练
那结论是多支持一个语言并不需要太多语料

crysislinux

1h 16m ago via Android

虽然海外华人多，但是我感觉中文比当地语言好的人比例不大吧。

leglo

1h 13m ago

@nc #13 这说法就有点不客观了，美国的 AI ，受限于美国法律，就是不能为中国，包括香港提供服务，香港总没有 gfw 吧，不也一样不能直接用。

zfyime

1h 11m ago

你说百八十万我都想笑真是没概念啊

jiangzm

1h 11m ago

任何技术都要在党的指导下开展工作，大模型也不例外。没有内容过滤的大模型岂不是洪水猛兽，使不得使不得。

Duolingo

1h 10m ago

就是拿你的数据训练，然后不给你用，你能咋地 doge 。

A\还切了不少实体书用来训练，我相信其中肯定有珍贵的版本无了。

从表面上看，毕竟和军方有着合同关系，不给用也是正常操作。

diudiuu

1h 8m ago

他的网站还有 app 始终没有简体中文，人家不给用

ntdll

1h 6m ago

以我浅薄的基础，LLM 对于语言的支持并不困难，主要还是在 Tokenization 阶段，训练阶段语料少的语种需要更多的 token 才能达到相同的效果。

ndxxx

1h 2m ago

@ndxxx 既然楼主号称自己不是在装糊涂，那么我就稍微认真的回答一下。简单来说就是机器/AI 翻译的能力或者说模型的能力进化了：

1. 早期的统计机器翻译和早期神经机器翻译，很多时候是按语言对训练的：A 语言 ->B 语言； B 语言 -> C 语言； A 语言 -> C 语言。此时如果没有足够的“泰语 ->冰岛语”双语平行语料，那么就会引入 pivot language：泰语 -> 英语(pivot) -> 冰岛语

2. 现代 LLM 早已不需要显式 pivot ，是因为它不是简单的 A 语言词句映射到 B 语言词句，而是在一个统一模型里学到了很多语言和知识之间的关联。这个“跨语言迁移”的能力，底层机制就是常说的共享语意空间 shared semantic space 。