翻译软件是怎么根据拉丁字母判断何种语言的?

2022 年 2 月 8 日
 stx0821

好像很多种语言都只使用 26 个拉丁字母,那是怎么根据拉丁字母判断何种语言的? 比如下面这句话不知道什么语言,但翻译软件确可以准确翻译出来

Por favor anuncien algo acerca de el lanzamiento global
2226 次点击
所在节点    问与答
4 条回复
eastpiger
2022 年 2 月 8 日
https://github.com/dsc/guess-language

Based on guesslanguage.cpp by Jacob R Rideout for KDE which itself is based on Language::Guess by Maciej Ceglowski. Original repo is at Google Code; repackaged with package metadata here.


东亚语言之类,可以用 unicode 分区判断字符,拉丁类的语言,直接搜常见组合,比如德语的白名单: https://github.com/dsc/guess-language/blob/master/guess_language/trigrams/de
jiezhi
2022 年 2 月 8 日
统计学吧
jr55475f112iz2tu
2022 年 2 月 8 日
理论上现在翻译软件多多少少都会用到算法
那就可以识别语种了吧
wdlth
2022 年 2 月 8 日
可以通过 N-grams 去判断,大多数 NLP 工具都是这样。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/832429

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX