如何获取一个句子的拼音

2013-08-23 12:03:51 +08:00
 YUCOAT
情况是这样的:

这里有一个大小约0.5个G的一个纯文本文件。
该纯文本文件每一行保存的都是一句话,并且该文件中无重复的话。一句话内部只有简体汉字,无标点符号、无空格、无英文、无繁体字等等


现在我需要为这个文件里面每一句话弄一行拼音,并且将拼音存入另外一个文件中,行号一一对应,请问我该怎么做?

拼音是全拼,且无声调,无空格,需要考虑多音字。

比如:zheyihangdiquebuxing(这一行的确不行)
4045 次点击
所在节点    程序员
10 条回复
levon
2013-08-23 12:10:59 +08:00
http://www.microsoft.com/zh-cn/download/details.aspx?id=18970
这有一个,是.net的类库

汉字有很多多音字,要完全准确感觉挺难
qdvictory
2013-08-23 12:19:58 +08:00
通常都是扒一码表,然后跑一下

https://gist.github.com/qdvictory/6315510
qdvictory
2013-08-23 12:21:23 +08:00
汗,我理解错了,sorry- -
qdcanyun
2013-08-23 12:37:06 +08:00
leiz
2013-08-23 12:45:29 +08:00
python有中文文字转拼音的库,不过效率不清楚
200
2013-08-23 12:56:06 +08:00
要做准确的话 就要分词 不然多音字会有问题
felix021
2013-08-23 13:32:53 +08:00
顶@200 。汉字转拼音的数据和代码很多,但是搞不定多音字,前面的那些回答都没啥用。要解决多音字,必须从语义层面入手。分词是一个比较好的方法,但是最终的实现还是需要一个"词语->拼音"的数据库,这个貌似不太好找。
wuxqing
2013-08-23 13:53:50 +08:00
@felix021 对,关键是“词语->拼音”的数据库
kittenll
2013-08-23 14:56:30 +08:00
利用自然语言统计模型处理,可以很好的处理多音字的问题。比如HMM(隐马尔土科夫模型)。如果计算资源足够的话,可以使用n>2,不然使用n=2就可以了。
YUCOAT
2013-08-23 15:25:13 +08:00
@kittenll 你提出的想法是最有用的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/79974

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX