有没有从一段英文句子中提取出单词的 api?

2019-01-24 09:25:48 +08:00
 kisshere

比如一堆英文字符:adsokfjja asdffsa ffff iphone djkff walk dfasfasf

那么我就提取出 iphone 和 walk 这两个单词,有这方面的 api 吗?

2800 次点击
所在节点    程序员
14 条回复
tionsin
2019-01-24 09:29:28 +08:00
需求不明确
jrient
2019-01-24 09:33:12 +08:00
按空格切割字符串,然后找个翻译软件的 api,逐词翻译。无释义的多半不是单词。
应该不难,自己搞个。
TimePPT
2019-01-24 09:34:12 +08:00
从牛津高阶啊朗文之类的词典里整理个词表也就几十万单词,源数据整理完 uniq,硬匹配就行。对未匹配到的词只能人工查找
xmai
2019-01-24 09:35:23 +08:00
结巴分词
zzzzzzZ
2019-01-24 09:36:21 +08:00
阿里云-数据智能-自然语言处理

不过我没用过,NLP 相关的定制化程度都太高了,很难有适合大部分人的接口
grac
2019-01-24 09:36:27 +08:00
congeec
2019-01-24 09:44:10 +08:00
如果你用 osx,我做了个系统自带补全的 python 接口
https://github.com/Congee/SpellChecker

如果你不关心单词各种变形,也不关心性能,也就一行命令的事儿
$ echo walk eat | tr ' ' '\n' | xargs -I{} -P4 grep \^{}\$ /usr/share/dict/words
eat
walk
还是并行的
congeec
2019-01-24 09:44:51 +08:00
说白了就是查表
Sylv
2019-01-24 09:49:27 +08:00
英文词识别可以用 enchant / pyenchant:
https://github.com/AbiWord/enchant
https://github.com/rfk/pyenchant
Trim21
2019-01-24 10:50:20 +08:00
找个词典查表吧
wxl1380610
2019-01-24 10:57:01 +08:00
solr ?
vipppppp
2019-01-24 12:03:11 +08:00
我竟然看不懂 lz 表达什么意思。。
mscb
2019-01-24 12:36:18 +08:00
结巴分词加词典查表
lastpass
2019-01-24 12:45:27 +08:00
简单点就直接使用各种分词插件或者正则硬匹配。
进阶点就手撸词法分析器或者使用如 antl,拆分出 token 来就 OK。
→_→这是计算机基础啊。编译原理的最简单的词法分析。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/530058

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX