请教提取英文短语都有哪些库或者思路?

2018-02-04 13:31:59 +08:00
 ioven

"I opened the box to see my phone , only to find a happy birthday card with 20 dollars in it"

希望能提取到 "happy birthday card", "happy birthday" 这种短语

3004 次点击
所在节点    问与答
2 条回复
zix
2018-02-04 15:41:05 +08:00
几个思路:

1. 利用句法分析,找句中的紧密连接的成分,比如说名词短语、动宾短语等,试试 Stanford NLP 的工具,这里有个 demo: http://nlp.stanford.edu:8080/corenlp/process

2. 利用词性标注,以及人工设计的语法规则,来抽取,比如说:(动词:VN) + [形容词:ADJ + 名词:NOUN],就把后面的 [形容词:ADJ + 名词:NOUN] 的部分抽取出来。如果要抽取的短语比较简单或者不想做句法分析(相对较耗时),可以试试这种办法

3. 利用信息熵、互信息的手段,挖掘共现比较多的词作为短语,这个适用于你有比较多的数据而且内容所在的领域比较集中的情况。
ioven
2018-02-05 13:08:25 +08:00
@zix 多谢,去试试看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/428334

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX