解析短文本的需求和现有工具

2020-09-20 06:51:44 +08:00
 clockwise9
最近对 NLP parsing 问题很感兴趣,想做一套短文本解析的工具,输入一个短文本(往往是一个单元格内容),输出一个像对更加结构化的表示,比如豆瓣里电影《信条》的上映时间是 “2020-09-04(中国大陆) / 2020-08-26(英国) / 2020-09-03(美国)”,可以首先拆分成三个并列的元素,每个元素都是一个日期加上一个限定词,比如第三个元素是日期 “2020-09-03” 加上一个限定词“美国”。

为了避免无脑做出来再拿着锤子找钉子,想先调查一下,各位在工作或者个人项目中是否会有类似的需求,比上述例子简单或者复杂都可以。如果已经有相关解决方案的话,大致是如何实现的(比如手写代码规则,或者基于一些已有工具定制,或者直接外包)。
2148 次点击
所在节点    奇思妙想
12 条回复
noqwerty
2020-09-20 07:55:32 +08:00
看上去像是 named entity recognition 的范畴?
TimePPT
2020-09-20 08:59:57 +08:00
你这不就是知识图谱三元组抽取么……
clockwise9
2020-09-20 09:17:52 +08:00
@noqwerty 可能有若干个命名实体,还有日期和数字等。更重要的是分析结构而不只是定位实体。
clockwise9
2020-09-20 09:20:42 +08:00
@TimePPT 是的,最初想到这个问题就是因为抽取三元组的需求,所以还想了解一下有没有别的使用场景。
TimePPT
2020-09-20 09:43:42 +08:00
@clockwise9 了解,那基本上数据结构化的需求都能顺带做了
clockwise9
2020-09-20 16:12:38 +08:00
@TimePPT 有哪些数据结构化的使用场景呢?求指教一二。
TimePPT
2020-09-20 16:19:43 +08:00
@clockwise9 很多吧,文本摘要抽取,非结构化数据的结构化都需要类似 NLP 能力。建议多看看文章综述之类的,不用着急做锤子。
tanszhe
2020-09-20 19:49:31 +08:00
文本解析已经比较成熟了也比较简单,你可以往图像识别方向看看,基本还是原始社会
relic
2020-09-21 11:30:34 +08:00
@tanszhe 要是很成熟就不会有那么多的人工智障了。
clockwise9
2020-09-23 04:06:00 +08:00
@tanszhe 感谢建议,可惜我只做过文本,没做过图像。。。
clockwise9
2020-09-23 04:09:15 +08:00
@TimePPT 最近看过一些关于 dependency parsing 和 constituency parsing 的文章,感觉挺受启发。综述的话,可以求个关键词么?我去学习一下 :)
clockwise9
2020-09-23 04:15:53 +08:00
@relic 哈哈是啊,我觉得 NLP 领域的工业级工具链还有发展空间,毕竟总不能等着学界大佬来放低身段拯救我们

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/708681

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX