现在文本分析技术发展到哪一步了？

2018-01-19 10:31:52 +08:00

ColinZeb

现在我们要做一些文章中提取数据和分段（提取目录），比如一篇合同。

提取出来的目录是

要提取出的数据是

这些只是举例，实际上可能会更多。

不知道现在什么技术能做到,正则表达式肯定不用想了，格式太乱，调试的时间和手工提取时间没差多少，再加上数据量很大，所以就没法考虑了。

听说 google 有个 tensorflow 项目，但是不太了解能不能做到。

请各位给点意见，或者说下招到能做到这样效果的技术人员薪资大概多少。

1753 次点击

所在节点

6 条回复

fengdra

2018-01-19 11:36:56 +08:00

现在的 NLP 技术很难理解语义，很多时候还不如手写正则表达式。
如果非要用的话，大概有两种方式。第一种是找人标数据来训练端对端的模型，一般也只是用 SVM 之类的传统模型，不需要非常多的数据。
第二种是用句法分析器之类的现成工具提取比较高级的特征，然后写规则。

ColinZeb

2018-01-19 11:51:43 +08:00

@fengdra 感谢指引我去查查

neosfung

2018-01-19 11:55:03 +08:00

同意一楼，除非这个任务的价值特别大，值得投资人力来标注语料库，否则还不如用正则来的快。
嫌正则慢，可以考虑一下新出来的 flashtext https://github.com/vi3k6i5/flashtext

ColinZeb

2018-01-19 12:23:50 +08:00

@neosfung 我不是嫌弃正则运行效率低，而是因为数据量太大而且规则不统一所以正则编写调试效率低

littlepanzh

2018-01-19 15:51:45 +08:00

takato

2018-01-19 16:00:32 +08:00

Attention+端对端。。
上面的方法好是好，可是。。。gap 了一个时代了啊。。。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.