关于快递信息提取,各位有什么思路吗?

2021-06-30 17:09:39 +08:00
 WhereverYouGo

需求:
1.从一个字符串中识别出用户的姓名、电话、省、市、区及详细地址。就是顺丰寄快递时用的功能。
2.字符串各个信息间没有任何标识符

例:
a.四川省宜宾市南溪区金鑫花园 1 栋 6 楼 16777778888 张三
b.张三四川省宜宾市南溪区金鑫花园 1 栋 6 楼 16777778888
c.四川省宜宾市南溪区金鑫花园 1 栋 6 楼张三 16777778888
从上面提取出以下信息:
姓名:张三
省:四川省
市:宜宾市
区:南溪区
详细地址:金鑫花园 1 栋 6 楼

例子中 a 最简单,找出手机号,前后分别去解析即可,但是 b 、c 比较困难,各位有什么思路吗?

1190 次点击
所在节点    问与答
10 条回复
MakeItGreat
2021-06-30 17:14:57 +08:00
大概 30 个省是固定的,并且没人重名,然后地址一般是连续的这样就能把地址搞回来了
gaozhy
2021-06-30 17:18:38 +08:00
jiaxin1121
2021-06-30 17:18:40 +08:00
Resource
2021-06-30 17:21:34 +08:00
Resource
2021-06-30 17:23:36 +08:00
百度的 NLP 和 3 楼发的项目,如果人名和地名重合,识别还是有些问题的
kop1989
2021-06-30 17:29:43 +08:00
关键词命中(手机号码、省市区县、姓)
人名和地名混淆的情况,则用省市关键词 + “号”、“门”、“3~5 位数字”等做地址与人名的切割。

恶意的将姓名和地址、电话混淆书写的情况不考虑。
WhereverYouGo
2021-06-30 17:39:36 +08:00
@MakeItGreat #1 怎么才能将地址和人名分开呢?
WhereverYouGo
2021-06-30 17:40:44 +08:00
@jiaxin1121 #3 这个我之前看了,字符串中不同信息是用分隔符分开的。没有啥参考性
WhereverYouGo
2021-06-30 17:41:59 +08:00
@Resource #4 这个看着还是用分隔符将不同信息分隔开了。。。我是要处理没有分隔符的数据
ijrou
2021-06-30 21:34:36 +08:00
如果是深度学习。。。那么要找的数据样本太多了,
还是用正则吧,,,
哦,没有完全绝对 100%匹配上的。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/786736

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX