关于顺丰的智能拆分地址,请教如何实现的?

2017-09-29 17:43:23 +08:00
 v9ex
在微信直接复制姓名,手机号码,收件地址,系统可以智能的把他们都区分出来,在测试当中,使用了几种方法,拆分都很准确,是否有了解这块的朋友,详细介绍下,

1、手机号姓名地址中间无任何分割号,逗号,回车等,可以拆分
2、手机号姓名地址无前后顺序,可以拆分

14295 次点击
所在节点    问与答
24 条回复
jadec0der
2017-09-29 17:50:38 +08:00
ipconfiger
2017-09-29 17:54:20 +08:00
简单点的可以用结巴分词来实现, 先分词, 然后区分词性, 针对地址这类你可以先用全国行政单位数据库来构建一个结巴的词库, 姓名也是, 电话号码什么的最容易识别, 可以单独提前提取出来
movistar
2017-09-29 17:59:07 +08:00
不需要通过分词解决这种问题
实际上这是一个可穷举的场景
省市县乡街道数据都是现成的,直接穷举即可,从高到低的范围依次向下匹配
QAPTEAWH
2017-09-29 18:11:55 +08:00
也可能是请了很多初中生...
v9ex
2017-09-29 18:16:22 +08:00
@ipconfiger 谢谢,去研究下

@jadec0der 大方向?

@movistar 但是省市区实际上相互中间都有重名的,比如广东省,排除省这个字,还有市区里面也有广东字样的


@QAPTEAWH 请教下初中生的费用 /条
v9ex
2017-09-29 18:22:58 +08:00
@ipconfiger 非常感谢,已经解决
govtoex
2017-09-29 18:25:53 +08:00
为啥我首先想到的是正则...
kdwycz
2017-09-29 18:34:42 +08:00
还有个思路是调用地图的 API,搜索结果就是格式化的数据
kdwycz
2017-09-29 18:35:47 +08:00
名字电话的话= = 电话很好识别出来,名字一般和电话离得很近。。。吧(粗略思路)
takato
2017-09-29 19:25:27 +08:00
深度学习兴起以后的 NLP,大致上可以认为,词性分析其实是一个降低准确率的行为。。。

现在的姿势都是如下的:
给字编 ID,变成字典
将一句话变成一串数字放进模型,指定好每一组数据正确的结果
训练

然后对输入的数据做预测就可以了,相对来说还会比不分词的准确率高一些。
virusdefender
2017-09-29 20:08:01 +08:00
其实是有个人在后台帮你拆分开的
jadec0der
2017-09-29 23:18:03 +08:00
如果是人工做的话差不多一毛一条吧,不过响应时间只能做到秒级了 →_→
kevinzhwl
2017-09-30 01:20:40 +08:00
@v9ex 这个穷举应该是有一定条件限制的,比如第一个是省级行政单位,最多是地级市,而且你输入的地址分段的个数已经暗示了第一个是省级,然后后面的会在这个限制下继续查找,也就可以大部分排除了重名的情况
v9ex
2017-09-30 09:29:36 +08:00
@kevinzhwl 但是很多用户输入地址,不填写省市区几个字的,三级应该都有重名的现象
lixile
2017-09-30 09:39:29 +08:00
我来吐槽一下 之前咸鱼上的发货信息复制出来是带 收件人:XXX 的
结果 居然不能识别出收件人是谁 我表示 差评!
kevinzhwl
2017-10-01 10:47:40 +08:00
@v9ex 单纯看 3 级是有重名的,但基于 1,2 级的 3 级是没有的。地址库 /表一般都是树形结构存放,有分级、上下关系等内容的
1GB
2017-11-02 20:10:01 +08:00
@v9ex 你好,想请教下最后你们拆分地址是什么做的呢
v9ex
2018-05-03 11:20:22 +08:00
@1GB 结巴解决方案不是很完善,继续跟进
kaiser1992
2018-11-01 15:04:22 +08:00
有能把方案详细阐述一下的吗
eijnix
2018-11-24 17:43:56 +08:00
能说下最后是怎么做的么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/394656

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX