如何从省市区县地名里面提取出最关键的名称进行地名匹配?

2022-05-12 18:05:19 +08:00
 xiyangzh

比如:高陵县和高陵区,其实是一个地区。 可是由于历史原因,我们的对接的客户,有些是高陵县,有些是高陵区 这样就会匹配失败。

有没有自然语言处理的方法能够提取出“高陵”呢?

另外:不要进行字符串截取,不可行,尤其是少数民族地区。

1411 次点击
所在节点    程序员
12 条回复
maocat
2022-05-12 18:12:27 +08:00
长沙县,长沙市
dzdh
2022-05-12 18:13:19 +08:00
感觉和 NLP 没关系。

如果单独说你的这两个地区,还是感觉字符串相似度就可以。

真要自动识别一定是有问题的,这跟市政规划还有关系,每个城市都有的 [高新区] 和 [高级技术产业开发区] 。

郑州的 高新区、二七区、二七新区、郑东新区
TimePPT
2022-05-12 18:19:04 +08:00
地名实体识别,市面上有很多这类接口。
itgoes
2022-05-12 18:21:11 +08:00
每个地区应该都有行政区域编码吧?如果是同一个地区行政区域编码应该相同
aaniao002
2022-05-12 18:51:58 +08:00
一般都是提取,显示,本人确认的流程。
Pythondr
2022-05-12 19:44:40 +08:00
brader
2022-05-12 19:56:25 +08:00
我们的解决办法是地区表的省级、市级地区整理新增了一个标准化简称 alias 字段,所有含智能化处理的地区业务,我们一般会使用 alias 字段去做。

alias 简称示例:
内蒙古自治区 内蒙
北京市 北京
景德镇市 景德镇
三沙市 西沙群岛
福建省 福建
documentzhangx66
2022-05-13 06:08:14 +08:00
为什么要专门提取出“高陵”?我觉得你们的最初需求是不是有问题?

另外,地理位置是一种多层次的父子关系,专门提取出“高陵”,相当于强行把每一层切开,这必然会导致父子关系的割裂。所以,你应该把你最原始的需求,给出来。
xiyangzh
2022-05-13 10:07:44 +08:00
@maocat 说的对,这种提取出来了还是无解。
xiyangzh
2022-05-13 10:08:23 +08:00
@brader 感觉可以解决问题,不错。
brader
2022-05-13 10:25:39 +08:00
@documentzhangx66 按我上面说的方案就不会,因为只是扩充一个字段,地区表原有的 level 和 pid 字段是依然存在的。

然后谈下工作量问题,只为省、市扩充这个字段工作量也不大,大概 400 多个省市吧,这个事情做下来,是一劳永逸的,相信以后项目会很多地方能利用到这个基础设施
foveal
2022-10-14 18:21:46 +08:00
尝试在做,太复杂了,省市不难,关键是区 /县一级

佳木斯市有个区叫郊区,哈尔滨有个平房区,内蒙古有个海南区,朝阳市 /北京朝阳区 /长春朝阳区

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/852467

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX