让人崩溃的需求!从网页中爬取地址信息, Java

2018-09-29 15:49:51 +08:00
 Yohann97

我现在的做法,用 jsoup 去标签,然后在得到的字符串里面找地址

可是!!! 地址没什么规律啊

有的在一个标签里,有的在多个标签里,还有的中间有逗号

无语。。。。。

所以大佬们有什么建议能帮帮我这只小菜鸡么

示例: 湖北省武汉市武昌区东湖西路特 2 号平安财富中心(东湖大厦正对面) B 座 7 楼 桂林市公共资源交易中心 4 号 柳州市柳江新城区,北接柳江大道(原堡隆路),南至南一路(原广场北路) 江苏省淮安市高教园区科技路 山东省淄博市张店区北西五路 68

3040 次点击
所在节点    问与答
26 条回复
arerec
2018-09-29 18:29:28 +08:00
用一些自然语言处理的 命名实体识别的轮子,提取地址类的实体
ClutchBear
2018-09-29 18:30:16 +08:00
ClutchBear
2018-09-29 18:32:56 +08:00

贴图再试试
Yohann97
2018-09-29 19:28:06 +08:00
@xycool 嗯嗯,不太懂这些,刚刚看了下,对于这种 cms 发布的东西有什么好的处理方法么
ccnccy
2018-09-30 00:04:53 +08:00
看你两个网址爬
址: 后面的信息不就行了
Yohann97
2018-09-30 00:15:04 +08:00
@ccnccy 哈哈,思路清奇,早点睡,明天去试试。不过存在 地址冒号空格加分段地址的情况

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/493876

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX