V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  keepRun  ›  全部回复第 18 页 / 共 22 页
回复总数  432
1 ... 10  11  12  13  14  15  16  17  18  19 ... 22  
248 天前
回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
@SZhan 你要是想了解我的那种算法,可以加我微信 https://i.imgur.com/6baHKnp.png

不过我感觉你这个是业务问题,不管算法怎么提高,总会有错误情况发生,这个问题应该在业务层面能够容忍并有改进措施,比如:信息错误了,有人看到了可以纠错,然后人工审核或者啥其它方式
248 天前
回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
@SZhan 我以前做快递地址识别处理方式是按我那种算法,省识别完了就把对应字符串删除,以此类推,最终剩下来的就是客户最终留下的可能某某超市附近这样的详细地址
249 天前
回复了 fxxcsc 创建的主题 Chrome Chrome 怎么更便捷的打开书签?
快捷键:ctrl shift o
249 天前
回复了 vulgur 创建的主题 程序员 独立开发周记 #32:沮丧的一周
赞美 op
249 天前
回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
@iOCZ 可以解决,我说的省市县你不会以为就不包括街道吧,省市县代指三级地址结构,要想四、五级都可以,而且地址可以缺失。
我指出问题有啥不对?你这说话态度能不能好点
249 天前
回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
@Andrue 单个正则无法处理复杂的地址情况,而且即使写出来也会太复杂;写个匹配算法会更清晰易懂,性能也好
249 天前
回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
@Archeb 没必要用到人工智能,而且人工智能太耗算力了
249 天前
回复了 SZhan 创建的主题 Java 如何从一段自然语言中识别地址信息?
模仿这个代码来写,我以前是把这个代码改成 java 版,然后加入很多我们的业务逻辑,这个代码并不是最完美的: https://github.com/wzc570738205/smartParsePro

我以前做过地址识别这块,当年给拼多多的几十万商家提供了地址解析接口用于快递地址识别(同时识别出姓名、手机号、地址的省市县),以前做过这个接口每天都有上百万调用。
首先,这个功能很坑爹,属于是难以做到完美,只能相对完美,识别也有准确率问题,可能识别错误,因为以下原因:1. 一年内总会有一些地方地名会改变 2. 有些地名有别称 3. 用户填写地址可能会少写省市区中任意几项 4. 用户输入的地址可能有缺漏,比如上海市漏写了市。

我自己做这块是自己模仿上面的 github 代码自己写了一版新的算法,可以实现地址缺漏、地名少字的情况下依然识别。
我给你解释下我的算法原理:
首先一定要建立数据库存储全国所有省市县的名称,以及上级单位,杭州市有个 parent_id 指向浙江省,浙江省的 parent 是全国,必须有个字段记录别名,例如:杭州、杭州市都是同一条记录。
然后针对地址从左到右先匹配省再匹配市再匹配县,匹配过程是从字符串去头 1 个字符、头两个字符,以此类推,在里面 contains 省,然后针对所有匹配出来的省做筛选( github 仓库中的筛选算法), 筛选出匹配的省后要把匹配出省的那个字符串删除,防止极端情况下省名影响到市名的匹配,以此类推继续匹配下级地址。

如果你需要缺省或者缺市的情况下匹配,其实就建立一个 set 作为候选待匹配地址,例如缺省时,匹配市就相当于把全国所有省下面的市都加入这个候选名单。

地址解析是个麻烦活,地址数据必然要不断更新的,如果只是演示或者流量比较小也许可以糊弄下,必然存在地址解析错误的情况,因此一定要针对地址解析错误有相应的处理方式。
255 天前
回复了 cbdyzj 创建的主题 Java Java 21 今日 GA,有虚拟线程(协程)
java11 已经不少公司在用了,别再 java8 了
即使这样的 cpu ,我不用 graalvm 编译也就十几秒
骑行裤一定要,坐久了屁股痛
269 天前
回复了 keepRun 创建的主题 程序员 2023 年,你们读了哪些技术书籍,推荐下
@SimonOne 这是要备战么
269 天前
回复了 keepRun 创建的主题 程序员 2023 年,你们读了哪些技术书籍,推荐下
@q474818917 推荐些技术书籍,大家都是程序员,其它领域的书先放一放
如果你是学生的话,如果是初学,建议先从实践性较强的书籍开始学,先去动手,学计算机一定要多动手。
我认为比较合适的学习一个领域的学习方法是:
前期先看实践性比较强的书籍,适合入门阶段。
后期适合看理论性相对多点的书籍,适合有一定基础后看。
看的过程中,如果某个知识点不懂,就去 CSDN 、掘金、知乎、B 站等搜索相关内容补充知识,然后继续。
与此同时,我建议刷书,针对某个领域,我一般至少挑 3 本书,遇到不懂的可以先跳过或者换本书,这样保证自己对这个领域认识比较全面。

这个学习方法我认为适合学习大部分领域。

读书最关键的是要看懂,如果一本书让你看得一点都看不懂,先得去补齐前置知识。
就像面试一样,你跟面试官解释你以前做了啥时,其实面试官完全不知道你之前在公司的情况,因此面试时无比把面试官当成一无所知的人,用大众容易懂的话来表达。
你想想自己写的文章是给对这个领域一无所知的人看,再审视哪些地方最容易引起疑惑。一般来说举个例子会降低理解难度,另一方面,你可以搜索下自己这个领域的一些博客,看别人是怎么讲解的。
283 天前
回复了 tftk 创建的主题 知乎 知乎早期的那批创作者都去哪里了呢?
社区劣化是个永恒的问题,本质上就是熵增,对抗这种熵增就是不断投入资源去抵抗
@guangming3055 我有种感觉,如果 poe 未来模仿你的功能,你怎么防御? poe 很容易就能模仿出你的功能
你们采用的是一种全新的模式去打造社区,传统的审核模式不一定有效,可能得探索出一条新技术下的对抗社区劣化的手段
@freekindom 是的,我大致了解过从猫扑到如今各大社区平台,社区劣化确实不可避免,这本质是一种信息熵增,因此都会有相应的审核措施来抑制劣化
ACM 会员有啥好处?
1 ... 10  11  12  13  14  15  16  17  18  19 ... 22  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2254 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 97ms · UTC 04:48 · PVG 12:48 · LAX 21:48 · JFK 00:48
Developed with CodeLauncher
♥ Do have faith in what you're doing.