求中文人名提取算法

2014-05-20 18:40:01 +08:00
 lwswanson
有V友研究过:基于海量数据的中文人名算法或者学习或参与过类似的开源项目呢?不胜感激!
2763 次点击
所在节点    问与答
1 条回复
Sunyanzi
2014-05-21 00:10:27 +08:00
刚好做过 ... 不过是自己摸索出来的完全不专业 ... 大概简单说下我当时的设计吧 ...

中文人名以百家姓开头 ... 那些不以姓氏开头的昵称一律无视 ... 不在百家姓内的姓氏无视 ...

中文人名最长三个字 ... 所以少数民族的朋友无视 ... 四个字的名字或者冠夫姓的名字无视 ...

中文人名很少用到某些字 ... 比如的地得 ... 我你他 ... 包含这些字的名字无视 ...

有了这三个原则 ... 接下来就是全文扫描了 ...

名字默认都是三个字 ... 第三个字在某个范围内的话视为两个字的名字这样 ...

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/113454

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX