怎么找出近似的汉字?

2019 年 3 月 14 日
 JCZ2MkKb5S8ZX9pq
8025 次点击
所在节点    程序员
67 条回复
vJianZhen
2019 年 3 月 14 日
建一个映射表,把所有近似字都录入进去
ymcj001
2019 年 3 月 14 日
@vJianZhen 足够暴力
x86
2019 年 3 月 14 日
参考下手写输入法
lastpass
2019 年 3 月 14 日
常用字就 3 千,
字型相似的汉字有限且不多。
直接映射。
简单粗暴还好用。
jingxyy
2019 年 3 月 14 日
没毛病,1 楼靠谱
danielmiao
2019 年 3 月 14 日
可以先对图片侵蚀和膨胀,最后对图片异或处理,简单的话就简单的判断 1 的比重用阈值处理,复杂就扔到神经网络,做一批训练样本,学习下
vJianZhen
2019 年 3 月 14 日
@ymcj001 汉字本来就少啊。楼主也没说具体需求。这种办法好得很
JCZ2MkKb5S8ZX9pq
2019 年 3 月 14 日
@vJianZhen 我就想问怎么建映射表
你说的方法手动一个个比?
JCZ2MkKb5S8ZX9pq
2019 年 3 月 14 日
@lastpass 我就是想问映射表哪儿来?
povvoq
2019 年 3 月 14 日
五笔?
ifxo
2019 年 3 月 14 日
没办法的,用嘴当然好做了
lastpass
2019 年 3 月 14 日
另外:别去分析图片。
直接通过区位码读点阵字库的点阵内容就好。
JCZ2MkKb5S8ZX9pq
2019 年 3 月 14 日
@lastpass 区位码我去看看哦
而且因为是找近似字,范围应该不限于常用字,而是常用的 unicode 大字库了,比如微软雅黑 /思源 /萍方的交集,差不多这个范围里找。
lastpass
2019 年 3 月 14 日
回复 @JCZ2MkKb5S8ZX9pq 搜索了一下。有对应的书籍。是否全面就不知道了。人工穷举也是个办法啊。比你花费时间去写程序跑出来结果更快更简单呀。
JCZ2MkKb5S8ZX9pq
2019 年 3 月 14 日
@lastpass 查了下
[GB 2312 - 维基百科,自由的百科全书]( https://zh.wikipedia.org/wiki/GB_2312)
16~55 区( 3755 个):常用汉字(也称一级汉字),按拼音排序;
56~87 区( 3008 个):非常用汉字(也称二级汉字),按部首 /笔画排序;
按拼音排序,好像并不适合用来做识别。
lastpass
2019 年 3 月 14 日
JCZ2MkKb5S8ZX9pq 非常好找。直接鄙视链最底端的百度文库都有。
https://m.baidu.com/sf_edu_wenku/view/35840bfebe23482fb5da4c04.html?re=view
ebingtel
2019 年 3 月 14 日
别用图片比较吧……每个汉字都有自己的笔画(网上很多开源的),感觉可以根据笔画向量来查找
JCZ2MkKb5S8ZX9pq
2019 年 3 月 14 日
@lastpass 人工穷举不太可能啊,字太多了,排序又不规则,两两比较就算只有 3000 个,这也太夸张了。况且很多近似字都是冷门生僻字,字库范围就不能按 3000 来算。
JCZ2MkKb5S8ZX9pq
2019 年 3 月 14 日
@lastpass 感谢提供的百度链接,但这个不大符合我的预期。
一方面近似度差了点,一方面不够量化,多近多远没个准。
JCZ2MkKb5S8ZX9pq
2019 年 3 月 14 日
@pkokp8 @ebingtel 我自己手机就用的笔划输入法,真的不行。
笔划是天上一脚地上一脚,差个位置差很远。
比如
[林] 横竖撇捺横竖撇捺
[扶] 横竖撇捺横横撇捺

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/544643

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX