怎么找出近似的汉字？

想找出笔划差别细微的汉字。
比如 [余] 和 [佘] ， [茶] 和 [荼] 。
一种思路是在给定字体下，渲染成固定尺寸的图片，然后 bitmap 比较汉明距离。
但这样碰到偏旁缩放的字可能会误判，比如 [侯] 和 [候] 。
python 下有啥现成的轮子嘛？
或者大家还有啥别的思路嘛？

JCZ2MkKb5S8ZX9pq

2019 年 3 月 14 日

@pkokp8 @ebingtel 打错了是 [枎]

tyrealgray

2019 年 3 月 14 日

介意问一下楼主打算做一个什么系统用于哪方面吗？

dorentus

2019 年 3 月 14 日

http://lars.yencken.org/datasets/phd/

JCZ2MkKb5S8ZX9pq

2019 年 3 月 14 日

@tyrealgray 我在 append 里补充了一下

shyrock

2019 年 3 月 14 日

可以用字型输入法的编码来比较吧，比如五笔。

gliyechen

2019 年 3 月 14 日

1 楼方法不是挺好的嘛还可以用在不同字体

lneoi

2019 年 3 月 14 日

如果说找相近汉字, 不能只在常用汉字表里面互相比对吧,还得看异体字,国外汉字什么的?

xml123

2019 年 3 月 14 日

http://www.matrix67.com/blog/archives/2907

across

2019 年 3 月 14 日

除了暴力计算（感觉 CUDA 派上用场了？），估计只能靠输入法收集用户数据了.

做好了估计还能当个商业库呢~~

jdhao

2019 年 3 月 14 日

计算图像相似度？(一个猜想，不一定对

tusj

2019 年 3 月 14 日

我一直好奇十几年前流行的火星文字，是怎么搞出来的。
有没可能用它来做混淆？

c4f36e5766583218

2019 年 3 月 14 日

按一定规则，混淆文字，以最小影响阅读体验的代价，做内容保护和溯源???
按你这方法混淆了那文章含义不是变样了？句子不通了啊~

hdjs5264

2019 年 3 月 14 日

emmmm，你这需求不就是火星文？

glacer

2019 年 3 月 14 日

能否拿到汉字的像素值？比如在 8x8 的矩阵中，空白点像素为 0，笔画点像素为 1，得到一个 64 位的向量。然后通过一些相似度算法计算即可。

nccer

2019 年 3 月 14 日

火星文?

rekulas

2019 年 3 月 14 日

直接导入深度学习文字识别库，准确率>60 的就是

mxtob

2019 年 3 月 14 日

之前在思否看过一个解答。用 gd 库绘画需要 2 个比对文字，然后用图片相似度算法

JCZ2MkKb5S8ZX9pq

2019 年 3 月 15 日

@c4f36e5766583218 我觉得这个主要还是看比例，比如五千字的文章里换掉五个字，应该问题不大。再比如我这段话里就焕掉了—个字，但对阅読的影响应该不会很大。

JCZ2MkKb5S8ZX9pq

2019 年 3 月 15 日

黑色占比 0.13484312996031747

黑色占比 0.16272941468253968

差别比例 0.48925163811932404

=====

进展汇报

试了几种图形识别的方式，都不大完美。
即便用点阵字体+bitmap 纯黑白，也不大理想。
况且我希望的结果是混淆人眼识别，有些比如 [辛] 和 [幸] 和 [亲] ，程序会觉得 13 更接近。
所以感觉这个问题比预想的还复杂一点。

笔划近似的确是一个思路，但还没想好怎么量化。

kuangwinnie

2019 年 3 月 15 日

卷积神经网络？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/544643

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.