怎么找出近似的汉字?

2019-03-14 17:16:17 +08:00
 JCZ2MkKb5S8ZX9pq
6984 次点击
所在节点    程序员
67 条回复
JCZ2MkKb5S8ZX9pq
2019-03-14 17:53:45 +08:00
@pkokp8 @ebingtel 打错了 是 [枎]
tyrealgray
2019-03-14 17:54:54 +08:00
介意问一下楼主打算做一个什么系统用于哪方面吗?
dorentus
2019-03-14 17:55:09 +08:00
JCZ2MkKb5S8ZX9pq
2019-03-14 18:05:24 +08:00
@tyrealgray 我在 append 里补充了一下
shyrock
2019-03-14 18:21:24 +08:00
可以用字型输入法的编码来比较吧,比如五笔。
gliyechen
2019-03-14 18:24:06 +08:00
1 楼方法不是挺好的嘛 还可以用在不同字体
lneoi
2019-03-14 18:24:09 +08:00
如果说找相近汉字, 不能只在常用汉字表里面互相比对吧,还得看异体字,国外汉字什么的?
xml123
2019-03-14 18:31:11 +08:00
across
2019-03-14 18:34:14 +08:00
除了暴力计算(感觉 CUDA 派上用场了?),估计只能靠输入法收集用户数据了.

做好了估计还能当个商业库呢~~
jdhao
2019-03-14 19:01:46 +08:00
计算图像相似度?(一个猜想,不一定对
tusj
2019-03-14 19:09:49 +08:00
我一直好奇十几年前流行的火星文字,是怎么搞出来的。
有没可能用它来做混淆?
c4f36e5766583218
2019-03-14 19:57:00 +08:00
按一定规则,混淆文字,以最小影响阅读体验的代价,做内容保护和溯源???
按你这方法混淆了那文章含义不是变样了?句子不通了啊~
hdjs5264
2019-03-14 20:04:11 +08:00
emmmm,你这需求不就是火星文?
glacer
2019-03-14 20:08:51 +08:00
能否拿到汉字的像素值?比如在 8x8 的矩阵中,空白点像素为 0,笔画点像素为 1,得到一个 64 位的向量。然后通过一些相似度算法计算即可。
nccer
2019-03-14 20:11:51 +08:00
火星文?
rekulas
2019-03-14 20:14:39 +08:00
直接导入深度学习文字识别库,准确率>60 的就是
mxtob
2019-03-14 20:18:24 +08:00
之前在思否看过一个解答。用 gd 库绘画需要 2 个比对文字,然后用图片相似度算法
JCZ2MkKb5S8ZX9pq
2019-03-15 01:39:41 +08:00
@c4f36e5766583218 我觉得这个主要还是看比例,比如五千字的文章里换掉五个字,应该问题不大。再比如我这段话里就焕掉了—个字,但对阅読的影响应该不会很大。
JCZ2MkKb5S8ZX9pq
2019-03-15 01:48:39 +08:00

黑色占比 0.13484312996031747


黑色占比 0.16272941468253968


差别比例 0.48925163811932404

=====

进展汇报

试了几种图形识别的方式,都不大完美。
即便用点阵字体+bitmap 纯黑白,也不大理想。
况且我希望的结果是混淆人眼识别,有些比如 [辛] 和 [幸] 和 [亲] ,程序会觉得 13 更接近。
所以感觉这个问题比预想的还复杂一点。

笔划近似的确是一个思路,但还没想好怎么量化。
kuangwinnie
2019-03-15 01:57:00 +08:00
卷积神经网络?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/544643

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX