怎么找出近似的汉字?

2019-03-14 17:16:17 +08:00
 JCZ2MkKb5S8ZX9pq
6991 次点击
所在节点    程序员
67 条回复
akira
2019-03-15 02:01:24 +08:00
找以前的汉字库 16x16 像素的 ,然后随便做个图片相似度算法 应该就能满足你了
c4f36e5766583218
2019-03-15 02:19:55 +08:00
@JCZ2MkKb5S8ZX9pq #38
1. 这个我晓得,但那一般用来搞笑的吧~
2. 你的 ID 和我 ID 有得一拼。。我是有规则的,你是乱打的还是?
noqwerty
2019-03-15 05:22:40 +08:00
@xml123 这个大佬的博客在我加到收藏夹之后就再没更新过,太可惜了。
secsilm
2019-03-15 07:45:34 +08:00
@JCZ2MkKb5S8ZX9pq 我第一次读你的话就看出来了,而且很不舒服。另外我觉得你这样混淆不利于读者记住正确的字,甚至都分不清你这是故意的(有特殊含义)还是打错字了,也有可能让读者觉得你这个文章水平不行。

如果在你的使用场景对于这些都无关紧要。当我没说。
Daming
2019-03-15 08:11:16 +08:00
垚(yao)壵(zhuang),这两个字算是比较难分清楚的了
aREMbosAl
2019-03-15 08:30:31 +08:00
@JCZ2MkKb5S8ZX9pq 我写过一个小工具,可以分解分解单字成偏旁部首和笔画,并且带部件结构信息,我想你会产生重复是因为没有结构信息导致。https://github.com/vincentzlt/textprep
yufei02
2019-03-15 08:51:27 +08:00
在分词领域,有一种解决方法是进行规划,如何你要区别的是"佘"和"余",需要事先人工做个穷举,发音和字形穷举,然后满足相同的分词要求即可。并且把该词标识为规则词。
yingfengi
2019-03-15 08:54:04 +08:00
低配版火星文?
ioschen
2019-03-15 09:21:40 +08:00
@lastpass 是的,提取汉字拼音,还有多音字这些就是映射,包括不常用的也就那么多。一劳永逸,还可以开源给大家用😄
ioschen
2019-03-15 09:24:04 +08:00
@lastpass 你这个太少了,不全,比如陈阵就没有
bghtyu
2019-03-15 09:34:31 +08:00
a632027512
2019-03-15 11:54:45 +08:00
坐等现成的车。 打字输入倒是可以用手写输入。
chinvo
2019-03-15 12:02:22 +08:00
量化出来的结果不一定符合人识读的感官体验

拿你举例的 [余] 和 [佘] , [茶] 和 [荼] , [侯] 和 [候],对于认识这些字的人来说,人识读的时候基本能一眼看出差别,对阅读体验还是很不友好的

不如用异体字和繁体字替代法,因为大部分人不能“看懂”异体字和繁体字,只能“猜测”其含义
ihciah
2019-03-15 12:17:10 +08:00
一个简单的思路,不一定对:训练一个分类器识别汉字,然后丢进去一个随机干扰后的“余”,那么 TopN 里除掉“余”本身就是和它相似的字了?
JCZ2MkKb5S8ZX9pq
2019-03-15 12:32:34 +08:00
@chinvo 繁体因为映射表比较完整,很容易被破解吧。日韩越等异体汉字倒是可以,那块有空也想搞搞。
Michaelssss
2019-03-15 12:32:36 +08:00
首先。。你先得定义什么是“近似”,然后提出量化标准。。
loading
2019-03-15 12:34:46 +08:00
不用,这种字,高中语文老师手里都有……
JCZ2MkKb5S8ZX9pq
2019-03-15 12:37:08 +08:00
@vincentzlt 我觉得你这个不错。
我之前一直觉得,可以用 unicode 这个拼字的特性,做一套自动字体生成的东西。根据横竖笔划密度,自动调整磅数、中宫、转折和尾端处理等等。
Arnie97
2019-03-15 12:41:38 +08:00
单就使用目的而言,这个方法远不如插零宽字符。这不就是故意在文章里制造错别字?而且文章里还不见得有相关的字出现。
JCZ2MkKb5S8ZX9pq
2019-03-15 12:42:08 +08:00
@bghtyu 这个不错,看上去接近我的预期。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/544643

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX