想问一下：这样的验证码该要怎么识别？

用 tesseract 试了几个，识别率 0%

请教大神，大概的研究方向是什么？

iVanilla

2016-07-25 14:53:46 +08:00

@menc 第二个是我自己写的，我知道强度还不够。
等我把强度加大再跟你赌。

lxy

2016-07-25 15:18:00 +08:00

颜色对于防自动识别没有任何效果。长干扰线也是差不多。
真正能抗自动识别的只有随机的严重的字符粘连和大幅度的字符扭曲。

lxy

2016-07-25 15:20:07 +08:00

@lxy 还有与字符笔画宽度一样的同色短干扰线。

honam

2016-07-25 17:49:36 +08:00

有些自己都看不清，怎么识别。。。

mcone

2016-07-25 18:19:17 +08:00

@iVanilla 说实话，你这两个（特别是第二个）真的很弱，至少十年前的技术就能搞定了（只有第一个图后两位有粘连，但是如果确定是纯数字且四位的话，一点都不难）。
另外不要总是“你写个程序看看”，真的写出来怎么办，你出钱吗？…………仅仅博君一笑，白白花费不少时间，好像不是正常人的做法

@panda0 楼主，是所有的验证码都有[有一条从左到右的水平贯穿线]这个固定的特点吗？是的话，在切分之前，先检测水平线，去掉之后把切分后的字送进去，准确率应该不会太低，至少字母边缘特征还是很明显的，不像是 @aprikyblue 那种深浅不一，人眼都得看半天的家伙……

iVanilla

2016-07-25 20:21:42 +08:00

@mcone 那么你认为应该怎样做才能真正加大识别难度？

ihciah

2016-07-25 20:41:15 +08:00

@iVanilla
讲道理只要是字符，就很垃圾，无论是怎么扭曲、粘连，中文还是英文，更不用说加什么背景噪声了。只要人能认出来，堆训练数据进去机器也可以。
加大识别难度可以借助人的知识，比如现在 12306 和 google 的新验证码这种。

iVanilla

2016-07-25 20:44:12 +08:00

@ihciah 12306 的验证识别码早有人弄出来了吧，在 github 上面看过。
Google 的新验证码确实不错，但国内也用不了啊。

h4x3rotab

2016-07-25 23:07:28 +08:00

想要提高难度有两种办法，一种是增加字体数量，另一种是增加验证码的类型，两者各达到几十种， deep learning 就跪了，因为没人有钱打这么大数量的 label

eoo

2016-07-25 23:28:24 +08:00

想要防机器还得上短信验证或者语音验证，什么 OCR 识别都见鬼去吧啊哈哈。

MrGba2z

2016-07-25 23:56:46 +08:00

之前上课教授讲过
在菲律宾还是哪里有人工识别服务（ API 。。）

两毛还是两分一次

peter999

2016-07-26 00:00:22 +08:00

打码平台

panda0

2016-07-26 00:00:38 +08:00

@MrGba2z 我猜是 2 分 : )

test5001

2017-05-11 23:36:40 +08:00

@menc 如何可以联系你？可以给个联系方式吗，想有偿找你帮写个例子。

test5001

2017-05-11 23:39:23 +08:00

有人使用 dl4j 那个深度学习框架的吗?

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/294660

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.