论 12306 新验证码

12306新验证码有点任性，采用的是找图片的方式来验证用户行为，如下

请问这种验证码对于那些抢票软件来说，有没有杀伤力？

个人感觉这种验证码其实就是有一个图库，是否可以采用标识md5指纹或者提取图片的特征来判定该图片所对应的物品？再进行采集所有的图片建立一个对应数据库？

FinlayLiu

2015-03-17 14:49:16 +08:00

https://github.com/andelf/fuck12306
12306 图片验证码识别测试

sadscv

2015-03-17 14:52:50 +08:00

我觉得这个验证可以通过google图片搜索的方式破解。
先通过原先验证码识别技术识别需要验证的物体名字，再把生成的图片切割成8个小图，分别用google图片搜索，再采集搜索结果首页显示文字内容后对其匹配。
而且我做了个简单实验，用QQ截图后上传搜索，发现识别效率高得惊人呐。

Draplater

2015-03-17 15:07:32 +08:00

用HashCash能否解决这个问题？
利用客观条件硬性限制刷新频率

yanest

2015-03-17 15:40:17 +08:00

@kisshere 我认识一个朋友，他们公司养了一帮录入员，就是各种单据的人工录入，曾经也接过人肉录入验证码的活，就是背后有一群人实时去人肉识别图片，把结果实时回传回去。

efi

2015-03-17 15:43:44 +08:00

此贴内谁能验证任一识别软件对此验证码通过率大于50%的我赠送1000枚铜币。

jeansfish

2015-03-17 15:43:54 +08:00

@ahtsiu 铁路logo是用户点的，不是验证图片里的

efi

2015-03-17 16:11:31 +08:00

Naive。没有CV的PhD就别揽这个瓷器活。

图像分类state of the art深卷网GoogLeNet http://arxiv.org/abs/1409.0575 单张能到95%，八张加起来也就66%。一个黄牛公司也想破解，战斗力还差远了。

要增加难度是很容易的，只有把物体放入场景之中，state of the art准确率单张是低于50%的。

frozen2013

2015-03-17 16:12:25 +08:00

不知道这里有没有专门等破解方法然后做成刷票软件卖给黄牛获利的人，如果有的，向你竖中指！

coolicer

2015-03-17 16:15:40 +08:00

我觉得是故意的吧。如果非要限死，可以加多一条。实名手机号收验证短信，我感觉可以挡一部分人。

asd7160

2015-03-17 16:26:47 +08:00

@efi 目前这个方案是最佳的： http://www.zhihu.com/question/28795373

1023400273

2015-03-17 16:28:45 +08:00

@yanest 这样的成本会不会很高？

@efi 高端，深深感到自己确实Naive了

@coolicer 这也是一个好办法，但是每抢一次都要收一条短信会不会有点烦人？而且短信也有成本的

yanest

2015-03-17 16:32:56 +08:00

@1023400273 主要看做什么用了，费用是按件计费，不少快递公司、调查问卷、各种单据都是这么录入系统的

coolicer

2015-03-17 17:20:03 +08:00

起码能证明大部分不是黄牛，短信值几个钱。车票都这么贵了

propiram

2015-03-17 17:25:56 +08:00

就只有我觉得那一张图对应一个静态固定地址，人工爬一遍之后一一对应上就OK了么…

iamjs

2015-03-17 17:38:08 +08:00

淘宝开个接口。。。
水表关键字。。
然后淘宝精准数据，拿出来商品图片3张随机出几张其他玩意儿
然后。。。好吧，我随便扯的

club

2015-03-17 17:43:39 +08:00

這個是跟Google學的，但是沒有Google做的完美。

imn1

2015-03-17 18:07:35 +08:00

这种验证码的非人工破解很难

几个月之前在某验证码的帖子我说过，现时的验证码思想只是把“机器抄写”转为“人工抄写”，这个确认是否“人类”是不足够的，需要加入人的思考

而12306的这次新验证码就达到这条，这里至少有两次思考过程，1.阅读理解(简体)汉字；2.从文字意思到影像

所以前面各位都在讨论图像识别是找错方向，其中 #17 提到以图找图对人是难了，因为前面增加了一个“从影像到文字”的理解过程，但对计算机却是省了“理解文字”这个过程，反而简单了

只要做很小的升级，就足以击败图像识别了
例如：不写“水表”，写成“用于测量用水量的仪器”，要知道这样的描述性文字比起“水表”两字变化就多了
“测量” -> “计量”、“计算”、“记录”……
“用水量” -> “水容积”、“耗水量”、“流量”、“用水立方数”……
“仪器” -> “仪表”、“工具”、“计量器”……
如果机器不带人工智能理解汉语的话就只能暴力破解了

图像做成不干扰视觉观看，但干扰数字分析的多帧 gif 就更有趣了

f0rger

2015-03-17 18:18:38 +08:00

目前只有2个图片是符合的，抓包发现是POST位置信息，那么久不需要知道要点什么图片，反正位置就8个，8*7一共最多56种组合。
如果接口没有做次数限制以及频率限制的话，破解还是挺快的啊。。。

只是简单了解了一下，具体没深入，请勿喷

nealnote

2015-03-17 18:24:14 +08:00

已经实验的结果，试的次数多，难度会增加（注意，红色的所有的）
最多到每行6张图片，共3行 3*6=18张图，选2个种类

单选 - 多选 - 多图多选 - 封禁20秒

squid157

2015-03-17 18:32:52 +08:00

传说现在打码已经很多都是人工打码了。所以……

我倒是觉得既然火车票本身就是实名的，随着RF的普及，身份证可以考虑使用更常见的无线协议，买票前也需要实体身份证认证。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/177491

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.