豆瓣登陆验证码的识别脚本

无意间发现豆瓣在登陆页使用了极验验证提供的验证码服务。
总觉得吧，这东西好像不安全。这个“基于行为的验证安全技术”到底是啥呢？
看了看调用的js，大概是只要鼠标发生移动就记录xy坐标和时间，最后对这个序列以及最终停下的位置分别加密，发给服务器判定。

那么问题来了。。。
1.最终停止位置xpos
每次验证请求都会得到三张图，fullbg：完整的验证图形、slice：拼图那一小块、bg：拼图对应那一块加阴影的fullbg，对比fullbg和bg，哪一列像素上开始发生较大变化那就是xpos
如果以后不提供fullbg，只要得到几张不同的bg，求它们的交集即可得到fullbg，不需要机器学习算法
2.鼠标移动轨迹a
根据xpos可以确定大概需要生成多少帧
x随帧编号产生不均匀增加，直至xpos，开始是用arctan函数模拟的，后来发现完全没必要，建个bitmap[xpos]，从里面随机挑选不重复项选就行了
y用长周期小振幅的sin函数模拟
t随时间产生不均匀增加，并加入一些跳变
用以上方法填充a
3.加密
不需要破解，从js中剥离加密相关的函数，放入js虚拟机，传入xpos和a并执行，获得加密后结果

问题解决，大家应该知道哪家强了。。。

代码戳这里
https://github.com/procen424/scripts/blob/master/geetest-bypass.go
写得仓促，码风dirty

说明
go run geetest-bypass.go -c=次数 -gt="站点的gtid" 默认尝试豆瓣的验证码100次
success = 1 message = blahblahblah 通过
success = 0 message = failed 未通过
forbidden 判定为机器人

截至发帖时，识别通过率99%+
大家尽情玩耍

procen424

2014-10-13 08:49:38 +08:00

@est 嗯。开始写脚本时还有这个顾虑呢，后来发现，我在得到challenge后就马上提交一个response，总耗时在500ms内，但response的数据号称是1500ms时完成滑动的，居然TMD都可以！笑死我了。。。

mornlight

2014-10-13 09:00:43 +08:00

我猜极验的程序员已哭晕在厕所...

kisshere

2014-10-13 09:03:29 +08:00

话说，客户端修改user-agent不是分分钟的事么，极限验证这种做法我就觉得不靠谱

matrix67

2014-10-13 09:18:10 +08:00

@est 那我拿着不全的参数整天在移动网络或者校园网络出口出发包，造成整个学校都上不了豆瓣的拒绝式服务攻击

est

2014-10-13 09:21:28 +08:00

@matrix67 如果你能控制出口了，能干出来的事不仅这么点吧。

vuser

2014-10-13 09:22:20 +08:00

“哪一列像素上开始发生较大变化那就是xpos”
极验改改这里呢

bigtan

2014-10-13 09:23:40 +08:00

@procen424 那个使用多少时间，打败了多少用户不就是抄360那个开机启动时间的玩法

bigtan

2014-10-13 09:31:51 +08:00

@est 你是说通过综合各种因素而不仅仅验证的正确性来判断？

sunocean

2014-10-13 09:39:41 +08:00

@ procen424 你就不能周一再公布吗？你让人家程序员大周末晚上还得加班。程序员何苦为难程序员啊，极验的程序员估计已经哭晕在厕所。

sunocean

2014-10-13 09:42:02 +08:00

@procen424 对于楼主这种行为我只想说三个字，干得漂亮

hewigovens

2014-10-13 09:53:03 +08:00

刚试了下, 已经各种forbidden了

procen424

2014-10-13 09:54:11 +08:00

@vuser 在CAPTCHA图像上，极验未来的对策可能会有这些：1.取消fullbg；2.bg中加扰；3.动态bg，每张背景都不一样；4.多个slice阴影
解决方案：
A.寻找bg中灰度较大较一致、亮度较低的区域（已试验过此方法，与目前的朴素算法相比，误差为±3，但有个别图像不能正确识别）
B.基于轮廓的形状匹配算法
C.神经网络
长远来看，精心调教过的B方案，应该是极好的，能应付不是特别变态的变化。
C方案完全不懂，只是猜测。正好借这个机会学习一下。

procen424

2014-10-13 09:59:15 +08:00

@hewigovens 现在又加入referer的检测了

procen424

2014-10-13 10:00:03 +08:00

@bigtan 满满的360既视感哈哈哈哈

kisshere

2014-10-13 10:01:32 +08:00

@procen424 referer ip user-agent mac不是全都能伪造么

bigtan

2014-10-13 10:03:46 +08:00

更加严苛的算法验证带来的好处是更小可能性的二类错误，但是同时也会提高一类错误的可能性。

tonyup

2014-10-13 10:06:59 +08:00

本来拼图这活是需要人脑识别的，但把完整图片 fullbg 也传回客户端，这事再让机器干就容易多了。

procen424

2014-10-13 10:13:01 +08:00

@kisshere 伪造很容易。完全可以收集一些user-agent的模式，然后随机填版本号。至于referer，只有固定的那么几个。

procen424

2014-10-13 10:15:30 +08:00

@tonyup 完全不解他们这么做的用意
即便不传fullbg，如果每张bg的背景不发生变化，运气好只要两次就能拼出fullbg。

wangleineo

2014-10-13 10:17:55 +08:00

赞楼主一个，这就是极客！

验证码校验是两个动作，识别+输入，现在的验证码之所以让人讨厌，主要的问题不是识别，而是输入太麻烦（现在有中英文数字混杂的校验码，还要切换输入法啊喂）。极验验证的确降低了输入的难度，但是同时也大大降低了机器识别的难度：图片什么的都是障眼法，其实原理上就是：在这条白线上有个黑点，请把鼠标拖动到黑点上，程序比比像素就能实现；关于行为的部分，我实在想不出除了鼠标移动速度不均匀之外，还能有什么特征，楼主的程序用随机数和正弦曲线就搞定了。

现在问题来了：怎样在降低输入难度的前提下，不降低识别难度？

我有个想法。图像识别在很大程度上还是机器很难解决的问题，可以用一个不规则形状的小图片覆盖在原图的随机位置上（在服务器端渲染），要求用户点击这个小图片中的物体。比如：“这个图片中有一只猫，请你点击这只猫“，对于用户来说，识别和输入都不难，但是对于机器来说，在图片中找到一只猫应该还是比较难的（虽然Google的技术已经能做到）。当然如果猫的小图片只有一个，很容易暴力破解（在所有标识猫的图片找相同的像素区域），但是这个猫的图片也可以有很多（各种颜色的猫，甚至机器猫），再加上随机的像素混淆，应该还是难于攻破的。
一开始想的是要求用户把一个滑块拖动到猫的位置，记录坐标轨迹。但想想所谓的”行为特征“如此容易随机生成，感觉没啥价值。还不如直接点击呢。

大家觉得怎么样？

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/138479