没有关于12306插件的技术讨论么?

2013-01-19 10:07:20 +08:00
 glongzh
有没有研究过这插件代码的?代码质量如何?写这样一个插件难度多大?

作者通过这个插件,现在可以算是小有名气了,大家没有什么想说的吗?

还有这种插件的屏蔽与反屏蔽技术大家都可以说说。

顺便吐槽下那些浏览器们借个插件来炒作的卑劣行为,工信部竟只字未提谷歌浏览器,Chrome是该哭还是笑呢。。。

P.S.本人小菜,想听听各位大牛的想法。
5434 次点击
所在节点    程序员
20 条回复
hiddenstar
2013-01-19 10:22:00 +08:00
https://github.com/mbin/12306_ticket_helper
这个东西本来是由于12306的验证码跳过漏洞(已修复)进行自动登陆和自动填表的
不过现在就是自动填好所有表格什么的,只要输个验证码,其他的就是类似于清除无效项美化界面什么的小事情……
反正相当于一个简化的12306接口……个人看法……
binux
2013-01-19 10:38:23 +08:00
没有必要研究,任何前端工程师高兴都能写一个。
你也想出名,也写一个呗。
屏蔽是不可能的,最多加个验证码,即使如此,ORC能解决大部分问题。
借擦肩插件操作?这是插件作者和浏览器们的事,不用你操心。
for4
2013-01-19 10:41:05 +08:00
@binux OCR
subpo
2013-01-19 10:51:43 +08:00
现在对猎豹浏览器就是一个字,反感,特别是昨天买通一大堆微博大号转发那个“猎豹浏览器,挺住!”的微博,滥用人的同情心和一堆无脑愤青对国家的恶感
glongzh
2013-01-19 10:51:48 +08:00
@binux 哈哈,本人JS菜鸟,还是算鸟……怎么感觉OCR再强大,也赶不上验证码的变化快。
hiddenstar
2013-01-19 10:53:39 +08:00
12306所有的验证码都是斜体字,没有大小变化和扭曲,只有随机的直线和模糊的背景,唯一无法辨识的地方是j有的时候下半部分会被遮住什么的(虽然人类也无法识别……)
OCR判断率应该可以达到90%以上,咳咳……
binux
2013-01-19 10:55:04 +08:00
@glongzh 即使一个个填验证码,插件也能解决绝大部分问题。实在不行,直接放弃界面,往接口上发数据。任何你能看到的信息都无法阻止脚本化。

@for4 (๑•́ ₃ •̀๑)
Tianpu
2013-01-19 12:07:10 +08:00
真想做成服务,就打码呗
walkingway
2013-01-19 13:05:44 +08:00
倪超:关于订票助手的,写点什么,廖做纪念吧 http://t.qq.com/p/t/178867047072630

作者说貌似不加自动识别还是为了遵守规则,但还是被关照了
kaiqiz89
2013-01-19 13:07:36 +08:00
之前看报道说经过验证,验证码能做到反ocr的就只有google和reCAPTCHA,但后者又被google收购了……
Cofyc
2013-01-19 13:26:25 +08:00
google 就是用 reCAPTCHA,reCAPTCHA 的图片文字是从电脑出现前的物理书上复印来的,不是算法生成的,没有规律可循,很难编写一套程序识别所有的文字。人来辨识 reCAPTCHA,顺便就将这些书籍数字化了。
chaos_mical
2013-01-19 14:54:26 +08:00
binux+1,没有必要研究

另外引用最早在raw.github上的问题:

“  “12306订票助手”的开发者iccfish(木鱼)在GitHub上解释:他引用了托管在Github上的Javascript代码,不同浏览器又使用了该插件,导致大量请求涌向Github,最终拖慢了服务器。

  这里不妨说说具体原因,供开发者参考:GitHub有个未知安全检测,当访问比较频繁的时候,会直接返回403错误。作者就加了一条规则:如果返回的是403,就每5秒重试一次,并且是永久重试。结果GitHub认为用户访问更频繁了,于是一直返回403,最后成了死循环。”


楼主觉得这种处理手法的水平还需要讨论什么吗...
zx900930
2013-01-19 15:41:46 +08:00
@subpo 炒作确实很恶心,所以金山也不是什么好鸟
annielong
2013-01-19 15:51:29 +08:00
供开发者参考:GitHub有个未知安全检测,当访问比较频繁的时候,会直接返回403错误。作者就加了一条规则:如果返回的是403,就每5秒重试一次,并且是永久重试。结果GitHub认为用户访问更频繁了,于是一直返回403,最后成了死循环。”
那能怎么处理?设置1分钟后再重试,或者干脆不访问吗?
shuizhuzi
2013-01-19 21:38:12 +08:00
这个家伙在把GitHub爆库之后把服务器转到了SAE上,结果SAE竟然轻松承受住了,汗啊。
难点就是https服务器,他说他找了半天采用了Github,后来才用了SAE
1L说的挺好
反正任何web应用都是https或http请求,只要细细摸清了请求的路径和参数,编写客户端脚本就可以运行了。
rqrq
2013-01-20 00:29:55 +08:00
@Cofyc
”人来辨识 reCAPTCHA,顺便就将这些书籍数字化了“
那如何辨别验证码有没有输入正确?
liliang13
2013-01-20 00:39:30 +08:00
@rqrq
一对单词,其中一个是已经识别的,用来验证是否人类输入
Cofyc
2013-01-20 01:28:28 +08:00
@rqrq reCAPTCHA 都是两张图片成对出现,一张是已知,一张是未知的。校验是否人类输入,只判断已知的那张图,同时记录未知图片的一个人类识别结果。收集数据多了,就能准确地帮助书籍数字化。
JimmyZ
2013-01-21 11:59:20 +08:00
各位一个个对木鱼冷嘲热讽, 可是写点什么放出来给普通人用的, 只有他
python
2013-01-21 12:41:33 +08:00
@JimmyZ 这插件我觉得挺方便的,即使流程处理不当,本意也是为了造福大众呀.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/58069

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX