大佬们,怎么提升爬虫和反爬技术啊

2020-07-16 11:51:58 +08:00
 yangva

鄙人是个不起眼的安全职员,最近研究爬虫和反爬比较多,国内的常用爬虫和反爬技术基本都有了解,比如 UA 、IP 、登录、token/sign 等加密参数、特殊的 headers 头验证、aes 和 des 加密某字段、会员权限等级限制、web 端的 js 混淆、移动端的反调试和混淆,ssl pinning 检测、安卓源码编译在 so 层里等等的,微信授权登录等等的,这些我都有些研究。

我研究完以上举例的,最近每天都在搜索相关技术文章,发现基本都是那一套反爬策略,感觉到了一个瓶颈期,技术没法再提升了,相关的技术文章也基本都是那些套路,国外的反爬又是怎么做的啊,跟国内一样吗?

有什么途径可以做到技术的持续进步,国内外有没有什么反爬联盟之类的网站或者渠道可以相互分享新技术的。

抱歉问题有点多,就是感觉最近没有学到新技术,有点焦虑

2551 次点击
所在节点    问与答
19 条回复
heyhumor
2020-07-16 12:05:59 +08:00
你是想喝茶吗
sadfQED2
2020-07-16 12:09:25 +08:00
基本上就你这些,再往上参考 google 的鼠标轨迹,点击轨迹 ai 检查
ym1ng
2020-07-16 13:28:10 +08:00
同不起眼的安全职员,之前搞过一点反欺诈,献个丑
爬虫与反爬其实主要是两个问题 人机识别的 challenge 和触发 challenge 的条件
challenge 最常见的就是各种各样验证码,还有一些类似于字体混淆,关键路径节点校验之类的
触发 challenge 主要是利用的各种画像技术,如 ip 画像,浏览器指纹,设备指纹等等,对画像使用的一些统计手段,如同比、环比、基于时间窗口的统计等等,更高端一点的把各种统计指标以及采集的指纹向量化丢到机器学习的模型里去训练,至于一些核心业务,则无论条件如何一律上 challenge

个人觉得这个领域的东西还是更偏向于业务一些。基于自己的业务去进行反爬或者抓取数据。单纯的想学习国外的套路其实并不一定适用自己,毕竟 google 也干过自己的语言识别把自己的语言验证码破了这种自嗨行为(笑
renmu123
2020-07-16 14:18:50 +08:00
你可能已经要到爬虫的天花板了
wysnylc
2020-07-16 14:26:37 +08:00
只搞爬虫天花板并不高
yangva
2020-07-16 14:30:32 +08:00
@heyhumor 你先查下什么是安全职员
yangva
2020-07-16 14:31:42 +08:00
@sadfQED2 好的,谢谢
kernelpanic
2020-07-16 14:33:08 +08:00
少了一个最常见的自定义字体。。
yangva
2020-07-16 14:34:16 +08:00
@renmu123 好吧,谢谢
yangva
2020-07-16 14:35:11 +08:00
@wysnylc 好吧,谢谢老哥,就感觉没什么东西可以搞了,焦灼
yangva
2020-07-16 14:35:52 +08:00
@kernelpanic 嗯,字体反爬也研究过了
murmur
2020-07-16 14:42:24 +08:00
我看有那种 IDC 机房 IP,发现是机房的请求直接风控走起
dryadent
2020-07-16 16:56:48 +08:00
其实设备指纹能玩的很多,在手机端是可以被 hook 的,在 pc 端是没法固定的,都是挑战
yangva
2020-07-16 20:48:20 +08:00
@murmur 听起来很 6 的样子,我研究下,感谢
yangva
2020-07-16 20:49:01 +08:00
@dryadent 是啊,搞来搞去感觉就那几样东西
krapnik
2020-07-16 21:00:16 +08:00
locoz
2020-07-16 21:01:23 +08:00
其实各种反爬,思路都是一样的…增加信息收集点、增大看代码的难度、加入一些不影响展示但能让原始数据变样的东西、加入一些恶心人的暗坑,无非就是这几种。实际上也没有什么更好的办法,因为这种东西极限就摆在那,PC 端的反逆向不也是搞了这么多年也没有明显变化嘛。

现在主流的反爬我个人感觉更倾向于强化风控和反逆向这两方面,都是尽量结合业务,定制化地搞。像数美、快手、拼多多的风控就可以做到即使加密算法全给抠烂了、验证码全给爆破了,也还是能让红方恶心得不行,成本还是高。

🤣不过其实再怎么搞都一样,无非就是成本问题。反爬做得再牛逼,也挡不住人家招一群实习生手动入库。
yangva
2020-07-16 22:17:08 +08:00
@krapnik 夜幕的崔大和韦世东是我微信好友,哈哈哈
yangva
2020-07-16 22:22:10 +08:00
@locoz 好的,感谢大佬,你这头像和名字太眼熟了,知乎有看过你的文章

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/690534

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX