爬虫 5s 盾现在有什么解决办法啊

2022-05-25 15:40:17 +08:00
 brave256

搜了一圈基本是用 cloudscraper 这个库,但是现在这个库好像已经没有维护了,5s 盾又升级了,现在这个库也绕不过去;还有就是用 Selenium ,对于部分网站可能能正常访问首页,但是之后还需要验证

3575 次点击
所在节点    Python
14 条回复
iqingqian
2022-05-25 15:46:27 +08:00
同求
tmtstudio
2022-05-25 15:55:02 +08:00
人家专门吃这碗饭的,有方法发出来就失效ㄟ( ▔, ▔ )ㄏ
brave256
2022-05-25 16:08:06 +08:00
@tmtstudio 道理是这么个道理,所以无解了吗..
u823tg
2022-05-25 16:14:16 +08:00
@brave256 #3 自己研究么, 要么怎么绕过, 要么怎么把自己模拟的像真实用户。
huruwo
2022-05-25 17:55:23 +08:00
据说有手就行 当然我不行
huruwo
2022-05-25 17:56:01 +08:00
你应该加到一些内部的爬虫群里问问
dicc
2022-05-26 11:26:16 +08:00
webdriver
chengyiqun
2022-05-27 15:26:13 +08:00
控制有头浏览器把自己弄得像真实用户?
jeeyong
2022-05-30 22:18:40 +08:00
https://github.com/onebits/chromedriver/releases

重新编译了 chromedriver, 删除了 js 层面的一些特征.. README 里有说.
虽然有时候并没啥卵用..
LeeReamond
2022-06-03 08:25:46 +08:00
@jeeyong 具体有哪些特征能分享一下么,想尝试自己编译,直接用二进制不放心
jeeyong
2022-06-04 17:57:27 +08:00
@LeeReamond

git 上写了.... 我并不知道所有的特征, 我也是学一点改一点..

替换了字符串:
$cdc_asdjflasutopfhvcZLmcfl_
这个长度不能变...
但是虽然替换了... 依旧可以用其他方式进行检测, 比如正则直接取$ _ 之间的东西... 因为长度不变, 所以 length 一下也可以判断出来.

这部分原始代码里是
var someVar = cdc_adoQpoasnfa76pfcZLmcfl_Array || window.Array
var someVar = cdc_adoQpoasnfa76pfcZLmcfl_Promise || window.Promise
var someVar = cdc_adoQpoasnfa76pfcZLmcfl_Symbol || window.Symbol

我直接把 cdc_adoQpoasnfa76pfcZLmcfl_Symbol || 这部分删掉了..
但是, 好像在特定场景下还是可以在 window 全局变量中发现到这个值 cdc_adoQpoasnfa76pfcZLmcfl_Symbol.
目前我没法重现...

以上特征都是在 chrome/test/chromedriver/js 的文件中...
LeeReamond
2022-06-05 14:21:59 +08:00
@jeeyong 查了一下好像反爬端的角度看是通过 window.cdc_adoQpoasnfa76pfcZLmcfl_Array 来判断是否调用 chromedriver ?
jeeyong
2022-06-06 19:15:18 +08:00
@LeeReamond 只是一种手段....而且其实是很低阶的方法
检测是否存在这个变量..检测这个变量是否还是 Native Function...
还可以检测 navigator.webdriver, 检测方法也是, 简单的就判断属性是否存在, 是否返回 false, 或者 undefined. 不同平台返回是不一样, ios 是 false, 但是 android 我记得好像是 undefined..至少部分是.
还可以检测 webdriver 的是否挂了方法, 或者是通过 Proxy()或者 Reflect()伪造过.
初次之外还是有好多好多方法..哎...没头没头...
jeeyong
2022-06-06 19:24:17 +08:00
我做爬虫的经验来看...
真正的有效的方法...基本都不说..
大概率是闷头赚钱...
最近开始看到的一些文章, 大概 2,3 年前的东西了, 才陆续有人发出来..至少我是 2,3 年前就知道的..

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/855230

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX