请教通过 HTTP 代理访问配置有 Cloudflare CDN 的网站

2022-01-02 13:19:10 +08:00
 gxever

哪位大佬知道这其中的原因和解决的方法呢?

2106 次点击
所在节点    程序员
10 条回复
yujiang
2022-01-02 14:00:03 +08:00
这就是 cloudflare 的防御功能在起作用啊
gxever
2022-01-02 14:06:11 +08:00
@yujiang 可是浏览器通过代理却又可以正常访问?这个防御功能具体是指哪一方面呢?
ch2
2022-01-02 14:11:11 +08:00
@gxever #2 前端验证啥的
hallDrawnel
2022-01-02 14:20:34 +08:00
防御你用脚本去爬网站
gxever
2022-01-02 14:27:20 +08:00
@ch2 @hallDrawnel 我觉得更多是一个配置上面的错误?因为浏览器可以通过代理正常访问,如果正常浏览器通过代理能行,那么使用 headless 浏览器通过代理的爬虫代码似乎也能行?那就不能防御脚本爬网站了...
ch2
2022-01-02 14:58:57 +08:00
@gxever #5 headless 计算资源占用成本比脚本大很多,cf 首先拦的第一关就是通不过浏览器验证的
crystom
2022-01-02 14:59:55 +08:00
握手使用的 ssl 套件不同,cf 能判断你不是正常浏览器
kidonng
2022-01-02 15:03:49 +08:00
各种 client 都是有 TLS fingerprint 的,CF 有利用此判断请求是否来自真正的浏览器。
但无头浏览器的开销比光发请求的开销大多了,而且也有手段对付(比如验证码)。
ZeroClover
2022-01-02 15:09:40 +08:00
如果是大站,有可能开了 Bot Management ,这个包含对 TLS 指纹的验证,你的 TLS 指纹和声明的 User Agent 不一致就会被干。
gxever
2022-01-02 20:06:31 +08:00
@crystom @kidonng @ZeroClover 嗯嗯 谢谢恢复 我现在也觉得 SSL/TLS fingerprint 被识别的可能性很大

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/825770

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX