用 requests 抓取网页长时间没有返回超时是什么原因

2021-10-28 16:25:36 +08:00
 m0kha
抓的是 www.cmegroup.com 这个网站,需要翻墙,用的是国外的云服务器。
奇怪的是一台在美国的服务器就可以正常获取,而在东京的一台服务器就不行,headers 设置都是一样的。
是东京服务器的 ip 被 ban 了吗,但是用东京这台服务器的梯子又可以在网页上打开这个网站
现在真是百思不得其解
534 次点击
所在节点    Python
7 条回复
ShuoHui
2021-10-28 17:41:40 +08:00
返回什么也不贴一下吗…
Fizzyi
2021-10-28 17:43:33 +08:00
你的梯子开的是全局代理吗?
m0kha
2021-10-29 08:46:13 +08:00
@ShuoHui
requests.get 方法一直没有返回直到超时
用 telnet www.cmegroup.com 443 的结果是
```
Trying 104.71.161.201...
Connected to www.cmegroup.com.
Escape character is '^]'.
Connection closed by foreign host.
```
m0kha
2021-10-29 08:46:20 +08:00
@Fizzyi
是全局
l4ever
2021-10-29 08:51:14 +08:00
@m0kha wget 试试啊, telnet 看不出来的, 封你你也能连端口.
m0kha
2021-10-29 09:28:04 +08:00
@l4ever 一直停在 awaiting response

--2021-10-29 09:26:01--
Resolving cmegroup.com (www.cmegroup) 104.125.43.223
Connecting to cmegroup|104.125.43.223|:443... connected.
HTTP request sent, awaiting response...
m0kha
2021-10-29 15:31:52 +08:00
最奇怪的是在这台服务器上用无头浏览器都打不开的网站,在别的电脑上用这个服务器的梯子反倒能打开

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/811297

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX