关于爬取淘宝详情页的问题

2020-03-31 23:06:59 +08:00

changwenrui2310

python 用 request 库爬虫爬取淘宝详情页碰到了个奇葩问题为了分析请求，我用的 fiddle，当开启 fiddle 代理，运行代码，无论请求多么频繁，都不会报错拿掉代理，直接请求，稍稍频繁就报错，这是为什么呢？怎么解决? 下面是报错 requests.exceptions.ConnectionError: ('Connection aborted.', RemoteDisconnected('Remote end closed connection without response')) 代理就是个本地的代理，和 ip 没有关系，为什么有代理就行，没代理就完蛋？ fiddle 对请求做了什么处理呢

5029 次点击

所在节点淘宝

15 条回复

jugelizi

2020-03-31 23:10:33 +08:00

证书吧

changwenrui2310

2020-03-31 23:14:47 +08:00

@jugelizi 已经移除对 SSL 的认证 verify=False，如果是证书有问题的话恐怕直接请求不到吧，我这里是请求频繁就拒绝

learningman

2020-03-31 23:27:09 +08:00

估计是用 js 做了反爬

changwenrui2310

2020-03-31 23:29:10 +08:00

@learningman 我不太明白，如果是做了反爬，为什么加个 fiddle 代理就能开爬呢？

None123

2020-03-31 23:30:28 +08:00

@learningman 这 tm 和 js 有什么关系不懂就不要瞎说

None123

2020-03-31 23:34:07 +08:00

@changwenrui2310 改一下请求头

changwenrui2310

2020-03-31 23:39:33 +08:00

@None123 改什么呢？你的意思是每次请求都改一下？

ArJun

2020-03-31 23:48:57 +08:00

为啥要爬淘宝详情呢，直接调淘宝接口不行吗

None123

2020-03-31 23:50:02 +08:00

@changwenrui2310 headers

changwenrui2310

2020-03-31 23:54:29 +08:00

@None123 改 headers 的那个参数？

changwenrui2310

2020-03-31 23:56:19 +08:00

@ArJun 有些东西淘宝官方的接口没有

dxasqw

2020-04-01 09:46:35 +08:00

是不是提交了 gzip 的协议头，然后没有解压处理

learningman

2020-04-01 13:37:03 +08:00

@None123 如果说我在发送主请求的同时，js 补一个校验呢？
写爬虫第 1 步就是查 js 吧，不查你写个屁，年轻人不要太暴躁。

None123

2020-04-01 13:59:50 +08:00

@learningman 别逗楼主这个问题和 js 没关系的

None123

2020-04-01 14:03:37 +08:00

@changwenrui2310 照着游览器的该改

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/658128

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.