这个页面为什么抓取不到？

2020-04-03 14:20:38 +08:00

stabc

这个：
https://www.amd.com/en/products/graphics/radeon-rx-590
浏览器正常打开没问题。
但是，我用 wget, php 的 curl, nodejs 的 crawl 都获取不到数据，全都超时。这是咋回事？

1159 次点击

所在节点

5 条回复

b821025551b

2020-04-03 14:26:12 +08:00

curl 试了一下表示并没有问题。

cctv6

2020-04-03 14:29:41 +08:00

f12 -> Network -> 找到那个请求 -> copy -> Copy as cURL

stabc

2020-04-03 14:34:08 +08:00

@cdlnls 试过了，还是不行

263

2020-04-03 14:45:42 +08:00

curl -A 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36' 'https://www.amd.com/en/products/graphics/radeon-rx-590'

stabc

2020-04-03 15:10:16 +08:00

@263 说了一下是『 access denied 』。我用我自己 copy 的 curl 的话，在 mac 的 terminal 下可以抓到，但是在 linux 下超时。在 php 和 js 代码里全超时。应该是他们做了防抓取，但是不知道是哪个地方不对……

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.