爬虫: get 请求一个 url 不返回主体 html,状态码 200,这是加权限了吗?

2020-01-07 14:39:02 +08:00
 s609926202

请求地址: https://www.digikey.cn/products/zh?WT.z_header=search_go&keywords=LTC4366HTS8-2

使用 Guzzlehttp 请求时时,返回内容如下:

<!DOCTYPE html>
<html>
  <head>
    <script>一些 js 代码</script>
  </head>
  <body>
    <script>一些 js 代码</script>
  </body>
</html>

在浏览器中响应内容是全部的 html 内容。
初步怀疑这是有什么权限之类的原因?对爬虫不是很了解,路过的帮忙看看。

1881 次点击
所在节点    问与答
7 条回复
noreplay
2020-01-07 14:49:44 +08:00
没玩过爬虫,感觉是一个 js 执行的问题,可以试一下无头浏览器之类的进行爬
s609926202
2020-01-07 14:55:16 +08:00
使用 curl 返回的内容如下图

crella
2020-01-07 17:39:41 +08:00
www.newsmth.net 一样。每次访问页面都被 js 处理并解析,所以要有类似浏览器 js 环境的 js 解析器
s609926202
2020-01-07 17:43:57 +08:00
@crella php 可以实现吗?
crella
2020-01-07 19:06:57 +08:00
@s609926202 selenium,安装 firefox 或 chrome 驱动并安装对应浏览器。

我都是道听途说,没亲身试过。听说 selenium 有内存泄漏问题
ruimz
2020-01-07 19:19:11 +08:00
@crella 不用这么麻烦…newsmth 的 js 文件也是有规律对应的。F12 一下找到 js 文件地址,直接爬 js 就行…………
qoo2019
2020-01-07 19:32:01 +08:00
根据 ua,直接返回 200 就行了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/635795

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX