爬虫遇到在浏览器中刷新三次页面才能打开的网站

2019 年 7 月 8 日

ranlele

爬虫遇到在浏览器中刷新三次页面才能打开的网站怎么办，第一次刷新,粉丝，关注，作品全是 null，第二次也是 null，第三次刷新才能拿到具体的数值,有大佬分享下思路吗？ https://live.kuaishou.com/profile/3xsm4gufvu5cfhm

3919 次点击

所在节点

12 条回复

ranlele

2019 年 7 月 8 日

这是快手的个人信息页面

matthewz

2019 年 7 月 8 日

设置 cookie 就行了啊

ranlele

2019 年 7 月 8 日

自己尝试的第一次访问，返回 did，第二次，第三次带着 did 使用 session 访问，依然获取不到数据。

Takamine

2019 年 7 月 8 日

那就用 selenium 刷新三次页面怎么样:doge:。

holajamc

2019 年 7 月 8 日

Cookie 变化用 mitmproxy 抓包康康

ranlele

2019 年 7 月 8 日

selenium 开无头模式就不行。不开无头模式可以使用 did 参数。 cookie 没有变化。

holajamc

2019 年 7 月 8 日

https://zhaoji.wang/how-to-detect-chrome-headless/

ranlele

2019 年 7 月 8 日

@holajamc 我再尝试一下，使用无头模式。

TypeErrorNone

2019 年 7 月 8 日

说明返回数据不是用的 url 参数，是根据 cookie 中的数据来获取的。
你每次有新的 url 就先访问下，记录 cookie，再带着 cookie 访问一次拿数据。

ranlele

2019 年 7 月 8 日

@TypeErrorNone 我觉得，可能就是对这个 cookie 中的数值进行操作的。刷新三次，发送了好多个请求，我现在在模拟这些请求。

opengps

2019 年 7 月 9 日

等待时间不够所以为 null 吧，加点延时进去再爬取

keji

2019 年 7 月 9 日

带上 cookie did 应该就可以了

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.