爬虫遇到在浏览器中刷新三次页面才能打开的网站

2019-07-08 14:59:02 +08:00
 ranlele
爬虫遇到在浏览器中刷新三次页面才能打开的网站怎么办,第一次刷新,粉丝,关注,作品全是 null,第二次也是 null,第三次刷新才能拿到具体的数值,有大佬分享下思路吗? https://live.kuaishou.com/profile/3xsm4gufvu5cfhm
3025 次点击
所在节点    Python
12 条回复
ranlele
2019-07-08 15:12:04 +08:00
这是快手的个人信息页面
matthewz
2019-07-08 15:23:48 +08:00
设置 cookie 就行了啊
ranlele
2019-07-08 15:29:01 +08:00
自己尝试的第一次访问,返回 did,第二次,第三次带着 did 使用 session 访问,依然获取不到数据。
Takamine
2019-07-08 15:32:15 +08:00
那就用 selenium 刷新三次页面怎么样:doge:。
holajamc
2019-07-08 15:35:17 +08:00
Cookie 变化 用 mitmproxy 抓包康康
ranlele
2019-07-08 15:39:55 +08:00
selenium 开无头模式就不行。不开无头模式可以使用 did 参数。 cookie 没有变化。
holajamc
2019-07-08 15:47:14 +08:00
https://zhaoji.wang/how-to-detect-chrome-headless/
ranlele
2019-07-08 16:10:29 +08:00
@holajamc 我再尝试一下,使用无头模式。
TypeErrorNone
2019-07-08 16:16:07 +08:00
说明返回数据不是用的 url 参数,是根据 cookie 中的数据来获取的。
你每次有新的 url 就先访问下,记录 cookie,再带着 cookie 访问一次拿数据。
ranlele
2019-07-08 16:23:40 +08:00
@TypeErrorNone 我觉得,可能就是对这个 cookie 中的数值进行操作的。刷新三次,发送了好多个请求,我现在在模拟这些请求。
opengps
2019-07-09 08:48:01 +08:00
等待时间不够所以为 null 吧,加点延时进去再爬取
keji
2019-07-09 14:51:48 +08:00
带上 cookie did 应该就可以了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/581010

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX