有做过搜狗微信爬虫的吗,遇到个问题 列表的 url 不能直接访问...

2019-12-05 17:09:12 +08:00
 yasumoto
报上我需要爬的页面
https://weixin.sogou.com/weixin?query=%E8%83%83%E7%99%8C&type=2&page=2&ie=utf8

标题详情图片就不说了 现在是抓取详情页链接有点问题
https://i.loli.net/2019/12/05/8BUwOrAKyCEquoN.png

在浏览器里点击标题可以直接点开 但是直接用这个 a 标签访问就出错
https://img03.sogoucdn.com/app/a/100520146/875f2270b05957ccaa5a83db3383a7f5

我抓包了一下 发现 a 标签里面的链接是个'假链接' 真链接隐藏在这里
https://i.loli.net/2019/12/05/ExzM8A5QcUrVOwu.png

我现在就想去抓到真链接 各位大佬有啥思路吗
1818 次点击
所在节点    程序员
7 条回复
yasumoto
2019-12-05 17:14:40 +08:00
看了网上挺多文章 说是多了&k=1&h=f 但是我看现在列表 a 标签就自带&k=1&h=f 的
heiheidewo
2019-12-05 17:14:56 +08:00
带上 cookie
littleylv
2019-12-05 17:18:07 +08:00
请求链接的时候带上 referer 试试
iamdaguduizhang
2019-12-05 17:21:16 +08:00
这个啊,a 标签绑定的有监听事件的。点击的时候会生成一个新的 url,请求这个 url 会返回最终的文章链接的。
zixiaoguan
2019-12-05 17:32:10 +08:00
看样子是列表的每一项必须要通过 link 接口获取真实的页面地址并重定向。你也可以通过那个接口获取页面内容并解析
yasumoto
2019-12-05 17:40:19 +08:00
@iamdaguduizhang 对的 是这个逻辑
yasumoto
2019-12-05 17:41:21 +08:00
@heiheidewo
@littleylv
带上 Referer 和 Cookie 一起 请求 postman 已有返回结果谢谢
https://img02.sogoucdn.com/app/a/100520146/2e4378d585a5e2ffc83a52048d0d6ab2

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/626269

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX