关于爬虫爬取网站音频的问题

2020-12-01 22:27:26 +08:00
 apley

http://www.2uxs.com/youshengxiaoshuo/12999/ 直接给出例子,我在测试的时候发现他调用的.m4a 文件后面跟了一个 get 参数,每次不一样,但是每次访问都给出是不存在的页面,jplayer 大佬们有么有研究的

1183 次点击
所在节点    问与答
6 条回复
siknet
2020-12-01 22:35:16 +08:00
防盗链的
imdong
2020-12-01 22:44:28 +08:00
没啥特别的,他会加载一个 /player/12999/121/37272.html 页面,这个页面里面有对应的 m4a 文件地址,包含这个 key 。

但是是一段经过随机变量名处理过的,而且每次格式还不太一样。

但是总归还是好弄,最后得到的 m4a 带上 这个页面的来路即可获取到。
apley
2020-12-02 07:55:00 +08:00
@imdong 页面的来路?你指的是 xff ?
ybnsjl
2020-12-02 09:27:39 +08:00
charles 抓包搜索 key 的值,原来的 html 页面(如 http://www.2uxs.com/player/12999/122/37272.html ) 51 行附近有一个`mp3:''+PlayxC1Hrynp+'/都市言情 /我的老千江湖 /0001.m4a?key=5995691b59f6a222c5e7373e627b30e0_1606871504'`的值,正则提出来就好了
zzz686970
2020-12-02 09:38:30 +08:00
@apley 你的请求 header 带上 Referer 就可以了,这个表示你是从这个页面访问过来的。
apley
2020-12-02 14:54:13 +08:00
感谢老哥们,总结一下,就是在跳转页面抓取到随机的 key 然后加 Refere 去请求就行

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/731155

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX