关于爬虫爬取网站音频的问题

2020 年 12 月 1 日

apley

http://www.2uxs.com/youshengxiaoshuo/12999/ 直接给出例子，我在测试的时候发现他调用的.m4a 文件后面跟了一个 get 参数，每次不一样，但是每次访问都给出是不存在的页面，jplayer 大佬们有么有研究的

2315 次点击

所在节点

问与答

6 条回复

Hansah

2020 年 12 月 1 日

防盗链的

imdong

2020 年 12 月 1 日

没啥特别的，他会加载一个 /player/12999/121/37272.html 页面，这个页面里面有对应的 m4a 文件地址，包含这个 key 。

但是是一段经过随机变量名处理过的，而且每次格式还不太一样。

但是总归还是好弄，最后得到的 m4a 带上这个页面的来路即可获取到。

apley

2020 年 12 月 2 日

@imdong 页面的来路？你指的是 xff ？

ybnsjl

2020 年 12 月 2 日

charles 抓包搜索 key 的值，原来的 html 页面（如 http://www.2uxs.com/player/12999/122/37272.html ） 51 行附近有一个`mp3:''+PlayxC1Hrynp+'/都市言情 /我的老千江湖 /0001.m4a?key=5995691b59f6a222c5e7373e627b30e0_1606871504'`的值，正则提出来就好了

zzz686970

2020 年 12 月 2 日

@apley 你的请求 header 带上 Referer 就可以了，这个表示你是从这个页面访问过来的。

apley

2020 年 12 月 2 日

感谢老哥们，总结一下，就是在跳转页面抓取到随机的 key 然后加 Refere 去请求就行

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/731155

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.