新手请教一个爬虫问题

2017-06-27 13:18:20 +08:00
 duohedianshuihao

目的是想要爬取这个地址的视频

观察到播放地址是 https://openload.co/stream + 后半部分,然后在 chrome 里看到后半部分保存在

<span id="streamurl">3D6-Nb3wdg4~1498616112~2607:fea8::~ZC1cvud5</span>

而这个标签在 iframe 里面,iframe 已经再次加载了,但是看到的结果是

<span id="streamurl">HERE IS THE LINK</span>

现在就是找到后半部分地址就行了,但到这里我就不知道怎么办了,求指教,谢谢! 哦对了,想用 requests 实现

3192 次点击
所在节点    Python
5 条回复
yuyeson
2017-06-27 13:37:14 +08:00
信息太少了
tinyproxy
2017-06-27 15:12:29 +08:00
duohedianshuihao
2017-06-27 21:46:49 +08:00
@yuyeson 我不太知道下一步该怎么做,就是请求 https://openload.co/embed/3D6-Nb3wdg4/这个地址,chrome 里显示的是上面一个 span,然后我自己请求得到的结果是下一个 span,我没有找到是在哪里替换着两个 span 的内容的。
duohedianshuihao
2017-06-27 21:49:38 +08:00
@tinyproxy 好吧,没注意到…
ianchn
2017-08-11 21:26:01 +08:00
@tinyproxy 这个 API 只能下载自己账号内的内容, 不能用来写爬虫。

楼主的这个问题,youtube-dl 的这个 Issue 里有跟踪和讨论 https://github.com/rg3/youtube-dl/issues/10408,openload 对绕过广告直接下载很敏感,设置了一些反爬虫策略。这里是解决办法: https://gist.github.com/Tithen-Firion/8b3921d745131837519d5c5b95b86440

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/371373

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX