新手请教一个爬虫问题

2017 年 6 月 27 日
 duohedianshuihao

目的是想要爬取这个地址的视频

观察到播放地址是 https://openload.co/stream + 后半部分,然后在 chrome 里看到后半部分保存在

<span id="streamurl">3D6-Nb3wdg4~1498616112~2607:fea8::~ZC1cvud5</span>

而这个标签在 iframe 里面,iframe 已经再次加载了,但是看到的结果是

<span id="streamurl">HERE IS THE LINK</span>

现在就是找到后半部分地址就行了,但到这里我就不知道怎么办了,求指教,谢谢! 哦对了,想用 requests 实现

4042 次点击
所在节点    Python
5 条回复
yuyeson
2017 年 6 月 27 日
信息太少了
tinyproxy
2017 年 6 月 27 日
duohedianshuihao
2017 年 6 月 27 日
@yuyeson 我不太知道下一步该怎么做,就是请求 https://openload.co/embed/3D6-Nb3wdg4/这个地址,chrome 里显示的是上面一个 span,然后我自己请求得到的结果是下一个 span,我没有找到是在哪里替换着两个 span 的内容的。
duohedianshuihao
2017 年 6 月 27 日
@tinyproxy 好吧,没注意到…
ianchn
2017 年 8 月 11 日
@tinyproxy 这个 API 只能下载自己账号内的内容, 不能用来写爬虫。

楼主的这个问题,youtube-dl 的这个 Issue 里有跟踪和讨论 https://github.com/rg3/youtube-dl/issues/10408,openload 对绕过广告直接下载很敏感,设置了一些反爬虫策略。这里是解决办法: https://gist.github.com/Tithen-Firion/8b3921d745131837519d5c5b95b86440

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/371373

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX