yinyuetai.com音悦台 80万数据采集

2013-12-26 15:52:14 +08:00
 pc10201
音悦台是国内最大的高清MV音乐分享平台,也是国内最大的音乐MV视频媒体平台;提供最新、最快、最高清的MV视频资讯,并提供不同格式的高清MV下载,只为让好歌与你随身而行。

要采集的字段包括URL,标题,播放次数,收藏次数,以及标签

采集技巧:

1.mv的id是连续并且递增的,比如http://v.yinyuetai.com/video/833486
那就从1到833486,当然有一些是不存在的,即404错误,最终采集到83万数据,有82000多是不存在的,10%左右

2.播放次数,收藏次数在源代码中是看不到的
是另外加载了一个js文件,即
http://v.yinyuetai.com/video/video-statis-info?videoId=%s
%s代表mv的id
比如
http://v.yinyuetai.com/video/video-statis-info?videoId=833486

3.音悦台没有进行采集限制,我开了50个线程,几个小时就采集完了

采集的数据csv格式下载地址
http://pan.baidu.com/s/1i3kKh73

建议用emeditor打开,或者导入到mysql中,用excel打开后果自负哈

7481 次点击
所在节点    Python
33 条回复
varrily
2013-12-26 16:01:20 +08:00
还以为把mv文件采集出来了
pc10201
2013-12-26 16:06:05 +08:00
@varrily 有了url,可以用维棠软件批量下载
Ansen
2013-12-26 16:08:29 +08:00
与其数据,我更新关心脚本
slax
2013-12-26 16:17:12 +08:00
我擦... 我会告诉你我就是音悦台的嘛....
manhere
2013-12-26 16:19:38 +08:00
音悦台那也叫高清....
chervun
2013-12-26 16:28:26 +08:00
啧啧……
xujialiang
2013-12-26 16:34:35 +08:00
服务器 压力山大啊
faceair
2013-12-26 16:35:46 +08:00
@slax 莫名的喜感 233333
dizzy
2013-12-26 16:48:12 +08:00
@pc10201 LZ,能否看下你写的代码,学习下。
letitbesqzr
2013-12-26 16:59:34 +08:00
同想看看代码...python多线程一直掌握的不太好,很多种写法.. 自己写的总控制不好琐。。
pc10201
2013-12-26 17:10:58 +08:00
@letitbesqzr 我没有用锁,就是用了一个队列
pc10201
2013-12-26 17:11:50 +08:00
@dizzy 具体代码就不分享的,基本上就是依照这个代码的思路
https://github.com/pycurl/pycurl/blob/master/examples/retriever.py
mechille
2013-12-26 17:18:46 +08:00
@slax
@faceair 喜感+1.不懂LZ这帖的目的...
ScotGu
2013-12-26 19:08:05 +08:00
@slax 喜感~~ 想知道你的感受。。
dizzy
2013-12-26 19:39:56 +08:00
@pc10201 好的。
csx163
2013-12-26 20:37:30 +08:00
楼主...都是标题啊,当初我可是弄的直接下载地址啊
tryv2eex
2013-12-26 20:42:07 +08:00
@csx163 @admin 看看
tryv2eex
2013-12-26 20:42:59 +08:00
v2ex 还是没有哪几个国外网站好 我是说用户体验 忽略上面的回复 只是在try v2ex
tryv2eex
2013-12-26 20:43:42 +08:00
对了 每次发新帖都要刷新一次页面? 试试
tryv2eex
2013-12-26 20:44:33 +08:00
好象是的 刷新以后 居然又回到了页面顶端 我用的是Chrome 用用其他浏览器看看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/94656

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX