关于 U2B 视频自动搬运到优酷,秒拍等国内平台可行性讨论

2017-02-23 09:41:27 +08:00
 littleqx

不知各位 Dalao 这种思路可否实现?爬虫不知行不行

4356 次点击
所在节点    问与答
21 条回复
Tink
2017-02-23 09:43:36 +08:00
很好实现,都有现成的轮子
littleqx
2017-02-23 09:45:11 +08:00
@Tink 还请 da'lao 指点迷津
Tink
2017-02-23 09:47:53 +08:00
下载 youtube 视频就用 you-get ,下完之后用优酷的 sdk 传上去就行了么
vislins
2017-02-23 09:50:36 +08:00
版权如何解决?
akring
2017-02-23 09:52:01 +08:00
别只看技术不看版权
zhengjian
2017-02-23 10:33:44 +08:00
走逸站路线?👀
murmur
2017-02-23 10:36:30 +08:00
技术不是问题 版权才是最大问题
murmur
2017-02-23 10:38:11 +08:00
以前有个国内媒体专门盗用老外的图,结果那个外国人在图上用了很小的字体写了 xxxx tibet ,那个媒体自然原封抄过去了

这是放以前,现在你自动搬来个敏感视频,等着喝茶吧
domty
2017-02-23 11:42:36 +08:00
@murmur
很多 youtube 上的游戏视频,国内的发布者拿过来剪掉人家的商标再把自己的开头结尾剪进去就成原创的了。
或者那个好几个同类的视频都剪碎成一堆素材,自己再重新挑拣拼凑下就成新内容了。
velee
2017-02-23 11:52:46 +08:00
@littleqx 这个路子感觉不停的有人在走,以前我也想弄过,但是没弄成自动搬运。

现在还是有很多人在弄,而且广告收益还不错。我记得的 youku 有个以前做的比较小的,但是每天更新的,叫冯导看世界,楼主你自己去搜搜。

至于敏感视频的话,只要你关注的频道没有太多问题,基本上 youku 再审核一遍,还是比较少的。
fl2d
2017-02-23 12:34:31 +08:00
某浪体育好多视频就是这么直接从 youtube 上搬来的,有时候连原作者 logo 都懒得马赛克。
评论底下老有人骂抄袭,于是,我浪真汉子,就限制了墙外 ip 看看这些视频。
littleqx
2017-02-23 13:11:57 +08:00
@vislins 搬运小众视频 肯定不会涉及敏感政治相关
dongoo
2017-02-23 13:13:31 +08:00
B 站好多 up 主的简介就是搬运工
littleqx
2017-02-23 13:14:03 +08:00
@velee 手动搬运吗
lty494685444
2017-02-23 13:17:56 +08:00
微博上面传播的文字内容和短视频有很大一部分是在国内国外各种平台搬过来的...你看看人家市值都超 twitter 了.../滑稽
wmttom
2017-02-23 13:18:14 +08:00
@littleqx 曾经做过类似的事情,给一些建议。
YouTube 信息抓取可以走 Google 的 API ,个人感觉 API 设计的比国内的视频网站合理很多。抓取的的方式是通过 playlist 来抓取下面 videoId ,然后存下或者扔队列,供之后下载。
这里有个小技巧可以拿到一个 channel 下全部上传的视频 playlistId ,首先找到 channel 的 id ,有的用户会自定义 channel 页面 url ,这样的可以去用户视频跳转链接里面找,形如『 UCxxx...』的一个字符串,然后把这个 channel Id 的前两个字母从 UC 改为 UU ,然后把修改后的 id 当做 playlistId ,调用接口,就能拿到这个 channel 下所有视频了。
所以爬虫循环抓取的种子列表就是自己整理的一个 UU 开头的 playlistId 列表。 YouTube API 支持 etag ,支持下可以少好多网络请求。
下载可以写 Python 脚本调用 youtube-dl 来做,需要限制下 mp4 格式,这样抓下来的视频大概是 720p 清晰度,更高码率其他格式声音画面有些是分离的,还得合并不划算。最好也限制下大小,有些几个小时超长的视频其实搬过来没啥用,根据抓的码率和要的时长来算下限制的大小。
下载上传基本流程就是读取下载队列的 videoId 把视频下载到指定目录,之后把 videoId 扔到上传队列。上传脚本通过读取队列,从本地目录查找到文件调用接口上传,上传后删除本地视频文件。下载上传脚本都可以根据情况开多个。
代理方面更倾向于国外的服务器只做代理,不跑逻辑,无论境内外服务器中间用的啥协议传输,最后都在境内服务器上封装成 HTTP 代理,给抓取和下载使用。
有一段时间没接触过这些了,可能有的信息比较旧,仅供参考。
imn1
2017-02-23 14:19:28 +08:00
通知:
由于广电局、中宣部与会人员工作比较忙,未能按时出席,本次讨论会将延期,择日重开。
murmur
2017-02-23 16:28:59 +08:00
@domty 太正常了 今日头条和朋友圈能火才是原创作者的噩梦
cst4you
2017-02-23 17:14:07 +08:00
看看 B 站科技区各种搬运国外视频然后抹掉声音自己一本正经的胡说八道, 再加个片头片尾宣传公众号, 心真他妈寒
JackBlack2006
2017-02-23 17:20:23 +08:00
搬运这事情我也干过,我是不会去掉别人开头结尾 logo 的,老板也没在乎这个

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/342513

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX