悟空视频-电影推荐网站上线

2017-08-12 16:55:32 +08:00
 zixie1991
一直都有个想法,根据电影的热度、评分、播放量等多种维度信息找到自己喜欢的电影,于是就有了“悟空视频”这个站点。

地址:wukongshipin.com

赞叹下,开源社区力量大,pyspider、flask、bootstrap 确实很简单、实用。
11608 次点击
所在节点    分享创造
75 条回复
zixie1991
2017-08-21 19:19:58 +08:00
@parvin 已经将你的网站加入友链了
smileawei
2017-08-23 15:32:21 +08:00
2017 韩国 XX 级电影推荐。就凭这个 收藏上车了。
lieqishi
2017-08-29 14:45:27 +08:00
@zixie1991 求友链(你站已加),谢谢啦 http://www.lieqishi.com
zixie1991
2017-08-29 19:45:15 +08:00
@lieqishi 已经将你的网站加入友链了
MikeFeng
2017-08-30 17:58:19 +08:00
沃! cool !能分享 pyspider 脚本学习下么?
zixie1991
2017-08-30 19:03:09 +08:00
MikeFeng
2017-08-30 19:37:26 +08:00
@zixie1991 我想请教一下,你抓取到的数据是直接存数据库,还是通过项目接口录入数据的
zixie1991
2017-08-30 20:20:30 +08:00
@MikeFeng 直接存数据库
RainFinder
2017-08-31 09:39:10 +08:00
打不开呢
MikeFeng
2017-08-31 09:45:18 +08:00
@zixie1991 我看了一下,发现每个视频网站相同的视频可能名字不一样,也有可能名字一样的视频内容不一样,你是怎么确定这个视频的唯一性的?不同的视频网站视频分类也不同,你是怎么归类的?每个视频都去不同网站抓视频集数这个工程量是不是很大呢?还是你抓的是第三方非主流的视频网站的数据,如果是这样那上面的问题是不是都是第三方的视频网站处理了
zixie1991
2017-08-31 10:30:12 +08:00
@RainFinder 能正常打开的
zixie1991
2017-08-31 10:36:03 +08:00
@MikeFeng 网站播放地址是通过抓取主流视频网站(包括腾讯视频、爱奇艺、乐视视频、芒果 TV、优酷网等)获得,每个网站一个 spider。针对”每个视频网站相同的视频可能名字不一样”的问题,我的解决方法是:根据视频的名称、演员、简介三个维度的信息,来计算视频的相似度的(采用了最小编辑距离、simhash 等相似度量方法),其中每个维度被赋予不同的权值,当两个视频的相似度大于某个阈值时判断两个视频相似。
touzi
2017-08-31 10:58:05 +08:00
打不开了
zixie1991
2017-08-31 11:01:18 +08:00
@touzi 能截个图吗?我访问能够打开
touzi
2017-08-31 11:11:43 +08:00
@zixie1991 点楼主两个连接打不开, 复制域名打开了. Chrome 浏览器, 第一次打开速度慢. 北京电信通.
MikeFeng
2017-08-31 14:14:24 +08:00
@zixie1991 原来如此,受教受教,感谢
zhangneww
2017-08-31 16:27:43 +08:00
@zixie1991 北京联通打不开
zixie1991
2017-08-31 18:52:07 +08:00
@zhangneww @touzi 谢谢反馈!!!
pango
2017-08-31 19:43:21 +08:00
楼主技术很牛。

提点意见:1、这种网站停留时间太低,跳出率会很高,非常不利于 seo。 2、不知道“评论”抓取的是不是豆瓣的数据,如果是,重复内容会很多,加上影片标题、简绍都是抓取自豆瓣,容易被搜索引擎判断为垃圾站。
解决办法:1、增加停留时间,比如增加截图、预告片;减少跳出率,比如增加一个播放列表页面。2、减少重复内容,不要抓豆瓣的短评,抓长评后进行改写。

另外既然楼主的感叹了开源社区力量大,不知你也能否为开源社区添砖加瓦呢?不要害怕被人拷贝你的 idea,这种站,关键在运营,不在代码。 ~~
zixie1991
2017-08-31 20:36:17 +08:00
谢谢 @pango 回复,很高兴有 V 友提出这么好的建议!后期有空会尝试做一些网站优化,很乐意与大家交流技术。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/382450

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX