通过视频标题分析国人 xp

2022-11-24 12:14:35 +08:00
 vigack

我从某知名网站获取了大量视频标题,然后通过关键词统计频率,得到了一些有意思的数据,我想可以从中一窥国人的 xp 情况。

文章地址: https://hsingko.github.io/post/2022/11/24/ml-in-china/

8854 次点击
所在节点    分享发现
89 条回复
LZSZ
2022-11-24 12:21:46 +08:00
大大的 X 狗引起不适
eason1874
2022-11-24 12:29:02 +08:00
我的印象跟这数据差不多

真实性无从考究,同一个视频隔一段时间又会被换一个标题重新发出来,前年是同事,去年是同学,今年又成了小女友。不过,研究受众偏好,真实性也不重要,角色扮演本身就是为了满足受众偏好,对受众来说角色就是真的
hover
2022-11-24 12:30:23 +08:00
期待再分析下老外们的 xp
Frankcox
2022-11-24 12:36:52 +08:00
guro 爱好者路过
hsfzxjy
2022-11-24 12:40:23 +08:00
“眼镜”还是小众
Alexonx
2022-11-24 12:43:12 +08:00
好奇下这是啥网站...俺也想试试
ArianX
2022-11-24 13:03:24 +08:00
妙啊
sleeepyy
2022-11-24 13:04:39 +08:00
只是统计关键词出现的频率吗?是否应该将对应的视频的播放量也考虑进去呢
KevinDo2
2022-11-24 13:05:06 +08:00
标题党过多,甚至还有非本人图片挪用作封面,p 站内容剪辑直接发布。
GeruzoniAnsasu
2022-11-24 13:08:41 +08:00
有点意思,期待一手各地区 /国家的对比数据
JustSong
2022-11-24 13:10:29 +08:00
图表很漂亮,请问用什么画的呀
LxExExl
2022-11-24 13:10:37 +08:00
楼主的博客很有意思,我觉得是时候弄一个 rss 订阅了。v 站上有意思的个人站还是挺多的, 得追踪一下。
cnrting
2022-11-24 13:11:04 +08:00
求最后一张原图
vigack
2022-11-24 13:16:14 +08:00
@sleeepyy 本来是想做加权的,但是原始播放量数据似乎有问题,越早期的视频热度显示越离谱,不同时间跨度的热度感觉不是线性增加的。
我想越靠近现在的标题的选择本身就已经反映了某种固定的偏好,关键词是有限的,后来的视频上传者们已经找到了某种“热度关键词”,所以不做加权应该就已经能反映问题了。
vigack
2022-11-24 13:18:41 +08:00
@JustSong

- 图表用的是 google sheets ,可以自己配置一些美化选项
- 词云用的 python 的 wordcloud 包
- 最后的唐卡图用的是平均色度算法,可以参考这篇文章: https://towardsdatascience.com/how-to-create-a-photo-mosaic-in-python-45c94f6e8308
vigack
2022-11-24 13:19:07 +08:00
@cnrting 搜索 西藏唐卡,排 google 第一位的维基图片就是
ninickck
2022-11-24 13:22:52 +08:00
瑞斯拜!
kqij
2022-11-24 13:24:09 +08:00
身高和露面,想问下这两个数据是怎样来的?其他还能理解,是不是收集标题,提取关键词,再分析词频?
vigack
2022-11-24 13:24:56 +08:00
@KevinDo2 所以标题其实是和观众的 xp 强关联的
HugoChao
2022-11-24 13:27:29 +08:00
好文共赏

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/897558

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX