V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
探索世界的好奇心万岁
vigack
V2EX  ›  分享发现

通过视频标题分析国人 xp

  vigack · 16 天前 · 7650 次点击

我从某知名网站获取了大量视频标题,然后通过关键词统计频率,得到了一些有意思的数据,我想可以从中一窥国人的 xp 情况。

文章地址: https://hsingko.github.io/post/2022/11/24/ml-in-china/

第 1 条附言  ·  15 天前

对于文末唐卡图的问题:

  • 文章里就是原图啊!并没有经过压缩,因为图片生成的过程中就已经进行了模糊化,不然这张图起码 500MB……
LZSZ
    1
LZSZ  
   16 天前   ❤️ 2
大大的 X 狗引起不适
eason1874
    2
eason1874  
   16 天前
我的印象跟这数据差不多

真实性无从考究,同一个视频隔一段时间又会被换一个标题重新发出来,前年是同事,去年是同学,今年又成了小女友。不过,研究受众偏好,真实性也不重要,角色扮演本身就是为了满足受众偏好,对受众来说角色就是真的
hover
    3
hover  
   16 天前 via Android
期待再分析下老外们的 xp
Frankcox
    4
Frankcox  
   16 天前   ❤️ 1
guro 爱好者路过
hsfzxjy
    5
hsfzxjy  
   16 天前 via Android
“眼镜”还是小众
Alexonx
    6
Alexonx  
   16 天前
好奇下这是啥网站...俺也想试试
ArianX
    7
ArianX  
   16 天前
妙啊
sleeepyy
    8
sleeepyy  
   16 天前
只是统计关键词出现的频率吗?是否应该将对应的视频的播放量也考虑进去呢
KevinDo2
    9
KevinDo2  
   16 天前
标题党过多,甚至还有非本人图片挪用作封面,p 站内容剪辑直接发布。
GeruzoniAnsasu
    10
GeruzoniAnsasu  
   16 天前
有点意思,期待一手各地区 /国家的对比数据
JustSong
    11
JustSong  
   16 天前 via Android
图表很漂亮,请问用什么画的呀
LxExExl
    12
LxExExl  
   16 天前   ❤️ 2
楼主的博客很有意思,我觉得是时候弄一个 rss 订阅了。v 站上有意思的个人站还是挺多的, 得追踪一下。
cnrting
    13
cnrting  
   16 天前 via iPhone
求最后一张原图
vigack
    14
vigack  
OP
   16 天前
@sleeepyy 本来是想做加权的,但是原始播放量数据似乎有问题,越早期的视频热度显示越离谱,不同时间跨度的热度感觉不是线性增加的。
我想越靠近现在的标题的选择本身就已经反映了某种固定的偏好,关键词是有限的,后来的视频上传者们已经找到了某种“热度关键词”,所以不做加权应该就已经能反映问题了。
vigack
    15
vigack  
OP
   16 天前   ❤️ 2
@JustSong

- 图表用的是 google sheets ,可以自己配置一些美化选项
- 词云用的 python 的 wordcloud 包
- 最后的唐卡图用的是平均色度算法,可以参考这篇文章: https://towardsdatascience.com/how-to-create-a-photo-mosaic-in-python-45c94f6e8308
vigack
    16
vigack  
OP
   16 天前
@cnrting 搜索 西藏唐卡,排 google 第一位的维基图片就是
ninickck
    17
ninickck  
   16 天前
瑞斯拜!
kqij
    18
kqij  
   16 天前
身高和露面,想问下这两个数据是怎样来的?其他还能理解,是不是收集标题,提取关键词,再分析词频?
vigack
    19
vigack  
OP
   16 天前
@KevinDo2 所以标题其实是和观众的 xp 强关联的
HugoChao
    20
HugoChao  
   16 天前
好文共赏
vigack
    21
vigack  
OP
   16 天前   ❤️ 2
@kqij
我的思路是这样的:
- 视频上传者往往会将露脸作为卖点放在标题中,所以词频占总数比能反应真实情况
- 身高数据也是通过分析标题得来的,但是这里有个问题,并不是所有上传者都会将其放在标题中;所以最后统计出的数据只能反应“本身对身高敏感的观众和上传者”对身高的偏好
nu11ptr
    22
nu11ptr  
   16 天前   ❤️ 3
最后一张人皮唐卡让我笑出声 要下地狱了
WOLFRAZOR
    23
WOLFRAZOR  
   16 天前
这都能研究,太厉害了
Williamwang
    24
Williamwang  
   16 天前
好奇,是 91 吗
quan01994
    25
quan01994  
   16 天前
emmm,看来我的 XP 还是小众啊。
Felldeadbird
    26
Felldeadbird  
   16 天前
牛逼,这都可以进行数据分析。
retrocode
    27
retrocode  
   16 天前
果然嗨丝才是王道啊, 占比那么高
zhangshine
    28
zhangshine  
   16 天前
不应该是视频发布者的 XP 吗?
vigack
    29
vigack  
OP
   16 天前   ❤️ 2
@zhangshine
视频发布者的动机是为了获得热度与关注,因此标题选择上会尽可能地“标题党”;如果将视频浏览者的注意力当作市场,那么“视频上传标题-热度”这一反馈机制就如同供需关系一样会达到平衡,这个时候标题实际上已经表现的是“消费者”的喜好了。
wanacry
    30
wanacry  
   16 天前 via iPhone
xp 是什么
vigack
    31
vigack  
OP
   16 天前
@quan01994 关键词的集合是我拍脑瓜想出来的,因此可能遗漏了一些我不知道的 xp 😂
walking50w
    32
walking50w  
   15 天前
@vigack 上传者没有获取反馈的途径, 高浏览量绝对是封面(主要)+内容,绝不可能标题。 所以这个反馈只是上传者的意向。很少能反应观看者。
EthanCYQ
    33
EthanCYQ  
   15 天前
@wanacry windows xp (
lamesbond
    34
lamesbond  
   15 天前
黑丝高跟😍😍😍
vigack
    35
vigack  
OP
   15 天前
@silasamiseaf94
我一向不怎么喜欢绝对化的判断,所以用词不会非常笃定;在我看来上传者和浏览者是有很大重叠部分,有时候观众也会主动参与到制作过程中,所以我所谓的“浏览者”也笼统地包含了上传者。

其次,上传者是有反馈渠道的,那就是视频播放数、留言评论等等;封面图片确实是吸睛的重点,这一点确实没有在分析中提到,但是你可以发现,那些有吸引力的封面往往会在标题中进行表现,比如着装描述、身材描述等等。

最后,浏览者想要的仅仅是千篇一律的往复运动吗?在我看来,他们对“故事”或者说“情节”的需求也很大,而这一点是封面和视频本身无法表现的,只有文字才能做得到。这一点你可以通过观察同样视频是如何通过不同的描述、不同的情节来获得不同的热度中看到。
dzdh
    36
dzdh  
   15 天前
我要最后一张图的高清大图
vigack
    37
vigack  
OP
   15 天前
@dzdh
😃你想多了,在生成图片的原理不是简单的拼贴(不然就成了哈勃望远镜了),而是通过模糊像素化得到基础颜色,然后再放置到原图(唐卡)中的恰当位置。文章中的图片并没有经过压缩,就是程序生成的原本内容。

原始封面图共 533MB ,放在一起的时候,里面的内容与其说是能让人愉快,不如说更像是法医鉴定图谱,你不会想要看它们的。
marc2017
    38
marc2017  
   15 天前
我想要是抓取 gay porn 的话,最大的关键词绝对是 [直男] 。哈哈哈
vigack
    39
vigack  
OP
   15 天前
@marc2017 😃中文圈貌似没有比较大的视频网站,推上比较多,我常常的关键词大概是直男、体育生、白袜(什么鬼)
lambdaq
    40
lambdaq  
   15 天前
那个年龄,应该是默认年龄分类吧。。
AshenOneOrz
    41
AshenOneOrz  
   15 天前
原来是老哥的博客,文章写的真不错
Tanf
    42
Tanf  
   15 天前
有意思
zek
    43
zek  
   15 天前
你分析的是哪个网站
vigack
    44
vigack  
OP
   15 天前
@zek 虽然不能明说,不过中文圈应该就那一个“知名网站”吧……
shanyuhai123
    45
shanyuhai123  
   15 天前
感觉是最近的关键词,去年的还不是这样 :doge:
vigack
    46
vigack  
OP
   15 天前
@shanyuhai123 时间到 9 年前为止还是挺均匀的,基本都有 3k+ 左右的数据,但是今年的数据量有 5W+,因此在关键词上可能覆盖了之前的特征。
不过我觉得这和视频“标签化”的趋势有关,之前视频不太多的时候选择也不多,因此不需要怎么弄就有一定的热度;而现在可能拍片的人多了,迎合了短视频的潮流,更喜欢在标题中用直观引起情感反应的词。

现在想想分析视频长度变化趋势也是个有意思的主题,不过抓数据的时候忘了这个字段了....
daweii
    47
daweii  
   15 天前 via iPhone
有意思。
楼主可以考虑把数据放出下载吗。
我也想分析一下。
ThomasKim
    48
ThomasKim  
   15 天前
数据肯定是没啥问题的,光看黑丝跟高跟,再对比下抖音跟 B 站尬舞,就一目了然,只是这部分产业在国内没有相对宽松的创作环境,所以远没有达到上限,要是哪天跟日本的厂商一样有各种分门别类,到时候再统计,估计会比较精彩。
xinyu98
    49
xinyu98  
   15 天前
有没有女性向的
jdhao
    50
jdhao  
   15 天前 via Android
可视化工具用的哪个
hushs
    51
hushs  
   15 天前
有没有考虑做个小工具,我想看一下自己的数据。
hoky
    52
hoky  
   15 天前
有意思的尝试。
redtree
    53
redtree  
   15 天前
不错不错
gwbw
    54
gwbw  
   15 天前
针对 "关键词的集合是我拍脑瓜想出来的,因此可能遗漏了" 问题,可以考虑用现成的分词工具提取关键词,比如 python 的 jieba 分词
vigack
    55
vigack  
OP
   15 天前
@gwbw
我尝试过通过词性进行分词,但是效果不好,还得自己一个个地添加关键词,如果有这方面现成的词典的话就好了。
vigack
    56
vigack  
OP
   15 天前
@LZSZ 考虑到会引起不适,所以我想了想把那张图删掉了
woscaizi
    58
woscaizi  
   15 天前
@woscaizi 我来分享一下之前爬取的一些标题
cnrting
    59
cnrting  
   15 天前 via iPhone
@vigack 不是要原版,是要你这里的🐶
vigack
    60
vigack  
OP
   15 天前
@cnrting
文章里就是原图啊,没有经过压缩,右键另存为就可以了。
不过你可能要的是和 #36 一样的图,我已经在 #37 里回答了……
libaokai
    61
libaokai  
   15 天前
6
renhou
    62
renhou  
   15 天前
已硬,已收藏,好人一生平安
adoyle
    63
adoyle  
   15 天前
从数据分析来研究女性主义,你是懂研究的。

> 我们常常提到物化女性这个概念,但常常是泛泛而谈,没有具体到现实的内涵,这里通过分析自制成人视频者的偏好,可以塑造出某些男性性幻想对象的轮廓。

立意就很好。

看了你的博客其他文章,文笔不错。关注了。
Asimov01
    64
Asimov01  
   15 天前
有趣有趣,已关注 OP 博客
liangtao927190
    65
liangtao927190  
   15 天前
有意思,感谢老哥
advicebullet
    66
advicebullet  
   15 天前   ❤️ 1
[露脸] 真实夫妻 18 岁 XX 师范大学在读 170 高挑长腿黑丝 直叫老公不要停 1 分 20 秒手势验证

根据画像写的标题,找人去拍一个。
Sivan
    67
Sivan  
   15 天前   ❤️ 1
@advicebullet 你是懂 SEO 的
chanlk
    68
chanlk  
   15 天前
唐卡来张高清大图啊 ( ̄▽ ̄)/
Vtwoguest
    69
Vtwoguest  
   15 天前
市场营销做好了,我来解决片源,谁来解决推荐算法,再提供 rss 订阅,来跟我做大做强
jiujiutang
    70
jiujiutang  
   15 天前
最后的图片高清大图吗
222aa
    71
222aa  
   15 天前
老哥看了你的博客,你用的是什么系统哇?看着很舒服哦
gerorim
    72
gerorim  
   15 天前
老哥原来的点云图没有删掉,还是 CDN 有缓存?
原来的点云符合期望(指的是概率上的数学期望)
https://hsingko.github.io/post/2022/11/24/ml-in-china/images/2022-11-24_11-56-02_wordcloud.png
vigack
    73
vigack  
OP
   15 天前
@gerorim 感谢提醒,忘了 hugo 生成内容的时候默认不会进行删除。
确实原来的图更能反应真实情况,不过过滤掉那些直白的描述并不会对其他方面的关键词造成影响。
vigack
    74
vigack  
OP
   15 天前
@222aa
hugo + paperMod 主题,加了一点自己的修改
neofacenew
    75
neofacenew  
   15 天前
@vigack 想问下用的是什么中文字体?
vigack
    76
vigack  
OP
   15 天前
CRight
    77
CRight  
   15 天前 via iPhone
词云替换后了就不真实了,
222aa
    78
222aa  
   15 天前
@vigack 不是博客主题哇,是你用的什么操作系统。看博客无意间看到了您的系统 ui 看着挺舒服的。
Mrxx
    79
Mrxx  
   15 天前
窥一斑而知全豹纹内衣
vigack
    80
vigack  
OP
   15 天前
@222aa

桌面是 gnome ,系统是 fedora
daimiaopeng
    81
daimiaopeng  
   15 天前
@advicebullet 你是懂大数据的
2NUT
    82
2NUT  
   15 天前
社科专业 再深入 扩充下 其实可以作为毕业论文了
abirdcanfly
    83
abirdcanfly  
   15 天前
大佬的视角偏颇太大! 这大概只是男性用户的数据, 并非国人, 请注意中国并非只有男人, 女人也有 xy; 本人也是男性, 只是指出不同观点, 并无冒犯之意
222aa
    84
222aa  
   15 天前
@vigack 好勒
vigack
    85
vigack  
OP
   15 天前
@abirdcanfly
因为“国男”已经成了带有情绪化的词了,所以这里我用的是“国人”,不过这篇分析确实特指男性。
另外在中文圈,就我所知,还从来没见过女性向的视频;分析女性 xp 也是个很有趣的主题,可惜我目前并没有发现什么值得研究的数据来源。
ifOnly
    86
ifOnly  
   15 天前
好活👍
NESeeker
    87
NESeeker  
   15 天前 via Android
操千曲而后晓声
观千剑而后识器
楼主好活,当代《文心雕龙》
hanbing135
    88
hanbing135  
   15 天前 via iPhone
感觉 lz 可以进行视频内容检测做深度分析
mmdsun
    89
mmdsun  
   15 天前 via iPhone
furry 控路过。
这让我想起前段时间我的圈内都再转 涂满你 xp 的小瓶子的调查卡片。
关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2831 人在线   最高记录 5497   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 72ms · UTC 06:34 · PVG 14:34 · LAX 22:34 · JFK 01:34
Developed with CodeLauncher
♥ Do have faith in what you're doing.