V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
vigack
V2EX  ›  分享发现

通过视频标题分析国人 xp

  vigack · 2022-11-24 12:14:35 +08:00 · 9210 次点击
这是一个创建于 759 天前的主题,其中的信息可能已经有所发展或是发生改变。

我从某知名网站获取了大量视频标题,然后通过关键词统计频率,得到了一些有意思的数据,我想可以从中一窥国人的 xp 情况。

文章地址: https://hsingko.github.io/post/2022/11/24/ml-in-china/

第 1 条附言  ·  2022-11-24 18:56:13 +08:00

对于文末唐卡图的问题:

  • 文章里就是原图啊!并没有经过压缩,因为图片生成的过程中就已经进行了模糊化,不然这张图起码 500MB……
LZSZ
    1
LZSZ  
   2022-11-24 12:21:46 +08:00   ❤️ 2
大大的 X 狗引起不适
eason1874
    2
eason1874  
   2022-11-24 12:29:02 +08:00
我的印象跟这数据差不多

真实性无从考究,同一个视频隔一段时间又会被换一个标题重新发出来,前年是同事,去年是同学,今年又成了小女友。不过,研究受众偏好,真实性也不重要,角色扮演本身就是为了满足受众偏好,对受众来说角色就是真的
hover
    3
hover  
   2022-11-24 12:30:23 +08:00 via Android
期待再分析下老外们的 xp
Frankcox
    4
Frankcox  
   2022-11-24 12:36:52 +08:00   ❤️ 1
guro 爱好者路过
hsfzxjy
    5
hsfzxjy  
   2022-11-24 12:40:23 +08:00 via Android
“眼镜”还是小众
Alexonx
    6
Alexonx  
   2022-11-24 12:43:12 +08:00
好奇下这是啥网站...俺也想试试
ArianX
    7
ArianX  
   2022-11-24 13:03:24 +08:00
妙啊
sleeepyy
    8
sleeepyy  
   2022-11-24 13:04:39 +08:00
只是统计关键词出现的频率吗?是否应该将对应的视频的播放量也考虑进去呢
KevinDo2
    9
KevinDo2  
   2022-11-24 13:05:06 +08:00
标题党过多,甚至还有非本人图片挪用作封面,p 站内容剪辑直接发布。
GeruzoniAnsasu
    10
GeruzoniAnsasu  
   2022-11-24 13:08:41 +08:00
有点意思,期待一手各地区 /国家的对比数据
JustSong
    11
JustSong  
   2022-11-24 13:10:29 +08:00 via Android
图表很漂亮,请问用什么画的呀
LxExExl
    12
LxExExl  
   2022-11-24 13:10:37 +08:00   ❤️ 2
楼主的博客很有意思,我觉得是时候弄一个 rss 订阅了。v 站上有意思的个人站还是挺多的, 得追踪一下。
cnrting
    13
cnrting  
   2022-11-24 13:11:04 +08:00 via iPhone
求最后一张原图
vigack
    14
vigack  
OP
   2022-11-24 13:16:14 +08:00
@sleeepyy 本来是想做加权的,但是原始播放量数据似乎有问题,越早期的视频热度显示越离谱,不同时间跨度的热度感觉不是线性增加的。
我想越靠近现在的标题的选择本身就已经反映了某种固定的偏好,关键词是有限的,后来的视频上传者们已经找到了某种“热度关键词”,所以不做加权应该就已经能反映问题了。
vigack
    15
vigack  
OP
   2022-11-24 13:18:41 +08:00   ❤️ 2
@JustSong

- 图表用的是 google sheets ,可以自己配置一些美化选项
- 词云用的 python 的 wordcloud 包
- 最后的唐卡图用的是平均色度算法,可以参考这篇文章: https://towardsdatascience.com/how-to-create-a-photo-mosaic-in-python-45c94f6e8308
vigack
    16
vigack  
OP
   2022-11-24 13:19:07 +08:00
@cnrting 搜索 西藏唐卡,排 google 第一位的维基图片就是
ninickck
    17
ninickck  
   2022-11-24 13:22:52 +08:00
瑞斯拜!
kqij
    18
kqij  
   2022-11-24 13:24:09 +08:00
身高和露面,想问下这两个数据是怎样来的?其他还能理解,是不是收集标题,提取关键词,再分析词频?
vigack
    19
vigack  
OP
   2022-11-24 13:24:56 +08:00
@KevinDo2 所以标题其实是和观众的 xp 强关联的
HugoChao
    20
HugoChao  
   2022-11-24 13:27:29 +08:00
好文共赏
vigack
    21
vigack  
OP
   2022-11-24 13:27:42 +08:00   ❤️ 2
@kqij
我的思路是这样的:
- 视频上传者往往会将露脸作为卖点放在标题中,所以词频占总数比能反应真实情况
- 身高数据也是通过分析标题得来的,但是这里有个问题,并不是所有上传者都会将其放在标题中;所以最后统计出的数据只能反应“本身对身高敏感的观众和上传者”对身高的偏好
nu11ptr
    22
nu11ptr  
   2022-11-24 13:45:23 +08:00   ❤️ 3
最后一张人皮唐卡让我笑出声 要下地狱了
WOLFRAZOR
    23
WOLFRAZOR  
   2022-11-24 13:52:49 +08:00
这都能研究,太厉害了
Williamwang
    24
Williamwang  
   2022-11-24 13:53:01 +08:00
好奇,是 91 吗
quan01994
    25
quan01994  
   2022-11-24 13:53:44 +08:00
emmm,看来我的 XP 还是小众啊。
Felldeadbird
    26
Felldeadbird  
   2022-11-24 14:06:59 +08:00
牛逼,这都可以进行数据分析。
retrocode
    27
retrocode  
   2022-11-24 14:16:02 +08:00
果然嗨丝才是王道啊, 占比那么高
zhangshine
    28
zhangshine  
   2022-11-24 14:19:32 +08:00
不应该是视频发布者的 XP 吗?
vigack
    29
vigack  
OP
   2022-11-24 14:29:58 +08:00   ❤️ 2
@zhangshine
视频发布者的动机是为了获得热度与关注,因此标题选择上会尽可能地“标题党”;如果将视频浏览者的注意力当作市场,那么“视频上传标题-热度”这一反馈机制就如同供需关系一样会达到平衡,这个时候标题实际上已经表现的是“消费者”的喜好了。
wanacry
    30
wanacry  
   2022-11-24 14:30:26 +08:00 via iPhone
xp 是什么
vigack
    31
vigack  
OP
   2022-11-24 14:33:19 +08:00
@quan01994 关键词的集合是我拍脑瓜想出来的,因此可能遗漏了一些我不知道的 xp 😂
walking50w
    32
walking50w  
   2022-11-24 14:41:09 +08:00
@vigack 上传者没有获取反馈的途径, 高浏览量绝对是封面(主要)+内容,绝不可能标题。 所以这个反馈只是上传者的意向。很少能反应观看者。
EthanCYQ
    33
EthanCYQ  
   2022-11-24 14:41:59 +08:00
@wanacry windows xp (
lamesbond
    34
lamesbond  
   2022-11-24 14:44:33 +08:00
黑丝高跟😍😍😍
vigack
    35
vigack  
OP
   2022-11-24 14:52:24 +08:00
@silasamiseaf94
我一向不怎么喜欢绝对化的判断,所以用词不会非常笃定;在我看来上传者和浏览者是有很大重叠部分,有时候观众也会主动参与到制作过程中,所以我所谓的“浏览者”也笼统地包含了上传者。

其次,上传者是有反馈渠道的,那就是视频播放数、留言评论等等;封面图片确实是吸睛的重点,这一点确实没有在分析中提到,但是你可以发现,那些有吸引力的封面往往会在标题中进行表现,比如着装描述、身材描述等等。

最后,浏览者想要的仅仅是千篇一律的往复运动吗?在我看来,他们对“故事”或者说“情节”的需求也很大,而这一点是封面和视频本身无法表现的,只有文字才能做得到。这一点你可以通过观察同样视频是如何通过不同的描述、不同的情节来获得不同的热度中看到。
dzdh
    36
dzdh  
   2022-11-24 14:53:00 +08:00
我要最后一张图的高清大图
vigack
    37
vigack  
OP
   2022-11-24 14:57:38 +08:00
@dzdh
😃你想多了,在生成图片的原理不是简单的拼贴(不然就成了哈勃望远镜了),而是通过模糊像素化得到基础颜色,然后再放置到原图(唐卡)中的恰当位置。文章中的图片并没有经过压缩,就是程序生成的原本内容。

原始封面图共 533MB ,放在一起的时候,里面的内容与其说是能让人愉快,不如说更像是法医鉴定图谱,你不会想要看它们的。
marc2017
    38
marc2017  
   2022-11-24 15:05:21 +08:00
我想要是抓取 gay porn 的话,最大的关键词绝对是 [直男] 。哈哈哈
vigack
    39
vigack  
OP
   2022-11-24 15:12:00 +08:00
@marc2017 😃中文圈貌似没有比较大的视频网站,推上比较多,我常常的关键词大概是直男、体育生、白袜(什么鬼)
lambdaq
    40
lambdaq  
   2022-11-24 15:14:44 +08:00
那个年龄,应该是默认年龄分类吧。。
AshenOneOrz
    41
AshenOneOrz  
   2022-11-24 15:20:37 +08:00
原来是老哥的博客,文章写的真不错
Tanf
    42
Tanf  
   2022-11-24 15:23:33 +08:00
有意思
zek
    43
zek  
   2022-11-24 15:25:13 +08:00
你分析的是哪个网站
vigack
    44
vigack  
OP
   2022-11-24 15:28:20 +08:00
@zek 虽然不能明说,不过中文圈应该就那一个“知名网站”吧……
shanyuhai123
    45
shanyuhai123  
   2022-11-24 15:28:31 +08:00
感觉是最近的关键词,去年的还不是这样 :doge:
vigack
    46
vigack  
OP
   2022-11-24 15:46:52 +08:00
@shanyuhai123 时间到 9 年前为止还是挺均匀的,基本都有 3k+ 左右的数据,但是今年的数据量有 5W+,因此在关键词上可能覆盖了之前的特征。
不过我觉得这和视频“标签化”的趋势有关,之前视频不太多的时候选择也不多,因此不需要怎么弄就有一定的热度;而现在可能拍片的人多了,迎合了短视频的潮流,更喜欢在标题中用直观引起情感反应的词。

现在想想分析视频长度变化趋势也是个有意思的主题,不过抓数据的时候忘了这个字段了....
daweii
    47
daweii  
   2022-11-24 15:49:46 +08:00 via iPhone
有意思。
楼主可以考虑把数据放出下载吗。
我也想分析一下。
ThomasKim
    48
ThomasKim  
   2022-11-24 15:54:02 +08:00
数据肯定是没啥问题的,光看黑丝跟高跟,再对比下抖音跟 B 站尬舞,就一目了然,只是这部分产业在国内没有相对宽松的创作环境,所以远没有达到上限,要是哪天跟日本的厂商一样有各种分门别类,到时候再统计,估计会比较精彩。
xinyu98
    49
xinyu98  
   2022-11-24 15:55:40 +08:00
有没有女性向的
jdhao
    50
jdhao  
   2022-11-24 16:02:00 +08:00 via Android
可视化工具用的哪个
hushs
    51
hushs  
   2022-11-24 16:15:20 +08:00
有没有考虑做个小工具,我想看一下自己的数据。
hoky
    52
hoky  
   2022-11-24 16:29:12 +08:00
有意思的尝试。
redtree
    53
redtree  
   2022-11-24 16:33:57 +08:00
不错不错
gwbw
    54
gwbw  
   2022-11-24 16:39:51 +08:00
针对 "关键词的集合是我拍脑瓜想出来的,因此可能遗漏了" 问题,可以考虑用现成的分词工具提取关键词,比如 python 的 jieba 分词
vigack
    55
vigack  
OP
   2022-11-24 16:43:27 +08:00
@gwbw
我尝试过通过词性进行分词,但是效果不好,还得自己一个个地添加关键词,如果有这方面现成的词典的话就好了。
vigack
    56
vigack  
OP
   2022-11-24 16:44:15 +08:00
@LZSZ 考虑到会引起不适,所以我想了想把那张图删掉了
woscaizi
    57
woscaizi  
   2022-11-24 16:55:13 +08:00
woscaizi
    58
woscaizi  
   2022-11-24 16:55:45 +08:00
@woscaizi 我来分享一下之前爬取的一些标题
cnrting
    59
cnrting  
   2022-11-24 17:02:02 +08:00 via iPhone
@vigack 不是要原版,是要你这里的🐶
vigack
    60
vigack  
OP
   2022-11-24 17:20:04 +08:00
@cnrting
文章里就是原图啊,没有经过压缩,右键另存为就可以了。
不过你可能要的是和 #36 一样的图,我已经在 #37 里回答了……
libaokai
    61
libaokai  
   2022-11-24 17:33:06 +08:00
6
renhou
    62
renhou  
   2022-11-24 17:38:19 +08:00
已硬,已收藏,好人一生平安
adoyle
    63
adoyle  
   2022-11-24 17:51:32 +08:00
从数据分析来研究女性主义,你是懂研究的。

> 我们常常提到物化女性这个概念,但常常是泛泛而谈,没有具体到现实的内涵,这里通过分析自制成人视频者的偏好,可以塑造出某些男性性幻想对象的轮廓。

立意就很好。

看了你的博客其他文章,文笔不错。关注了。
Asimov01
    64
Asimov01  
   2022-11-24 17:55:47 +08:00
有趣有趣,已关注 OP 博客
liangtao927190
    65
liangtao927190  
   2022-11-24 18:04:23 +08:00
有意思,感谢老哥
advicebullet
    66
advicebullet  
   2022-11-24 18:12:56 +08:00   ❤️ 1
[露脸] 真实夫妻 18 岁 XX 师范大学在读 170 高挑长腿黑丝 直叫老公不要停 1 分 20 秒手势验证

根据画像写的标题,找人去拍一个。
Sivan
    67
Sivan  
   2022-11-24 18:19:49 +08:00   ❤️ 1
@advicebullet 你是懂 SEO 的
chanlk
    68
chanlk  
   2022-11-24 18:20:29 +08:00
唐卡来张高清大图啊 ( ̄▽ ̄)/
Vtwoguest
    69
Vtwoguest  
   2022-11-24 19:35:32 +08:00
市场营销做好了,我来解决片源,谁来解决推荐算法,再提供 rss 订阅,来跟我做大做强
jiujiutang
    70
jiujiutang  
   2022-11-24 19:57:28 +08:00
最后的图片高清大图吗
222aa
    71
222aa  
   2022-11-24 20:50:43 +08:00
老哥看了你的博客,你用的是什么系统哇?看着很舒服哦
gerorim
    72
gerorim  
   2022-11-24 21:04:45 +08:00
老哥原来的点云图没有删掉,还是 CDN 有缓存?
原来的点云符合期望(指的是概率上的数学期望)
https://hsingko.github.io/post/2022/11/24/ml-in-china/images/2022-11-24_11-56-02_wordcloud.png
vigack
    73
vigack  
OP
   2022-11-24 21:17:35 +08:00
@gerorim 感谢提醒,忘了 hugo 生成内容的时候默认不会进行删除。
确实原来的图更能反应真实情况,不过过滤掉那些直白的描述并不会对其他方面的关键词造成影响。
vigack
    74
vigack  
OP
   2022-11-24 21:21:13 +08:00
@222aa
hugo + paperMod 主题,加了一点自己的修改
neofacenew
    75
neofacenew  
   2022-11-24 22:26:16 +08:00
@vigack 想问下用的是什么中文字体?
vigack
    76
vigack  
OP
   2022-11-24 22:31:22 +08:00
CRight
    77
CRight  
   2022-11-25 00:14:02 +08:00 via iPhone
词云替换后了就不真实了,
222aa
    78
222aa  
   2022-11-25 08:45:43 +08:00
@vigack 不是博客主题哇,是你用的什么操作系统。看博客无意间看到了您的系统 ui 看着挺舒服的。
Mrxx
    79
Mrxx  
   2022-11-25 08:51:06 +08:00
窥一斑而知全豹纹内衣
vigack
    80
vigack  
OP
   2022-11-25 09:13:35 +08:00
@222aa

桌面是 gnome ,系统是 fedora
daimiaopeng
    81
daimiaopeng  
   2022-11-25 09:21:20 +08:00
@advicebullet 你是懂大数据的
2NUT
    82
2NUT  
   2022-11-25 10:48:59 +08:00
社科专业 再深入 扩充下 其实可以作为毕业论文了
abirdcanfly
    83
abirdcanfly  
   2022-11-25 10:54:33 +08:00
大佬的视角偏颇太大! 这大概只是男性用户的数据, 并非国人, 请注意中国并非只有男人, 女人也有 xy; 本人也是男性, 只是指出不同观点, 并无冒犯之意
222aa
    84
222aa  
   2022-11-25 11:16:01 +08:00
@vigack 好勒
vigack
    85
vigack  
OP
   2022-11-25 11:22:58 +08:00
@abirdcanfly
因为“国男”已经成了带有情绪化的词了,所以这里我用的是“国人”,不过这篇分析确实特指男性。
另外在中文圈,就我所知,还从来没见过女性向的视频;分析女性 xp 也是个很有趣的主题,可惜我目前并没有发现什么值得研究的数据来源。
8XIQz5SCHX1U6c7s
    86
8XIQz5SCHX1U6c7s  
   2022-11-25 11:58:07 +08:00
好活👍
NESeeker
    87
NESeeker  
   2022-11-25 12:03:01 +08:00 via Android
操千曲而后晓声
观千剑而后识器
楼主好活,当代《文心雕龙》
hanbing135
    88
hanbing135  
   2022-11-25 12:22:43 +08:00 via iPhone
感觉 lz 可以进行视频内容检测做深度分析
mmdsun
    89
mmdsun  
   2022-11-25 13:18:12 +08:00 via iPhone
furry 控路过。
这让我想起前段时间我的圈内都再转 涂满你 xp 的小瓶子的调查卡片。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2889 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 14:20 · PVG 22:20 · LAX 06:20 · JFK 09:20
Developed with CodeLauncher
♥ Do have faith in what you're doing.