这是一个基于 Bangumi.tv 220 万用户评分的动画推荐工具,算是自己在推荐系统方面的入门尝试
如题,能根据你选择的某个动画,推荐与其相似的其他动画。
相似是指「喜欢该动画的人大多也会喜欢」
比如找合适自己的老番来看之类的~
最早是今年年初在 Coursera 学吴恩达的机器学习课程时练手用的,后来发现还挺准确的。
于是花了一些时间把 Matlab 程序改成了 Python 实现,这两周继续做了网站供人查询。
地址:https://search.bakery.moe/ (注:使用前请先阅读「关于」)
网站源码: https://github.com/Icemic/search.bakery.moe (欢迎 pr )
1
rabbbit 2017-06-15 21:45:02 +08:00
https://search.bakery.moe/search/青兰圆舞曲
搜青兰圆舞曲,这给我推荐的啥玩意? |
2
Icemic OP @rabbbit 只有在 Bangumi.tv 上有 rank 的才能搜到,青蓝圆舞曲 http://bgm.tv/subject_search/%E9%9D%92%E5%85%B0%E5%9C%86%E8%88%9E%E6%9B%B2?cat=2 不在榜单上,数据量过小,加入了也不会准确的……
|
3
Icemic OP |
4
whwq2012 2017-06-15 21:55:15 +08:00 via Android
你这个是按关键字推荐的吧,哪里按照兴趣了,我搜我的英雄学院,出来的都是英雄和学院相关的。
|
6
rabbbit 2017-06-15 22:04:35 +08:00
这样啊,点进去之后没看见右上角的'关于'按钮,以为搜索作品名会直接显示推荐.
|
8
TriiHsia 2017-06-15 22:13:09 +08:00 via iPhone
先不说操作逻辑,我感觉推荐给我的番剧,基于对原番剧的口味,并不是太感兴趣。没有看代码,所以不知道你是基于什么算法开展训练的。
|
9
htfy96 2017-06-15 22:36:36 +08:00
楼主有数据吗?刚好最近想做点类似的东西
|
10
Icemic OP @whwq2012 注意相似的定义,不管怎么样,给你搜索的那个动画高评分的人,确实也给推荐内容高评分了………要么就是你搜索的是很冷的番……
话说各位说不准的说下搜索的是哪个动画啊,以及,推荐这个东西,本来就是全体概率性的,个体不准确很正常……我抓朋友测的都说还不错…… |
12
Icemic OP |
18
cqcn1991 2017-06-15 23:02:17 +08:00
@Icemic 然后,按照我这几天看的推荐系统。。。。
基本的协同过滤,我感觉称为“相关物品”更佳,因为“推荐”不止是相似的东西。但是经典的协同貌似只能做到这个程度。 典型的应用场景就是 Amazon 的相关商品 我们对推荐系统,其实很看重 serendipity,完全是另外一个 measure 了 |
19
grzhan 2017-06-15 23:42:09 +08:00
感觉挺不错的。
不准的话 搜了下“永生之酒”,觉得相关的应该会出现“无头骑士异闻录”,没有出现,返回最相关的是 JOJO 搜了下“剑风传奇”,觉得相关的应该会出现“大剑”,没有出现,返回最相关的是 Dimension W 搜了下“白箱”,觉得相关的应该会出现这季的“樱花任务”,或者 “ New Game ” 这样的职场番,没有出现,返回最相关的是蜂蜜与四叶草 不知道作者说的比较准确的例子有哪些,也想看一下。 |
20
AstroProfundis 2017-06-15 23:46:52 +08:00
居然没有茶话会联动贴?
|
21
sinker 2017-06-15 23:47:52 +08:00 via iPhone
@AstroProfundis 这不科学
|
22
grzhan 2017-06-15 23:49:34 +08:00
看到回复说用的算法说是“协同过滤”
如此的话,相似的作品是指 [受众类似的作品] ,而非 [风格类似的作品] ? 这样来看算法还是有一定效果的。 |
23
AstroProfundis 2017-06-15 23:51:05 +08:00
|
24
Icemic OP @cqcn1991
协同过滤分为基于物品和基于用户两种,但这个哪个都不属于……硬要说的话大概是基于物品更多一点 而且我并没有真的想以推荐系统为目标,我就是要一个给我推荐我会感兴趣的东西。这个东西就是因为 X 对 A 评分高,对 B 评分也高,那么我对 A 评分高,则对 B 也可能评分高,这样一个单纯的逻辑。在物品足够多的时候,足以体现一个人的喜好特征,反过来物品也是一样。 除此之外,也并没有更多的数据能够实现你说的更复杂的系统…… 土木没问题…就是那个意思。 @grzhan 说明大家的兴趣可能并不想我们想的那样。我举几个例子: 1. 黄金拼图。萝莉番,相似推荐包括点兔在内,基本都是萝莉番…这个经过我某个点兔难民朋友验证了 2. 系列性质的:空之境界、柯南剧场版、大雄剧场版。空之境界极为密集,后两个只有年代相近的才会推荐,这是人群特征决定的。(慢慢的都会脱宅……) 3. 一个特别的例子:fate 系列,fsn 两部 tv 和一部剧场版特别接近,但 fz 却离他们很远………还记得当初 fz 出来的时候两极分化的评价吗?这也是人群的问题 4. 自新世界,绝园的暴风雨,psycho pass,三个知名的反乌托邦,互相直接有微弱的联系,但排名不是很靠前 5. 嗯……里番…………反正你搜索一个试试就知道了 6. 缘之空,日在校园,公主恋人,euphoria ……嗯……老司机经常和在一起骗萌新的几个 7. 凉宫春日系列。作为时代的眼泪,推荐的只有那个年代的著名日常 /恋爱番,和新人已经不看凉宫的悲伤事实吻合……… 8. 星际牛仔。bgm 排名第一,相似推荐和 bgm 榜单几乎一样……大概是马太效应…… 9. 天空之城。全部宫崎骏或吉卜力工作室 也有我比较疑惑的: new game,几乎和点兔是一类的……难道是社畜多萝莉控? 你会发现我举的都是最近的热门动画或经典动画,因为这些数据量足。而不足的那些,则有很强的当时年代的烙印,很多人觉得「不准」就来自于此。 另一方面,推荐不能只看排名,封面上还有一个相似度呢……基本上低于 80%就可以认为缺少联系,高于 90%一般比较靠谱。有的推荐就算是排名第一的那个,也只有 80+%的相似度,说明这个动画本身就是比较独一无二的,没有与其特别近似的。也就无法强求相似的推荐了。 大概就是这些,大家可以补充,其实我觉得思考这里面的联系还是蛮有意思的。 @grzhan 对的,是受众类似。 |
25
ks3825 2017-06-16 01:22:51 +08:00 via Android
最近在看 KILL la KILL,是一部燃到掉渣的作品,就搜了一下
本来以为必定会出现天元突破的,结果力荐马男波杰克两季和降世神通两季…而且大多相似度都在 90%以上…我的内心是崩溃的 双斩少女有那么像美漫么。推荐了鲁邦三世,还是说我已经老了………… |
26
kslr 2017-06-16 01:28:29 +08:00
Ublock 默认把 body 给全屏蔽了。。。
|
27
kslr 2017-06-16 01:30:46 +08:00
楼主你的依赖这么多,是怎么做到 index.js 这么小的?
|
28
Yinz 2017-06-16 01:38:29 +08:00
试了一下,感觉还是很不错的。
另外可能是因为协同过滤的原因,如果搜的是非常热门的番,推荐出来的也是另外一些非常热门的番(小圆->物语系列)。有种不知道怎么说的感觉,虽然确实热门番喜欢的可能性更大,但是这两个番相似度不高的话,可能并不适合拿来作为推荐?这样看来是不是基于内容的推荐会更适合『番剧推荐』这样的应用场景呢? 最近正好也在寻找一些能够练手的推荐系统项目,不知能不能拿到楼主的数据,就不用我自己爬了 :D |
30
zhucelws 2017-06-16 08:27:09 +08:00 1
|
31
Rice 2017-06-16 08:31:56 +08:00
发现推荐的结果好像都是和这个番相近时期的动画。
老番会推荐老番,新番就推荐新番。 斩服少女的推荐里没天元突破,估计是天元突破太老了,而且看的已经不是同一批人了? |
32
Explorare 2017-06-16 08:39:29 +08:00 3
建议加强对里番内容的训练,能分辨各种种族、PLAY 和流派(比如时间静止、恶堕等),谢谢。
|
33
levywang 2017-06-16 09:03:00 +08:00 via Android
搜希德尼娅的骑士,推荐的全是有骑士的番,你这是关键字推送吧🙄
|
35
momocraft 2017-06-16 09:34:12 +08:00
可以发去茶话会 (bgm38)
|
36
fireattack 2017-06-16 09:39:07 +08:00
应该去 bgm 发一份吧
|
37
Tunar 2017-06-16 09:41:01 +08:00 via Android
交响诗篇=交响情人梦。。。?
|
38
Tunar 2017-06-16 09:43:23 +08:00 via Android
看差了,sorry
|
39
fireattack 2017-06-16 09:45:50 +08:00
为啥只有“准确”的反馈没有“不准确”?
|
40
Icemic OP |
43
nicoljiang 2017-06-16 10:28:26 +08:00
本来打了好多字,后来想还是算了。。。无非是想说,这么简单的计算根本算不上机器学习,顶多一个统计而已。
最近 V2 聚集了越来越多的动漫二次元党,优点是对很多事都会很认真,甚至较真。但是对很多东西认知特别浅就把东西发出来秀,然后普遍玻璃心、易怒,虽然完全不知道是男是女,但看起来好像都是 LOLI 的样子。 |
44
geew 2017-06-16 10:47:52 +08:00
这相似度怎么算的
|
46
Icemic OP |
47
denghongcai 2017-06-16 11:06:50 +08:00
|
49
SoulGem 2017-06-16 11:09:17 +08:00
打不开啊
|
50
Icemic OP @denghongcai
这是搜索………… 你们要是都既不看说明也不看评论就用,那我也没办法…… @geew 就是那个 @SoulGem 服务器在东京,所以上海电信之类的用户我也没办法 orz 用代理什么的吧…… |
52
Icemic OP @geew
低啊……基本上低于 80%就可以认为缺少联系,高于 90%一般比较靠谱。有的推荐就算是排名第一的那个,也只有 80+%的相似度,说明这个动画本身就是比较独一无二的,没有与其特别近似的。也就无法强求相似的推荐了。 |
54
Spoter 2017-06-16 12:13:46 +08:00
那叫动漫谢谢。妈蛋,我还以为是动效推荐呢
|
55
shanks 2017-06-16 12:38:14 +08:00
这个相似度不太行。。。搜进击的巨人,出来了四月谎言。。
还是豆瓣推荐比较靠谱。。 寄生兽,东京啃种,心理测量者。。 |
57
Yinz 2017-06-16 13:27:32 +08:00
看起来楼主并不想理我 :(
|
58
ryd994 2017-06-16 13:52:13 +08:00
希德尼亚的结果不算差,拉到下面开始混入当季热门
我觉得楼上有问题的主要是因为那几个都是当季的大热门,其实很多人都看过。 没有很好的区分“喜欢”的联系和“随便追个番 / 吃快餐”的联系 希望能基于多个番综合推荐: 用户添加若干自己喜欢的番,综合根据这些番来推荐 @levywang https://search.bakery.moe/item/77476 不是吧 |
59
ryd994 2017-06-16 14:02:52 +08:00
@ks3825 Kill la Kill 这个老美真的很喜欢。特点:燃,动作流畅,没剧情。这整个一典型美漫。
我是没什么感觉,被同学安利了去看了。也就 Blumenkranz 比较喜欢。 |
60
skylancer 2017-06-16 14:22:25 +08:00
看到这帖,我才想起来好多年没登录过 bgm 了..
|
62
ss0xt 2017-06-16 17:31:05 +08:00
|
63
scgy5555 2017-06-16 18:23:52 +08:00
看来这个世界上又多了 220 万蠢货
|
65
Icemic OP |
66
Yinz 2017-06-16 20:03:35 +08:00
|
67
frittle 2017-06-16 20:33:50 +08:00
只试了《斗牌传说》,个人觉得推荐的都不怎么相似,尤其无法理解为啥推荐列表里《大魔法峠》是相似度最高的。
|
69
ryd994 2017-06-16 23:07:55 +08:00 via Android
@Icemic 这么多人用错说明你 UI 设计有问题
根据关键词的结果不要说“查询结果”,建议改成“找到多个重名番组”之类的 |
70
ss0xt 2017-06-17 10:48:17 +08:00
@Icemic #65 我发个搜索的链接怎么了?有问题吗?也没说你这是推荐后的结果啊,别扯到没看说明什么的,我又没说你这推荐不行,或者其他什么,别动不动就你们这类人你们这类人,zz
|
71
Icemic OP |
73
8qwe24657913 2017-06-21 22:19:06 +08:00
|
74
Icemic OP @8qwe24657913 收到,因为目前还未播放完,bgm 上没有具体的集数数据。另外搜索当季新番是完全不准的,因为大部分人都还没有评分 w
|