大家好。。我言说的站长。
这次我给网站开发了一个简易的内容推荐引擎。
详情戳链接: www.yanshuo.me
最初的言说首页,内容是按照时间排序的,大概每 10 分钟会推荐一条热门内容。
现在加入了推荐算法,每次刷新会推荐不同的内容。
本次推荐算法主要想实现的效果是,每次推荐的内容,既要保证内容的质量,还要保证内容的多样性,以及热度。
不过现在由于用户数据不够多等的原因,推荐的内容还不够智能化。待优化的地方还有很多!
希望大家在评论区给出您的意见,和大家用过的推荐算法。
对爬虫和推荐算法感兴趣的同学,欢迎加群:566806792
1
hanangellove 2017-10-11 11:50:39 +08:00
赞一个~
|
2
wwdyy 2017-10-11 11:56:40 +08:00
用的什么语言?
|
3
wyan453351466 OP @wwdyy php
|
4
shoumu 2017-10-11 12:23:13 +08:00
推荐算法是什么样的,详细说说?
|
5
slince 2017-10-11 12:47:06 +08:00
楼上加一
|
6
noNOno 2017-10-11 13:00:27 +08:00
楼上+1
|
7
azh7138m 2017-10-11 13:13:12 +08:00
粉色店、黑金店、LAB 概念店……喜茶的空间设计你学不会!
还有 B 站&张大妈&知乎 哪里程序员或者极客了...... |
8
azh7138m 2017-10-11 13:14:39 +08:00
建议好好做妹子图,这个是肛需:)
|
9
andyiac 2017-10-11 13:17:13 +08:00
发现这个网站有一段儿时间了
|
10
wyan453351466 OP @azh7138m 张大妈是什么。。现在推荐算法还不成熟。。可能会出现不相关内容。。多刷新几次试试
|
11
SaltedFish12138 2017-10-11 13:57:10 +08:00
楼主抓煎蛋的妹子图,还没有说明..........这不好吧.
|
12
azh7138m 2017-10-11 14:05:47 +08:00
@wyan453351466 smzdm,一般我考虑过滤到微信的链接,或者让我扫码看微信的,文章质量大幅度提升,或者你直接抓 readhub 的 api 也行
|
13
Chappako 2017-10-11 14:11:27 +08:00
那你也说说你的推荐算法啊
|
14
Antidictator 2017-10-11 14:11:38 +08:00
Chamber 都爬,调皮
|
15
SoulGem 2017-10-11 14:18:19 +08:00
这个之前就有在关注啊,看你的知乎热门还挺有趣
|
16
zpvip 2017-10-11 15:04:13 +08:00
算法都不说,你这是炫耀吗?
|
17
wyan453351466 OP @shoumu
@slince @noNOno @zpvip 目前的推荐引擎是基于内容的推荐。 首先要对所有的元数据有一个建模,哪些是科技资讯,哪些是编程类的,哪些是娱乐类的。然后每次推荐时会抽取 10 几条不同类别的内容,进行评分并排序(评分的维度有,用户以往的访问习惯、内容的浏览数、赞数)。抽取评分较高的排在首位,并删除评分最低的后几条。 现在用户数据不够多的情况下是用的这种方式。更科学的方式可能应该是基于用户的协同过滤推荐等方式(但是需要一定的用户数据才可以玩起来)。 更详细的算法大家可以看这篇文章: https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy1/index.html?ca=drs- 现在的推荐引擎还很糙。。我也只用到了这篇文章中的一小部分思想。更多的大家可以互相探讨。 |
18
hjdtl 2017-10-11 17:03:44 +08:00
两天包括页面搭建吗?厉害了。。。
|
19
oukichi 2017-10-11 17:06:54 +08:00
楼主帅呆了,这个风格很喜欢。
|
20
zonzin 2017-10-11 17:17:42 +08:00
这不是死了的 DIGG 吗
|
21
wyan453351466 OP @oukichi 谢谢!
|
22
wyan453351466 OP @hjdtl 两天不包括页面。。页面得两个月还差不多。。
|
23
xsliang 2017-10-11 18:09:33 +08:00
不错 加群学习下
|
24
gamecreating 2017-10-11 18:29:41 +08:00
采集搜狗的微信文章吗?
|
25
wyan453351466 OP @gamecreating 采集的清博数据
|
26
Tairy 2017-10-11 18:39:07 +08:00
刷妹子图的时候被老板看到了
|
29
joeke 2017-10-11 19:00:17 +08:00
厉害厉害,这爬的哪里的数据,貌似什么都有,五花八门的
|
30
only0jac 2017-10-11 19:21:33 +08:00 via Android
ui 做的相当舒服,请教楼主怎么弄的?
|
31
rogwan 2017-10-11 19:37:41 +08:00 via Android
这是小号的今日头条嘛😄
|
32
wyan453351466 OP @only0jac 就是用 bootstrap 改的。。
|
33
wyan453351466 OP @rogwan 哈哈。被发现了😆
|
34
wyan453351466 OP @joeke 妹子图吗?妹子图是爬的煎蛋网
|
35
unique 2017-10-11 20:05:29 +08:00 via iPhone
很强,支持一下
|
36
wyan453351466 OP @unique 谢谢!
|
37
carlclone 2017-10-11 21:57:37 +08:00 via Android
厉害
|
38
shitailongshenxu 2017-10-11 23:48:26 +08:00
很不错哦,能共享下源码吗
|
39
davidqw 2017-10-12 01:47:17 +08:00
妹子图,一股清流啊... 有种回到 2000 年互联网的既视感
|
40
Rootcat 2017-10-12 16:47:38 +08:00
必须赞一个,这是本土化的 Reddit !!!
建议开发 APP,移动端是主流了,PC 端用户有限。 是个人开发的还是团队呢? 备案信息是豫字,河南老乡啊 |
41
wyan453351466 OP @Rootcat 是个人开发的哈。。对,河南老乡。哈哈。
关于 APP 的事情,我也一直想搞。但无奈我本行一直是做 web 端的。APP 不是我的擅长。。 这个未来看能不能找到有缘人,或者自己业余学习类似 react 这种技术来实现吧。(原生写的话实现成本对于我这个外行来说比较高,而且还得写两套) |
42
huangfs 2017-10-12 21:02:55 +08:00
开源地址?
|
43
slince 2017-10-13 21:17:36 +08:00
风格很喜欢,后端是 php 啥框架做的
|
44
dreamin 2017-10-24 21:57:46 +08:00
后端是 thinkphp ?
|
45
wyan453351466 OP @dreamin 怎么看出来的😓
|
46
qianmeng 2017-11-01 15:44:09 +08:00 via Android
最近一段时间也迷上了 reddit,在 github 上面找代码看了很多。我也注册了言说,不过感觉还是机器爬取的内容质量更好
|
47
susucoolsama 2018-04-27 10:43:08 +08:00
赞一个,2 天用 tp 写的就很屌了。
|