去年国庆的时候,因为感觉到有点闷闷不乐,发现网上找点段子看可以祛除这种感觉。由于找到的站点,满屏的广告,实在很损体验。当然人家也是需要付服务器和带宽费用。业余也写过一些软件,桌面的,后端的。所以一股气撸了一个。目前还没有泄气,也找到让自己有激情的点和觉得它有价值的点,也会继续完善。9xiaoxiao.com , 真诚想听听 v 友们的意见。后期我计划是用机器学习分析爬取到搞笑的视频和图文素材,做到让访客就笑笑。
1
duola 2019-08-22 02:10:07 +08:00
你是怎么解决存储和 CDN 的问题呢?
|
2
CEBBCAT 2019-08-22 03:02:32 +08:00 via Android
我有一个煎蛋不知道该不该发,怕把你降维了
另外机器学习加爬虫……不怕被告? |
3
peterpei 2019-08-22 06:14:04 +08:00 via Android
先看看如何处理擦边球图片吧。。。我的 ip 还被图床记录了,淦
![alt]( https://b2.bmp.ovh/imgs/2019/08/b957ae73d37154a1.jpg) |
4
thinkstream 2019-08-22 09:06:15 +08:00 via iPhone
@duola 本质上是成本问题。流量问题是渐进的,比如 10Mb,100Mb 一个个台阶逐步踏进。存储问题就会造成和规模不匹配的成本。4chan 采取的策略是删除,不会产生大量累积存储。目前采用的策略,现在的厂商提供的免费额度还够用,进一步也可以用家里的个人电脑来降低存储。同时也可以线上只存储新的内容,长尾的删除,然后硬盘保存。利用中继来覆盖这部分请求。
|
5
thinkstream 2019-08-22 09:16:04 +08:00 via iPhone
@CEBBCAT 原来是煎蛋的作者,久仰,望多交流。内容主要是原创度低传播度高的内容,这部分的法律风险,也会咨询律师朋友。定位也是社区,机器学习放在辅助的地位
|
6
Reficul 2019-08-22 09:40:53 +08:00
看标题还以为是 B 站的标语换了呢,“生产快乐的地方”
|
7
bianz103 OP @peterpei 已经处理了。目前已有图文的标准,会先审核后发布。重复的内容以及被关键词识别到的内容是自动屏蔽的。更好的方案在考虑中。
|
8
CEBBCAT 2019-08-22 10:43:56 +08:00
@thinkstream #4 啊?我不是煎蛋作者,只是一个普通蛋友啦
|