一个月下来〜300gb如何处理是好,如何计算?这种应该就是所谓的大数据了吧?
分词
统计分析
目前行业都是怎么做的呢?
1
wy315700 2015-05-28 20:53:20 +08:00
hadoop 集群,,,
|
2
yghack 2015-05-28 21:00:02 +08:00
使用的什么数据库?
|
3
neo2015 2015-05-28 21:05:34 +08:00
什么APP这么牛,我自己的APP。一个月才1G数据入库
|
4
johnsmith123 2015-05-28 21:48:28 +08:00
大数据233 合着大数据一个200块的盘就行了?
|
5
vibbow 2015-05-28 22:12:58 +08:00
怎么都得PB级别的数据才算得上大数据吧...
|
6
em70 2015-05-29 01:44:40 +08:00 via Android
每天晚上分析当天数据,留下重要的,其他扔掉
|
9
cevincheung 2015-05-29 03:31:10 +08:00
10gb的什么数据?用户上传的图片?还是类似微博的文本数据?前者,第三方存储平台。后者,使用的是什么数据库?是数据库最终的文件大小?还是……?或者是web or database的log文件?log 第二天整理头天的数据,归档完毕后即可删除
|
10
asj 2015-05-29 05:09:57 +08:00 via iPad
LHC,就是那个撞出上帝粒子的对撞机
每秒产生1GB数据 |
11
whatisnew OP @cevincheung 类似微博这样的数据+用户行为数据,mysql数据库
|
12
easynoder 2015-05-29 08:21:37 +08:00
Hadoop + elasticsearch
|
13
yanze0613 2015-05-29 10:00:01 +08:00
我猜,是用户行为日志,不然一般量级的APP做不到这么多
然而我要说,其实这谈不上大数据,因为很多记录,都是垃圾 |
14
wingoo 2015-05-29 11:09:08 +08:00
拆分纬度到不同的库
|
15
cevincheung 2015-05-29 14:31:51 +08:00
@whatisnew
1.换数据库(MongoDB、PostgreSQL)承担存储、写入。 2.1增加Redis/Memcached等缓存技术手段,在前端承担读。 2.2或者使用Elasticsearch/Solr等手段(如果是类似只读取指定条件的数据而不存在什么复杂条件检索和全文检索的话,Redis什么的足够) Ps:最重要的一点,10+台的服务器做集群是肯定的,单机想解决瓶颈那就洗洗睡吧。 |
17
taowen 2015-07-21 18:19:54 +08:00
Kafka + Storm/Spark + Elasticsearch
|