app 一天产生〜10gb 的数据

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 3611 天前的主题，其中的信息可能已经有所发展或是发生改变。

一个月下来〜300gb如何处理是好，如何计算？这种应该就是所谓的大数据了吧？

分词

统计分析

目前行业都是怎么做的呢？

大数据

分词

300GB

17 条回复 • 2015-07-21 18:19:54 +08:00

wy315700

2015-05-28 20:53:20 +08:00

hadoop 集群，，，

yghack

2015-05-28 21:00:02 +08:00

使用的什么数据库？

neo2015

2015-05-28 21:05:34 +08:00

什么APP这么牛，我自己的APP。一个月才1G数据入库

johnsmith123

2015-05-28 21:48:28 +08:00

大数据233 合着大数据一个200块的盘就行了？

vibbow

2015-05-28 22:12:58 +08:00

怎么都得PB级别的数据才算得上大数据吧...

em70

2015-05-29 01:44:40 +08:00 via Android

每天晚上分析当天数据，留下重要的，其他扔掉

2015-05-29 01:51:45 +08:00 via Android

@vibbow 度娘正在建设可放4000pb的云计算中心。。。可放大数据。。。

icloudnet

2015-05-29 03:23:25 +08:00

@em70 手工是根本没法分析的，我每天近4G的数据都已经麻木了。
做大数据分析是个好办法。

cevincheung

2015-05-29 03:31:10 +08:00

10gb的什么数据？用户上传的图片？还是类似微博的文本数据？前者，第三方存储平台。后者，使用的是什么数据库？是数据库最终的文件大小？还是……？或者是web or database的log文件？log 第二天整理头天的数据，归档完毕后即可删除

asj

2015-05-29 05:09:57 +08:00 via iPad

LHC，就是那个撞出上帝粒子的对撞机
每秒产生1GB数据

whatisnew

2015-05-29 07:55:59 +08:00 via iPhone

@cevincheung 类似微博这样的数据+用户行为数据，mysql数据库

easynoder

2015-05-29 08:21:37 +08:00

Hadoop + elasticsearch

yanze0613

2015-05-29 10:00:01 +08:00

我猜，是用户行为日志，不然一般量级的APP做不到这么多
然而我要说，其实这谈不上大数据，因为很多记录，都是垃圾

wingoo

2015-05-29 11:09:08 +08:00

拆分纬度到不同的库

cevincheung

2015-05-29 14:31:51 +08:00

@whatisnew
1.换数据库（MongoDB、PostgreSQL）承担存储、写入。
2.1增加Redis/Memcached等缓存技术手段，在前端承担读。
2.2或者使用Elasticsearch/Solr等手段（如果是类似只读取指定条件的数据而不存在什么复杂条件检索和全文检索的话，Redis什么的足够）

Ps:最重要的一点，10+台的服务器做集群是肯定的，单机想解决瓶颈那就洗洗睡吧。

bdbai

2015-05-29 19:12:02 +08:00 via iPhone

@asj BOINC跑否？

taowen

2015-07-21 18:19:54 +08:00

Kafka + Storm/Spark + Elasticsearch