数据都是一条一条的, 比如 user:123, hash:123
彼此之间没有联系.
然后会写入文件, 目前每天 400 G 的数据, 通过定时脚本上传到阿里云 OSS.
写入文件既是为了持久化, 也是为了其他组件读取数据出分析统计结果.
最近一年内数据膨胀很厉害, 已经从单日 40G 快速涨到了现在 400G, 预计后续还会持续上涨.
所以目前想改进一下方案.
大家有什么推荐么. 最好是基于 k8s, 能跨阿里云 google 云实现的.
我的需求关键字应该是
持久化数据
数据可供消费
持久化的时间需求应该是半年
1
gz911122 2019-06-14 15:53:00 +08:00
写入数仓呗
这跟 k8s 没什么关系吧 阿里云有个 odps |
2
xlent 2019-06-14 16:06:23 +08:00
阿里云的 sls,直接当日之存呢,也能消费
|
3
snappyone 2019-06-14 16:12:02 +08:00
跟 k8s 有啥关系,跨 google 阿里云这个也很迷啊
|
4
snappyone 2019-06-14 16:13:32 +08:00
另外这个需求挺适合 kafka 的
|
5
lihongjie0209 2019-06-14 16:16:03 +08:00
和 k8s 有什么关系?
|
6
pmispig 2019-06-14 16:18:45 +08:00
先部署一个 k8s 再部署一个 es ?
|
7
ai277014717 2019-06-14 16:25:49 +08:00
感觉没什么好改进的。可以尝试先消费数据?
|
8
fireapp 2019-06-14 17:04:09 +08:00 via iPhone
minio 走起,压缩 + 序列化
|
9
jingxyy 2019-06-14 18:36:22 +08:00
这么大的量 又有 olap 的消费需求 还是好好搞搞大数据那一套吧
|
10
petelin 2019-06-14 18:49:24 +08:00 via iPhone
@snappyone 这个应该不适合 一不需要多 replica 二不需要频繁读
压缩传到一个文件系统就完事了 |
11
hihipp 2019-06-14 19:01:48 +08:00 via iPhone
看楼主描述,每天文本数据并不是实时消费掉。
压缩文本数据,能节约好多空间,后续消费时只多了解压步骤。 压缩我推荐用 rar,设置恢复记录!!! |
12
goodryb 2019-06-14 19:14:29 +08:00
压缩上传 oss,然后 odps 创建外部表,数据源就是 oss
如果不是经常查询老数据,可以设置定期转成归档存储,半年后自动删除 |
14
tyoung 2019-06-14 21:12:11 +08:00 via Android
MySQL+TokuDB 存储引擎,可以压缩 5 到 10 倍存储
|
15
Giny 2019-06-14 22:07:24 +08:00
emmm 跟 k8s 有关系 又是类似与键值对的形式 抱歉,我只能想到 etcd
|
16
luozic 2019-06-15 06:58:56 +08:00 via iPhone
键值对 ?还是啥值都有? key:value 的 es 集群一天 400G 没多少,Postgres 也能塞。 其他的 请搜大数据咋存的我。
|