V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
DinoStray
V2EX  ›  程序员

每天几百 G 的数据, 有什么好的办法管理, 比如 k8s?

  •  
  •   DinoStray · 2019-06-14 15:49:49 +08:00 · 3555 次点击
    这是一个创建于 1988 天前的主题,其中的信息可能已经有所发展或是发生改变。

    数据都是一条一条的, 比如 user:123, hash:123

    彼此之间没有联系.

    然后会写入文件, 目前每天 400 G 的数据, 通过定时脚本上传到阿里云 OSS.

    写入文件既是为了持久化, 也是为了其他组件读取数据出分析统计结果.

    最近一年内数据膨胀很厉害, 已经从单日 40G 快速涨到了现在 400G, 预计后续还会持续上涨.

    所以目前想改进一下方案.

    大家有什么推荐么. 最好是基于 k8s, 能跨阿里云 google 云实现的.

    我的需求关键字应该是

    1. 持久化数据

    2. 数据可供消费

    持久化的时间需求应该是半年

    16 条回复    2019-06-15 06:58:56 +08:00
    gz911122
        1
    gz911122  
       2019-06-14 15:53:00 +08:00
    写入数仓呗

    这跟 k8s 没什么关系吧

    阿里云有个 odps
    xlent
        2
    xlent  
       2019-06-14 16:06:23 +08:00
    阿里云的 sls,直接当日之存呢,也能消费
    snappyone
        3
    snappyone  
       2019-06-14 16:12:02 +08:00
    跟 k8s 有啥关系,跨 google 阿里云这个也很迷啊
    snappyone
        4
    snappyone  
       2019-06-14 16:13:32 +08:00
    另外这个需求挺适合 kafka 的
    lihongjie0209
        5
    lihongjie0209  
       2019-06-14 16:16:03 +08:00
    和 k8s 有什么关系?
    pmispig
        6
    pmispig  
       2019-06-14 16:18:45 +08:00
    先部署一个 k8s 再部署一个 es ?
    ai277014717
        7
    ai277014717  
       2019-06-14 16:25:49 +08:00
    感觉没什么好改进的。可以尝试先消费数据?
    fireapp
        8
    fireapp  
       2019-06-14 17:04:09 +08:00 via iPhone
    minio 走起,压缩 + 序列化
    jingxyy
        9
    jingxyy  
       2019-06-14 18:36:22 +08:00
    这么大的量 又有 olap 的消费需求 还是好好搞搞大数据那一套吧
    petelin
        10
    petelin  
       2019-06-14 18:49:24 +08:00 via iPhone
    @snappyone 这个应该不适合 一不需要多 replica 二不需要频繁读
    压缩传到一个文件系统就完事了
    hihipp
        11
    hihipp  
       2019-06-14 19:01:48 +08:00 via iPhone
    看楼主描述,每天文本数据并不是实时消费掉。

    压缩文本数据,能节约好多空间,后续消费时只多了解压步骤。

    压缩我推荐用 rar,设置恢复记录!!!
    goodryb
        12
    goodryb  
       2019-06-14 19:14:29 +08:00
    压缩上传 oss,然后 odps 创建外部表,数据源就是 oss

    如果不是经常查询老数据,可以设置定期转成归档存储,半年后自动删除
    ColinZeb
        13
    ColinZeb  
       2019-06-14 19:25:50 +08:00
    @hihipp rar 压缩性能好点,但 7z 支持多线程比 rar 好
    tyoung
        14
    tyoung  
       2019-06-14 21:12:11 +08:00 via Android
    MySQL+TokuDB 存储引擎,可以压缩 5 到 10 倍存储
    Giny
        15
    Giny  
       2019-06-14 22:07:24 +08:00
    emmm 跟 k8s 有关系 又是类似与键值对的形式 抱歉,我只能想到 etcd
    luozic
        16
    luozic  
       2019-06-15 06:58:56 +08:00 via iPhone
    键值对 ?还是啥值都有? key:value 的 es 集群一天 400G 没多少,Postgres 也能塞。 其他的 请搜大数据咋存的我。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1884 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 16:18 · PVG 00:18 · LAX 08:18 · JFK 11:18
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.