V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
guochenglong
V2EX  ›  程序员

关于 oss 存储数据迁移到本地(搭建本地存储)

  •  1
     
  •   guochenglong · 248 天前 · 3070 次点击
    这是一个创建于 248 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景

    我司去年在 oss 存储费用达到 100w+,公司觉得费用过高,期望在存储方面可以降本。

    方案

    目前团队定的方案是放弃 oss ,自己搭建一套本地存储。将 oss 数据迁移到本地,后续各个服务 oss 操作全部替换成操作本地存储。

    存储服务:MinIO

    问题

    请教各位有什么建议和相关经验?

    ps:我个人感觉自己实现存储风险很大,要考虑的东西很多,备份,容灾,带宽速度等。

    第 1 条附言  ·  248 天前
    文件类型:音频文件,每个音频大约 40mb 左右。
    存储类型:去年 6 月之前全是标准,6 月后标准 50% 低频 50%。
    费用:打完折后 100w
    53 条回复    2024-03-28 22:23:56 +08:00
    hefish
        1
    hefish  
       248 天前
    这个风险大小跟投资应该是成比例关系的。
    自建存储,多投点钱,搞点分布式,搞点冷热备,再搞一些专职人员维护,肯定能做到安全性,效率 兼顾的。
    yinft
        2
    yinft  
       248 天前
    能做到分布式么?带宽资源够么?能解决这些才行
    daimaosix
        3
    daimaosix  
       248 天前
    文件类型是大文件居多还是海量小文件?在 OSS 用的是什么存储类型? OSS 存储费用能花 100W+这个量不算小啊,美团技术团队之前在他们的博客分享了自建 MinIO 遇到的挑战,你可以去看一下。
    knives
        4
    knives  
       248 天前
    好奇数据量有多少,存储哪些类型数据?

    个人经验是 MinIO 稳定性不错,但是使用 HDD 存大量小文件性能捉急。另外扩容比较麻烦。
    lcy630409
        5
    lcy630409  
       248 天前
    没有谈折扣么? 被别人吃了?
    建议计算成本,超过阈值就自建 先算好
    daimaosix
        6
    daimaosix  
       248 天前
    建议从长计议,多大存储量,100W+这费用阿里肯定给了不少的折扣了,能解决容灾和网络的话,这成本肯定下云会省钱。
    ohayoo
        7
    ohayoo  
       248 天前
    这个 100 万是纯粹的存储费用还是说包含了文件访问产生的 CDN 费用?
    如果是纯粹的存储费用,这得是多少个 P 的海量数据了,缺失是个很大的挑战
    guochenglong
        8
    guochenglong  
    OP
       248 天前
    统一回复下:
    1.文件类型:音频文件,每个音频大约 40mb 左右。属于海量小文件。
    2.100W 只是存储费用,目前存储使用量在 1000TB 。
    daimaosix
        9
    daimaosix  
       248 天前
    @guochenglong 海量小文件,强烈不建议使用 MinIO
    opengps
        10
    opengps  
       248 天前
    能花 100W 了,本地当然得考虑很多因素,但其实最好是先别删除-冷存,以备随时能退回 oss 的方案上去
    guochenglong
        11
    guochenglong  
    OP
       248 天前
    @daimaosix
    文件类型:音频文件,每个音频大约 40mb 左右。
    存储类型:去年 6 月之前全是标准,6 月后标准 50% 低频 50%。
    费用:打完折后 100w
    guochenglong
        12
    guochenglong  
    OP
       248 天前
    @knives 各种格式的音频文件( wav,flac,mp3 等)
    guochenglong
        13
    guochenglong  
    OP
       248 天前
    @ohayoo 只是存储费用,并且是打折后的。存储量 1000TB
    daimaosix
        14
    daimaosix  
       248 天前
    @guochenglong 回源带宽有多大?应该用了 CDN 吧?初步+保守计算,自建可省下三分之一至少
    guochenglong
        15
    guochenglong  
    OP
       248 天前
    @lcy630409 打完折 100w ,所以打算自建
    guochenglong
        16
    guochenglong  
    OP
       248 天前
    @opengps 是的,现有 oss 文件先不删。
    ksc010
        17
    ksc010  
       248 天前
    一样的情况,目前正在逐步迁移到本地
    guochenglong
        18
    guochenglong  
    OP
       248 天前
    @daimaosix 回源带宽 100mb ,用了 cdn 。
    aloxaf
        19
    aloxaf  
       248 天前
    有些公司,比如七牛,提供了私有云的解决方案。如果你们觉得公有云太贵,自建又没经验,也可以考虑这类服务。
    daimaosix
        20
    daimaosix  
       248 天前 via Android
    @guochenglong 干吧,三分之二省了
    xmumiffy
        21
    xmumiffy  
       248 天前 via Android
    回源 100Mbps 机械盘随便都能撑住。一百万费用储存量大概 2PB 左右,按照和 OSS 一样的安全性(仅阵列),半个机柜就够了
    daimaosix
        22
    daimaosix  
       248 天前
    楼主不介意可以联系我,给你提供 0.035/GB 的价格,按照归档存储的价格提供标准存储
    ursash
        23
    ursash  
       248 天前
    楼主,现在 Cloudera 提供线下部署对象存储的方法,有兴趣可以联系我,微信同号
    https://docs.cloudera.com/cdp-private-cloud-base/7.1.8/ozone-storing-data/topics/ozone-config-https-endpoint.html
    dayeye2006199
        24
    dayeye2006199  
       248 天前
    贵司这个业务也挺猛的
    trzzzz
        25
    trzzzz  
       248 天前
    @guochenglong 可以试一下 seaweedfs
    trzzzz
        26
    trzzzz  
       248 天前
    还有一个方向,还在 oss 上,只不过可以把不常用的放入 [低频存储] 中。费用会降低,只是读取不方便
    reeco
        27
    reeco  
       248 天前
    加个冷数据归档功能就好了
    yuzo555
        28
    yuzo555  
       248 天前
    1PB 1 年 100w 这个价格,就算全是标准存储也贵了,公司商务可以去阿里腾讯华为百度这些大厂谈谈,绝对能压到更低。
    GooMS
        29
    GooMS  
       248 天前 via Android
    你这个要求低,直接搞
    defunct9
        30
    defunct9  
       248 天前
    刚好都弄过,oss 和 minio 以及 truenas 。你这个用生命周期扔冻桶里比较合适。自建风险太大。前面套 CDN 的话又涉及到带宽,没法弄,到处都是坑。
    totopper312
        31
    totopper312  
       248 天前
    我知道有大厂对象存储用的也是 minio ,没有优化,还有一些用 ceph 的,还有一些基于 glusterfs 的,自研的很少,因为对象存储都是基于开源的,比较稳定,所以维护的人并不多,对象存储在云厂商里是比较挣钱的产品。
    knives
        32
    knives  
       248 天前
    @guochenglong 我这边也做过类似的选型。

    当时也测了一轮 Seaweedfs ,在各种场景下性能是好,但是纠删码功能基本残废,数据可靠性很差。能接受双副本/三副本的空间占用的话用 Seaweedfs 倒是没问题……
    Ceph 传说运维成本高,对小文件也没有优化,Pass 了。
    目前在部署 OZone ,还没开始测试。
    8355
        33
    8355  
       248 天前
    其实是冷热桶问题,冷桶甚至可以存到网盘里用 api 对接,对实时性要求没那么高的话,热桶数据也不会太多,可以通过业务代码做文件做 cdn 预热,把可访问实时性转嫁给 cdn 。
    vivisidea
        34
    vivisidea  
       248 天前
    1000TB 的容量,1 本体+2 副本的话,需要 3000T 的磁盘,一台存储服务器按 8T * 12 = 96T 算,80%使用容量,至少需要 40 台,可以算下采购服务器要多少钱,搬迁之后多少年回本(还没算带宽、机架、运维等费用)
    f6x
        35
    f6x  
       248 天前
    自己买硬盘确实省钱. 其他可不一定省钱
    daimaosix
        36
    daimaosix  
       248 天前
    @8355 放网盘里...大哥你认真的嘛
    ivmm
        37
    ivmm  
       248 天前
    咱们有阿里原厂团队来优化过存储价格么? 没有的话 微信 aGctY3V0ZQ== (已经 base64 加密)



    可以帮助阿里云上存储降本,我们很多大型医院、某大型连锁摄影 P 图公司都是我们存储成本优化的客户案例
    xiebinbin666
        38
    xiebinbin666  
       248 天前
    缤纷云可以看看
    cwei3790
        39
    cwei3790  
       248 天前
    有兴趣用火山的吗
    8355
        40
    8355  
       248 天前
    @daimaosix #36 阿里云盘,可以啊,速度也快,朋友公司他们是这样用的,关键看你对数据的可靠性要求,他们都是内部的一些办公文件存储有办公室 nas 做备份防止云盘线路故障,比较多就是一些 psd cad 文件,成本对比 oss 开销已经可以忽略不计了,他们是几十 TB 这种规模。
    qishua
        41
    qishua  
       248 天前
    这个首先要看你们本地(线下)是否有机房,要是已经有机房,且有对应的 it ( idc )运维人员,我觉得可以自建。要是没有,都是运维,从头搞的话,不建议,光灾备就够你忙的了
    CaptainD
        42
    CaptainD  
       248 天前
    我们就是自建的 minio ,存图片,不算纠删码冗余大概 200+TB ,防护措施基本为 0 ,没有任何多余的备份容灾措施,风雨飘摇

    建设的时候我们就想用云服务,监控扩容备份都方便,领导嫌贵,资源也给的紧巴巴,根本没有多余空间和服务器做冗余
    Qetesh
        43
    Qetesh  
       248 天前
    这个体量,难道不考虑使用品牌专业分布式存储吗? Dell EMC PowerScale 、华为 FusionStorage 等等对象存储
    qiubinren
        44
    qiubinren  
       248 天前
    40m ,1000TB ,也就千万级的对象,这个量对所有私有云存储厂商来说都 so easy ,你们完全可以先找一些有自研对象存储的私有云厂商(比如我司)要个报价,再比对下自己玩 minio 的成本,看看哪个更合算,哪个风险更低。感兴趣可以联系我,微信:YWJvZGlfOTExMQ==
    Seanfuck
        45
    Seanfuck  
       248 天前
    好奇每年流量费用有多少,这个更贵
    duanxianze
        46
    duanxianze  
       248 天前
    同好奇,这么大的业务量,一年光 cdn 流量费要多少钱?
    dann73580
        47
    dann73580  
       247 天前
    @vivisidea 你这个算法肯定有问题……基本上都是用 24 或者 36 盘的单机了。pb 级别算冗余刚好是一个 4-6 台机器的小集群。半个机架撑死,拿不回企业找 idc 托管也花不了几个钱。
    salmon5
        48
    salmon5  
       247 天前
    这个体量还远没到自建的分界线。既然是优化成本,自建硬件、托管费、人力 大概率不舍得投入。
    最后大概率一地鸡毛。
    最好请厂商来一起优化下。
    salmon5
        49
    salmon5  
       247 天前
    特别是过了几年,这堆硬件要报废的时候,一般公司肯定不舍得报废。遗患无穷。
    ansemz
        50
    ansemz  
       247 天前
    自己搞完会发现,100w/年真是不贵。但是自己手里留了一堆硬件,骑虎难下。
    tkisme
        51
    tkisme  
       247 天前
    目前是近期文件会反复访问,久远的文件以存档为主,下载的几率不大
    brando
        52
    brando  
       247 天前
    坐等 PB 级别的业务相关人士出现。。。
    panzhc
        53
    panzhc  
       238 天前
    MinIO 扩容维护麻烦,Ceph 维护操作方便,另外可以考虑下 JuiceFS
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1097 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 18:45 · PVG 02:45 · LAX 10:45 · JFK 13:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.