V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
jeffreyji666
V2EX  ›  程序员

私有云存储开发

  •  
  •   jeffreyji666 · 2019-09-07 09:54:35 +08:00 · 8078 次点击
    这是一个创建于 1933 天前的主题,其中的信息可能已经有所发展或是发生改变。
    部门要整私有云存储,要支持 EB 级别数据量, 请教下技术选型.

    目前了解到的开源方案主要是 Ceph, 但 ceph 坑也多, 求有经验的大佬指点
    56 条回复    2019-09-27 13:35:52 +08:00
    snappyone
        1
    snappyone  
       2019-09-07 10:02:35 +08:00 via Android
    eb 数据应该有专门负责这个的部门了吧
    hst001
        2
    hst001  
       2019-09-07 10:26:26 +08:00   ❤️ 7
    1 EB = 1024 PB = 1024 * 1024 TB = 131072 块 8 T 容量的硬盘,按 3 份副本存储,需要 393216 块硬盘,接近 40 万块, 按 EB 级别要求看,只能算是个起步,你们部门怕不是得搞个数据中心?
    abcbuzhiming
        3
    abcbuzhiming  
       2019-09-07 10:33:42 +08:00
    贵公司的预算是多少,想搞这样的东西,计算机系统的复杂性从来都是来自数量级,每加 1 个 0,难度指数上升
    delectate
        4
    delectate  
       2019-09-07 10:44:41 +08:00
    eb 级别,至少是几十人团队才能搞,成本很高,不是你能搞得定的。不如买套路云 oss,良心云 cos。
    fredcc
        5
    fredcc  
       2019-09-07 10:56:17 +08:00
    1EB 数据,在 AWS 宁夏区存储每个月大概 17w 多,流量成本另外计算。自建 200w 级别搞定 IDC+硬件+研发+维护+团队?这个数量级别,老实上公有云吧,不放心就多云备份。
    PowerMax
        6
    PowerMax  
       2019-09-07 10:59:25 +08:00   ❤️ 1
    按 1EB 数据来算 硬盘价格就要 3 个亿左右
    1EB 数据也不是突然了出现的 你们原来是怎么解决的?
    你们公司是作啥的 好奇问一下
    jeffreyji666
        7
    jeffreyji666  
    OP
       2019-09-07 11:05:21 +08:00
    原来是公有云, 现在想自建, 还在调研阶段
    x7395759
        8
    x7395759  
       2019-09-07 11:17:00 +08:00
    自建花钱把公有云方案搬一套下来就完事了
    jeffreyji666
        9
    jeffreyji666  
    OP
       2019-09-07 11:26:28 +08:00
    这套方案也没法搬吧,都是公有云自己研发的,人家吃饭的本领.
    donlxn22
        10
    donlxn22  
       2019-09-07 11:50:45 +08:00
    Azure Stack 私有 Azure 云看一下
    cmdOptionKana
        11
    cmdOptionKana  
       2019-09-07 12:03:03 +08:00
    要来论坛问方案的话……目测自建会遇到很多麻烦。
    chinvo
        12
    chinvo  
       2019-09-07 12:07:18 +08:00
    联系微软 Azure,做 Azure Hyper Cloud
    Srar
        13
    Srar  
       2019-09-07 12:17:36 +08:00
    直接 DELL EMC 或者 Hitachi VSP 吧
    realpg
        14
    realpg  
       2019-09-07 12:17:46 +08:00 via Android
    坐标哪里?专业搞云数据中心的。自己拿地还是租用既有物业?

    我这有个自建的项目,自己拿地,存储
    realpg
        15
    realpg  
       2019-09-07 12:20:49 +08:00 via Android   ❤️ 2
    没打完就发出去了
    自己拿地自建的,CEPH 方案后端存储,一期项目要求 320PB 初始容量三副本存储,荒郊野岭机房六层楼,基建不含土地总投资 3 亿
    swulling
        16
    swulling  
       2019-09-07 12:33:58 +08:00 via iPhone   ❤️ 1
    @fredcc 瞎扯淡,aws 宁夏 S3 标准存储价格 每月 ¥0.1629/GB,这么算一个月是 1.75 亿

    https://www.amazonaws.cn/s3/pricing/
    dot2017
        17
    dot2017  
       2019-09-07 12:34:34 +08:00
    @hst001 可能去重压缩下就几 TB #滑稽
    realpg
        18
    realpg  
       2019-09-07 12:35:14 +08:00 via Android
    这个规模如果是机械硬盘容量盘,就按照 1EB 的规模后段存储,加上固态缓存 tier,大致需要 2000 个标准柜,不考虑扩容房间空间,两层楼机房,全套消防电力配置加上数据中心办公附属,我这最近建设的 2000 标准柜的机房有个参考

    不含土地成本
    机房主体面积 长 119.2 米宽 48 米的两层楼
    包含双幺万市电引入,厂房建设,双变压器,配电,18 套 600kva 的 UPS,电池,配套线缆,机柜,PDU,空调,桥架,监控中心,气体消防设施,总投资 6000 万,坐标辽宁,2020 年 3 月投产
    swulling
        19
    swulling  
       2019-09-07 12:35:41 +08:00 via iPhone
    @jeffreyji666 厉害,好奇你们原来用的哪家公有云?
    swulling
        20
    swulling  
       2019-09-07 12:39:08 +08:00 via iPhone
    EB 级别数据中心,基建加服务器费用加网络费用,三个亿起吧。这么大规模没钱请个资深架构师,跑到论坛上问个啥…
    fredcc
        21
    fredcc  
       2019-09-07 12:40:21 +08:00 via Android
    @swulling 算成 1pb 了。不过 1eb 全是热数据不用冷存储么?
    swulling
        22
    swulling  
       2019-09-07 12:42:57 +08:00 via iPhone
    @fredcc 不好说,毕竟 lz 没说背景。用最便宜的归档存储可以便宜一个数量级,最便宜的归档存储用的磁带机,可麻烦了
    swulling
        23
    swulling  
       2019-09-07 12:44:07 +08:00 via iPhone   ❤️ 1
    另外 ceph 单集群 EB 八成没戏,规模太大了。要么就拆集群,要么做二次开发。
    realpg
        24
    realpg  
       2019-09-07 12:44:24 +08:00   ❤️ 1
    避免嘴炮嫌疑 图纸都可以发





    然后是后端设施

    我们这个最终是输出服务不是输出硬件,我个人有权利选型设备,用的都不是比较新代数的服务器,实际存储设计我们这是非常精简成本的,多层多性能都才用了不同方案,大量定制旧代数服务器、主板,甚至在市场上回收大量二手服务器,这个 2000 柜的机房首期建成,IPSAN 公共存储部分都在 2 楼,2 楼所有机房都是,一楼的中心 VIP 区都是计算用外挂二楼的 IPSAN

    就这样,综合所有服务器的成本是 3.6 亿

    主体网络设施包含各种级别的交换机,光模块,室内光缆,尾纤,我们的采购渠道特殊走运营商 ICT 极便宜的情况下,花了不到 1000 万,如果是社会其他公司来干没有这个网络设备采购渠道要更贵
    realpg
        25
    realpg  
       2019-09-07 12:47:59 +08:00   ❤️ 1
    PS 别以为这是个复杂的事 只要有钱 有高级规划人员

    这么大个项目,其实我公司扣掉财务和文员,才二十来个人,其中一多半是机房土木电力空调建设人才,剩下才是真正搞 IT 技术的

    当然,项目完全投产以后要上一堆现场维护人员,那都是跟着项目走的,单独的运维公司,输出标准,干活的人员

    其他全套建设,全部是固定长期合作方来做,出设计
    realpg
        26
    realpg  
       2019-09-07 12:51:53 +08:00   ❤️ 1
    @swulling #23
    一定要拆集群,因为网络交换能力都不行 但是可以在 200Gbps 的层面上做统一 iSCSI 网关 对外可以提供统一服务

    实际架构是多级集群

    实际生产环境我们最大搞了个 2EB 的,没啥毛病

    养了 40 个换硬盘工……

    各种来路不明清零盘,垃圾 SSD,反正看着监控换硬盘就行,成本低廉,可靠性好
    swulling
        27
    swulling  
       2019-09-07 12:56:26 +08:00 via iPhone
    @realpg 抛去 ceph 不说,单集群 2w~3w 服务器是可行的

    最大的东西向流量是副本复制的流量,其实还好。南北向看层层收敛比。一般这个规模的集群提供 400Gbps 的南北向流量问题不大。

    硬盘还是买好的,要不然太累了…
    realpg
        28
    realpg  
       2019-09-07 13:02:27 +08:00   ❤️ 1
    @swulling #27
    实际上 固态好的坏的更换都累
    机械盘清零盘的故障率其实都挺低的……

    主要是这边的存储网络为了节约成本(¥ 20 的华为万兆光模块满地跑),采用的 2*10GbpE 存储网络,固态节点采用 4*10GbE,没有采用接入层 25GbE 和 2*25GbE,lacp 的负载分担还是利用率有错峰问题,基本上都是手动规划不同的区域不同用途,然后在 2*100GbE 的聚合层面做多个统一网关

    ceph 只要你不去动他,不会有故障

    我们 ceph 节点的本地系统引导是另外一套可靠性高的用盗版 VSAN 搞的 IPSAN,全固态 5 副本。目前多个项目,就没有 ceph 节点自身系统故障的,ceph 的常用操作封装成 web 界面了,运维都是傻瓜级的,看图点按钮换硬盘而已,实在遇到问题就整节点关机,等大工程师两周巡视一次机房处理
    salmon5
        29
    salmon5  
       2019-09-07 13:27:32 +08:00
    老板投入多少,2 个人,几万块钱
    uleh
        30
    uleh  
       2019-09-07 13:37:37 +08:00 via iPhone
    加个微信详细聊下
    base64 eWV1bGVo
    Septembers
        31
    Septembers  
       2019-09-07 13:43:00 +08:00
    @realpg
    想问下设计 SLA 是几个 9 ?
    甲方要求 SLA 是几个 9 ?
    目前 SLA 能达到几个 9 ?
    fredcc
        32
    fredcc  
       2019-09-07 13:45:15 +08:00 via Android
    @swulling 用 S3 Glacier Deep Archive 的话还能便宜 2/3,磁带机维护成本不便宜啊
    aheadlead
        33
    aheadlead  
       2019-09-07 13:53:08 +08:00
    @realpg 很多次看你在存储的话题下留言,学到不少。你是真大佬啊。
    secondwtq
        34
    secondwtq  
       2019-09-07 13:55:19 +08:00   ❤️ 2
    1EB ... Backblaze 现在也才 750PB
    reus
        35
    reus  
       2019-09-07 14:02:02 +08:00
    @realpg 盗版 vsan 不怕被告啊?在公开场合说出来,不怕坑了公司?
    reus
        36
    reus  
       2019-09-07 14:05:44 +08:00
    主流几家公有云都支持私有部署,别折腾了
    realpg
        37
    realpg  
       2019-09-07 14:44:52 +08:00 via Android
    @Septembers
    算几个九我不知道 反正都是手册文档瞎吹的
    反正到现在没降级没中断服务过
    realpg
        38
    realpg  
       2019-09-07 14:45:50 +08:00 via Android
    @reus 欢迎前来取证
    一个纯内网的服务 反正 vmware 连进机房的安全级别都没有
    reus
        39
    reus  
       2019-09-07 15:00:12 +08:00
    @realpg 你的发帖就是证据啊
    zsj950618
        40
    zsj950618  
       2019-09-07 15:13:12 +08:00 via Android
    难道除了 ceph 你还有其他选择( x
    akira
        41
    akira  
       2019-09-07 15:22:18 +08:00
    这种需求 直接让阿里云 /华为 /腾讯云 给你们出方案 应该更好吧。。
    GM
        42
    GM  
       2019-09-07 15:33:10 +08:00
    @reus vmware 也不可能闲得碰到有人说用盗版就去查吧?再说了,vmware 没查发言人真实身份的权限。
    liukangxu
        43
    liukangxu  
       2019-09-07 16:10:25 +08:00
    #Boss 不懂技术系列
    realpg
        44
    realpg  
       2019-09-07 16:15:48 +08:00
    @reus #39
    我现在发帖了 我上周五在公司旁边一个角落里把一个流浪汉杀了,分尸藏起来了,来吧 这就是证据
    reus
        45
    reus  
       2019-09-07 16:21:18 +08:00
    @realpg
    skyeycirno
        46
    skyeycirno  
       2019-09-07 16:23:04 +08:00 via Android
    EB 级别…?你是百度的还是??我记得当初 115 搬家,也才 100PB 的数据,EB 级别的数据我觉得只有百度云才可能有吧?我记得看过新闻,百度云太原还是贵州数据中心,设计时是 4EB 的存储量…
    lostberryzz
        47
    lostberryzz  
       2019-09-07 16:29:27 +08:00
    115 迁移阿里云是 100PB。你们部门的数据量是 10 个 115...
    realpg
        48
    realpg  
       2019-09-07 16:31:15 +08:00   ❤️ 1
    @skyeycirno #46

    估计是他们领导拍脑门子听说了 EB 这个单位

    我目前客户只有涉及影像的大存储才会有这个级别

    公众业务从来没这么大规模的

    医疗影像,公安监控视频,区域卡口图像

    其他都是 120PB 的一个集群已经完全可以覆盖
    FS1P7dJz
        49
    FS1P7dJz  
       2019-09-07 18:19:58 +08:00
    2E 的项目,买二手服务器,用盗版软件

    V2 真 TM 能吹

    某楼跟楼主可谓一排即可,争取弄个大项目
    carmark
        50
    carmark  
       2019-09-07 21:39:54 +08:00
    需要什么样的接口: 对象存储、块存储或文件系统?
    存储的内容是什么样类别:大文件,小文件
    操作方式频率:读操作,写操作,读写混合

    需要提供这些信息才可以,如果你的回答是读写混合,大小文件混合的分布式文件系统,那这个可能开源软件运维起来也比较费劲
    dingzi
        51
    dingzi  
       2019-09-07 22:13:17 +08:00
    你怕是开了个 115 吧
    salmon5
        52
    salmon5  
       2019-09-07 22:17:42 +08:00
    还有一个“百万并发”
    Tmier
        53
    Tmier  
       2019-09-08 08:51:26 +08:00
    我就是留个言,参与一下上亿项目的研发~
    szq8014
        54
    szq8014  
       2019-09-08 14:52:41 +08:00
    非专业运维参与过 2P 的 ceph 集群的搭建提供块存储,然后老是有 osd 95% 卡住整个集群。。也没有多少精力去调优。。
    KenGe
        55
    KenGe  
       2019-09-08 16:00:40 +08:00
    话说如果要 ICT 采购网络设备找我 ,我还能参与下上亿的项目
    wanguorui123
        56
    wanguorui123  
       2019-09-27 13:35:52 +08:00
    1EB 为例:1048576‬TB 存储需求,2 份副本、4T 硬盘按 900 元。
    硬盘成本:‭524288‬块、471859200 元( 4.7 亿元)
    磁盘柜:24 盘位按 70000 元、21846 台、‭1529220000‬元( 15.3 亿元)‬
    其次:机柜、网络、软件、建设、电、运维等等
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2482 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 05:19 · PVG 13:19 · LAX 21:19 · JFK 00:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.