我们是阿里云基础 SRE 团队,负责管理阿里云上百万服务器、数十万网络设备、全球 70 座主要数据中心。我们是天猫、淘宝、外部上云的各行各业的基石。我们采用数字化、数据化、智能化的手段来提升海量设备的运维效率和稳定性。
在监控方面,我们通过部署 IoT 采集设备读取数据中心的温湿度,电力,资产等数据,并通过 bim 可视化技术将数据和硬件关联,便于快速查找问题;通过在每台服务器和交换机里部署 agent,我们采集了 PB 级的性能,功耗,各类错误日志信息,并对其进行实时分析诊断,及时告警和触发自动化修复。
在运维方面,我们可以不到现场,就对各类硬件设备进行操作,比如通过机器人对已经损坏的配件进行远程更换,对服务器和交换机进行软修复等。
在智能化方面,我们实现了对故障的预测、对未来采购需求的预测、对能耗的预测等,从而进一步服务好客户。
在创新方面,我们自研了浸没式液冷服务器,建设了全国能耗最低的数据中心,通过集成平头哥含光或国产 ARM 芯片打造自研服务器,自研交换机,自研电源设备,通过扩展 AI 算力设备基于 RDMA 互联实现高性能 AI 计算,大幅加速 AI 训练和推理,最后也是最重要的,就是打造一套与硬件设备完美匹配的软件系统,实现软硬一体高效应用。
我们最终的愿景是在将来能打造一朵完全无人值守的云!