我们是 阿里云智能 CTO 线-计算平台事业部-基础工程技术 团队,负责 ABM 运维平台。团队致力于以技术为核心,以产品和服务为手段,提供业界领先的稳定、高效、低成本的面向阿里云大数据&AI 产品的运维与交付平台。
- 我们依托于集团和云的主流技术栈及中间件,开发大量的分布式运维服务后端,满足 MaxCompute/Hologres/Flink/DataWorks/PAI/ES/EMR 等大数据&AI 产品海量规模运维的需求;
- 我们以自动化、产品化、数据化、智能化的方式去支撑解决 SRE&DEV 的运维难题,沉淀通用能力,解决各产品核心的稳定、成本、效率、质量问题;
- 我们基于天基&ASI 两大基础底座及自研的低代码平台,打造服务于各产品全生命周期的交付、监测、运维、运营、售后的一站式服务;
运维平台高级研发专家-职位描述:
-
技术方案设计:
- 负责 ABM 运维平台的架构设计,具有前瞻性视野,满足业务快速发展和各种输出环境适配需求;
-
技术实现:
- 负责 ABM 核心模块的开发和优化,满足大规模和高性能的需求;
- 对编码进行阶段性的讨论和 CodeReview ,并通过调试优化,推动代码成功部署;
- 对开发中和部署后的程序进行必要的维护和迭代,包括值班 oncall 、升级工单处置、Bug 排查、问题诊断、体验改善、性能和成本优化等;
-
稳定性和性能优化:
- 制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠;
- 运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能;
-
技术预研:
- 跟踪和了解新的产品技术和趋势,根据业务需要提供技术支持和建议;
-
技术规划:
- 理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地;
运维平台高级研发专家-职位要求:
- 计算机相关专业,8 年以上 IT 、互联网、云计算开发相关工作经验;
- 3 年以上运维开发相关经验,具备大规模分布式系统的开发背景;
- 熟练掌握至少一种主流编程语言( Java/Python/Go ),具备扎实的编程基础,熟悉常见的后端开发框架;
- 熟练掌握云原生相关的技能,有 Kubernetes 、Operator 开发、云原生运维及交付相关开发经验;
- 了解 DevOps 、SRE 理念,熟练掌握 CI/CD 、自动化运维、可观测等相关技术;
- 具备大规模运维平台的研发经验,如配置管理、监控系统、异常处置、任务调度、变更交付、服务治理等;
- 具备良好的系统架构设计能力,能够推动运维平台的架构优化和技术创新;
- 有跨专业、跨部门协同的复杂项目管理经验;
- 对本技术领域的公司内外及业界相关资源及水平有比较深入了解,面对技术领域的不确定性,具备较好的判断力;
- 在设计、架构、并发、分布式、数据、软工等多个技术领域无明显短板,能够躬身入局,快速定位并解决罕见和复杂的技术问题,且对多项技术有自己的理解和前瞻性判断;
如果有意向,可以发送简历到 [email protected] 或邮件咨询相关岗位。