SRE 可靠性工程师 (15k - 25k)
岗位描述
- 保障服务稳定可靠:负责 SEE 内外部 Web 应用、平台服务的可靠性;
- 协调沟通第三方服务:从调研、协调到使用第三方服务,诸如 CDN、公有云;
- 管理公有云资源如:腾讯云、七牛云、阿里云等网络、存储、计算资源;
- 负责监控报警体系建设、错误收集、后续处理及持续改进;
- 负责 CI、CD 的工具调研、选型和调优,及日常的 Oncall ;
- 不断的用自动化工具优化以上这些流程。
岗位要求
- 统招本科及以上学历,计算机相关专业( 985 / 211 院校优先);
- 三年以上运维开发或内部工程效率工具开发相关领域经验;
- 熟悉 Go/Python 一种编程语言,熟悉 Shell 和 Linux 常用操作;
- 对容器编排系统( K8s、Docker )有较深入的理解及相关开发或使用经验;
- 熟悉业界监控产品 Zabbix,Prometheus 等,熟悉业界时序数据库 InfluxDB,OpenTSDB 等;
- 对各个公有云有丰富的使用管理经验,并有强大的成本意识;
- 熟悉 SRE、DevOps 方法论,对使用软件工程改进可靠性抱有极大的热忱;
- 具有探索精神,有强烈的责任感及合作精神,具备优秀的学习能力和创新能力。
SRE Team Leader (25k - 45k)
岗位描述
- 负责部门规划和管理,包括完善内部运维团队,技术规划,团队建设等;
- 负责运维制度的制定,包括运维制度细化、对口部门业务合作流程和监督执行;
- 负责公司 IT 资源管理:分配、实施、采购、成本控制;
- 负责公司 IDC 机房、网络架构的规划、管理、维护和优化;
- 联系安排并实施相关业务的第三方技术服务合作;
- 负责公司线上应用的实时监控、告警及故障处理;
- 负责新上线应用系统的发布,部署,变更;
- 打造并管理一支高效,协作, 有创新能力的 SRE 团队。
岗位要求
- 互联网五年以上系统运维经验,两年以上团队管理经验;
- 深入理解 Linux 操作系统,体系结构;
- 熟悉 TCP_IP、HTTP 协议工作原理,熟悉各种网络设备,包括防火墙( IDS_WAF_飞塔_华为),交换机( juniper、cisco、H3C )等网络设备的安装、配置,熟悉常见的攻防手段;
- 熟悉 Linux/Unix 下各种服务包括 nginx、squid、php-fpm、lvs、keepalived、nfs、raid、rsync、cacti、nagios、iptables 等应用的管理、配置和优化;
- 熟悉 shell_perl_python/php 任意一门编程语言;
- 熟悉 Oracle 或 MySQL 部署(主从、集群、灾备等);
- 熟悉分布式存储的配置与管理;
- 对容器编排系统( K8s、Docker )有较深入的理解及相关开发或使用经验;
- 熟悉常见 Linux 文件系统和存储设备工作机制;
- 熟悉制定成熟的大型互联网系统故障监控、预警及处理机制、有丰富的故障处理经验;
- 熟悉并了解 Saltstack,Ansible 等自动化运维工具;
- 工作细致踏实,有较强的沟通、管理能力;
- 具备大流量高并发的大型互联网系统运维经验者优先;
- 熟悉 Hadoop、Storm、Spark 者优先;
- 有 DevOps 团队管理或工具使用经验者优先。
工作邮箱: YmlsbHlAc2VlYXBwLmNvbQ==