作为一名运维工程师,要承担应用运维、sysops 和 devops 的角色,为我们的用户提供丰富的功能集群、高可用性和卓越的性能水平,以实现他们的任务。随着我们平台的扩展,我们目前正在寻求一个有经验的 SRE 来实时地从大规模数据中提供见解。具体来说,我们正在寻找能够带来新鲜想法,展示独特观点,并喜欢与跨职能团队合作,以开发产品的解决方案和积极的用户体验的候选人。你喜欢跟上最新的行业趋势,并利用它们来帮助你创新。你有很强的领导能力,出色的判断力,清晰的沟通技巧,以及交付优秀产品的经验。
主要职责:
通过监控可用性和系统运行状况的整体视图来运行生产环境 为多个大型分布式软件应用提供主要的运维支持和软件设计 提高软件解决方案套件的可靠性、质量和上市时间 测量和优化系统性能,着眼于推动我们的能力向前发展,超越客户需求,并不断创新以改进 与开发人员合作设计大型、可扩展和稳健的系统 通过以下方式持续纠正、自动化或转移遗留的计划外 /繁重的工作和问题:
与开发部门合作,解决根本问题 加强监控和检测 用脚本和代码实现自动化 给 L1 团队提供培训和交接
制定、管理和遵循操作政策和程序,包括文件和培训 主动与其他团队的工程师分享知识
基本要求:
英语口语熟练 1 年以上 Python 和基于 Python 的 Web 框架经验 1 年以上使用 JavaScript 构建可视化的经验 5-7 年或以上应用运维、SRE 或 DevOps 经验,计算机科学或其他相关学科学士或以上学位 熟悉软件工程原理(构建,测试,部署) 编写构建和部署脚本的实践经验,创建可重用的脚本来自动化可重复的任务 具备结构化和面向对象的编程经验,熟悉 Python 、Java 、Scala 、Shell 和 JavaScript 等高级语言 有大数据处理经验,Hadoop,Hive, Hbase 和 /或 MySQL 优先 具备以下工具的使用经验:Tomcat 和同等的应用服务器,Jenkins, Git, Jira, Artifactory ,以及构建 /依赖管理工具 优秀的问题解决能力和思想领导能力 强烈的主人翁意识和独立工作能力 具有良好的团队合作精神,具有良好的英语口头和书面沟通能力 熟练使用 Linux 操作系统进行日志解析和文本格式化 SQL 查询技能与最小或连接,联合,别名知识 了解常见的系统架构,如 web 应用,微服务,分布式应用等 理解 ITIL 的概念和持续的服务改进 所需条件:
通过 AdminLTE UI 框架构建仪表盘的经验 有使用 Python FastAPI 框架的经验 具有将底层结构作为代码工具和概念的经验:Nomad, Terraform, Ansible 等 熟悉 SRE/DevOps 原理 有建立和管理分布式 NoSQL 数据库的经验 有在敏捷环境下工作的丰富经验(如用户故事、迭代开发等) 熟悉云计算平台( AWS ,谷歌计算引擎,OpenStack ) 有虚拟化、VMware 经验 使用测试驱动开发和软件测试自动化 熟悉 GitHub 、review Board 、Crucible 、Fisheye 、SVN Bridge 等代码审查工具 1 年以上 Python 和基于 Python 的 Web 应用经验