云平台SRE-杭州
4-6万元/月职位描述
云平台SRE(SiteReliabilityEngineering)团队的任务是确保阿里云生产环境的稳定性、企业级云数据的可靠性和业务连续性。挑战在于保证基于云的客户不间断的业务运营,并实现超过99.99%的可用性。
云平台SRE团队的目标是建立一个技术与管理相结合的系统稳定性保障框架,包括但不限于:
1.制定稳定性标准与度量体系
*覆盖系统架构稳健性、研发质量、版本发布管理、生产环境运维等多个方面。
*将稳定性理念深度融入阿里云技术研发体系。
2.推动重大稳定性治理项目
*包括全栈容灾、分阶段变更上线、1-5-10应急响应机制(1分钟告警、5分钟定位、10分钟恢复)、防资损等专项工作。
*快速且持续地消除潜在稳定性风险。
3.构建以稳定性为核心的工程技术平台
*提供无人值守变更管理、红蓝攻防演练、应急协同、风险与漏洞巡检、监控告警等平台能力。
*通过自动化和工具化手段简化稳定性工程实践。
4.执行生产事件管理
*包括应急响应、跨团队协作、根本原因分析、快速恢复业务、事后复盘推动系统性改进。
5.保障大型客户活动的系统稳定运行
*为奥运会等重大项目及客户业务高峰期提供技术和运维支持。
6.应急响应
*在服务等级协议(SLA)规定时限内响应客户问题,主动解决问题,提升客户体验。
职位要求
•5年以上IT、互联网、云计算行业运维工作经验
•研发项目管理经验
•单产品研发安全生产执行者
•能够在单产品/中型复杂系统层面推动建立完善的研发安全生产体系,并推动落地,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢
•熟练掌握业内主流的研发安全生产技术体系
•具有产品级、中型复杂系统的研发安全生产经验,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地
•具备参与研发安全演练的技术能力,是容灾演练、红蓝对抗、突袭演练等场景下的一线主力
•对本领域的技术趋势和演进有较为深入的了解;
•熟练掌握架构设计、性能优化、稳定性优化等领域的专业能力
•精通系统级需求,对所负责运维的产品/系统有较深刻的理解,能够在工作过程中结合现状,持续发现并分析当下问题,提出解决方案并推动落地拿到结果;
•具备复杂项目管理、业务风险识别和管控能力,能够从技术、运营、风险、ROI等多方面进行分析,并提出切实解决方案
•具备一定的业务线影响力和公信力,能够影响和协同跨团队的资源
•具备智能化/自动化运维的理念,能够独立负责自动化运维工具/平台的开发工作
•具备业务、技术及运维的全局视角,对日常运维指标、问题、风险进行分析和研究,通过建立模型预测风险并能形成解决方案并落地
•具备良好的沟通与协作能力,能够深入理解客户业务场景,与客户SRE团队高效协同,共同推动其在阿里云上的稳定性体系建设;
•联动内部技术服务团队,助力客户提升用云稳定性,强化客户对阿里云稳定性的认知与信任。
•了解机器学习、深度学习和其他AI相关技术的基本原理,能够运用AI技术进行创造性思考,提出新的解决方案或改进现有流程的方法。