您当前的位置：首页 > 职位列表 > 职位详情

云平台SRE-杭州

4-6万元/月

投递简历

浙江-杭州

5-10年

2025-12-16 18:56:10 更新被浏览：711 次

阿里云计算有限公司

最近在线时间：2025-12-16 18:56:10

电话：158********

地址：浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室

职位描述

职位描述
云平台SRE（SiteReliabilityEngineering）团队的任务是确保阿里云生产环境的稳定性、企业级云数据的可靠性和业务连续性。挑战在于保证基于云的客户不间断的业务运营，并实现超过99.99%的可用性。
云平台SRE团队的目标是建立一个技术与管理相结合的系统稳定性保障框架，包括但不限于：
1.制定稳定性标准与度量体系
*覆盖系统架构稳健性、研发质量、版本发布管理、生产环境运维等多个方面。
*将稳定性理念深度融入阿里云技术研发体系。
2.推动重大稳定性治理项目
*包括全栈容灾、分阶段变更上线、1-5-10应急响应机制（1分钟告警、5分钟定位、10分钟恢复）、防资损等专项工作。
*快速且持续地消除潜在稳定性风险。
3.构建以稳定性为核心的工程技术平台
*提供无人值守变更管理、红蓝攻防演练、应急协同、风险与漏洞巡检、监控告警等平台能力。
*通过自动化和工具化手段简化稳定性工程实践。
4.执行生产事件管理
*包括应急响应、跨团队协作、根本原因分析、快速恢复业务、事后复盘推动系统性改进。
5.保障大型客户活动的系统稳定运行
*为奥运会等重大项目及客户业务高峰期提供技术和运维支持。
6.应急响应
*在服务等级协议（SLA）规定时限内响应客户问题，主动解决问题，提升客户体验。

职位要求
•5年以上IT、互联网、云计算行业运维工作经验
•研发项目管理经验
•单产品研发安全生产执行者
•能够在单产品/中型复杂系统层面推动建立完善的研发安全生产体系，并推动落地，保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢
•熟练掌握业内主流的研发安全生产技术体系
•具有产品级、中型复杂系统的研发安全生产经验，能够应对比较复杂的项目环境和各类突发状况，保障研发项目的平稳落地
•具备参与研发安全演练的技术能力，是容灾演练、红蓝对抗、突袭演练等场景下的一线主力
•对本领域的技术趋势和演进有较为深入的了解；
•熟练掌握架构设计、性能优化、稳定性优化等领域的专业能力
•精通系统级需求，对所负责运维的产品/系统有较深刻的理解，能够在工作过程中结合现状，持续发现并分析当下问题，提出解决方案并推动落地拿到结果；
•具备复杂项目管理、业务风险识别和管控能力，能够从技术、运营、风险、ROI等多方面进行分析，并提出切实解决方案
•具备一定的业务线影响力和公信力，能够影响和协同跨团队的资源
•具备智能化/自动化运维的理念，能够独立负责自动化运维工具/平台的开发工作
•具备业务、技术及运维的全局视角，对日常运维指标、问题、风险进行分析和研究，通过建立模型预测风险并能形成解决方案并落地
•具备良好的沟通与协作能力，能够深入理解客户业务场景，与客户SRE团队高效协同，共同推动其在阿里云上的稳定性体系建设；
•联动内部技术服务团队，助力客户提升用云稳定性，强化客户对阿里云稳定性的认知与信任。
•了解机器学习、深度学习和其他AI相关技术的基本原理，能够运用AI技术进行创造性思考，提出新的解决方案或改进现有流程的方法。