您当前的位置: 首页 > 职位列表 > 职位详情

深度学习训练系统开发专家-北京,杭州

3.5-6.5万元/月
投递简历
北京-朝阳区
3-5年 机器学习 · 大模型算法 · 模型加速/性能优化 · C/C++ · Python · Java · Golang
2025-12-16 14:43:29 更新 被浏览:730 次
阿里云计算有限公司
最近在线时间:2025-12-16 14:43:29
电话:139********
地址:浙江省杭州市西湖区三墩镇灯彩街1008号云谷园区1-2-A06室
职位描述

职位描述
●负责PAI平台深度学习框架的技术研发,涵盖MoE模型的大规模训练框架、多模态训练架构、RLHF训练系统等方向,支撑通义实验室及阿里集团内多个业务场景的模型训练需求;参与基模型Pretrain、SFT等关键阶段的训练流程优化;
●专注于提升各阶段模型训练任务的极致吞吐能力,能够对不同模型负载进行系统性性能剖析,定位耗时瓶颈,并实施针对性优化措施,包括但不限于算子层面调优、通信机制改进、分布式策略增强等技术手段;
●主导超大规模训练系统的稳定性建设,通过多种技术方案提升训练任务的实际有效吞吐,打造高效的故障发现机制与自动恢复体系,保障大规模训练过程的流畅性和可靠性;
●参与训练框架在多种硬件平台上的适配与性能优化工作。

职位要求
●具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++编程语言,了解常用设计模式,具有复杂软件系统的架构设计、开发与调试经验;
●理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型和多模态模型的技术特性;
●熟练使用PyTorch等主流深度学习框架,深入理解Megatron、DeepSpeed、JAX等训练框架的设计理念与核心机制;
●具备良好的沟通表达能力和团队协作精神,拥有快速学习新技术的能力,以及持续探索和解决复杂技术问题的韧性;
●掌握计算机体系结构相关基础知识,在异构计算优化(GPGPU/x86/ARM)领域有实践经验,熟悉高性能网络通信优化方法,具备分布式训练策略调优的实际经历;

求职提醒:求职过程请勿缴纳费用,谨防诈骗!若信息不实请举报。
该公司的其他职位
阿里云智能-Java应用架构师-系统设计
4-7万元/月
浙江-杭州
2025-12-16 19:23:56
投递简历
【深圳】Kubernetes研发技术专家
3-6万元/月
广东-深圳
2025-12-16 19:04:58
投递简历
云原生架构师
2.5-4万元/月
广东-深圳
2025-12-16 19:03:59
投递简历
云平台SRE-杭州
4-6万元/月
浙江-杭州
2025-12-16 18:56:10
投递简历
云数据库产品设计专员
2.5-5万元/月
浙江-杭州
2025-12-16 18:34:25
投递简历
前端架构师
2.5-5万元/月
浙江-杭州
2025-12-16 18:32:13
投递简历
Java高级开发工程师
2.5-4.5万元/月
浙江-杭州
2025-12-16 18:28:09
投递简历
技术服务专家TAM-运维/系统可靠性方向
2.5-4.5万元/月
广东-深圳
2025-12-16 17:53:04
投递简历
云原生架构师(AI基础设施方向)
2.5-4万元/月
广东-深圳
2025-12-16 17:51:14
投递简历
网络安全核心驱动开发专家
5-8万元/月
北京-朝阳区
2025-12-16 14:43:21
投递简历
您可能感兴趣的职位 搜索更多相似职位 >
推荐企业 职位专题
阿里云计算有限公司
公司主页 >
微信求职找工作
手机扫一扫
手机扫一扫
随时随地找工作

海量高薪岗位在线免费直招 招聘者/求职者电话直聊

微信小程序
手机也能找工作