集合通信库开发
工作职责:
工作职责
• 研究业界最新的分布式通信方案和并行计算方案
• 设计/开发高性能、低延时、易用、可靠的分布式通信和并行计算组件
• 分布式通信和并行计算组件性能调优
• 集群环境下大模型推理和训练的系统调优
• 参与下一代人工智能芯片的互联架构设计
岗位要求:
职位基本要求
• 计算机,电子工程,数学等相关专业硕士及以上学历,特别优秀者可以放宽到本科学历。
• 积极主动,有责任心;学习能力强,对问题有钻研精神;沟通顺畅,团队合作意识好
• 有扎实的计算机基础和丰富的软件工程经验,了解AI相关基础知识
• 熟悉Linux下的C/C++软件开发,熟悉cuda编程
职位要求加分项
• 有集群环境下大模型开发、调优、部署相关经验者
• 有大模型框架和工具(如megatron、deepspeed、fairscale等)经验,熟悉各类并行切分算法
• 有并行计算和通信组件(如OpenMPI、NCCL、NVSHMEM等)相关经验者
• 擅长GPU、虚拟化、存储、编译器、HPC等其中一个或多个领域
• 擅长linux驱动和内核开发
• 熟练使用性能分析工具(如perf、vtune、gperftools等),擅长性能调优