中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先
快科技9月20日讯中国电信宣布,天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台,已经正式发布上线,基于华为昇腾芯片,并完成了万卡规模Llama3.1-405B大模型训练。Llama3.1-405B作为4000亿参数规模的大模型,在息壤训推服务平台的支持下,经过多轮优化,MFU(算力利用率)达到国内领先水平。此外,700亿参数大模型Llama2-70B已完成万卡规模的训练,MFU也处于行业领先水平。
据悉,天翼云平台具备万卡纳管和并行训练能力基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间互联技术、Gang策略和拓扑感知智能计算容器调度,以及慧聚自主研发分布式训练框架TeleFormers 和该平台可实现Wanka 资源管理和Wanka 规模的并行训练。
其中,天翼云自研了AI框架Teleformers对算子、通信、数据处理、并行策略自适应调整等进行了优化,显着提升了大模型训练的训练效率。
在目前业界最大参数规模开源单密集模型Llama3.1-405B大模型训练测试中,性能达到国际同等水平。
算子优化方面,针对昇腾芯片的特性,在网络结构层面对诸多高频算子进行了定制化改造,构建了高性能算子集。例如,matmul算子利用Ascend芯片的计算亲和力,将padding输入到特定维度,大大提高了执行效率,显着缩短了训练时间。
在数据处理和管道方面,通过设置合理的数据分片策略和HPFS条带优化,结合数据预取和数据下沉技术,大大提高了数据流的处理效率和稳定性;预处理后的数据集提供二次分片,并提供就近缓存能力,减少GPU空闲时间。
在自适应并行策略方面,基于对3D并行中各类计算单元的分析,天翼云设计了多种自适应3D并行策略。根据不同的模型规模和硬件资源,自动选择合适的并行策略,充分利用计算资源和显存资源,缩短模型训练中每轮的迭代时间。
天翼云国产化万卡智算中心还有多项技术突破——天翼云信息实训服务平台基于软硬件协同设计,提供全链路故障监控、基于主动感知的全链路故障监控与定位、CheckPoint二级多级高速存储系统、容错优雅调度和模型编译Caching等系统将万卡规模故障的检测和解决时间缩短至业界领先的分钟数,大幅提升有效训练时间。
自动断点续训系统:构建丰富的故障库,并以此为基础构建多维度的故障感知系统,能够快速、主动地感知相关故障事件和潜在的故障风险;
通过精准的故障隔离和调度方法,可以快速隔离和处理故障节点,并重新调度新节点接管任务并继续训练,实现不间断断点续训,有效减少GPU空闲时间。
高速多级CheckPoint系统:天翼云设计基于多级存储的高速CheckPoint系统。通过两级异步存储,实现高速写入内存,最终异步写入远程系统;
针对断点恢复场景,提供进程级故障原位快速恢复和远程快速恢复能力,最终实现CheckPoint秒级读写能力,大幅缩短断点恢复时间,提升训练效率。
全链路检测工具链:天翼云开发了全链路故障监控工具链,可以实现基于主动感知的全链路故障监控和定位。
该工具链可以主动检测设备故障,减少训练中断的频率,保证训练过程的连续性和稳定性。