连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2
快科技讯8月19日摩尔线程正式发布了夸娥智算集群KUAE 1.2版本,通过软硬件层面的综合性优化,在功能、性能上多维升级,更高效、稳定,对生态系统更友好,可为大模型训练提供更坚实可靠的算力支撑。快鹅1.2主要升级点:
MFU提升10% 最高可达55%新版本采用千卡集群训练千亿模型,MFU(模型算力利用率)提升10%。
在密集模型集群训练中,MFU最高达到55%。
Flash Attention2优化通过集成最新的MUSA SDK平台和优化的Flash Attention2技术,结合新版Torch MUSA和算子融合,大幅提升大模型训练效率和资源利用率,显着缩短训练周期,总体成本降低。
64K长文本支持增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力,可以更好地处理文档摘要、文章写作等复杂的语言处理任务。
支持混合专家模型MoEMCCL通信库完成了All2All优化,优化了muDNN算子在不同形状下的矩阵运算,更好地支持MoE(Mixture of Experts)大模型的训练。
这不仅提高了智能计算的效率,还为更大参数的大型模型训练提供了高度可扩展的基础。
断点续训进一步提升大模型训练的检查点读写性能,写入时间小于2秒,显着提升训练效率。
优化DeepSpeed支持DeepSpeed和Ulysses的适配和性能优化,加强长文本训练支持。
适配国内外多种大模型,支持Hugging Face上各大开源大模型的训练和微调。创新企业可以灵活选择不同的大型号来开发智能应用。
稳定性提升Kilocard集群软硬件进一步成熟,实现长达15天的连续无故障训练。
新版本引入了KUAE Aegis可靠性功能,加强了GPU、显存、集体通信等方面的监控、自动诊断和故障恢复能力。
可视化/可观测推出PerfSight性能监控系统,可以实时展示模型训练过程中的资源消耗和性能分析数据,有助于快速发现和恢复训练过程中的故障,满足大型模型的性能调优需求。
内置模型库中新增大模型KUAE内置模型库Model Zoo新增了LLaMA2全系列大型模型、百川、雅一、Qwen2、Mixtral(MoE 8x7B)等模型。
相关文章
- 3499元起 七彩虹RTX 5060 Ti显卡上市:三风扇、
- 显卡选错毁假期!蓝戟Arc A770 Photon 助力五一
- RTX 5070、RTX 5070 Ti在欧洲已破发!国内还是
- 首款双12V-2x6供电创9项纪录!影驰RTX 5090D HO
- 好消息!曝NVIDIA大幅增加RTX 50供应:这两款除
- 饮鸩止渴!中国三巨头囤积120亿美元的H20 AI加
- 一眼看去就与众不同!索泰 RTX 5060 Ti 8GB 月
- 荣耀MagicBook Pro 16 2025定档4月30日:首发搭
- 巧妙滑块设计!技嘉RTX 5060 Ti GAMING OC 16GB
- AMD中国特供RX 9070 GRE可能要等到双11!RX 906