连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE 1.2

时间:2024-08-20 06:00:32分类:显卡浏览:5

快科技讯8月19日摩尔线程正式发布了夸娥智算集群KUAE 1.2版本,通过软硬件层面的综合性优化,在功能、性能上多维升级,更高效、稳定,对生态系统更友好,可为大模型训练提供更坚实可靠的算力支撑。快鹅1.2主要升级点:

MFU提升10% 最高可达55%新版本采用千卡集群训练千亿模型,MFU(模型算力利用率)提升10%。

在密集模型集群训练中,MFU最高达到55%。

Flash Attention2优化通过集成最新的MUSA SDK平台和优化的Flash Attention2技术,结合新版Torch MUSA和算子融合,大幅提升大模型训练效率和资源利用率,显着缩短训练周期,总体成本降低。

64K长文本支持增强了对长文本大模型训练的支持,优化了处理长文本理解和生成任务的能力,可以更好地处理文档摘要、文章写作等复杂的语言处理任务。

支持混合专家模型MoEMCCL通信库完成了All2All优化,优化了muDNN算子在不同形状下的矩阵运算,更好地支持MoE(Mixture of Experts)大模型的训练。

这不仅提高了智能计算的效率,还为更大参数的大型模型训练提供了高度可扩展的基础。

断点续训进一步提升大模型训练的检查点读写性能,写入时间小于2秒,显着提升训练效率。

优化DeepSpeed支持DeepSpeed和Ulysses的适配和性能优化,加强长文本训练支持。

适配国内外多种大模型,支持Hugging Face上各大开源大模型的训练和微调。创新企业可以灵活选择不同的大型号来开发智能应用。

稳定性提升Kilocard集群软硬件进一步成熟,实现长达15天的连续无故障训练。

新版本引入了KUAE Aegis可靠性功能,加强了GPU、显存、集体通信等方面的监控、自动诊断和故障恢复能力。

可视化/可观测推出PerfSight性能监控系统,可以实时展示模型训练过程中的资源消耗和性能分析数据,有助于快速发现和恢复训练过程中的故障,满足大型模型的性能调优需求。

内置模型库中新增大模型KUAE内置模型库Model Zoo新增了LLaMA2全系列大型模型、百川、雅一、Qwen2、Mixtral(MoE 8x7B)等模型。

连续无故障训练15天!摩尔线程发布夸娥智算集群KUAE  1.2