连续无故障训练15天！摩尔线程发布夸娥智算集群KUAE 1.2

时间：2024-08-20 06:00:32分类：显卡浏览：7

快科技讯8月19日摩尔线程正式发布了夸娥智算集群KUAE 1.2版本，通过软硬件层面的综合性优化，在功能、性能上多维升级，更高效、稳定，对生态系统更友好，可为大模型训练提供更坚实可靠的算力支撑。快鹅1.2主要升级点：

MFU提升10% 最高可达55%新版本采用千卡集群训练千亿模型，MFU（模型算力利用率）提升10%。

在密集模型集群训练中，MFU最高达到55%。

Flash Attention2优化通过集成最新的MUSA SDK平台和优化的Flash Attention2技术，结合新版Torch MUSA和算子融合，大幅提升大模型训练效率和资源利用率，显着缩短训练周期，总体成本降低。

64K长文本支持增强了对长文本大模型训练的支持，优化了处理长文本理解和生成任务的能力，可以更好地处理文档摘要、文章写作等复杂的语言处理任务。

支持混合专家模型MoEMCCL通信库完成了All2All优化，优化了muDNN算子在不同形状下的矩阵运算，更好地支持MoE（Mixture of Experts）大模型的训练。

这不仅提高了智能计算的效率，还为更大参数的大型模型训练提供了高度可扩展的基础。

断点续训进一步提升大模型训练的检查点读写性能，写入时间小于2秒，显着提升训练效率。

优化DeepSpeed支持DeepSpeed和Ulysses的适配和性能优化，加强长文本训练支持。

适配国内外多种大模型，支持Hugging Face上各大开源大模型的训练和微调。创新企业可以灵活选择不同的大型号来开发智能应用。

稳定性提升Kilocard集群软硬件进一步成熟，实现长达15天的连续无故障训练。

新版本引入了KUAE Aegis可靠性功能，加强了GPU、显存、集体通信等方面的监控、自动诊断和故障恢复能力。

可视化/可观测推出PerfSight性能监控系统，可以实时展示模型训练过程中的资源消耗和性能分析数据，有助于快速发现和恢复训练过程中的故障，满足大型模型的性能调优需求。

内置模型库中新增大模型KUAE内置模型库Model Zoo新增了LLaMA2全系列大型模型、百川、雅一、Qwen2、Mixtral（MoE 8x7B）等模型。

连续无故障训练15天！摩尔线程发布夸娥智算集群KUAE 1.2

相关文章