Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

时间:2024-06-07 22:00:23分类:CPU浏览:10

快科技6月7日消息,Intel官方宣布,旗下数据中心、客户端、边缘AI解决方案均已经为阿里云通义千问2(Qwen2)的全球发布提供支持,已取得ModelScope、阿里云PAI、OpenVINO等诸多创新成果。

为了最大限度地发挥诸同易前文2这样的大型模型的效率,英特尔进行了全面的软件优化,包括高性能融合算子、平衡精度和速度的先进量化技术等。

Intel还利用KV Caching、PagedAttention机制和张量并行来提高推理效率。

英特尔的硬件还可以使用软件框架和工具包进行加速,并实现出色的大型模型推理性能,包括PyTorch和英特尔PyTorch扩展包、OpenVINO工具包、DeepSpeed、Hugging Face库和vLLM。

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

首先看Intel Gaudi AI加速器,专为生成式AI、大模型的高性能加速而设计,最新版的Gaudi Optimum可以轻松部署新号的大模型。

Intel 使用Gaudi 2 对具有70 亿个参数和720 亿个参数的统一钱文2 模型的推理和微调吞吐量进行基准测试。以下是详细的性能指标和测试结果:

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

单一Gaudi 2加速器上70亿个参数的推理通易前文2

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

8个Gaudi 2加速器上的720亿个参数统一钱文2的推理

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

统一千文2 FP8在高迪2加速器上的推理

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

统一钱文2在高迪2加速器上的微调

再看Intel至强处理器,作为通用平台具有广泛的可用性,适用于各个规模的数据中心,对于希望快速部署AI解决方案、没有专项基础设施企业非常理想。

至强处理器的每个核心均内置英特尔AMX 高级矩阵扩展,可处理不同的AI 工作负载并加速AI 推理。

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

以上是通易钱文2在第五代可扩展至强上运行阿里云ecs.ebmg8i.48xlarge实例的下一个推理令牌延迟。

最后是消费级的AI PC,可以在本地部署大模型,既然可以使用处理器内置GPU核显、NPU AI引擎,也可以搭配独立的锐炫显卡。

下图是运行15亿参数的同易千问2的AI PC:

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

通易前文2关于Core Ultra 7 165H的推理

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

Core Ultra 7 165H上的同易千文2下一个令牌延迟

Intel三条线优化阿里云通义千问2模型:720亿参数轻松拿捏

瑞轩A770 16GB显卡同易千问2下令牌延迟