AI算力暴增至120TOPS 英特尔Lunar Lake架构解析
随着新一代AI PC硬件核心Lunar Lake的发布,英特尔四年五工艺节点演进逐渐迎来革命性时刻。
面对AI时代指数级增长的算力需求,Intel Lunar Lake又名第二代酷睿Ultra平台的CPU+GPU+NPU算力突破到了120TOPS,将为基于它的AI PC带来更强大、更高效的AI性能体验。
在PC行业的重要时间点——台北电脑展上,英特尔率先公布了Lunar Lake平台的技术细节、创新的架构设计以及新的CPU、GPU和NPU特性。
与此同时,各大OEM厂商也推出了基于Lunar Lake平台的新一代AIPC。那么Lunar Lake能为第二代Core Ultra平台带来哪些改变呢?接下来,我们来探索一下全新的英特尔Lunar Lake平台。
以AI为核心的多元化计算力提升
如今,人工智能应用蓬勃发展,渗透到各个领域。聊天机器人、AI智能助理、文森图片、文森视频、文森音乐、降噪、图像扩展、代码生成、声音模拟等应用场景已为人们所熟知。
生成式AI蓬勃增长,基于AI技术的应用日新月异,多元化大模型的转换与扩散,成为AI终端负载的主流趋势。同时也需要云、终端、边缘等多模态AI硬件设备的算力支撑。
同时,对于PC等本土化AI载体来说,多样化的AI应用对CPU、GPU、NPU等核心硬件的算力要求越来越高。单一、传统的硬件开发模式已经不能完全适应AI时代的计算需求。
所以从流星湖到现在的月湖,CPU+GPU+NPU构成的多元AI计算引擎,成为当代AI PC核心硬件的架构设计趋势。
因此,如何在提升三大AI计算引擎算力的同时,利用工艺和架构优势打造更好的能效比,同时兼顾传统计算能力的提升,成为了上游芯片企业如英特尔。
我们来看看新的月湖是怎么做到的?
高达120TOPS的全核心AI算力暴增
首先需要明确的是,Lunar Lake全新的CPU、GPU和NPU使得整个平台的AI算力达到120TOPS,相比Meteor Lake提升了一倍。
那么120TOPS算力是如何分配的呢?
首先,Lunar Lake采用全新的Lion Cove性能核(P-Core)和Skymont能效核(E-Core)设计,支持VNNI和AVX AI指令集峰值AI算力为5TOPS。
虽然数量比较少,但CPU在AI应用中往往只负责一些轻嵌入式AI计算任务,因此5TOPS算力足以应对这些类型AI的计算需求。
其次,新的Xe2 GPU架构带来了67TOPS的峰值AI算力,这主要是由于新架构的XMX矩阵引擎吞吐量的进一步提升,使得新的瑞轩GPU拥有更强的浮点计算能力,提高了性能。提升BF16、INT8等常见AI数据类型算力。
三、全新NPU 4架构带来2倍的能效提升以及48TOPS的峰值算力。相比Meteor Lake NPU 3架构的11.5TOPS算力,可以说是巨大的提升。
因此,三大硬件核心算力加在一起,就构成了Lunar Lake整体120TOPS的AI算力。
CPU、GPU、NPU三大核心性能更强、能效比更高
了解了月湖的核心特征后,我们就从架构入手,看看月湖的设计发生了哪些变化?
总体而言,Lunar Lake定位为英特尔下一代AI PC的旗舰SoC。它有四大特点:
一、降低40%能耗,带来突破性的x86能效表现;
二、达到Meteor Lake相同性能等级时,能耗只有前者的一半,带来优秀的核心性能保障;
三、全新Xe2图形架构带来了1.5倍的图形性能提升;
第四,120TOPS全平台AI算力带来无与伦比的AI算力。
在此前提下,我们来看看Lunar Lake的芯片设计。如下所示:
相比Meteor Lake的计算模块、图形模块、SoC模块、IO模块的架构设计,Lunar Lake已经一体化,直接与内存集成。
可以看到Lunar Lake直接在基板上集成了LPDDR5x内存颗粒和最高支持32GB双通道。处理器芯片部分由计算模块(Compute tile)和平台控制模块(Platform Controller tile)组成。
Lunar Lake的计算模块包含了性能核心、能效核心、GPU、媒体和显示引擎以及NPU五个区块,这部分如果做深入解读的话会很难理解,所以这里我们尽量剔除一些比较晦涩的技术细节,比如管道深度、分支预测、向量等,并且只介绍这些技术细节。这些变化为月湖奠定了怎样的性能基础?
全新设计的性能核与能效核带来更好的性能体验
首先是Lunar Lake的性能核代号为Lion Cove,其微架构针对性能和能效、IPC、可扩展性等进行了优化。例如,PPA(面积功耗)优化、L3共享缓存提升至12MB、内存子系统进一步完善、引入基于AI的电源管理、向量和整数乱序引擎拆分、很快。
这一系列的改进使得Lion Cove的IPC相比Meteor Lake的Redwood Cove提升了14%,并且在相同功耗下能够实现更好的性能,特别是低能耗下的性能提升达到了18%。
这意味着Lunar Lake能够以更少的功耗实现更高的性能,从而平衡性能和电池寿命。
Lunar Lake的能效核代号为Skymont,其微架构设计增加了工作负载覆盖范围,实现了向量和AI吞吐量的双倍提升,这使得低功耗岛上的Skymont核心能够将单线程和多线程性能提升2倍。和4次。
再加上更好的功效,能效核心在实现相同性能的情况下比上一代消耗更少的功率。
总体而言,Skymont微架构打造的全新能效核心增强了分支预测能力,拥有4MB L2共享缓存,L2缓存带宽提升了2倍,4x 128bit FP和SIMD矢量AI吞吐量提升了2倍,并且具有更好的并行计算能力。
与Meteor Lake的Crestmont微架构能效核心相比,Skymont单线程FP算力提升1.68倍,多线程INT峰值算力是前者的4倍,实现相同算力的能耗仅为前者的1/3。
全新的线程调度逻辑优化工作负载到核心匹配
此外,Lunar Lake改变了性能核心和能效核心的调度逻辑,以同时覆盖CPU的全范围性能,从而优化工作负载与核心的匹配。
无论Meteor Lake处于什么负载状态,它都会优先考虑性能核心来承担工作负载。这会导致明显负载不重的任务运行在性能核心上,从而影响散热和电池寿命。
Lunar Lake 将优先使用功耗较低的能效核心来执行工作负载。稍后,如果工作负载继续增加,则会调用性能核心来提供更好的性能。
这种全新的“大小核”调度逻辑可以帮助Lunar Lake更好地分配性能和功耗,避免出现性能核狂奔、能效核“旁观”的问题。
之所以能够实现更“智能”的核心匹配,主要有以下三个原因:
一是让线程调度更加智能,优化工作负载与核心的匹配;
二是提高与主机厂的系统集成,实现更加智能可控的CPU调度。
第三是扩大效率并提高整体电池寿命。
在开始采用性能核心和能效核心设计后,Intel为Core平台引入了Intel Thread Director,即Intel线程调度器。
Lunar Lake采用了全新改进的线程调度器,旨在优化混合架构下多核处理器中不同类型核心的利用效率,提高整体性能和能效。
新一代线程调度器可以通过智能调度和资源分配动态调整线程的执行状态,从而实现更高效的计算和更长的电池寿命。
当用户运行复杂的应用程序和多任务处理时,英特尔的线程调度器可以确保应用程序平稳运行,减少滞后和延迟,提高用户体验。
例如,在游戏场景下,英特尔的线程调度器可以将游戏相关的线程优先分配给性能核心,而将后台更新等任务调度给能效核心,以保证游戏的流畅运行。
另一个例子是Teams 应用程序。通过基于系统容器和电源管理层面的优化,该应用的能耗相比Meteor Lake降低了35%,显着提升了在线会议时电脑的能效。
另外,还可以看看Office生产力应用的能效核心和性能核心调度逻辑。
第一张图是当任务刚刚启动、工作负载较低时,首先调用能效核心执行;第二张图显示,任务负载持续攀升,需要更高的性能后,工作负载会快速转移到性能核心。过来。
如果后续的性能不需要性能核心的干预,就会一直运行在功耗更低的能效核心上。这可以说是非常典型的Lunar Lake“大小核”调度逻辑。
过去,Meteor Lake 可能会在任务启动时将负载放在性能核心上。
总体而言,新的英特尔线程调度器通过实时监控和动态调度,实现了混合架构中不同核心的高效利用。
它不仅提高了系统的整体性能和响应能力,还通过优化资源分配来降低功耗并延长电池寿命。该技术在Lunar Lake等平台上展现出显着优势,将为用户提供无缝、高效的计算体验。
全新的Xe2核显释放更强图形与AI性能
说完CPU部分,我们再来看看GPU部分。
Meteor Lake引入全新锐旋GPU后,图形性能得到了显着提升。一方面,在游戏方面,核显可以在1080p、高画质下运行大型3A游戏,可以获得35-40fps以上的流畅画面;另一方面,锐炫核显在Intel OpenVINO的支持下,可以提供更加优秀的AI算力,尤其是在局部化的Stable Diffusion应用中,显着提升文本生成图和图生成图的效率。
Lunar Lake引入了全新的Xe2 GPU,图形性能相比Meteor Lake提升了1.5倍,并提供了更大的光线追踪单元,有助于提高游戏的画面质量和真实感。
Xe2 GPU架构提高了硬件功能的利用率,在整个架构中实现更好的工作负载分配,并增强了硬件和软件集成。
同时,在硬件规格方面,Xe2架构也进行了升级。其Xe核心增加到了8个,图形性能自然也得到了提升。 AI性能的提升来自于新推出的Xe矩阵扩展引擎。新的矢量引擎支持4096OPS/时钟和2048OPS/时钟的INT8和FP16计算,并改进了固定功能单元,提高了吞吐量,从而优化了AI计算效率。其整体AI算力达到67TOPS,拥有8MB二级缓存。
同时,Xe2 GPU增强了XeSS核心,从而提高了图像处理和渲染效果,带来更好的能效。同等性能下功耗更低,同等功耗下性能更高。与Meteor Lake 相比,Lunar Lake 的耗电量减少了40%。
在图形性能和能效升级的同时,Lunar Lake还带来了新的媒体和显示引擎。
其中,媒体引擎在原有AV1编解码器的基础上增加了VVC解码支持,而显示引擎则支持eDP 1.5、DP 2.1、HDMI 2.1接口标准。新的媒体和显示引擎可以更好地支持自适应分辨率流和360全景视频。
VVC解码也是新引擎的一大亮点。虽然目前支持较少,但与AV1 相比,VVC 在确保类似质量的同时,文件大小减少了10%。这可以帮助视频流媒体平台进一步降低成本,是未来视频解码的一大主流方向。
NPU 4架构带来4倍AI算力升级
Lunar Lake的NPU也得到了重大升级。全新NPU 4架构增加了芯片尺寸,提高了时钟频率和能效,并针对现代AI进行了优化,以更好地支持LLM(大型语言模型)和Transformers的高效运行。
与Meteor Lake上的NPU 3相比,NPU 4的峰值性能提高了4倍。
NPU 4被英特尔定义为AI PC最大的集成专用AI加速器。它集成了12个增强版本的SHAVE DSP(流式混合架构矢量引擎数字信号处理器),J加速了LLM和Transformers的加速,并支持原生激活功能和数据转换。
其带宽是Meteor Lake的两倍,内置6个神经计算引擎和MAC(Multiply-Accumulate)阵列能效优化,让AI算力从Meteor Lake的11.5TOPS飙升至48TOPS,峰值性能提高4倍,能耗更低,动力更强劲。
出色的平台级连接性
除了计算模块之外,Lunar Lake 的平台控制模块也提供了出色的连接性。
至120TOPS 英特尔Lunar Lake架构解析" src="https://file.zhidukeji.com/202406/06/180006381.jpg" />Lunar Lake原生支持蓝牙5.4、Wi-Fi 7(5Gig)、Thunderbolt 4。PCIe 4.0和PCIe 5.0通道数量进一步提升,新增支持Thunderbolt Share技术【具体参看:雷电接口史诗级强化!一根线完成2台电脑协同应用】,因此Lunar Lake在连接性方面有着天花板级别的生态支持。

