高通罕见公布骁龙X GPU架构细节:性能超67%、功耗低62%
快科技6月16日报道称,高通骁龙处理器一直拥有极其强大的GPU性能,经常被调侃为“买GPU送CPU”。不过官方对于GPU架构的技术细节却守口如瓶,每次都只是说支持XX技术。性能改进XX。
当谈到最新的Snapdragon时
Adreno X1 专为Windows PCAdreno X1 GPU设计,并具有本机驱动程序支持。
FP32单精度浮点性能Adreno X1-85,像素填充率高达72Gp/s(每秒720亿次)。
图形接口完整支持DirectX 12.1(Shader Model 6.7/DirectML)、DirectX 11、Vulkan 1.3、OpenCL 3.0
粗略地按核心数量计算,这相当于一个GTX 1660 Ti,或三个Arc A770,或一个RX 7600 的四分之三。
渲染前端模块支持每个时钟周期2个三角形和光栅化处理、双向LRZ(地面分辨率深度测试)、基于图像的可变着色率(VSR Tie2)。
还有一个专门用于分箱的前端模块,它与渲染同步运行。
6个SP对应6个渲染后端,每个时钟周期最多48个像素和96个片段(用于MSAA抗锯齿)。
还有最高4.6TFlops(每秒4.6万亿次计算),完全支持虚拟化(最多8个虚拟机),并具有电源管理功能。
仔细看看SP部分,就是SIMD着色器处理器,属于核心执行模块,如此详细的架构图对于高通GPU来说似乎还是第一次,可以看到分为6个着色处理器(SP),整体共计1536个FP32 ALU,可以通俗地表达为1536个核心,最高频率1.5GHz。
GMU,也就是GPU管理单元
此外,还有32个32位EFU(基本功能单元)、384KB GPR(通用寄存器)、指令缓存、本地缓冲区、加载/存储单元、纹理管道和纹理缓存、GMEM单元等。
分为两个uSPTP(微型着色与纹理流水线)。
整个SP,分布着256个FP32 ALU(单精度浮点算术逻辑单元),支持FP32/16、INT32/16、BF16数据类型,支持DP4ACC指令(四路INT8点积),以及512个FP16 ALU(半精度浮点算术逻辑单元),支持FP16、INT16、BF16数据类型。
而且,它不仅仅是一个缓存,还可以全部或部分灵活地用于颜色和深度缓存、通用本地内存,无论是图形渲染还是通用计算。
它可以让GPU大幅降低对系统内存的依赖,降低对延迟和带宽的需求,实现超高性能和能效。
GPU内还集成了384KB集群缓存(每两个SP共享128KB)、1MB一体化二级缓存、6MB系统级缓存(即三级缓存),还有一些其他较小的缓存,用于着色器指令、本地纹理数据等。
具体分为三种模式:
第一个是GMEM是个特殊功能单元,也就是高带宽的本地GPU显存,容量3MB,带宽达2TB/s,与系统内存完全异步。,兼容性最好的PC标准渲染方法。
第二个是FlexRender弹性渲染技术也值得一提,可以由驱动控制,针对每一个不同的表面动态切换不同的渲染模式,提升性能的同时尽可能降低功耗。,它将每一帧分为不同的块(Tiles),每个块都会进入GMEM,这样可以尽可能减少数据移动,提高能源效率。
第三种是Direct Mode,是上述两种方法的混合。
软件方面,Binned Mode,Adreno控制面板可以调节性能和各种功能。兼容性方面,拥有数百款流行的Windows应用程序,测试过的游戏可以查询,并且有丰富的开发工具。
Bined Direct Mode
与Ryzen 9 7040系列中的Radeon 780M相比,其性能和能效均遥遥领先。
热门3A游戏中,正式上市的有9款,全部与英特尔夏普核显基本相同或更好。优势项目包括《地平线:零之曙光》、《火箭联盟》等。