独家专访AMD高级副总裁王启尚:打造开放生态链 拥抱AI大时代
台北电脑展2024活动期间,文Q有幸独家采访了AMD GPU技术与工程研发高级副总裁王启尚(David Wang)。
王启尚老师拥有30多年的显卡及芯片工程研发经验。他目前在AMD负责架构、IP和软件等GPU技术的开发。他还领导AMD 显卡、数据中心GPU、客户端和半定制商用SoC 的工程研发。
与王启尚老师合影
面试从AI LLM大语言模型开始。
3月份在北京举办的AMD AI PC创新峰会上,王启尚开门见山地分析了LLM的发展趋势。大型闭源模型变得越来越大。例如,GPT-4的参数数量已达到1.76万亿个;即使比较小,开源模型也在不断扩大,骆驼2参数达到700亿,阿里巴巴统一千文2达到720亿。
如此庞大的LLM对算力非常“饥渴”,同时还需要海量的电力来支撑,远远超出了普通数据中心的承受能力,越来越引起业界的担忧。
对此,王启尚分析指出,基础大尺度模型的参数尺度增长曲线甚至比摩尔定律还要剧烈,几乎每两年增长高达5-10倍之多。所以,诞生了新的“混合专家模型”(MOE)策略,将单一大模型变为众多专家模型的集合,各有各的擅长领域。所以不需要太大,甚至不需要无限。相信未来它会越来越受欢迎。
硬件方面每年都有更新,以配合大机型快速演进的趋势,重点就是提升算力和算法、内存容量和带宽。
其中,计算能力和准确率密切相关,且呈越来越低的趋势。前几年需要16位,现在逐渐转向8位精度。 AMD的下一代CDNA4 MI350将进一步下降到6位或4位,最终可能会走向2位或1位——,人脑是1位或2位。
当然,这个准确度也取决于模型的设计,有时可能需要量化和重新训练。
目前来看,没什么“魔法”大幅降低硬件的功耗,能做的就是努力提升能效。
比如AMD的下一代产品,性能可以提升35倍,但功耗不会增加这么多,客户依然愿意购买越来越多的GPU,毕竟算力依然不够。
王其尚承认,电力的问题会一直存在,未来数据中心可能真的需要自建发电厂。
回到离我们更近的AI产品,比如Strix Point的下一代移动处理器Ryzen AI 300系列NPU的算力达到了50TOPS,,它可以满足更多需要计算能力的场景,并接管更多CPU和GPU的工作。
王启尚表示,以每一种AI引擎都有适合自己的工作为例,CPU主要做通用计算,GPU可以快速训练大型模型,NPU可以实现最低功耗和最高能效。当然,将负载迁移到NPU需要一定的优化和时间。
尤其是GPU和NPU之间,存在着权衡和妥协,这取决于你看重的是高速度还是高能效。
另一方面,未来AMD希望使用多层Graph Compile编译器,具体取决于系统中AI引擎的类型,可以将不同的负载分配给不同的AI引擎、让CPU、GPU、NPU同时跑起来,达到最高效率。
不过,这方面还需要一段时间。目前,所有工作负载仍然在同一个编译器中执行。我们能做的就是让整个模型变得更加成熟,让编译和优化变得简单,但这仍然需要一定的人力成本。
当笔者问到,在CPU、GPU、NPU的多引擎组合方面,Intel已经具备了十足的实力,而NVIDIA也在尝试做自己的CPU。 AMD 应该做什么?
王其尚认为,每一家厂商都有自己的独特优势,AMD的三种引擎在业内都是非常好的,也非常均衡。
未来,AMD将继续发挥三种引擎都可以提供最佳状态的优势,每一样都要做好,同时延续AMD一贯的企业文化,在软件方面坚持开源,和行业伙伴共同创新,打造开放的生态链,拥抱AI大时代。
比如AMD联合博通、思科、谷歌、慧与、Intel、meta、微软共同宣布了开放的行业标准UAlink(Ultra Accelerator link)共同推进人工智能基础设施建设。
八个创始成员中,谷歌、HPE、meta、微软都是数据中心客户。他们都很高兴有这样一个开放的标准,可以让大规模数据中心的扩展更加标准化,更容易,而不受专门设施的限制。有计划。
最后我们聊了王启尚的专长,就是GPU开发,包括Ryzen AI 300系列核显所使用的RDNA 3.5(或RDNA 3+),以及下一代显卡将使用的RDNA 4。
具体细节目前还不能公开,但王启尚透露,以RDNA 3.5重点针对APU环境做了优化为例,集成图形核心的规模从12个CU单元增加到最多可提供16个CU单元(作者将其换算为提升了33%),这对于APU来说是非常强大的。可以更好的用于游戏。
RDNA 4在游戏方面的重点就是通过AI增强游戏体验,包括更强的光线追踪,更多的AI加速画质和帧率。
事实上,这也是RDNA GPU家族发展的大方向。
根据王启尚老师的精彩分享,未来AMD的AI出击,我们拭目以待!