黄仁勋:NVIDIA 8年算力增长1000倍 能耗降低350倍!

时间:2024-06-04 20:15:15分类:显卡浏览:9

6月2日晚,NVIDIA CEO黄仁勋在台大体育馆发表题为“开启工业革命新时代”的主题演讲。

在两个小时的演讲中,黄詹森梳理并介绍了NVIDIA如何推动人工智能(AI)演进以及AI如何改变行业。

同时他还宣布Blackwell芯片现已开始生产,Blackwell Ultra GPU芯片将于2025年推出。下一代AI平台名为“Rubin”,将集成HBM4内存,将于2026年发布。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

过去十年,计算成本降低了100万倍

计算机产业已经发展了60年。 IBM System 360 引入了中央处理单元、通用计算、通过操作系统实现硬件和软件分离、多任务处理、IO 子系统、DMA 以及当今使用的各种技术。

架构兼容性、向后兼容性、家庭兼容性,我们今天所了解的有关计算机的一切大部分都是在1964 年描述的。PC 革命使计算民主化,将其带到每个人的手中和家庭。

2007 年,iPhone 引入了移动计算,让电脑装进了我们的口袋。从那时起,一切都通过移动云连接并随时运行。

这 60 年来,我们只见证了两三次,确实不多,其实就两三次,主要的技术变革,计算的两三次构造转变,而我们即将再次见证这一切的发生,即GPU(图形处理器)所带来的加速计算。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

黄仁勋表示,计算机行业运行在中央处理器(CPU)上的引擎的性能扩展速度已经大大降低。但我们要做的计算量仍在以指数速度增长,如果所需的性能没有增长那么多,该行业将经历计算膨胀。并增加了计算成本。

他指出,有一个更好的方法可以增强计算机的处理性能,减轻CPU的负担,那就是通过专用处理器实现密集型应用的加速。

“现在,随着CPU 扩展速度减慢并最终基本停止,我们应该加速每个处理密集型应用程序,当然每个数据中心也会加速,加速计算是有意义的。常识。”黄说。

他指出,计算机图形学是一门可以完全并行操作的学科。计算机图形学、图像处理、物理模拟、组合优化、图形处理、数据库处理,以及深度学习中非常著名的线性代数,很多类型的算法都非常适合通过并行处理来加速。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

“通过结合GPU和CPU可以加速计算,我们可以让计算速度加快100倍,但功耗只增加了大约3倍,成本只增加了约 50%。”

黄仁勋表示,NVIDIA在PC行业一直在这样做。例如,在1,000 美元的PC 上添加500 美元的GeForce GPU 将显着提高性能。

在数据中心领域,NVIDIA也做了同样的事情。价值10 亿美元的数据中心增加了5 亿美元的GPU,它突然变成了一座人工智能工厂。通过加速计算,您还可以节省成本和能源。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

黄仁勋指出,每一次加快应用程序的速度,计算成本就会下降,速度上升100倍,就可以节省96%、97%、98%的成本。在过去十年间,一种特定算法的边际计算成本降低了100万倍。

“现在我们可以使用互联网上的所有数据来训练大型语言模型。人工智能是可能的,因为我们相信,随着计算变得越来越便宜,有人会找到它的良好用途。”

NVIDIA推动了大语言模型的诞生

黄仁勋强调,加速计算确实会带来非凡的成果,但这并不容易。原因是因为它非常困难。没有任何软件可以通过C 编译器运行,应用程序的速度会突然提高100 倍。这甚至不符合逻辑。如果他们能做到这一点,他们就会改造CPU。

所以对于NVIDIA来说,软件必须重新编写,这是最难的部分。该软件必须完全重写,才能重新表达在CPU 上编写的算法,从而可以加速、卸载和并行运行。计算机科学的这种改变是极其困难的。

为了推动GPU所能带来的计算加速,NVIDIA在2012年后改变了GPU的架构,采用了Tensor Core(张量计算单元),并推出了辅助“CPU任务分配+GPU并行处理”的编程模型/平台—— CUDA用于加速GPU 和CPU 之间的计算。

可以说,CUDA 增强了CPU 的性能,减轻并加速了专用处理器可以做得更好的工作。

随后,黄仁勋用大量篇幅强调了NVIDIA计算平台CUDA的重要性。黄仁勋表示,作为利用神经网络进行深度学习的平台,CUDA在过去20年显着推动了计算机科学的进步。现在,全球有500 万CUDA 开发者。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

黄仁勋指出,CUDA已经实现了“良性循环”,能够在运算基础不断增长的情况下,扩大生态系统,令成本不断下降。

“这将促使更多的开发者提出更多的想法,引发更多的需求实验,并成为伟大事业的开始。”

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

在CUDA之后,NVIDIA还发明了NVlink(一种总线及其通信协议),然后是TensorRT、NCCL,收购了Mellanox,推出了TensorRT-ML和Triton推理服务器,所有这些都集成在一台全新的计算机上。帮助生成式人工智能的诞生。

“当时没有人理解这一点(推出CUDA 并让NVIDIA GPU 支持CUDA),我认为没有人会买账。我们在GTC会议上宣布了这一点,旧金山的一家小公司OpenAI看到了。他们要求我给他们寄一份。”

黄仁勋表示,2016年,NVIDIA向OpenAI交付了第一台DGX超级计算机,随后不断扩展超级计算机的能力,以训练大量数据。

2022年11月,基于数千张NVIDIA GPU加速卡,OpenAI推出ChatGPT,并在5天内获得了数百万用户。

加速新的工业革命

黄仁勋表示,生成式人工智能的兴起意味着我们可以学习和模拟物理现象,让人工智能模型能够理解并生成物理世界中的各种现象。我们不再局限于缩小范围进行过滤,而是通过生成的方法探索无限的可能性。

如今,我们几乎可以为任何有价值的东西生成代币,无论是汽车的方向盘控制、机器人手臂的关节运动,还是我们当前可以学习的任何知识。因此,我们不仅处在一个人工智能时代,而且是一个由生成式人工智能引领的新时代。

更重要的是,NVIDIA的设备最初以超级计算机的形式出现,现在已经演变为高效的人工智能数据中心。

它在不断生产,不仅产生Token,更是一个创造价值的人工智能工厂。这个人工智能工厂正在生成、创造和生产具有巨大市场潜力的新商品。

正如尼古拉特斯拉在19 世纪末发明了交流发电机,为我们带来了源源不断的电子一样,NVIDIA 的人工智能发电机也在源源不断地生产出具有无限可能性的Token。两者都拥有巨大的市场机会,有望彻底改变每个行业。这真是一场新工业革命!”

黄仁勋兴奋地说:“价值3万亿美元的IT产业很快就会诞生出可以直接服务于100万亿美元产业的创新成果,它不再只是信息存储或数据处理的工具,而是产生的工具。”这将成为一种新型的制造,但它不是传统的计算机制造,而是一种利用计算机的新的制造模式,这种变化是以前从未发生过的,也是非常了不起的。一些非凡的东西。”

Blackwell已投产,2026年推出Rubin GPU

在今年3月的GTC2024大会上,NVIDIA正式发布了面向下一代数据中心和人工智能应用的Blackwell GPU。不到3个月后,在这次台大演讲中,黄仁勋透露了下一代Blackwell GPU。 Ultra GPU 和下一代Rubin GPU。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

据报道,Blackwell芯片已经开始生产。它是当今世界上最复杂、性能最高的计算芯片。相比八年前的Pascal芯片,Blackwell芯片的AI算力提升了1000倍。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

黄仁勋表示,NVIDIA的计算能力、浮点计算和人工智能浮点计算能力在8年内增长了1000倍。这个增长速度几乎超过了摩尔定律最好时期的增长速度。

另外,相比八年前的Pascal芯片,Blackwell芯片用于训练GPT-4模型(2万亿参数和8万亿Token)训练的能耗下降了350倍。

黄仁勋讲解,如果使用Pascal进行同样的(GPT-4模型)训练,它将消耗高达1000吉瓦时的能量。

这需要一个千兆瓦的数据中心来支持,但世界上不存在这样的数据中心。即使存在,也需要连续运行一个月。而如果是100兆瓦的数据中心,训练时间将长达一年。

然而,利用Blackwell进行训练,则可以将原本需要高达1000吉瓦时的能量降低到仅需3吉瓦时,这一成就无疑是令人震惊的突破。

想象一下,使用1000 个GPU,它们消耗的能量仅相当于一杯咖啡的热量。使用10,000 个GPU,完成同样的任务只需要大约10 天。

Blackwell不仅适合推理,其在代币生成性能方面的提升更是令人印象深刻。存在

在帕斯卡时代,生成每个Token所消耗的能量高达17,000焦耳,大约相当于两个灯泡运行两天所需的能量。要生成GPT-4 代币,几乎需要两个200 瓦的灯泡连续运行两天。

考虑到生成一个单词大约需要3个Token,这确实是一个巨大的能源消耗。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

现在的情况完全不同了。 Blackwell的推出仅消耗0.4焦耳的能量来生成每个代币,以惊人的速度和极低的能耗生成代币。

与Pascal相比,Token生成的能耗降低了约350倍,这无疑是一个巨大的飞跃。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

但即便如此,NVIDIA仍然不满足。为了实现更大的突破,在推出集成Blackwell芯片的DGX系统的同时,NVIDIA也在继续研发新一代GPU。

黄仁勋透露,NVIDIA将于2025年推出增强版Blackwell Ultra GPU(8S HBM3e 12H)。

2026年,NVIDIA还将推出下一代Rubin GPU,将集成8个HBM4,然后在2027年,将推出Rubin Ultra GPU,将集成12个HBM4。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

据外媒wccftech 报道,Rubin GPU 将采用4x 掩模设计,并将采用台积电的3nm 工艺和CoWoS-L 封装技术。

“这里展示的所有新芯片都处于全面开发阶段,确保每个细节都经过精心打磨。我们的更新节奏仍然是一年一次,始终追求技术的极致,同时确保所有产品保持100%架构兼容性。 ”黄说。

生成式AI加速以太网

但对于基于人工智能的新工业革命来说,仅靠人工智能算力的提升并不足以满足需求,尤其是大规模的人工智能工厂。因此,也必须使用高速网络来连接这些人工智能工厂。连接它们。

作为回应,NVIDIA 推出了两种网络选项:InfiniBand 和以太网。

其中,InfiniBand已广泛应用于全球超级计算和人工智能工厂,并且正在快速增长。然而,并不是每个数据中心都能开箱即用地使用InfiniBand,因为许多企业在以太网生态系统上进行了大量投资,管理InfiniBand交换机和网络确实需要一定的专业知识和技术。

因此,NVIDIA的解决方案是将InfiniBand的性能带到以太网架构中,这并非易事。

原因是每个节点、每台计算机通常连接到互联网上的不同用户,但大多数通信实际上发生在数据中心内部,即数据中心与另一端用户之间的数据传输。互联网。

然而,在人工智能工厂的深度学习场景中,GPU并不与互联网上的用户进行通信,而是相互进行频繁、密集的数据交换。

他们相互通信,因为他们都收集部分结果。然后他们必须减少并重新分配这些部分结果。

这种通信模式的特点是流量高度突发。重要的不是平均吞吐量,而是最后一个到达的数据包,因为如果你正在收集每个人的部分结果,而我正在尝试接收你的所有部分结果,如果最后一个数据包到达较晚,整个操作就会延迟。延迟是人工智能工厂的一个关键问题。

因此,NVIDIA的重点不是平均吞吐量,而是确保最后一个数据包按时到达并且没有错误。

然而,传统以太网并未针对这种高度同步、低延迟的要求进行优化。为了满足这一需求,我们创造性地设计了端到端的架构,使NIC(网络接口卡)和交换机能够进行通信。

为了实现这一目标,NVIDIA 使用了四项关键技术:

第一,NVIDIA拥有业界领先的RDMA(远程直接内存访问)技术。

现在我们在以太网网络层面有了RDMA,它的性能非常好;

第二,引入了拥塞控制机制。

这些交换机具有实时遥测功能,可以快速识别网络拥塞情况并做出响应。

当GPU或网卡发送的数据量过大时,交换机会立即发出信号,告诉它们放慢发送速率,从而有效避免网络热点的产生。

第三,采用了自适应路由技术。

传统以太网以固定的顺序传输数据,但在NVIDIA的架构中,可以根据实时网络情况灵活调整。什么时候

当发现拥塞或者某些端口空闲时,可以将数据包发送到这些空闲端口,然后由另一端的Bluefield设备重新排序,以确保数据按正确的顺序返回。

这种自适应路由技术极大地提高了网络的灵活性和效率。

第四,实施了噪声隔离技术。

在数据中心中,同时训练的多个模型产生的噪声和流量可能会相互干扰并导致抖动。 NVIDIA的噪声隔离技术可以有效隔离这些噪声,确保关键数据包的传输不受影响。

通过采用这些技术,NVIDIA成功为人工智能工厂提供了高性能、低延迟的网络解决方案。

在价值数十亿美元的数据中心中,如果网络利用率提高40%,训练时间减少20%,这实际上意味着50 亿美元的数据中心在性能上相当于60 亿美元的数据中心。揭示了网络性能对整体成本效益的重大影响。

幸运的是,以太网技术与Spectrum这无疑是NVIDIA在网络技术领域的一项重大成就。

NVIDIA目前拥有一系列强大的以太网产品线,其中最引人注目的就是Spectrum X800。

该设备以每秒51.2 TB 的速度提供与数千个GPU 的高效网络连接,并支持256 条路径(基数)。

接下来,我们计划一年后推出X800 Ultra,它将支持512基数,最多512条路径,进一步提升网络容量和性能。

X 1600专为更大规模的数据中心而设计,可满足数百万GPU的通信需求。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

黄仁勋强调,随着技术的不断进步,百万级GPU的数据中心时代即将到来。这种趋势的背后有着深刻的原因。

一方面,我们渴望训练更大、更复杂的模型;但更重要的是,互联网和计算机交互的未来将越来越依赖于云中的生成人工智能。这些人工智能将与我们一起工作和互动,生成视频、图像、文本甚至数字人。

因此,我们与计算机的每一次交互几乎都涉及到生成式人工智能的参与。并且总是有一个生成人工智能与其连接,其中一些在本地运行,一些在您的设备上运行,其中很多可能在云端运行。这些生成式AI不仅具有强大的推理能力,还可以迭代优化答案,提高答案的质量。这意味着我们未来将会有海量的数据生成需求。

NVIDIA还宣布华硕、技嘉、宏柏科技、英业达、和硕、文达科技、metatron、纬创资通、维翼、永清电子等将采用NVIDIA的GPU和网络技术推出云端、本地、嵌入式和边缘AI系统。

AI机器人时代已经到来

展望未来,机器人将不再是一个遥远的概念,而是越来越融入我们的日常生活。

当人们想到机器人时,往往会想到人形机器人,但事实上,它的应用远远不止于此。

机械化将成为常态,工厂将实现全面自动化,机器人将协同工作,创造出一系列机械化产品。它们之间的交互将更加密切,创造出高度自动化的生产环境。

黄仁勋指出:“机器人与AI 结合的时代已经到来。有一天,移动的物体将能够自主操作。我们致力于通过推进NVIDIA 机器人技术堆栈(包括用于模拟的Omniverse)的开发来加速生成物理AI应用、Project GR00T人形机器人基础模型、Jetson Thor机器人计算平台等。”

基于此,NVIDIA宣布比亚迪电子、西门子、泰瑞达和 Alphabet 旗下公司Intrinsic等全球十多家机器人企业,正在采用NVIDIA的机器人平台NVIDIA Isaac研究、开发和生产下一代 AI 赋能的自主机器和机器人,以此提高工厂、仓库和配送中心的工作效率,使机器人的人类同事更安全地工作,并使机器人成为执行重复性或超精密任务的智能助手。

未来,工厂里的机器人将成为主流,所有产品都将由机器人制造。两种高产量的机器人产品尤其引人注目:一种是自动驾驶汽车或高度自主化的汽车;另一种是自动驾驶汽车。另一个可能是机器人工厂。大批量生产的产品是人形机器人。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

在自动驾驶汽车方面,NVIDIA宣布,明年计划计划与梅赛德斯-奔驰车队携手,随后在2026年与捷豹路虎(JLR)车队合作。

NVIDIA 提供了完整的解决方案堆栈,但客户可以根据自己的需求选择其中的任何部分或层,因为整个驱动程序堆栈是开放且灵活的。

在人形机器人方面,黄仁勋表示:“近年来,认知能力和世界理解能力都取得了很大突破,这个领域的发展前景令人兴奋。我对人形机器人特别兴奋,因为它们最有可能为了适应我们为人类构建的世界,与其他类型的机器人相比,训练人形机器人需要大量数据,因此我们预计通过演示和视频功能提供的大量训练数据将非常有价值。是在一个区域进行的。”

黄仁勋还提出了“数字人”的概念,表示“数字人是我们的愿景”,可以应用于客服、广告、视频游戏等行业。

将加码AI PC市场?

黄仁勋在演讲中还透露了NVIDIA进军AI PC的意图。黄仁勋强调,NVIDIA在每个RTX GPU中都安装了张量核心处理器。因此可以理解,现在全球有1亿台基于GeForce RTX的AI PC,其中搭载NVIDIA芯片的RTX AI PC就有200多台,其中华硕、微星等PC品牌厂商都是合作伙伴。

黄仁勋:NVIDIA  8年算力增长1000倍 能耗降低350倍!

在2024 年台北电脑展上,NVIDIA 将展示四款令人惊叹的全新笔记本电脑。

黄说:“它们都能够运行AI,运行由AI增强的应用程序。未来的PC将是一个AI,它将不断地帮助你并在后台协助你。你所有的照片编辑、写作工具,你使用的一切这些工具都将通过人工智能得到增强。你的个人电脑还将承载带有数字人类的人工智能应用程序,因此人工智能将在个人电脑中得到体现和使用。”

值得注意的是,最近业界有传言称,NVIDIA准备推出一款将下一代Arm Cortex CPU核心与其Blackwell GPU核心相结合的芯片,主要面向Windows on Arm的AI PC设备领域。

考虑到NVIDIA目前在云人工智能领域的主导地位,随着生成式AI开始从云端走向边缘,NVIDIA希望依靠其强大的GP

U能力以及近年来在自研Grace Arm CPU上积累的经验,以及期与PC制造商和服务器厂商多年来的深度合作,进入Arm Windows PC市场无疑一个市场机遇,特别是在PC市场正面临生成式AI PC所带来的换机潮的背景之下。