NVIDIA经济学:云服务商每花1美元买我的GPU 就能赚7美元!
NVIDIA 超大规模和HPC 业务副总裁兼总经理Ian Buck 近日在美国银行证券2024 年全球技术大会上表示,客户正在投资数十亿美元购买新的NVIDIA 硬件,以满足更新的AI 大型模型的需求。从而增加收入和生产力。
Buck表示,竞相建设大型数据中心的公司将特别受益,在数据中心四到五年的生命周期内获得强劲回报,“云提供商在购买 GPU 上花费的每一美元,四年内(通过提供算力服务GAAS)都能收回 5 美元。”
“如果用于推理,则更有利可图,每花费 1 美元,在同样的时间段内就能产生 7 美元的营业额,并且这个数字还在增长。”巴克说。
NVIDIA创始人、总裁兼首席执行官黄仁勋和执行副总裁兼首席财务官Colette Kress此前也表达了同样的观点。
他们此前表示,借助CUDA 算法创新,NVIDIA 将H100 的LLM 推理速度提升至3 倍,可以将Llama 3 等模型的成本降低至原来的三分之一,而H200 则拥有更好的性能。推理性能。几乎是H100 的两倍,为生产部署带来巨大价值。
例如,使用具有7000 亿个参数的LLama 3,单个HGX H200 服务器每秒可输出24,000 个Token,同时支持超过2,400 个用户。
这意味着,按照现有的定价来看,托管Llama3的API供应商每花费1美元在NVIDIAHGX H200服务器上,未来四年内就可从Llama3 token计费中赚取7美元收入。
围绕Llama、Mistral 或Gemma 的人工智能推理模型不断发展并由Token 提供服务。 NVIDIA 正在将开源AI 模型打包到名为Nvidia 推理微服务(NIM) 的容器中。
NVIDIA 最新的Blackwell 针对推理进行了优化,支持FP4 和FP6 数据类型,进一步提高运行低强度AI 工作负载时的能效。
据官方数据,与Hopper相比,Blackwell 训练速度比H100快4倍,推断速度快30倍,并且能够实时运行万亿参数大语言模型生成式AI,可进一步将成本和能耗降低到原来的25分之一。
这似乎呼应了黄仁勋多次喊出的“买的越多,省的越多”的口号,但不可忽视的是,NVIDIA GPU的价格也在快速上涨。
为 Rubin GPU做准备
许多云提供商提前两年开始规划新的数据中心,并希望了解未来的AI GPU 架构会是什么样子。
NVIDIA 在6 月初的Computex 2024 展会上宣布,Blackwell 芯片现已开始生产,并将很快取代Hopper 芯片。 Blackwell Ultra GPU 芯片将于2025 年推出。
NVIDIA还宣布集成HBM4的下一代AI平台“Rubin”,将于2026年发布,以取代Blackwell和Blackwell Ultra GPU。
“这对我们来说非常重要。—— 数据中心并不是凭空出现的,它们是大型建设项目。他们需要了解布莱克韦尔数据中心的外观以及它与之前的数据中心有何不同。霍珀数据中心。”巴克说。
布莱克韦尔提供了转向更密集的计算形式并使用液体冷却等技术的机会,因为空气冷却效率不高。
NVIDIA宣布了每年推出新GPU的节奏,这有助于公司跟上AI发展的步伐,进而帮助客户规划产品和AI策略。
“NVIDIA 已经与我们最大的客户讨论Rubin GPU 一段时间了,他们知道我们的目标和时间表,”巴克说。
人工智能的速度和能力与硬件直接相关。在GPU 上投入的资金越多,就越多的人工智能公司可以训练更大的模型,从而产生更多的收入。
微软和谷歌将自己的未来押在人工智能上,并竞相开发更强大的大规模语言模型。微软严重依赖新的GPU 来为其GPT-4 后端提供动力,而谷歌则依靠其TPU 来运行其人工智能基础设施。
Blackwell供不应求
NVIDIA 目前正在生产Blackwell GPU,样品很快就会发布。但客户可以预计,将于今年年底发货的第一批GPU 将出现供不应求的情况。
“每一项新技术的转型都会带来……供需方面的挑战。我们在 Hopper 上就经历过这种情况,Blackwell 的产能提升也将面临类似的供需限制……今年年底到明年。”巴克说。
Buck 还表示,数据中心公司正在消除CPU 基础设施,为更多GPU 腾出空间。 Hopper GPU 可能会被保留,而基于旧Ampere 和Volta 架构的旧GPU 将被转售。
NVIDIA将保留多个级别的GPU,随着Blackwell的不断发展,Hopper将成为其主流AI GPU。 NVIDIA 进行了多项硬件和软件改进,以提高Hopper 的性能。
所有未来的云提供商都将提供Blackwell GPU 和服务器。
专家模型
Buck表示,GPT-4模型大约有1.8万亿个参数,并且参数数量还将继续增长,因为AI扩展尚未达到极限。
“人脑的大小大致相当于1000亿到150万亿个参数,具体取决于个体,取决于大脑中的神经元和连接。目前,人工智能的参数大小约为2万亿……我们还没有还没有做到这一点,”巴克说。
未来将会有一个拥有数万亿个参数的大型模型,在此基础上将构建更小、更专业的模型。参数数量越多对NVIDIA 来说越好,因为它有助于销售更多GPU。
NVIDIA正在调整其 GPU 架构,从原来的基础模型方法转向混合专家模型。专家混合涉及多个神经网络通过相互参考来验证答案。
Buck 说:“1.8 万亿参数的GPT 模型有16 个不同的神经网络,它们都试图在自己的层回答部分问题,然后它们进行协商、会面并决定正确的答案是什么。”
即将推出的GB200 NVL72 机架服务器配备72 个Blackwell GPU 和36 个Grace CPU,专为混合专家模型而设计。多个GPU 和CPU 互连以支持混合专家模型。
“这些人都可以互相交谈,而不会被I/O 阻塞。这种演变在模型架构中不断发生,”巴克说。
锁定客户的技巧
NVIDIA 首席执行官黄仁勋本月在HPE Discover 会议上发表了一些激烈的言论,敦促人们购买更多该公司的硬件和软件。
NVIDIA 和HPE 宣布推出一套新产品,其名称简单明了“HPE 的Nvidia AI 计算”。
“我们设计了小号、中号、大号和特大号,你可以选择,而且正如你所知,你买得越多,省得越多。”黄在Discover舞台上说道。
今年早些时候,黄仁勋还发表了另一个有争议的言论,他表示未来的程序员不需要学习如何编写代码,但在Nvidia GPU 上加载AI 模型将需要了解命令行和脚本来创建和运行AI 环境。
英伟达的专有言论和对人工智能市场的完全主导地位使其成为反垄断调查的目标。
Buck 在试图淡化对CUDA 的担忧时必须小心,他说“护城河是一个复杂的词”。
NVIDIA 的两位高管均表示,CUDA 是其GPU 的必备软件。为了最大限度地发挥GPU 的性能,需要CUDA。开源软件可以与Nvidia GPU 配合使用,但不提供CUDA 库和运行时的功能。
向后兼容性和连续性是NVIDIA独特的优势。 NVIDIA 对AI 模型和软件的支持可以延续到下一代GPU。但像英特尔Gaudi 这样的ASIC 却并非如此,它必须针对每个新型号进行重新调整。