快20倍 还便宜!NVIDIA GPU的“掘墓人”出现了?

时间:2024-06-27 13:00:36分类:显卡浏览:5

芯片初创公司Etched近日宣布推出了一款针对 Transformer架构专用的AISC芯片 “Sohu”,并声称其在AI大语言模型(LLM)推理性能方面击败了NVIDIA最新的B200 GPU,AI性能达到了H100的20倍。

这也意味着搜狐芯片将大幅降低现有AI数据中心的采购和安装成本。

目前,Etched已直接与台积电4nm工艺合作生产其搜狐芯片,并从顶级供应商处获得了充足的HBM和服务器供货,以在第一年快速提高产能。

一些早期客户已经从Etched 订购了价值数千万美元的硬件。

快20倍 还便宜!NVIDIA  GPU的“掘墓人”出现了?

一、AI性能超过NVIDIA H100的20倍,是如何做到的?

据Etched介绍,搜狐是全球首款基于Transformer架构的ASIC。

根据Etched 披露的数据,配备8 个搜狐芯片的服务器每秒可处理超过50 万个Llama 70B Token,是同时配备8 个NVIDIA H100 GPU 加速卡的服务器的20 倍。

同样,它比配备八个NVIDIA 最新B200 GPU 加速卡的服务器高出约10 倍。

快20倍 还便宜!NVIDIA  GPU的“掘墓人”出现了?

Benchmark 是针对Llama-3 70B 的FP8 精度:无稀疏性、8 倍模型并行度、2048 个输入/128 个输出长度。使用TensorRT-LLM 0.10.08(最新版本)计算的8xH100、8xGB200 的数字是估计值。

Etched 表示,搜狐比NVIDIA 最新一代Blackwell 架构B200 GPU 快一个数量级,而且价格更便宜。可以帮助客户构建GPU 无法实现的产品。

不过这里需要强调的是,虽然搜狐的AI性能优于NVIDIA GPU,但是有一个前提,因为搜狐是专门为基于Transformer架构的大型模型定制的,所以只支持基于Transformer架构的模型。大模型加速。

“通过将Transformer 架构集成到我们的芯片中,就不可能运行大多数传统的AI 模型,例如为Instagram 广告提供支持的DLRM、AlphaFold 2 等蛋白质折叠模型、Stable Diffusion 2 等较旧的图像模型以及CNN 等模型、RNN或LSTM,但对于基于Transformer架构的大型模型,搜狐将是史上最快的AI芯片,没有任何芯片可以与之匹敌。”Etched表示。

1、更高的计算利用率

由于搜狐只运行Transformer一类算法,因此可以去掉大部分控制流逻辑,拥有更多的数学计算逻辑。结果,搜狐的FLOPS 利用率超过90%(相比之下,使用TRT-LLM 的GPU 上的FLOPS 利用率约为30%)。

虽然NVIDIA H200拥有989 TFLOPS的FP16/BF16计算能力(没有稀疏性),但这无疑是非常强大的,甚至比谷歌新推出的Trillium芯片还要好。

但NVIDIA 发布的B200 的计算能力仅提高了25%(每芯片1,250 TFLOPS)。这是因为GPU 的绝大多数区域专用于可编程性,因此专注于Transformer 可以让芯片执行更多计算。

例如,需要10,000 个晶体管来构建单个FP16/BF16/FP8 乘法累加电路,这是所有矩阵数学的基石。 NVIDIA H100 SXM 有528 个张量核心,每个核心有4 x 8 x 16FMA 电路。

因此,NVIDIA H100拥有27亿个专用于张量核心的晶体管。但H100有800亿个晶体管!这意味着H100 GPU上只有3.3%的晶体管用于矩阵乘法!

这是NVIDIA 和其他灵活的AI 芯片经过深思熟虑的设计决定。如果你想支持所有类型的模型(例如CNN、LSTM、SSM 等),那么没有比这更好的设计了。

Etched 的搜狐芯片仅支持运行Transformer 架构的大型AI 模型,这使得它可以在芯片上安装更多的FLOPS,而不会降低准确性或稀疏性。

2、提升内存带宽利用率

一般来说,AI推理受到内存带宽的限制,计算限制相对较小。但事实上,对于像Llama-3 这样的现代模型,需要更高的计算能力来提高带宽利用率。

如果使用NVIDIA 和AMD 的标准基准:2048 个输入标记和128 个输出标记。大多数人工智能产品的提示时间都比完成时间长得多(即使是新的克劳德聊天应用程序,系统提示中也有超过1,000 分)。

在GPU和搜狐上,推理是批量运行的。每批次加载一次所有模型权重,并为批次中的每个标记重复使用它们。

通常,大型语言模型的输入是计算密集型的,而输出是内存密集型的。当我们将输入和输出标记与连续批处理结合起来时,工作量变得非常计算密集。

下面是一个大型语言模型的连续批处理的例子。在这里,我们运行一个具有四个输入标记和四个输出标记的序列;每种颜色都有不同的顺序。

快20倍 还便宜!NVIDIA  GPU的“掘墓人”出现了?

我们可以扩展相同的技巧来运行具有2048 个输入标记和128 个输出标记的Llama-3-70B。让每个批次包含一个序列的2048 个输入标记和127 个不同序列的127 个输出标记。

如果我们这样做,每个批次将需要大约(2048 + 127) 70B 参数 每个参数2 字节=304 TFLOP,而只需要加载70B 参数 每个参数2 字节=140 GB 模型权重和大约127 64 8128(2048+127)22=72GBKV缓存权重。这远远超出了内存带宽。

NVIDIA H200 需要6.8 PFLOPS 的计算才能最大化其内存带宽。这是100% 利用率时的情况。 —— 如果利用率为30%,则需要3倍的计算量。

由于搜狐拥有如此强大的计算能力并且利用率很高,因此它可以运行巨大的吞吐量而不会出现内存带宽瓶颈。

3、软件问题不再是一场噩梦

一般来说,软件开发对于GPU 和TPU 来说是一场噩梦。处理任意CUDA 和PyTorch 代码需要极其复杂的编译器。第三方人工智能芯片(AMD、英特尔、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。

但由于Etched的搜狐只运行Transformers,开发者只需为Transformers编写软件即可!

大多数运行开源或内部模型的公司都使用Transformer 特定的推理库,例如TensorRT-LLM、vLLM 或HuggingFace 的TGI。

这些框架非常僵化,—— 虽然您可以调整模型超参数,但没有真正支持更改底层模型代码。但这并不重要,因为所有Transformer 模型都非常相似(甚至是文本/图像/视频模型),调整超参数就是您真正需要的。

虽然这支持95% 的人工智能公司,但最大的人工智能实验室使用定制。他们有工程师团队手动调整GPU 核心以挤出更多利用率,逆向工程哪些寄存器对于每个张量核心具有最低的延迟。

Etched 表示:“有了搜狐,你不再需要进行逆向工程。因为我们的软件,从驱动程序到内核再到服务堆栈,都将是开源的。如果您想实现自定义转换器层,您的内核向导可以自由地这样做。”

4、成本优势

对于目前的AI基础市场运营商来说,NVIDIA的AI GPU是最昂贵的投资。其H100 80G版本售价高达30,000美元,即使是便宜的Intel Gaudi 3也要15,650美元左右。

大规模AI数据中心建设目前已达数百亿美元。甚至有传言称,微软和OpenAI正计划推出一款名为“Stargate”的AI超级计算机,为OpenAI提供更强的算力。在强有力的支持下,该项目总造价可能超过1150亿美元。显然,NVIDIA AI GPU将占据相当一部分成本。

而这些高耗能的GPU也会带来巨大的能源供应支出(按照目前的发展速度,很多地区的能源供应已经不足以支撑大规模AI数据中心的建设)互联支出和散热支出。

如果一颗Etched搜狐芯片可以替代20颗NVIDIA H100芯片,那么这无疑将带来采购建设成本和运营成本的巨大降低。

二、专用芯片替代GPU已不可避免

在Etched看来,虽然近年来GPU性能有所提升,但实际上并没有变得更好,因为主要是通过更先进的工艺技术和更大的芯片面积来实现的。

过去四年来,GPU芯片的单位面积计算能力(TFLOPS)几乎保持不变。例如,NVIDIA的GB200、AMD的MI300、Intel的Gaudi 3和亚马逊的Trainium2几乎都将两块芯片算作一张加速卡,以实现“双倍”性能。

快20倍 还便宜!NVIDIA  GPU的“掘墓人”出现了?

面对日益庞大的大型语言模型对AI算力需求的快速增长,在摩尔定律放缓、单位面积AI算力提升放缓的情况下,GPU芯片已经无法满足需求。因此,提高性能的唯一方法就是使用专用芯片。

Etched 指出,在Transformer 架构模型统治世界之前,许多公司都构建了灵活的AI 芯片和GPU 来处理数百种不同的算法模型。

例如:NVIDIA的GPU、Google的TPU、亚马逊的Trainium、AMD的MI系列加速器、Intel的Gaudi加速器、Graphcore的IPU、SambaNova SN系列芯片、Cerebras的CS系列晶圆级AI芯片、Groq的GroqNode、Tenstorrent的Grayskull、D-Matrix的Corsair 、寒武纪思源等

然而,很少有制造商专门针对Transformer 架构算法制造专用AI 芯片(ASIC)。因为一个芯片项目至少要耗资5000万到1亿美元,并且需要几年时间才能投入生产。

如果针对特定算法模型推出专用AI芯片,很可能由于这段时间出现了新的、更好的算法架构,原来的专用AI芯片将不再有效,也就没有市场了。

但现在情况发生了变化,基于Transformer架构的算法模型的市场规模正在快速增长。在ChatGPT 出现之前,Transformer 推理的市场约为5000 万美元,现在已达到数十亿美元。

各大科技公司均采用Transformer架构模型,如OpenAI、Google、Amazon、Microsoft、meta等。

另外,经过多年的发展,AI算法已经开始看到架构融合的趋势。过去人工智能模型发展迅速,因此每隔几个月可能就会有新的人工智能模型问世。

然而,自GPT-2 以来,最先进的模型架构几乎保持不变。无论是OpenAI的GPT系列、谷歌的PaLM、Facebook的LLaMa,甚至特斯拉的FSD,它们都是基于Transformer架构的。

快20倍 还便宜!NVIDIA  GPU的“掘墓人”出现了?

基于Transformer架构的模型惊人的相似。 SwiGLU 激活和RoPE 编码等调整广泛应用于LLM、嵌入模型、图像修复和视频生成。

快20倍 还便宜!NVIDIA  GPU的“掘墓人”出现了?

虽然GPT-2和Llama-3是相差五年的最先进(SoTA)模型,但它们的架构几乎相同,唯一的主要区别是规模。

在此背景下,如果算法模型架构开始稳定,那么如果想要进一步提升算力,专用ASIC芯片将是一个不错的选择。

特别是在目前基于GPU的AI训练和推理基础设施成本超过100亿美元时,这样高昂的成本的压力之下,专用的AISC是不可避免的,因为1%的改进就足以覆盖专用AISC的成本。

事实上,在某些算法模型上,ASIC 的速度可能比GPU 快几个数量级。例如,当2014年用于比特币矿机的AISC芯片进入市场时,使用GPU来“挖矿”的传统做法很快就被放弃了,因为使用AISC比使用GPU来挖掘比特币更便宜。

显然,同样的事情也可能发生在人工智能领域,随着AI算法模型基础设施开始稳定,GPU算力提升遇到瓶颈,成本越来越高。这也是Etched重金推出基于Transformer架构的专用AISC芯片“搜狐”的原因。

三、对于未来的一场豪赌

与NVIDIA 等领先的人工智能公司一样,Etched 预测,五年内,人工智能模型在大多数标准化测试中将变得比人类更聪明。

Etched 进一步指出,meta-trained Llama 400B(2024 SoTA,比大多数人类聪明)使用的计算量比OpenAI 在GPT-2(2019 SoTA)上使用的计算量高出50,000 倍。通过为人工智能模型提供更多的计算能力和更好的数据,它们会变得更加聪明。

规模将是未来几十年继续发挥作用的唯一秘诀,每家大型人工智能公司(Google、OpenAI/微软、Anthropic/亚马逊等)都将在未来几年投资超过1000 亿美元来维持规模。我们正处于有史以来最大规模的基础设施建设之中。

快20倍 还便宜!NVIDIA  GPU的“掘墓人”出现了?

OpenAI首席执行官Sam Altman此前曾表示:“规模化确实是一件好事。当我们围绕太阳建造一个戴森球时,我们可以讨论是否应该停止规模化,但在此之前不行。”

Anthropic首席执行官Dario Amodei也表示:“我认为(我们)可以规模扩大到1000亿美元,我们将在几年内实现这一目标。”

然而,如果按照现在的AI数据中心算力,再扩大 1,000 倍,将会面临非常昂贵的成本。下一代数据中心的成本将超过一个小国一年的GDP。按照目前的速度,现有的硬件、电网和资金投入都跟不上需求。

Etched 表示:“我们并不担心数据耗尽。无论是通过合成数据、注释管道还是新的AI 标记数据源,我们都认为数据问题实际上是推理计算问题。meta 首席执行官马克扎克伯格(Mark Zuckerberg)、Anthropic 首席执行官达里奥阿莫迪(Dario Amodei) 和谷歌DeepMind 首席执行官Demis Hassabis 似乎也同意这一点。”

基于这样的发展趋势,Etched认为,未来获胜的大机型一定会是硬件上运行速度最快、成本最低的机型。

Transformer 功能强大、实用且有利可图,足以主导每个主要的人工智能计算市场,直到替代品出现。

Transformer 目前正在为各种大型人工智能产品提供支持:从代理到搜索再到聊天。许多人工智能实验室已投入数亿美元进行研发,以优化GPU 以支持Transformer。

而当前和下一代最先进的大型模型也是基于Transformer架构的。

随着未来几年这些大型模型所需硬件资源的规模从10 亿美元扩大到100 亿美元到1000 亿美元,测试新架构的风险就会飙升。

我们可以花时间在Transformer 之上构建功能,例如多标记预测等,而不是重新测试缩放法则和性能。

如今许多软件堆栈也针对Transformer 进行了优化。每个流行的库(TensorRT-LLM、vLLM、Huggingface TGI 等)都有用于在GPU 上运行Transformer 架构模型的特殊内核。

许多基于Transformer 构建的功能在替代方案中不容易得到支持(例如推测解码、树搜索)。

所以,未来的硬件堆栈也将持续针对 Transformer 进行优化。例如NVIDIA的GB200专门支持Transformer(TransformerEngine)。

在Etched 看来,Transformer 架构就是未来。 “如果我们猜对了,Soho 将改变世界。这就是我们下注的原因。” Etched 在其网站上写道。

在2022年的时候,Etched公司就已经开始下注,开始研发基于Transformer架构的Sohu芯片,当时ChatGPT还没有推出,图像和视频生成模型是 U-Nets,自动驾驶汽车由 CNN 驱动,而 Transformer 架构并未无处不在。显然这是一场豪赌。

虽然现在看来搜狐可以支持所有大型Transformer架构的AI模型,比如OpenAI的GPT、Sora、Google的Gemini、Stability AI的Stable Diffusion 3等,但在两年前,这些模型还没有出现。

如果Transformer架构的AI大模型没有成为主流,不能支持CNN、RNN、LSTM等传统模型,以及SSM、RWKV或者其他新架构的AI大模型,那么搜狐就没用了。

幸运的是,到目前为止,形势对Etched 有利。从语言到视觉,现在各个领域的顶级模型都基于Transformer 架构。

这种融合不仅验证了Etched 的赌注,而且有望使搜狐成为十年来最重要的硬件项目。

“像搜狐这样的ASIC 芯片进入市场标志着一个不归路。其他Transformer ‘杀手’要想取得成功,它们在GPU 上的运行速度需要比Transformer 在搜狐芯片上运行的速度更快。”

如果发生这种情况,我们也会为此构建构建一个新的ASIC! ”蚀刻公司非常坚定地说道。

最后,Etched 的观点与新智讯多年前写的《NVIDIA 的AI 危机! 》表达的核心点是类似的,那就是GPU并不是为了处理特定的AI算法而设计的。它的优点是比其他AI芯片更加通用,可以适应各种AI算法。然而,当未来AI算法的演进开始趋于稳定时,那么针对特定算法专用更高效的ASIC芯片无疑将拥有更多优势。

现在越来越多的云服务厂商推出自研的云端AI芯片,也顺应了这一趋势。