芯片初创公司 Etched 推出 Sohu 芯片,AI 性能超英伟达 H100 的 20 倍

   日期:2024-06-30     来源:网络整理    作者:二手钢材网    浏览:106    评论:0    
核心提示:一、AI性能超过英伟达H100的20倍,是如何做到的?来“挖矿”的做法很快被抛弃,因为使用AISC比使用GPU来挖掘比特币更便宜。

6月27日,芯片初创公司一家日前宣布推出一款架构特定的ASIC芯片“搜狐”,声称其在AI大型语言模型(LLM)推理性能上击败了(纳斯达克股票代码:NVDA)最新的B200 GPU,AI性能达到H100的20倍。这也意味着搜狐芯片将大幅降低现有AI数据中心的采购和安装成本。

目前,该公司已与台积电4nm工艺开始直接合作生产搜狐芯片,并已从顶级供应商处获得充足的HBM和服务器供应,从而在第一年就迅速提升产能,一些早期客户已经向该公司预订了数千万美元的硬件。

1、20倍 H100的AI性能是如何实现的?

据该公司介绍,搜狐是全球首个基于架构的ASIC。

据该公司披露的数据,搭载八块搜狐芯片的服务器每秒可处理超过 50 万个 Llama 70B Token,是搭载八块 H100 GPU 加速卡的服务器的 20 倍,同样也是搭载八块 最新 B200 GPU 加速卡的服务器的 10 倍以上。

△ 基准测试在 Llama-3 70B 上进行,精度为 FP8:无稀疏性,8 倍模型并行性,2048 输入/128 输出长度。使用 -LLM 0.10.08(最新版本)计算,数字为估计值。

该公司表示,搜狐的GPU比最新一代B200 GPU的速度快一个数量级,而且价格更便宜,可以帮助客户打造GPU无法实现的产品。

不过需要强调的是,虽然搜狐的AI性能优于 GPU,但这是基于一个前提的,由于搜狐是专门针对大架构模型定制的,因此只支持大架构模型加速。

搜狐表示:“将该架构集成到我们的芯片中后,我们将无法运行大多数传统的AI模型,比如支持广告的DLRM、像2这样的蛋白质折叠模型、像2这样的旧图像模型,以及像CNN、RNN或LSTM这样的模型,但对于基于该架构的大型模型,搜狐将成为有史以来最快的AI芯片,没有任何芯片可以与之匹敌。”

1. 更高的计算利用率

由于搜狐只运行该类算法,因此可以去掉大部分控制流逻辑,留下更多的数学计算逻辑,使得搜狐的 FLOPS 利用率超过 90%(而使用 TRT-LLM 的 GPU 上的 FLOPS 利用率约为 30%)。

英伟达推出挖矿显卡_英伟达专业挖矿显卡_

虽然 H200 拥有 989 FP16/BF16 计算能力(不考虑稀疏性),这无疑非常强大,甚至比谷歌的新芯片还要好,但 已经发布的 B200 的计算能力只高出 25%(每芯片 1,250)。这是因为 GPU 的绝大部分区域都用于可编程性,因此专注于可编程性可以让芯片进行更多的计算。

例如,构建单个 FP16/BF16/FP8 乘加电路需要 10,000 个晶体管,这是所有矩阵数学的基石。 H100 SXM 有 528 个 Core,每个都有 4 × 8 × 16 FMA 电路。因此, H100 有 27 亿个专用于 Core 的晶体管。但 H100 有 800 亿个晶体管!这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法!

这是和其他灵活AI芯片经过深思熟虑的设计决策,如果要支持所有类型的模型(例如CNN,LSTM,SSM等),没有比这更好的设计了。

该公司的搜狐芯片仅支持运行该架构的大型 AI 模型,这使得它能够在芯片上容纳更多的 FLOPS,而不会降低精度或稀疏性。

2.提高内存带宽利用率

一般而言,AI推理受限于内存带宽,计算受限较少。但现实中,对于像Llama-3这样的现代模型,需要更高的计算能力来提高带宽利用率。

如果我们使用 和 AMD 的标准基准:2048 个输入标记和 128 个输出标记,那么大多数 AI 产品的完成时间都会比应有的时间长得多(即使是新的聊天应用程序在其系统提示中也有超过 1,000 个标记)。

在 GPU 和搜狐上,推理是分批运行的。所有模型权重每批加载一次,并重复用于批处理中的每个标记。通常,大型语言模型输入是计算密集型的,而输出是内存密集型的。当我们将输入和输出标记化与连续批处理相结合时,工作负载变得非常计算密集。

下面是大型语言模型的连续批处理示例。在这里,我们运行一个包含四个输入标记和四个输出标记的序列;每个颜色都是一个不同的序列。

我们可以扩展同样的技巧来运行具有 2048 个输入标记和 128 个输出标记的 Llama-3-70B。让每个批次包含一个序列的 2048 个输入标记和 127 个不同序列的 127 个输出标记。

如果我们这样做,每个批次将需要大约 (2048 + 127) × 70B × 2 字节/参数 = 304,而只需要加载 70B × 2 字节/参数 = 140 GB 的模型权重,以及大约 127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 缓存权重。这远远超过内存带宽。 H200 需要 6.8 计算才能最大化其内存带宽。这是在 100% 利用率的情况下 - 在 30% 利用率的情况下,它将需要 3 倍的计算量。

由于搜狐拥有强大的计算能力,而且利用率极高,因此它可以以巨大的吞吐量运行,而不会遇到内存带宽瓶颈。

3. 软件问题不再是噩梦

在 GPU 和 TPU 上,软件开发通常是一场噩梦。处理任意 CUDA 和代码需要极其复杂的编译器。第三方 AI 芯片(AMD、英特尔、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。

但由于该公司的搜狐仅在 上运行,因此开发人员只需为其编写软件即可!

大多数运行开源或内部模型的公司都使用特定的推理库,如 -LLM、vLLM 或 TGI。这些框架非常僵化 - 虽然您可以调整模型超参数,但实际上不支持更改底层模型代码。但这没关系,因为所有模型都非常相似(甚至文本/图像/视频模型),调整超参数就是您真正需要的。

虽然这为 95% 的 AI 公司提供了支持,但最大的 AI 实验室仍然采用定制方式。他们拥有工程师团队,手动调整 GPU 核心以挤出更多利用率,反向工程哪些寄存器对每个张量核心的延迟最低。

该公司表示:“有了搜狐,你再也不需要进行逆向工程了。因为我们的软件(从驱动程序到内核再到服务堆栈)都是开源的。如果你想实现自定义翻译层,你的内核向导可以自由地这样做。”

4.成本优势

对于目前AI市场运营者来说,的AI GPU是最昂贵的投资,其H100 80G版本售价高达3万美元,即便是更便宜的Intel Gaudi 3也要15650美元左右。

如今大型AI数据中心的建设已经达到数百亿美元,甚至有传言称微软和谷歌正计划推出一款名为“星际之门”的AI超级计算机,为公司提供更强大的计算支持。该项目总成本可能超过1150亿美元。显然, AI GPU将占到相当一部分成本。而这些高能耗的GPU还会带来巨大的能源供应费用(以目前的发展速度,很多地区的能源供应已经不足以支撑大型AI数据中心的建设)、互联费用和冷却费用。

英伟达推出挖矿显卡__英伟达专业挖矿显卡

如果一颗搜狐芯片能够替代20颗 H100芯片,这无疑将带来采购、建设和运营成本的大幅降低。

2.专用芯片取代GPU是不可避免的

在我看来,GPU性能虽然近几年有所提升,但其实并没有变得更好,因为这主要是通过更先进的制程工艺和更大的芯片面积来实现的。近四年来,GPU芯片单位面积计算能力几乎保持不变。例如的GB200、AMD的MI300、Intel的Gaudi 3以及亚马逊的几乎都是将两块芯片算成一张加速卡,实现“翻倍”性能。

面对越来越庞大的语言模型对AI算力需求的快速增长,在摩尔定律放缓、单位面积AI算力提升速度放缓的背景下,GPU芯片已经无法满足需求,因此提升性能的唯一途径就是使用专用芯片。

该公司指出,在架构模型占据主导地位之前,许多公司已经构建了灵活的AI芯片和GPU来处理数百种不同的算法模型。例如:的GPU,的TPU,亚马逊的TPU,AMD的MI系列加速器,英特尔的Gaudi加速器,英特尔的IPU,SN系列芯片,英特尔的CS系列晶圆级AI芯片,Groq的GPU,D-Core的DPU,寒武纪的思元等。

但几乎没有厂商专门针对架构算法制造专用的AI芯片(ASIC)。这是因为一个芯片项目至少要花费5000万到1亿美元,投入量产需要几年时间。如果真的针对某个特定算法模型推出专用的AI芯片,很可能在此期间,由于出现了新的、更好的算法架构,原来的专用AI芯片将不再有效,也就没有市场了。

但现在情况发生了变化。该架构的算法模型的市场规模正在快速增长。在推理出现之前,市场规模约为 5000 万美元,现在已经达到数十亿美元。所有大型科技公司都在使用该架构的模型,例如 、亚马逊、微软、meta 等。

此外,经过多年的发展,AI算法也开始呈现出架构趋同的趋势。过去,AI模型的发展速度非常快,每隔几个月就会有新的AI模型问世。但从GPT-2开始,最先进的模型架构几乎保持不变,无论是GPT系列、PaLM、LLaMa,甚至是Tesla FSD,都是基于该架构。

△ 从架构上看,这些模型惊人地相似。激活和 RoPE 编码等调整被广泛应用于 LLM、嵌入模型、图像修复和视频生成中。

△ 尽管 GPT-2 和 Llama-3 是相隔五年构建的最先进的(SoTA)模型,但它们的架构几乎相同,唯一的主要区别在于规模。

在此背景下,如果算法模型架构开始稳定,那么如果想进一步提升算力,专用 ASIC 芯片会是一个不错的选择。尤其当目前基于 GPU 的 AI 训练和推理基础设施成本超过 100 亿美元时,在如此高的成本压力下,专用 AISC 是必然的,因为 1% 的提升就足以覆盖专用 AISC 的成本。

事实上,在特定的算法模型上,ASIC 的速度可以比 GPU 快几个数量级。例如,当 2014 年比特币矿工的 AISC 芯片进入市场时,使用 GPU 进行“挖矿”的传统做法很快就被抛弃,因为使用 AISC 比使用 GPU 挖掘比特币更便宜。

显然,同样的事情也可能发生在人工智能领域,因为AI算法模型的基础设施开始稳定,GPU算力提升遭遇瓶颈,成本越来越高。这也是该公司押注推出基于专用架构的AISC芯片“搜狐”的原因。

3. 对未来的豪赌

与 等领先的人工智能公司一样,该公司预测,五年内,人工智能模型将在大多数标准化测试中变得比人类更聪明。

该公司进一步指出,用于训练 meta 的 Llama 400B(2024 SoTA,比大多数人类更聪明)的计算量是用于训练 GPT-2(2019 SoTA)的 50,000 倍。通过为人工智能模型提供更多计算和更好的数据,它们会变得更聪明。扩展将是未来几十年唯一能继续奏效的秘诀,每家大型人工智能公司(谷歌、微软、亚马逊等)都将在未来几年投资超过 1000 亿美元来保持扩展。我们正处于有史以来最大规模的基础设施建设之中。

首席执行官萨姆此前曾表示:“扩大规模确实是件好事。当我们在太阳周围建造戴森球时,我们可以讨论是否应该停止扩大规模,但我们不能在此之前停下来。”

首席执行官达里奥也表示:“我认为(我们)可以扩大到1000亿美元的规模,我们将在几年内实现这一目标。”

英伟达专业挖矿显卡_英伟达推出挖矿显卡_

但如果将目前的AI数据中心算力扩大1000倍,成本将非常高昂,下一代数据中心的造价将超过一个小国一年的GDP,按照目前的速度,现有的硬件、电网、资金投入都跟不上需求。

“我们并不担心数据枯竭,”该公司表示,“无论是通过合成数据、注释管道还是新的 AI 标记数据源,我们都认为数据问题实际上是推理计算问题。meta 首席执行官马克、首席执行官达里奥和首席执行官德米斯似乎都同意这一观点。”

基于这一趋势,该公司认为,未来获胜的大型模型将是那些能够在硬件上运行速度最快、成本最低的模型。它们功能强大、实用且利润丰厚,足以在替代方案出现之前主导每个主要的 AI 计算市场。

目前,GPU 为每一种大型 AI 产品提供支持:从代理到搜索再到聊天。许多 AI 实验室已投入数亿美元进行研发,以优化 GPU 以支持 GPU。当前和下一代最先进的大型模型也基于 GPU。

随着这些大型模型的规模在未来几年内从 10 亿美元增加到 100 亿美元,再到 1000 亿美元的硬件资源,测试新架构的风险将急剧上升。与其重新测试缩放规律和性能,不如花时间在上面构建功能,例如多标签预测。

如今,许多软件堆栈也针对进行了优化。每个流行的库(-LLM、vLLM、TGI 等)都有用于在 GPU 上运行架构模型的特殊内核。许多内置功能在替代方案中不易获得支持(例如推测解码、树搜索)。

因此未来的硬件堆栈会继续针对它进行优化,比如的GB200就专门支持()。

在该公司看来,建筑代表着未来。“如果我们是对的,那么 Soho 将改变世界。这就是我们押注的原因,”该公司在其网站上写道。

2022 年,搜狐已经开始押注,基于该架构开发芯片,当时该架构还未推出。图像和视频生成模型是 U-Nets,自动驾驶汽车由 CNN 驱动,但该架构并非无处不在。显然,这是一场豪赌。

虽然现在搜狐看上去可以支持所有架构的AI模型,比如谷歌的GPT、Sora、AI公司的3.0等,但是这些模型在两年前都没有出现过。如果架构的AI模型没有成为主流,无法支持CNN、RNN、LSTM等传统模型,以及SSM、RWKV等新架构的AI模型,那搜狐就没用了。

幸运的是,现在的情况对公司有利。从语言到视觉,每个领域的顶级模型现在都基于该架构。这种融合不仅验证了公司做出了正确的选择,也有望使搜狐成为十年来最重要的硬件项目。

“像搜狐这样的ASIC芯片进入市场,已经是没有回头路了,其他‘杀手’要想成功,就需要在GPU上运行的速度比搜狐芯片快,如果这样,我们也会为它打造ASIC!”该公司非常坚定地表示。

最后,该公司的观点和新智讯在多年前撰写的《的AI危机!》中表达的核心观点类似,即GPU不是为了处理特定的AI算法而设计的,它的优势在于比其他AI芯片更通用,可以适配各种AI算法。但当未来AI算法的演进开始趋于稳定时,那么针对特定算法的专用、更高效的ASIC芯片无疑会更具优势。现在越来越多的云服务商推出自研的云端AI芯片,正符合这一趋势。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2