推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

芯片初创公司 Etched 推出 Sohu 芯片，AI 性能超英伟达 H100 的 20 倍

日期：2024-06-30 来源：网络整理作者：二手钢材网浏览：106 评论：0

核心提示：一、AI性能超过英伟达H100的20倍，是如何做到的？来“挖矿”的做法很快被抛弃，因为使用AISC比使用GPU来挖掘比特币更便宜。

6月27日，芯片初创公司一家日前宣布推出一款架构特定的ASIC芯片“搜狐”，声称其在AI大型语言模型（LLM）推理性能上击败了（纳斯达克股票代码：NVDA）最新的B200 GPU，AI性能达到H100的20倍。这也意味着搜狐芯片将大幅降低现有AI数据中心的采购和安装成本。

目前，该公司已与台积电4nm工艺开始直接合作生产搜狐芯片，并已从顶级供应商处获得充足的HBM和服务器供应，从而在第一年就迅速提升产能，一些早期客户已经向该公司预订了数千万美元的硬件。

1、20倍 H100的AI性能是如何实现的？

据该公司介绍，搜狐是全球首个基于架构的ASIC。

据该公司披露的数据，搭载八块搜狐芯片的服务器每秒可处理超过 50 万个 Llama 70B Token，是搭载八块 H100 GPU 加速卡的服务器的 20 倍，同样也是搭载八块最新 B200 GPU 加速卡的服务器的 10 倍以上。

△ 基准测试在 Llama-3 70B 上进行，精度为 FP8：无稀疏性，8 倍模型并行性，2048 输入/128 输出长度。使用 -LLM 0.10.08（最新版本）计算，数字为估计值。

该公司表示，搜狐的GPU比最新一代B200 GPU的速度快一个数量级，而且价格更便宜，可以帮助客户打造GPU无法实现的产品。

不过需要强调的是，虽然搜狐的AI性能优于 GPU，但这是基于一个前提的，由于搜狐是专门针对大架构模型定制的，因此只支持大架构模型加速。

搜狐表示：“将该架构集成到我们的芯片中后，我们将无法运行大多数传统的AI模型，比如支持广告的DLRM、像2这样的蛋白质折叠模型、像2这样的旧图像模型，以及像CNN、RNN或LSTM这样的模型，但对于基于该架构的大型模型，搜狐将成为有史以来最快的AI芯片，没有任何芯片可以与之匹敌。”

1. 更高的计算利用率

由于搜狐只运行该类算法，因此可以去掉大部分控制流逻辑，留下更多的数学计算逻辑，使得搜狐的 FLOPS 利用率超过 90%（而使用 TRT-LLM 的 GPU 上的 FLOPS 利用率约为 30%）。

英伟达推出挖矿显卡_英伟达专业挖矿显卡_

虽然 H200 拥有 989 FP16/BF16 计算能力（不考虑稀疏性），这无疑非常强大，甚至比谷歌的新芯片还要好，但已经发布的 B200 的计算能力只高出 25%（每芯片 1,250）。这是因为 GPU 的绝大部分区域都用于可编程性，因此专注于可编程性可以让芯片进行更多的计算。

例如，构建单个 FP16/BF16/FP8 乘加电路需要 10,000 个晶体管，这是所有矩阵数学的基石。 H100 SXM 有 528 个 Core，每个都有 4 × 8 × 16 FMA 电路。因此， H100 有 27 亿个专用于 Core 的晶体管。但 H100 有 800 亿个晶体管！这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法！

这是和其他灵活AI芯片经过深思熟虑的设计决策，如果要支持所有类型的模型（例如CNN，LSTM，SSM等），没有比这更好的设计了。

该公司的搜狐芯片仅支持运行该架构的大型 AI 模型，这使得它能够在芯片上容纳更多的 FLOPS，而不会降低精度或稀疏性。

2.提高内存带宽利用率

一般而言，AI推理受限于内存带宽，计算受限较少。但现实中，对于像Llama-3这样的现代模型，需要更高的计算能力来提高带宽利用率。

如果我们使用和 AMD 的标准基准：2048 个输入标记和 128 个输出标记，那么大多数 AI 产品的完成时间都会比应有的时间长得多（即使是新的聊天应用程序在其系统提示中也有超过 1,000 个标记）。

在 GPU 和搜狐上，推理是分批运行的。所有模型权重每批加载一次，并重复用于批处理中的每个标记。通常，大型语言模型输入是计算密集型的，而输出是内存密集型的。当我们将输入和输出标记化与连续批处理相结合时，工作负载变得非常计算密集。

下面是大型语言模型的连续批处理示例。在这里，我们运行一个包含四个输入标记和四个输出标记的序列；每个颜色都是一个不同的序列。

我们可以扩展同样的技巧来运行具有 2048 个输入标记和 128 个输出标记的 Llama-3-70B。让每个批次包含一个序列的 2048 个输入标记和 127 个不同序列的 127 个输出标记。

如果我们这样做，每个批次将需要大约 (2048 + 127) × 70B × 2 字节/参数 = 304，而只需要加载 70B × 2 字节/参数 = 140 GB 的模型权重，以及大约 127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 缓存权重。这远远超过内存带宽。 H200 需要 6.8 计算才能最大化其内存带宽。这是在 100% 利用率的情况下 - 在 30% 利用率的情况下，它将需要 3 倍的计算量。

由于搜狐拥有强大的计算能力，而且利用率极高，因此它可以以巨大的吞吐量运行，而不会遇到内存带宽瓶颈。

3. 软件问题不再是噩梦

在 GPU 和 TPU 上，软件开发通常是一场噩梦。处理任意 CUDA 和代码需要极其复杂的编译器。第三方 AI 芯片（AMD、英特尔、AWS 等）在软件上总共花费了数十亿美元，但收效甚微。

但由于该公司的搜狐仅在上运行，因此开发人员只需为其编写软件即可！

大多数运行开源或内部模型的公司都使用特定的推理库，如 -LLM、vLLM 或 TGI。这些框架非常僵化 - 虽然您可以调整模型超参数，但实际上不支持更改底层模型代码。但这没关系，因为所有模型都非常相似（甚至文本/图像/视频模型），调整超参数就是您真正需要的。

虽然这为 95% 的 AI 公司提供了支持，但最大的 AI 实验室仍然采用定制方式。他们拥有工程师团队，手动调整 GPU 核心以挤出更多利用率，反向工程哪些寄存器对每个张量核心的延迟最低。

该公司表示：“有了搜狐，你再也不需要进行逆向工程了。因为我们的软件（从驱动程序到内核再到服务堆栈）都是开源的。如果你想实现自定义翻译层，你的内核向导可以自由地这样做。”

4.成本优势

对于目前AI市场运营者来说，的AI GPU是最昂贵的投资，其H100 80G版本售价高达3万美元，即便是更便宜的Intel Gaudi 3也要15650美元左右。

如今大型AI数据中心的建设已经达到数百亿美元，甚至有传言称微软和谷歌正计划推出一款名为“星际之门”的AI超级计算机，为公司提供更强大的计算支持。该项目总成本可能超过1150亿美元。显然， AI GPU将占到相当一部分成本。而这些高能耗的GPU还会带来巨大的能源供应费用（以目前的发展速度，很多地区的能源供应已经不足以支撑大型AI数据中心的建设）、互联费用和冷却费用。

英伟达推出挖矿显卡__英伟达专业挖矿显卡

如果一颗搜狐芯片能够替代20颗 H100芯片，这无疑将带来采购、建设和运营成本的大幅降低。

2.专用芯片取代GPU是不可避免的

在我看来，GPU性能虽然近几年有所提升，但其实并没有变得更好，因为这主要是通过更先进的制程工艺和更大的芯片面积来实现的。近四年来，GPU芯片单位面积计算能力几乎保持不变。例如的GB200、AMD的MI300、Intel的Gaudi 3以及亚马逊的几乎都是将两块芯片算成一张加速卡，实现“翻倍”性能。

面对越来越庞大的语言模型对AI算力需求的快速增长，在摩尔定律放缓、单位面积AI算力提升速度放缓的背景下，GPU芯片已经无法满足需求，因此提升性能的唯一途径就是使用专用芯片。

该公司指出，在架构模型占据主导地位之前，许多公司已经构建了灵活的AI芯片和GPU来处理数百种不同的算法模型。例如：的GPU，的TPU，亚马逊的TPU，AMD的MI系列加速器，英特尔的Gaudi加速器，英特尔的IPU，SN系列芯片，英特尔的CS系列晶圆级AI芯片，Groq的GPU，D-Core的DPU，寒武纪的思元等。

但几乎没有厂商专门针对架构算法制造专用的AI芯片（ASIC）。这是因为一个芯片项目至少要花费5000万到1亿美元，投入量产需要几年时间。如果真的针对某个特定算法模型推出专用的AI芯片，很可能在此期间，由于出现了新的、更好的算法架构，原来的专用AI芯片将不再有效，也就没有市场了。

但现在情况发生了变化。该架构的算法模型的市场规模正在快速增长。在推理出现之前，市场规模约为 5000 万美元，现在已经达到数十亿美元。所有大型科技公司都在使用该架构的模型，例如、亚马逊、微软、meta 等。

此外，经过多年的发展，AI算法也开始呈现出架构趋同的趋势。过去，AI模型的发展速度非常快，每隔几个月就会有新的AI模型问世。但从GPT-2开始，最先进的模型架构几乎保持不变，无论是GPT系列、PaLM、LLaMa，甚至是Tesla FSD，都是基于该架构。

△ 从架构上看，这些模型惊人地相似。激活和 RoPE 编码等调整被广泛应用于 LLM、嵌入模型、图像修复和视频生成中。

△ 尽管 GPT-2 和 Llama-3 是相隔五年构建的最先进的（SoTA）模型，但它们的架构几乎相同，唯一的主要区别在于规模。

在此背景下，如果算法模型架构开始稳定，那么如果想进一步提升算力，专用 ASIC 芯片会是一个不错的选择。尤其当目前基于 GPU 的 AI 训练和推理基础设施成本超过 100 亿美元时，在如此高的成本压力下，专用 AISC 是必然的，因为 1% 的提升就足以覆盖专用 AISC 的成本。

事实上，在特定的算法模型上，ASIC 的速度可以比 GPU 快几个数量级。例如，当 2014 年比特币矿工的 AISC 芯片进入市场时，使用 GPU 进行“挖矿”的传统做法很快就被抛弃，因为使用 AISC 比使用 GPU 挖掘比特币更便宜。

显然，同样的事情也可能发生在人工智能领域，因为AI算法模型的基础设施开始稳定，GPU算力提升遭遇瓶颈，成本越来越高。这也是该公司押注推出基于专用架构的AISC芯片“搜狐”的原因。

3. 对未来的豪赌

与等领先的人工智能公司一样，该公司预测，五年内，人工智能模型将在大多数标准化测试中变得比人类更聪明。

该公司进一步指出，用于训练 meta 的 Llama 400B（2024 SoTA，比大多数人类更聪明）的计算量是用于训练 GPT-2（2019 SoTA）的 50,000 倍。通过为人工智能模型提供更多计算和更好的数据，它们会变得更聪明。扩展将是未来几十年唯一能继续奏效的秘诀，每家大型人工智能公司（谷歌、微软、亚马逊等）都将在未来几年投资超过 1000 亿美元来保持扩展。我们正处于有史以来最大规模的基础设施建设之中。

首席执行官萨姆此前曾表示：“扩大规模确实是件好事。当我们在太阳周围建造戴森球时，我们可以讨论是否应该停止扩大规模，但我们不能在此之前停下来。”

首席执行官达里奥也表示：“我认为（我们）可以扩大到1000亿美元的规模，我们将在几年内实现这一目标。”

英伟达专业挖矿显卡_英伟达推出挖矿显卡_

但如果将目前的AI数据中心算力扩大1000倍，成本将非常高昂，下一代数据中心的造价将超过一个小国一年的GDP，按照目前的速度，现有的硬件、电网、资金投入都跟不上需求。

“我们并不担心数据枯竭，”该公司表示，“无论是通过合成数据、注释管道还是新的 AI 标记数据源，我们都认为数据问题实际上是推理计算问题。meta 首席执行官马克、首席执行官达里奥和首席执行官德米斯似乎都同意这一观点。”

基于这一趋势，该公司认为，未来获胜的大型模型将是那些能够在硬件上运行速度最快、成本最低的模型。它们功能强大、实用且利润丰厚，足以在替代方案出现之前主导每个主要的 AI 计算市场。

目前，GPU 为每一种大型 AI 产品提供支持：从代理到搜索再到聊天。许多 AI 实验室已投入数亿美元进行研发，以优化 GPU 以支持 GPU。当前和下一代最先进的大型模型也基于 GPU。

随着这些大型模型的规模在未来几年内从 10 亿美元增加到 100 亿美元，再到 1000 亿美元的硬件资源，测试新架构的风险将急剧上升。与其重新测试缩放规律和性能，不如花时间在上面构建功能，例如多标签预测。

如今，许多软件堆栈也针对进行了优化。每个流行的库（-LLM、vLLM、TGI 等）都有用于在 GPU 上运行架构模型的特殊内核。许多内置功能在替代方案中不易获得支持（例如推测解码、树搜索）。

因此未来的硬件堆栈会继续针对它进行优化，比如的GB200就专门支持()。

在该公司看来，建筑代表着未来。“如果我们是对的，那么 Soho 将改变世界。这就是我们押注的原因，”该公司在其网站上写道。

2022 年，搜狐已经开始押注，基于该架构开发芯片，当时该架构还未推出。图像和视频生成模型是 U-Nets，自动驾驶汽车由 CNN 驱动，但该架构并非无处不在。显然，这是一场豪赌。

虽然现在搜狐看上去可以支持所有架构的AI模型，比如谷歌的GPT、Sora、AI公司的3.0等，但是这些模型在两年前都没有出现过。如果架构的AI模型没有成为主流，无法支持CNN、RNN、LSTM等传统模型，以及SSM、RWKV等新架构的AI模型，那搜狐就没用了。

幸运的是，现在的情况对公司有利。从语言到视觉，每个领域的顶级模型现在都基于该架构。这种融合不仅验证了公司做出了正确的选择，也有望使搜狐成为十年来最重要的硬件项目。

“像搜狐这样的ASIC芯片进入市场，已经是没有回头路了，其他‘杀手’要想成功，就需要在GPU上运行的速度比搜狐芯片快，如果这样，我们也会为它打造ASIC！”该公司非常坚定地表示。

最后，该公司的观点和新智讯在多年前撰写的《的AI危机！》中表达的核心观点类似，即GPU不是为了处理特定的AI算法而设计的，它的优势在于比其他AI芯片更通用，可以适配各种AI算法。但当未来AI算法的演进开始趋于稳定时，那么针对特定算法的专用、更高效的ASIC芯片无疑会更具优势。现在越来越多的云服务商推出自研的云端AI芯片，正符合这一趋势。

标签： Sohu AI Transformer 内存带宽

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

芯片初创公司 Etched 推出 Sohu 芯片，AI 性能超英伟达 H100 的 20 倍

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司