OpenAI 硬件设施负责人在 Hot Chips 2024 上的演讲:构建可扩展的 AI 基础设施

   日期:2024-08-27     来源:网络整理    作者:二手钢材网    浏览:277    评论:0    
核心提示:Cai的演讲着眼于解决能源和算力之间的问题,英特尔、IBM和英伟达等则是提出了更节能的技术方案。算力狂飙电力承压,科技巨头如何应对能源挑战?科技巨头们着眼“更节能的”技术方案的根本原因在于,当前人工智能热潮正在增加更强大的处理器以及保持数据中心冷却所需的能源需求。

作为全球芯片行业最具影响力的会议,Hot Chips每年8月在斯坦福大学举行。与其他以学术研究为主的行业会议不同,Hot Chips是各大处理器公司展示最新产品和在研产品的行业盛会。

《每日经济新闻》记者注意到,AI浪潮推动数据中心激增,与此同时,也伴随着能源需求的激增。在此背景下,今年Hot Chips大会上人工智能话题比以往任何一次会议都更为活跃。蔡英文的演讲重点是解决能源与算力之间的问题,而英特尔、IBM、等则提出了更节能的技术方案。

摩根士丹利8月发布的研究预测,未来几年生成式AI的电力需求将每年飙升75%,到2026年预计将消耗相当于西班牙2022年的能源消耗量。科技巨头该如何应对能源挑战?

发布更多细节,而英特尔则专注于“节能解决方案”

当地时间8月26日,一年一度的半导体公司盛会Hot Chips 2024在斯坦福大学纪念礼堂举行,今年是第36届。

从大会第一天的情况来看,大部分议题集中在更节能、更安全、更可扩展的大规模AI服务器部署方案上。

硬件负责人蔡志强发表了《可预测扩展和基础设施》的主题演讲,谈到了计算能力提升带来的可预测扩展效益,这是自成立以来一直关注的重点。一个重要的观察是,扩展可以产生更好、更有用的人工智能。“每次计算量翻倍,都会得到更好的结果。模型的计算能力和计算资源的消耗是成倍增加的。自2018年以来,业界前沿模型的计算能力每年增长约4倍。”他说。

行业计算趋势图片来源:Hot Chips演示文稿PDF

最初,GPT-1 仅需几周时间即可完成训练。如今,它已扩展至需要大型 GPU 集群。因此,人们认为 AI 的基础设施需要大量投资,因为计算能力的提升已产生超过 8 个数量级的效益。

仿佛是为了回应该演讲,各大公司在今天的各自演讲中均提到了大规模部署AI服务器的计划。

IBM 在会上披露了即将推出的 IBM Telum II 处理器和 IBM Spyre 加速器的架构细节。新技术旨在大幅扩展下一代 IBM Z 大型机系统的处理能力,通过全新的 AI 集成方式帮助加速传统 AI 模型与大型语言 AI ​​模型的协同使用。IBM 特别强调,此次更新的先进 I/O 技术旨在降低能耗和数据中心空间。

也在会上发布了最新 AI 集群架构的消息。 称其拥有 6 项革命性技术,可支持高达 10 万亿参数的模型进行 AI 训练和实时大型语言模型 (LLM) 推理。值得注意的是, 的量化系统用于确定哪些可以使用较低的精度,从而减少计算和存储。 称其目的是在提高能效的同时,为 AI 和加速计算性能提供新标准。

此外,英特尔、博通、海力士等公司的演讲中也提到了更多节能的技术方案。

算力暴涨,电力压力重重,科技巨头如何应对能源挑战?

科技巨头们纷纷寻求“更节能”的技术解决方案,根本原因在于,当前的人工智能热潮正在增加对更强大的处理器的需求,以及保持数据中心凉爽所需的能源。

目前,微软、meta等大型科技公司正在投资数十亿美元建设数据中心基础设施,以支持生成式人工智能,但数据中心的激增也伴随着能源需求的激增。

据彭博社报道,仅去年一年,大型科技公司就投资了约 1050 亿美元用于数据中心设施。谷歌、苹果、特斯拉等公司通过新产品和服务不断增强 AI 能力。每项 AI 任务都需要巨大的计算能力,这意味着数据中心消耗大量电力。国际能源署 (IEA) 预测,到 2026 年,全球数据中心每年使用的能源量将相当于日本的用电量。

Face 的 AI 和气候负责人 Sasha 提到,虽然训练 AI 模型需要大量能源(例如,训练 GPT-3 模型消耗了约 1,300 兆瓦时的电力,而 GPT-4 训练消耗的电力是 GPT3 的 50 倍),但通常只进行一次。然而,由于查询数量巨大,模型可能需要更多能源才能生成响应。

例如,当用户向 AI 模型提出问题时,请求会被发送到数据中心,然后强大的处理器会生成响应。这个过程很快,但会消耗大量能源。根据艾伦人工智能研究所的数据,运行单个查询所消耗的电量相当于点亮灯泡 20 分钟,是简单搜索所消耗电量的 10 倍以上。

然而,全球电力资源有限,数据中心需要持续稳定的电力供应来运行服务器等核心运营设备。如果能源供应不稳定,停机可能给企业和其他用户造成重大经济损失。此外,巨大的能源消耗也引发了人们对环境的担忧。

太阳能需求的历史数据与预测对比。图片来源:Hot Chips 演示文稿 PDF

为了应对这一挑战,科技公司开始寻找解决方案。

一些公司选择更清洁、更高效的能源供应,比如核能。亚马逊最近在宾夕法尼亚州东北部购买了一个价值 6.5 亿美元的核电数据中心园区设施,该设施将使用高达 40% 的核反应堆发电量,最终使亚马逊能够减少对当地电网的依赖。与此同时,微软聘请了核能专家来领导寻找这种替代电源。微软还与一家核电站运营商签署了合同协议,为其位于弗吉尼亚州的一个数据中心提供电力。

此外,科技公司不仅在致力于上述一系列芯片节能技术,还在其他硬件设施和技术上投入了大量精力。

谷歌正在开发针对 AI 任务进行优化的 AI 专用芯片,例如张量处理单元 (TPU),而不是使用为游戏技术创建的图形处理单元 (GPU)。

的芯片直接液体冷却系统还公布了一项研究,展示了如何重新利用从服务器吸收的热量并将其回收到数据中心。 估计,冷却可以将数据中心设施的功耗降低高达 28%。

不过,威斯康星大学麦迪逊分校教授辛克莱提醒我们,杰文斯悖论在这里仍然适用,即资源效率的提高往往会提高其总体利用率,而不是降低。“提高人工智能的效率,虽然降低了单项能源消耗,但总体利用率的提高最终会导致总体能源消耗的增加,”辛克莱解释道。这一悖论不仅适用于19世纪火车使用煤炭,也适用于今天的人工智能和电力消耗。

每日经济新闻

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2