谷歌 TPU 芯片:从 AI 产业边缘走向舞台中央的十年之旅

   日期:2024-08-15     来源:网络整理    作者:二手钢材网    浏览:178    评论:0    
核心提示:目前,全球已经有多家科技公司使用谷歌的TPU芯片。例如苹果承认采用了谷歌TPU训练其人工智能模型,并称“这种系统使我们能够高效且可扩展地训练AFM模型,包括AFM设备端、AFM服务器和更大的模型。此外,端侧AFM在2048块谷歌的TPUv5p芯片上进行训练。

虽然 TPU 最初是为内部工作负载而生,但它拥有诸多优势,不仅在 内部得到广泛应用并成为 AI 的支柱,还受到苹果等科技巨头以及众多大牌初创公司的青睐和使用。回首 TPU 芯片诞生十年后,它已逐渐从 AI 行业的边缘走向舞台中央。但由于 TPU 基础设施主要围绕和 JAX 构建, 也在一定程度上面临“技术孤岛”等挑战。

谷歌芯片是哪个国家的__谷歌ai芯片

十年紧跟人工智能创新

随着机器学习和深度学习算法的深入发展,业界对高性能、低功耗的专用AI计算芯片的需求快速增长,但传统的通用CPU和专门用于图形加速、视频渲染等复杂任务的GPU无法满足庞大的深度学习工作负载需求,还存在效率低下、专用计算能力有限等问题。

“我们做了一些粗略的计算,看看如果每天有数亿人与谷歌进行三分钟的对话,需要多少计算能力,”谷歌首席科学家杰夫·迪恩说。“我们很快意识到,这基本上会消耗谷歌部署的所有计算能力。换句话说,我们需要将谷歌数据中心的计算机数量增加一倍,以支持这些新功能。”

_谷歌ai芯片_谷歌芯片是哪个国家的

于是, 致力于探索更具成本效益和能效的机器学习解决方案,并随即启动了 TPU 项目,并于 2015 年宣布内部推出第一代 TPU 芯片(TPU v1)。TPU 是专为单一特定用途而设计的专用集成电路(ASIC),包括运行构建 AI 模型所需的独特矩阵和基于向量的数学运算。与 GPU 的矩阵运算不同,PU 的标志性特征是其矩阵乘法单元(MXU)。

据谷歌副总裁兼工程院院士 Norm 介绍,TPU 的出现让谷歌节省了 15 个数据中心。至于 TPU 更省钱的一个重要原因是,谷歌的软件栈比 GPU 更垂直整合。谷歌有专门的工程团队为其构建整个软件栈,从模型实现(Model)到深度学习框架(Keras、JAX 等),再到为 TPU 优化的编译器(XLA)。

性能方面,TPU v1 拥有 65536 个 8 位 MAC(矩阵乘法单元),峰值性能可达 92 TOPS,片上内存空间 28 MiB。相比 CPU 和 GPU,TPU v1 在响应时间和能效上表现优异,能显著提升神经网络的推理速度。TPU v1 的成功让谷歌意识到机器学习芯片有着广阔的发展前景,因此在 TPU v1 基础上不断迭代升级,推出更加先进、高效的产品。

例如,TPU v2、TPU v3 设计为服务端 AI 推理训练芯片,支持更复杂的 AI 任务。TPU v4 则进一步提升了可扩展性和灵活性,支持构建大规模 AI 计算集群。其中,TPU v2 首次将单芯片设计拓展到更大规模的超算系统,构建了由 256 颗 TPU 芯片组成的 TPU Pod。此外,TPU v3 增加了液冷技术,TPU v4 则引入了光路开关,进一步提升性能和效率。

谷歌芯片是哪个国家的_谷歌ai芯片_

2023年,鉴于TPU v5芯片受到的“夸大其词”的质疑和争议,谷歌直接跳到了TPU v5e版本。TPU v5e在架构上进行了调整,采用单一架构,INT8峰值算力达到393,超过了v4的275,但BF16峰值算力只有197,低于上一代v4的水平。这说明TPU v5e更适合推理任务,也体现了谷歌对于AI计算服务市场的战略选择。

今年 5 月的 I/O 开发者大会上,谷歌发布了第六代 TPU。谷歌云机器学习、系统与云 AI 副总裁兼总经理阿敏表示,TPU 的峰值计算性能比上一代 TPU v5e 提升 4.7 倍以上,能效比 TPU v5e 提升 67% 以上。同时高带宽内存容量和带宽比之前提升两倍,芯片间互联带宽也提升了一倍,从而满足了更先进 AI 系统的需求。

_谷歌芯片是哪个国家的_谷歌ai芯片

值得一提的是,它可以在单个高带宽、低延迟的 Pod 中扩展到 256 个 TPU。通过利用 在 Pod 级可扩展性、多切片技术和智能处理单元方面的进步,用户将能够将数百个 TPU 链接在单独的 Pod 中,以构建 PB 级超级计算机和数据中心网络。

谷歌ai芯片__谷歌芯片是哪个国家的

总体来看,TPU 技术方案的优势在于具有更加集中的架构设计,与多块 GPU 连接在同一块板子上不同,TPU 以立方体形式组织,可以实现更快的芯片间通信,与博通的深度合作也大幅提升了通信传输速率。此外,在特殊场景和用例的要求下,可以更快地推动产品优化和迭代。但由于 TPU 基础设施主要围绕 JAX 构建,而业界在使用模型和创新上更为主流,谷歌也在一定程度上面临着“技术孤岛”的问题。

被苹果和许多人工智能初创公司采用

在应用方面,谷歌TPU项目最初是为了内部特定需求而创建的,并迅速在各个部门获得广泛应用,成为AI领域最成熟、最先进的定制芯片之一。据谷歌机器学习硬件系统首席工程师安迪·斯温介绍,他们最初预计制造不到1万块TPU v1,但最终生产了10多万块,应用范围涵盖广告、搜索、语音甚至自动驾驶。

随着性能和效率的不断提升,TPU 芯片逐渐成为谷歌 AI 基础设施以及几乎所有产品的 AI 支柱。例如,谷歌云平台就广泛使用 TPU 芯片来支撑其 AI 基础设施。这些芯片用于加速机器学习模型的训练和推理过程,提供高性能、高效的计算能力。通过谷歌云平台,用户可以访问基于 TPU 芯片的虚拟机实例 (VM),用于训练和部署自己的机器学习模型。

尽管在云服务方面拥有良好的用户基础,但谷歌并不直接向用户销售硬件。业内分析师指出,谷歌在生成式AI领域与英伟达竞争激烈,若出售TPU,将直接挑战英伟达。“两线作战”或许不是目前最明智的策略。同时,硬件直销成本高昂,供应链管理复杂,而通过云服务提供TPU可以简化安装、部署和管理流程,减少不确定性和额外成本。

另一方面,谷歌云与的紧密合作也需要考虑,谷歌不仅在内部使用 GPU,还在自己的云服务平台上提供基于 GPU的服务,满足客户对高性能计算和AI应用的需求。

诚然,英伟达的 AI 芯片已成为科技巨头的“必争之重”,但业界也在探索更加多元化的选择。在内部得到广泛应用的同时,谷歌也在尝试通过 TPU 跟上人工智能创新步伐,为更多客户提供 AI 服务。Andy Swing 表示,“我们使用 TPU 和 pod 的地点最适合当前数据中心的能力,但我们正在改变数据中心的设计,以更好地满足需求。因此,今天准备的解决方案与明天的解决方案将有很大不同。我们正在构建一个充满 TPU 的全球数据中心网络。”

_谷歌ai芯片_谷歌芯片是哪个国家的

谷歌芯片是哪个国家的__谷歌ai芯片

目前,全球有多家科技公司都在使用谷歌的 TPU 芯片。例如,苹果承认使用谷歌 TPU 训练其人工智能模型,并表示“这套系统让我们能够高效、可扩展地训练 AFM 模型,包括 AFM 设备端、AFM 服务器以及更大的模型”。据苹果介绍,苹果在 8192 块 TPUv4 芯片上从零训练了服务器 AFM,使用 4096 的序列长度和 4096 个序列的批次大小,训练了 6.3 万亿个 token。此外,端侧 AFM 是在 2048 块谷歌芯片上训练的。

另有数据显示,超过60%获得资助的生成式AI初创公司和近90%的生成式AI独角兽都在使用谷歌云的AI基础架构和Cloud TPU服务,广泛应用于社会和经济各个领域。

例如,知名AI初创公司如谷歌、百度、Face、百度等都在大量使用Cloud TPU。其中,作为“劲敌”,百度使用 Cloud TPU v5e芯片为其大型语言模型提供硬件支持,加速模型的训练和推理过程。此外,不少科研和教育机构也在使用谷歌TPU芯片支持其AI相关研究项目,这些机构可以利用TPU芯片的高性能计算能力加速实验进程,从而推动前沿科研和教育进步。

值得注意的是,据谷歌官方透露,其最新TPU的运营成本不到2美元/小时,但客户需要提前三年预约才能确保使用,这或许会给快速变化的行业中的大型模型公司带来更大的挑战。

无论如何,TPU 十年征程已成功证明,除了 CPU、GPU,业界在追求 AI 所需算力上还有一条新路可走。它也成为几乎所有 产品中 AI 功能的核心,支撑 先进基础模型乃至整个大模型产业的快速发展。未来随着 AI 技术的不断发展、市场的不断扩大,或许会有更多企业选择使用 TPU 芯片,满足 AI 算力需求。但 AI 硬件也可能变得更加专业化,让硬件与模型结合得更加紧密,很难跳出框架去寻找新的创新可能。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2