AMD 打造全方位智能生态,推进大模型从云到端部署

   日期:2024-10-13     来源:网络整理    作者:二手钢材网    浏览:188    评论:0    
核心提示:AMD在这些技术产品方面逐步推出了从硬件平台到软件,从端到端的解决方案。Ethemet,更好地与业界其他客户一起构建我们整个的计算加速平台。AMD会继续推进大模型,从云边端的部署,以真正帮助到用户,基于AI技术去打造一个更加方便、更加便捷的生活。

从云端到PC,AMD打造了全面的智能生态系统。

2024年全球人工智能芯片峰会(GACS 2024)于9月6日至7日在北京举行。本次大会由智易科技旗下芯片行业媒体Core Stuff和硬科技知识分享社区发起并主办。在大会首日主会场开幕式上,AMD人工智能事业部高级总监王洪强发表了题为《推动大型模型云到端部署,共创变革未来》的演讲。

AMD在端到端AI基础设施领域打造了全面的产品线,涵盖从数据中心服务器、AI PC到智能嵌入式和边缘设备,并提供领先的AI开源软件和开放生态系统。 AMD基于先进的ZEN4架构设计的CPU处理器平台和基于CDNA3架构的用于AI推理和训练的MI系列加速器已被微软等巨头采用。

AMD人工智能事业部高级总监王洪强表示,AMD还在推动数据中心的高性能网络基础设施(Ultra),这对于AI网络结构支持快速切换和极低延迟、扩展AI数据至关重要中心表现。 AMD即将发布下一代高性能AI PC芯片。其基于第二代XDNA架构的Ryzen AI NPU可提供计算能力,并将能效比提升至通用架构的35倍。

在AI PC对隐私、安全和数据自治的推动下,重要的AI工作负载开始部署在PC上。作为全球领先的人工智能基础设施提供商之一,AMD 愿意与客户和开发者携手共建变革的未来。

目前,为了推动AI从云到端的部署,AMD专注于提供丰富多样的高性能、自适应软硬件解决方案组合,构建开放的生态系统,将复杂的工作负载简化为吸引人的用户体验。三个关键领域。

▲AMD人工智能事业部高级总监王洪强

以下为王洪强讲话全文摘要:

自去年以来,人工智能(AI)领域出现了显着增长,特别是在大型模型和生成式人工智能方面。 AMD在这些科技产品中逐步推出了从硬件平台到软件的端到端解决方案。

AMD拥有非常完整的产品线,从数据中心服务器到Edge&on the Edge,还有AI PC,并且拥有非常全面的硬件AI平台。

AMD真正优化了不同数据中心的业务需求,以满足各种工作负载。这包括使用CPU处理器进行轻量级AI推理,或者利用MI加速器来处理大规模任务,特别是当前生成式AI大型模型的推理和训练。

同时我们知道,在数据中心中,除了推理和训练,特别是在训练中,我们需要Out(水平扩展)和Up(垂直扩展)。同一节点内有多张卡互连,不同节点之间需要Out,以扩展整个处理能力。

对此,我们重点发展开放高速互联,比如Ultra、Ultra,无论是计算还是跨节点互联,我们都提供重要的技术支持。 AI网络有一个非常重要的要求,就是极低的延迟和响应时间。 AMD正在寻求开放和Ultra,以便与业界其他客户一起更好地构建我们整个计算加速平台。

01.

加速器轻松处理具有数万亿参数的模型

AMD的EPYC系列新一代CPU拥有多达192个核心和384个线程。这是基于我们最新的ZEN5架构设计的。与上一代相比,它也有非常大的性能提升,不仅是在(指令带宽)方面,还有数据(带宽),比如L2到L1,从L1到浮点数据的带宽都有增加了2倍。

同时,我们的AVX-512技术是完整的,它在数据(缓冲区)上也有带宽,这样可以更有效地支持AI推理服务。

从去年12月份开始,我们还在数据中心推出了一系列新的MI加速器,这些产品已经被包括微软在内的大型互联网公司采用。

我们的加速板已被服务器制造商集成到他们的服务器中,包括 OEM(原始设备制造商)和 ODM(原始设计制造商)。

对于用户来说,只要购买这些服务器,就可以获得一个内置了我们的CPU和MI加速器的系统,并用它来执行AI推理和训练任务。

目前,在大模型生成AI领域,ADM一直在完善我们的架构。我们最初的架构是这样的,我们将继续向这个方向发展。

_AMD王宏强:全产品线推动大模型从云到端落地 解读下一代AI PC平台_AMD王宏强:全产品线推动大模型从云到端落地 解读下一代AI PC平台

我们在存储容量、存储带宽方面也取得了快速的发展。预计到今年年底,大家就会看到一些相关更新产品的发布。

我们将更有效地支持当前大型模型的推理,例如 Llama 和 GPT。所有这些模型都可以在我们的加速器上轻松运行。更重要的是,我们的加速器甚至可以处理具有数万亿参数的模型。

02.

GPU设计完全开源,

任何人都可以更改代码

在GPU软件设计方面,我们有ROCm,它是一个开源加速器软件。我们的设计不仅是开源的,整个架构也是模块化的,完全开放,开源给用户。

用户和社区成员可以访问开源代码,您甚至可以修改代码。我们鼓励做出更多努力,将整个人工智能社区的贡献整合到我们的整个 ROCm 平台中。

我们还针对最热门的生成式人工智能做出了很多创新,比如对这个开源推理引擎的支持。此外,我们还积极支持像这样的新开源推理引擎。

和 之间存在一些差异,特别是在调度方面。与CUDA这种相对闭源的环境不同,我们支持不同的开源推理引擎,使用户、社区和整个生态系统处于一个环境中。

为了支持生成式AI的大型模型,我们优化了-2和-3,包括对FP8算子的支持。这些是推理中使用的非常典型的数据类型。在训练中,我们还可以支持BF16数据类型。

除了提供运营商支持外,我们还支持通信,包括RCCL优化和虚拟化技术支持。

AMD王宏强:全产品线推动大模型从云到端落地 解读下一代AI PC平台__AMD王宏强:全产品线推动大模型从云到端落地 解读下一代AI PC平台

03.

人工智能的发展不仅仅涉及硬件,还涉及硬件。

软件和基础设施投资同样重要

我们坚持投资人工智能软件和基础设施。除了加大自身内部投资之外,我们也会收购一些行业内的知名企业。

最近我们收购了 SILO.ai,这是一家拥有许多优秀人工智能用例的公司。

通过收购SILO.ai,我们不仅能够进一步提供AI优化技术,还能获得他们在AI开源领域的丰富专业知识。

我们还收购了ZT。作为行业领先的数据中心,ZT专注于AI基础设施。

我们不仅从软硬件平台提供AI加速能力,还从整个机架、机架提供AI加速能力。

开源加速的发展速度不断加快,每天都有新的开源算子和框架推出。

AMD坚持开源开放的策略,积极在开源社区部署和推广新模式。我们利用整个生态系统的力量来快速推动AI技术的发展,这与相对封闭的CUDA环境完全不同。

我们也有非常密切的合作。上面有超过70万个模型,我们每天都会进行一些测试,以确保这些模型可以直接在我们的加速器平台上运行,包括在数据中心和个人笔记本电脑Ryzen平台上。

我们还与人工智能合作,它提供了更高级别的人工智能语言抽象,使我们能够在更高级别的语言抽象上更轻松地实现功能。此外,我们长期以来一直支持像这样的推理框架。

04.

XDNA2架构下的NPU,

计算能力和存储改进

我们刚刚介绍了我们对数据中心的投资。事实上,我们在AI PC上的投入也非常大。

我们一直引领AI PC平台。

如今,越来越多的应用程序可以在个人笔记本电脑上运行。例如,一些实时协作可以在个人计算机上运行一些大型模型。这些大模型可以作为开发各种应用的基础,这使得各种应用能够真正在端侧实现。

AMD即将发布的下一代高性能AI PC芯片也是基于我们的Zen5 CPU的架构。随着第二代XDNA的加入,Ryzen升级到3.5版本,可以提供最强的计算能力。

在AI PC领域,用户越来越关注隐私保护、数据安全和数据自治。随着重要的人工智能工作流程逐渐部署在个人电脑上,对专用处理器的需求也随之增加。

在PC部署方面,大家对PC的功耗要求非常高,所以非常需要NPU处理器。 NPU在性能和功耗方面具有巨大优势。与通用处理器相比,能效可提升35倍以上,因此我们在AI PC中集成了这款NPU。

NPU 基于我们最新的 XDNA2 架构。它的底层是AI处理引擎。与之前相比,计算能力,包括存储,都提升了数倍。

我们在数据类型上也做了很多创新,比如对Block FP16的支持。与第一代XDNA相比,我们实现了更高的能效比,算力提升5倍,功耗效率提升2倍。

关键数据类型的创新在于对块浮点的支持。块浮点的优点在于它结合了8位数据类型的高性能和16位精度的优点,从而在数据宽度、精度和存储要求之间达到理想的平衡。它的性能与 8 位类似,而模型大小仅需要 9 位表示。另外,它在精度上非常接近16位,可以达到与16位数据类型几乎相同的99.9%的精度。

AI PC上的另一个应用是RAG推荐系统。它包括预处理步骤,其中一些在CPU上执行,而核心计算则在NPU上执行。这样的设计使得整个系统能够实时处理RAG推荐系统的任务。

刚才介绍的功能都是通过AMD的Ryzen软件来实现的。软件架构包括从浮点模型开始,通过内置量化器进行优化,最后通过ONNX表示执行到NPU中。

我们还支持通用架构,并正在开发人工智能堆栈(软件堆栈)。该软件堆栈可以智能识别系统中的CPU、NPU和iGPU三种加速引擎,并自动分配最合适的引擎来处理相应的工作流程,以实现最佳性能。

我很快就会分享AMD基于Edge&的嵌入式和边缘应用。

在AMD,这个平台是真正的异构计算平台,它不仅包括可编程逻辑,还包括XDNA和ARM CPU。它可以处理人工智能中的关键模块,包括预处理,例如激光雷达数据处理,可以由可编程模块执行。

AI可以在XDNA架构中进行,一些后处理、决策、处理可以在后处理器中进行,比如CPU。

我给大家介绍一个demo,是基于AI立体摄像头的。它不使用雷达或地图。可见,只需利用立体摄像头进行AI相应处理,即可实现自动驾驶的功能。

最后我总结一下我们的优势。我们能够定义新人工智能时代的端到端基础设施。我们整个产品线是最全的,有从数据中心、从边缘、到端侧的一整套硬件。

我们一直在人工智能软件方面投入巨资,包括软件支持。我们一直遵循开源、开放的生态系统,让所有的AI开发者、客户、用户,包括整个社区,都可以使用我们开放的软件平台做出贡献,推动整个AI软件的快速发展,支持各种新的模型在不同的平台上。

我们正处于人工智能驱动的社会变革之中,人工智能的影响已经深入到我们的日常生活中。 AMD将持续推动大规模机型,从云边部署,真正帮助用户,基于AI技术创造更加便捷便捷的生活。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2