芯东方9月7日报道,2024全球AI芯片峰会(GACS 2024)于9月6日至7日在北京举办,本次峰会主题为“共建智能计算时代的芯片之路”,将全面展示AI芯片产业在算力、网络、存储、软件、系统和应用等方面的前沿技术、最新成果和实现进展。
超过50位产学研嘉宾在整个峰会上提供了深入而有价值的信息,峰会现场参会人数超过1500人,在线观看人数超过210万人。
此次大会由智东西旗下芯片东方、芯片猴发起并主办,主题为“共建智能计算时代的芯片之路”,来自AI芯片、RISC-V、智能计算集群、AI Infra等领域的50多位嘉宾受邀出席大会,分享AI行业最新的技术创新、落地现状、商业化挑战与机遇。
继第一天开幕式、数据中心AI芯片专场、技术论坛火爆开场(直击国产AI芯片生存现状:GPU造血、TPU突击、成为趋势、网络瓶颈)之后,峰会第二天持续输出密集干货并正式公布AiiP AI生产力创新先锋企业榜单,包括“2024中国智能计算集群解决方案企业20强”、“2024中国AI芯片新兴企业10强”。

智一科技联合创始人、智车新产业媒体矩阵主编张国仁正式公布AiiP榜单

除了人工智能之外,近内存计算无法与存储计算分离相竞争
在上午主会场举行的AI芯片架构创新专场中,北京超弦存储研究院首席科学家戴进发表了信息量十足的内存计算主题演讲,经过一番纠结后他得出结论:除了AI,近存计算无法与存算分离相抗衡。
海量的AI模型参数带来无尽的带宽需求,存算分离架构的带宽、功耗、延迟会严重制约系统性能,严重降低硬件的性价比,HBM、3D封装等近存计算和内存计算成为必需。
在目前的内存计算路线中,完全学习类人脑计算的进展缓慢,但戴进认为“傻瓜AI很容易成功”。神经网络计算有两条路线:数字引擎和模拟引擎。数字引擎是GPU、NPU或者部分与内存集成在同一芯片上,这就要求存储介质能与逻辑流程集成;模拟引擎利用存储单元和存储阵列进行计算,等效内存容量扩大16倍,但可用的算法有限。

北京超弦存储研究院首席科学家 戴进
内存计算分为SRAM、NOR、DRAM等成熟存储介质,以及MRAM、RRAM、PCRAM、FeRAM等新兴存储介质。
戴进表示,这些存储介质都不是理想的,各有优缺点。比如SRAM兼容逻辑工艺,速度快,但容量小,容易漏电;NOR Flash工艺成熟,节能,但无法采用先进工艺节点,受擦写速度限制,由于可擦写次数限制,只能用于推理;DRAM理论上可以用于训练和推理。最大的困难不在于技术,而在于产业。

在新兴存储介质中,FeRAM存储介质是一种铁电材料,戴进认为这是目前唯一可能容量超过DRAM、速度和功耗表现都比较好的新兴存储介质,应该可以在存储计算一体化领域取代DRAM,任何非挥发性存储或者内存计算介质都具有吸引力。
比新兴存储更新的是2T0C DRAM,在戴进看来,这是可见存储技术中最理想的内存计算介质。2T0C DRAM分为两个MOS进行读写,利用读取晶体管的寄生电容进行存储。它最大的优点是做多位比较容易、直接,速度不逊于DRAM,可以无限擦写,功耗很低。不过唯一不确定的是,IGZO材料在半导体行业还没有完全应用。
突破有效算力天花板,可重构、存算一体、类脑智能才是未来
随着AI PC等边缘推理需求增长,珠海芯能创始人兼CEO李原认为,可重构芯片未来会成为主流。他认为,性价比成为边缘计算的核心要求,但性能和TOPS并不直接挂钩,模型在各个阶段的计算类型不同,对性能的要求也不同。针对这一特点,珠海芯能推出了可重构并行处理器架构(RPP)。
RPP基于数据流架构,兼容CUDA指令集,融合GPU和NPU优势,第一代RPP产品算力可达59GB/s,DRAM带宽可达59GB/s,具有高性能、高面积效率、低功耗、强灵活性等特点,先进的封装技术使芯片面积和厚度缩小至原来的1/3,在测试中其计算机视觉和信号处理性能较同类产品有大幅提升,14nm工艺已达到甚至超过 A100芯片的性能和功耗。

李源 珠海新动力创始人兼首席执行官
翼筑科技创始人、董事长兼CEO熊大鹏认为,AI芯片架构创新将迎来大算力的第二次增长曲线,摩尔定律现在面临挑战,以计算单元为中心的思路已经到达天花板,未来AI芯片一定会以存储单元为中心。
突破有效算力天花板的方法有两种:在芯片内部,利用存储与计算一体化以及先进的封装技术,降低数据搬运和传输的延迟;芯片之间,利用高速互联与技术、硅光子技术,以及类似互连的技术,提供高带宽和低延迟。
翼筑科技于2023年首次提出存储计算一体化超异构架构,致力于基于新型存储介质提供高性价比、高能效的AI高算力芯片。

易筑科技创始人、董事长兼CEO熊大鹏
时感科技创始人兼CEO乔宁表示,类脑智能被认为是未来能够突破硅工艺限制、解决计算瓶颈的技术之一。类脑感知和类脑计算都是受生物大脑启发而来的,都比传统的计算方式效率更高。生物系统会检测累积变化并将其转化为脉冲,以优化带宽使用。动态摄像头也利用类似原理,以低功耗的方式捕捉光强度变化。类脑计算芯片是基于脉冲进行计算的。在一个系统中,脉冲是数字传输和计算的载体。
石视科技已形成事件相机(即类脑传感器)、类脑处理器、传感计算一体化动态视觉智能SoC的产品矩阵。类脑视觉最大的看点是手机后置摄像头的高帧率成像应用。DVS事件相机模拟人类视网膜,在电路层面做出根本性的改变,突破全局快门对相机成像的帧率限制,通过处理DVS事件相机数据,可以达到等效高帧的成像效果。一是XR领域的眼动追踪,由于DVS只响应光线强度的变化,生成稀疏的点云数据,因此具有超低功耗、高动态范围、超低延迟等优势,尤其是超低功耗性能在眼动追踪领域处于领先地位。

乔宁,时代科技创始人兼首席执行官
随着数据量和计算能力的爆发式增长以及算法的提升,计算市场对可定制化、低成本、高安全、高隐私的需求日益增加,公司拥有适用于PC、工作站、服务器及分布式集群等多种存储与计算一体化的边缘计算模块及产品。
锋行致远的产品集成了存储控制器和AI推理加速能力,其SSD内置算力,降低主机负载和整体功耗,同时具备高保密性,可用于AI PC加速、大模型推理加速、训练合一的GPU直通方案,可加速数据吞吐50%-300%,并通过共享内存降低能耗;对于AI推理加速,其端到端应用平均效率比 NX平台高2倍,平均功率效率比存算分离方案快3.7倍,并兼容多种框架。

孙唐 风行致远创始人兼CEO
在高级产品工程师黄建伟看来,3D IC及基于先进封装技术的工艺是后摩尔时代的必然选择,但SIP/2.5D/3D等先进封装复杂的制造工艺和严格的设计要求,会导致材料、设备、开发等生产成本大幅上升,同时这些先进封装还面临散热、制造工艺、成本上升等挑战,需要专门的仿真工具。
针对多物理场仿真场景,我们开发了一体化解决方案,包含热仿真工具、信号完整性仿真软件ACEM、电源完整性仿真软件-ET等产品,可实现高性能GPU加速,实现几倍甚至几十倍的效率提升,帮助设计人员定位温度热点、优化设计。

高级产品工程师 黄建伟
AI的发展对芯片良率、延迟、发热量等问题提出了更高的要求,业界正在探索更有效的芯片互连技术,如分离Die与IO Die、降低PCIe等传统架构的延迟、推动新标准支持AI应用等。
UCIe是促进芯片间高效通信的新标准,UCIe提供了先进封装和标准封装两种解决方案,先进封装适合追求更高带宽的应用,标准封装密度较低,适合生产能力有限的场合。
前瞻科技高级产品总监曹泽浩透露,他们在5nm、4nm技术节点上已经为大客户实现量产,3nm也已经回归晶圆,同时正在将UCIe 1.1、1.0版本迁移到2.0版本。


前瞻科技高级产品总监曹泽浩
AI芯片如何实现极致性价比,加速大模型在边缘和设备上的落地?
在下午举行的边缘/设备端AI芯片专场上,厚墨智能联合创始人、产品副总裁辛晓旭分享称,大模型已从“推出新产品”进入“强应用”阶段,中国的优势在于应用创新。应用创新的机会在边缘,当前AI芯片痛点转向内存访问效率低,存算一体架构凭借低成本、低功耗、低时延的优势,适应了边缘AI的需求。
厚墨智能一直在探索存储计算一体化技术,近两年基于第一代“天枢”架构推出并量产了H30、M30边缘芯片,即便落后一代工艺节点,能效比依然是2,这就是存储计算一体化架构带来的好处。
公司提供了从芯片到终端的完整解决方案。辛晓旭表示,厚墨新一代芯片将基于“天玄”架构,计算效率提升20%,适用于大语言模型/视觉语言模型、边缘场景,性能将进一步优化,使用起来更加简单,明年将上市。

侯墨智能联合创始人、产品副总裁 辛晓旭
随着大模型驱动物理世界的智能化演进,更多的应用将在边缘完成。大模型给边缘AI场景带来新的计算挑战:算力需求大、带宽需求高、计算可扩展性强。励飞副总裁、芯片业务线总经理李爱军表示,架构创新是国产边缘AI芯片应对挑战的关键。
面向边缘AI计算新场景,云天励飞基于国产技术研发了国内首款系列化边缘AI芯片,采用“算力积木”理念,设计D2D/C2C Mesh大模型推理架构,从基板选择到封装测试均采用国产技术,算力达到8TOPS~,满足大规模模型实现的个性化需求,可应用于各类边缘场景。工具链和软件栈统一,算法部署实施更加便捷。
他宣布,云天励飞后续将发布基于国产技术的大型号边缘推理一体机,提供更具性价比的边缘算力。

云天励飞副总裁、芯片业务线总经理 李爱军
ARM科技产品总监杨磊介绍,边缘侧大模型部署在AI手机、AI PC、智能汽车、机器人等设备上,考虑到这些设备对成本、功耗、散热等敏感度较高,小于100亿参数规模的边缘侧大模型并不适合大规模部署,大模型被认为是边缘部署的理想选择。为了实现边缘部署的最高效率,异构计算解决方案应运而生,可以充分挖掘和利用边缘设备的算力,实现最佳性价比。
为了应对边缘部署大模型的挑战,Arm科技通过创新的计算单元微架构设计,研发出新一代“周易”NPU,可同时支持卷积神经网络(CNN)和架构,有效缓解计算架构层面的带宽需求,降低算力的可扩展性。此外,“周易”NPU还能通过多核扩展实现更强大的算力,进一步提升边缘大模型部署的灵活性和效率。

ARM技术产品总监杨磊
智芯科技自2019年开始研究基于SRAM的存算一体芯片,积累了大量专利。智芯科技创始人兼CEO顾宇聪认为,具身智能是最大的应用场景之一,对低时延、低功耗有严格要求,需要配备高能效的存算一体AI芯片。
集成存储与计算芯片主流的技术路径包括DRAM、SRAM、Flash、NVM等,其中SRAM具有读写速度快、能效比高、技术成熟、集成度好等优势,可以快速、不限次数地读写,非常适合自注意力机制。
智芯科技的模拟数字混合存算芯片基于SRAM,精度高,量产一致性高,还能进一步降低功耗;除了硬件,智芯科技还打造了功能多样、使用方便的软件生态系统。顾宇聪介绍,未来,智芯科技将推出从具身智能感知到高算力边缘服务器等多款产品,覆盖大模型、机器人、自动驾驶等场景。

顾宇聪 智芯科技创始人兼CEO
大模型认知智能已经呈现初步智能萌芽,但很多都是单点能力。灵思科技副总裁许岩松强调系统集成的重要性,对于设备商来说,拥有大而全的AI单点能力很重要,找到中间状态才是主要命题,算法取决于场景,端侧模型的算法应用会重新定义AI芯片的需求,因此算法算力需要集成。
灵思科技致力于打造智能终端的人机交互入口芯片,集成云端芯片算法算力,提供具有自主知识产权的AI芯片、高性能物联网芯片,设计具有最优模组成本的芯片,以单芯片满足客户在性能和价格方面的需求。同时在终端内置了百余种业界领先的AI算法,也可直接对接AI云平台,与Spark大模型形成联动。

灵思科技副总裁 许岩松
近年来,随着智慧城市的推进,算法在公安、金融、安防、零售等领域的应用逐渐增多。基于此,计实科技打造了算法商城。计实科技联合创始人、高级副总裁刘若水表示,在保证算法质量方面,计实居的优势在于数据来源丰富,自有算法团队提供底层算法能力,40万开发者通过PK测评,保证算法最优。
极视科技打造了AI 、AI 平台,AI 平台具备标准算法部署和硬件配置功能,支持统一算法接入标准,可纳入符合接口规范的第三方算法,整个系统部署时间约1小时;AI 专注于算法的轻量化部署。


极视科技联合创始人、高级副总裁刘若水
远景图像创始人兼董事长徐大文表示,机器人需要同时感知、判断、决策、执行任务,对算力、能耗提出了严格的要求,视觉语言模型带来新的挑战,机器人需要一款能加速传统算法与AI算法图像融合处理的边缘芯片。
机器人感知一方面作为VLM模型的输入,另一方面用于机器人SLAM建图和位姿估计, Image推出了集成CPU、NPU、ISP、3DCP、特征提取模块和多传感器融合模块的视觉芯片,让应用和算法能够以最大的利用率映射到硬件上。
其图像融合架构可以控制ISP的各个处理步骤,还能通过神经网络处理识别重点目标和区域,进行针对性的图像增强,并实现能效提升。所采用的RGB-D摄像头可以高效融合深度空间数据与RGB信息,提升机器人的视觉信息。

创始人兼董事长 许达文
复旦微电子高级市场总监冯晓光对边缘视频AI芯片进行了回顾和展望。边缘视频AI芯片是针对摄像头、录像机等边缘设备,对视频内容进行分析处理而设计的,它把视频处理带入了2.0时代,也给AI芯片带来了新的架构变革。不同于传统的CNN网络,大模型推理时的参数读取需要系统带宽,计算时的矩阵乘法需要主动加速。
冯晓光认为,未来边缘AI芯片并不会统一在某一种架构上,而是会呈现金字塔的形式,其中,算力在0.5TOPS以下的低端高成本芯片将覆盖80%以上的应用;支持轻量级、AI ISP的主流中端AI芯片主要以算力1~8TOPS的NPU为主;高端边缘AI芯片则可能基于GPGPU架构,拥有超强算力,能够运行大型边缘多模态模型。

复旦微电子高级市场总监 冯晓光
结语:AI芯片企业顶风前行
随着大模型革命席卷全球,算力需求再创新高,驱动云端AI芯片的迭代演进。在数据爆发式增长、技术逼近物理极限、国际形势复杂多变的三重乌云之下,不少AI芯片企业保持了“韬光养晦”的姿态。我们要在压力之下务实前行,积极准备迎接生成式AI浪潮带来的时代机遇。
自2018年3月首届AI芯片产业峰会在中国举办以来,全球AI芯片峰会七年来基本保持每年一度的节奏,除2021年受到疫情影响外,邀请近150位大咖分享前沿进展和产业洞察,成为了解国内外AI芯片发展趋势的重要窗口,也是国内AI芯片领域最具影响力的产业峰会。
据智翼科技联合创始人兼CEO龚伦昌介绍,智翼科技旗下硬科技知识共享社区智星星将携手智能行业新媒体智东西、智能汽车行业新媒体车东西,于11月在上海举办年度第二届中国人工智能大会,12月举办中国端到端自动驾驶峰会,欢迎大家出席大会、交流。
本文来自微信公众号“芯事”,作者:36氪经授权发布。


