观察者网:怎么理解大模型只是技术升级而不是革命?AI技术现在很火爆,被寄予厚望,这会不会限制技术发展的可能性?
李从廷:技术得到重视是好事,更多学术界或者商业从业者加入进来,加速技术进步和落地。从理性的角度看,从小型的深度学习模型到如今的大模型,学习效率低下,也就是依赖大量算力和标注数据的问题并没有解决,不可避免的低级错误问题也没有解决。引用Yann Lecun的话:“机器学习跟人、跟动物相比,太可怕了。”所以,大模型只是技术升级,而不是革命。大模型作为技术升级带来的红利,带来了很多商业化的商业机会,给很多公司带来了未来的增量或者效率提升。正是因为现在的大模型技术不是最终的解决方案,所以Yann Lecun这样的科学家才把精力放在研究面向未来的新技术路径上。应该说,理性看待现在的大模型技术,增加了找到未来路径的可能性。

图灵奖获得者 Yann Lecun
观察者网:图灵奖得主 Yann Lecun 批评 Sora 不是世界典范,并认为生成式路线注定无法实现通用人工智能。您对此怎么看?
李从庭:世界模型是对物理规律、环境规则的理解和对齐,这是Sora目前做不到的。目前的AI水平距离AGI还很远,但它消耗了巨大的算力和能源,比如它每天要消耗50万度电,相当于1.7万个美国家庭的用电量,它的学习效率与人脑相差甚远,这不得不促使学者们思考新的出路。
对当前技术路线的未来持悲观态度,并不意味着对过去和现在的否定。Yann Lecun 2022 年“From to”演讲以“AI can do today”开篇,是对过去和现在的肯定,进而提出当前的技术路线无法通向 AGI。比如辅助驾驶在新能源汽车上已经普及,提升了驾驶体验,但 L4 级自动驾驶的落地却遥遥无期,不可避免的未知误差问题难以从根本上解决。“当前的最优解并非最终解”这句话,对大模型技术的现状做了比较客观的总结。

观察者网:国产模型应用在千千万万个行业,需要解决各种细小的问题,针对特定场景进行优化,那么未来在同样的任务上,国产模型的能力会不会和国际顶尖的通用大模型有区别?有没有可能表现出大模型公司做不到的能力?
李从庭:一般大模型就是一个基础设施,有点像操作系统,有两个特点。一是投入大,只有少数巨头公司才能持续投入;二是生态壁垒厚。领先一步,建立起庞大的用户基础之后,留给追赶者的机会就不多了。大模型技术在美国爆发,所以美国公司如百度、腾讯、meta等已经领先,中国公司或者机构处于追赶的状态。我们要面对、正视这个差距。
通用大模型首先在C端获得了大量用户,人们可以和它对话、提问、写作、画画、作曲等,这种体验是以前AI做不到的,一时间人们误以为AI已经追上甚至超越了人类水平。然而在实施一些细分场景,特别是B端场景的过程中,人们很快发现它的准确率太低,成本太高,无法实施。比如,使用市面上任何一款通用大模型识别迪拜车牌的准确率都不足20%。再比如,宇视作为一家产品和解决方案辐射全球200多个国家和地区的全球化公司,在数据翻译上耗费了大量的人力,但通用大模型由于没有“盒子”等专业词汇的知识库,会直接把“枪”字形的网络摄像机翻译成“gun”。所以,正是细分场景的实施催生了行业大模型。
在国内,如果我们深入每一个细分行业,几乎都能找到一两家甚至多家具有强大产品研发能力的公司。这样的公司在国内市场充分竞争,国外产品公司很难与其竞争。这样的公司已经将自己的产品与行业大屏相结合,推出了更有竞争力的产品。以宇视科技本身为例,前段时间我们推出了夜鹰系列摄像机,其0.的夜视能力就引发了行业的热议,领先海外同行两年。夜鹰的背后是十几年摄像机技术的积累,以及梧桐行业大屏的AI-ISP能力的结合。总体来说,我国在行业大屏产品的落地上并不落后。

大型摄像机模型提高了夜间观察和保护猛禽的能力
观察者网:设备(工具)的模型化可以打败模型的设备(工具),或者说+AI可以打败AI+,工业发展史上有哪些经验可以支撑这一判断?
李从庭:目前大模型阶段的例子很多,比如一年前文胜图 V5 等大模型出现在大众面前时,就有人惊呼图片编辑工具市场要被颠覆了。但时至今日,Adobe 等工具的用户并没有流失,Adobe 推出大模型并融入自家工具之后,其用户群体已经更加稳定。这背后的本质是,大模型技术可以提升工具中一些模块的效率,但还远远没有取代工具本身。而且,今天,针对自己的行业或垂直领域训练和调优一个大模型的门槛并没有那么高。
回顾上一个阶段,也就是2014年深度学习技术开始在行业爆发,并应用到大模型技术之前,很多人一度认为AI新势力会颠覆传统应用/工具/设备的公司。这类公司早期算法领先,加上大量资金的注入和人才的加入,迅速切入市场做产品。最后发现产品技术点非常多,AI新势力要踩传统产品公司过去踩过的坑。好不容易过了产品研发关,却遭遇了制造瓶颈。制造特点是单个环节看似技术含量极低,但数百万台设备bom的管理和流转却有极高的门槛。制造门槛的背后是渠道门槛,渠道门槛的背后是规模采购成本门槛。最后AI新势力不得不转向提供算法授权的商业模式,但很快传统产品公司就完成了算法追赶。 当算法红利消失之后,这种商业模式也失败了。
以上例子说明,设备(刀具)企业被新型大型号技术企业超越的可能性不大,但那些跟不上大型号技术升级的设备(刀具)企业则有可能被其他设备(刀具)企业所淘汰。
观察者网:从装备大尺寸建模来看,中国应该有很多率先实施大尺寸建模的优势,比如工程能力、新能源产业等。从您在海外市场竞争的经验来看,中国企业是否领先?
李从庭:我们先看设备本身的产品力,以AI体锻屏为例,需要影像技术、嵌入式软件技术、云端及APP软件、硬件技术、显示技术、交互设计、工程交付技术等诸多要素,当然还有AI。要开发出有竞争力的产品,光有这些还远远不够。要把量做大,才能覆盖研发投入,还要有利润,这就考验企业的渠道能力。除了要有渠道带货,还要能制造,这就考验企业的规模制造能力。产品价格既要有竞争力,又要有利润,这就考验企业的规模采购的议价能力。当然,还有速度的因素。所以比拼的是各方面因素的综合能力。
AI是其中一个因素,从小机型到大机型,技术不断升级,这个变量对设备企业影响足够大,老产品会迭代得更快,会催生出一些新的场景,反之如果技术迭代跟不上,企业就会落后。但对于没有设备经验,只有大机型技术的企业来说,攻克诸多因素的门槛,是一条漫长而艰难的道路。
前一阶段,中国企业率先引进并应用小机型技术装备,这次大机型技术装备也不会例外。

观察者网:很多人批评中国做大模型的公司太多,但中国能做各种类型设备的公司更多。如果每家有能力的设备公司都想加入AI,做自己的行业模型,会不会呈现出一种非常碎片化、离散的格局,没有统一的标准、没有统一的品牌?
李从庭:新技术的出现必然会吸引大量优秀的人才和资本,有做通用大模型的,有做行业大模型的,有做工具链的,当然也有做APP/工具/设备的。
一般的大模式最终很可能会集中在少数几家顶尖公司手里,赢家通吃,这几家公司本身就会成为事实上的标准,其他公司就会举步维艰,甚至被淘汰。
瞄准大行业模式的公司有点像小模式时代的算法授权商业模式,太容易被APP/工具/设备公司自研的产品所取代,所以要避免和这样的产品公司竞争,找到有生存机会的利基场景,最终利基场景中可能会出现几家小而美的公司,但不太可能做大。
定位工具链的公司,如果闭源,无法获得大量开发者用户,不利于生态构建;如果开源,商业盈利路径不清晰;同时陷入困境,面临大公司自研的竞争挑战。
对于主打APP、工具、设备的公司来说,行业模型只是产品的一个技术元素,用户看到的依然是产品品牌,用户可能感觉不到行业模型的存在,但绝对能感受到产品的用户体验提升了。
观察网:月之暗面的杨志林说,今天大部分的开发工作其实都是在做中间层,也就是数据。交互、模型可能都一样,但是不同的产品出来数据会不一样。训练数据、测试数据定义好了,大模型的产品就定义了。月之暗面是做云计算的,做到C端的产品。这个描述对于你们这些做边缘计算的,做到B端的产品也适用吗?
李从庭:最近《月之暗面》和它的应用Kimi很火,用户体验不错。我们所在的AIoT赛道和它所在的赛道没有交集,训练和测试数据肯定很重要,我们的赛道也是一样。但对于定义一个行业大模型,我们会更加注重它的性价比。比如说我们用10B级别的通用CV大模型做视频解析的逐帧推理,需要用到A800级别的GPU设备,单通道的实时推理成本大概在1万美元左右,而我们的客户以前只能接受每通道几百元的成本。所以我们采取了5M小模型+1B梧桐行业大模型的组合,而且都是ViT网络结构,这样我们的单通道推理成本就可以在几百元的级别。
观察者网:当前提倡的“新质量生产力”,就是寻找更加信息化、智能化的新模式、新场景、新业态。在充电桩等典型的物联网场景,以及您所探索的文教体育等行业中,目前您发现哪些好的AI应用场景,已经呈现出商业可行性的迹象,适合技术迭代?
李从廷:确实,技术进步会催生出更多细分的行业场景,比如AI文教体育、储能、充电桩等等。在宇视2024合作伙伴大会上,大家可以看到很多这样的产品。我列举四类:
第一是AI体育教育:实现体育教学辅助工具的AI化,是一个长期赛道,逐步迭代升级,围绕教学需求、运动类型、训练目标等不断提升效率、效果、内容丰富度,一方面针对不同运动类别不断增加算法类别,另一方面在单一算法类别上不断优化效果。

大模型提升算法准确率,推动体育教具AI化
第二是AI体育:在共享经济时代,能够更全面地记录自己想要记录的时刻,拥有更丰富的可分享素材,是一个普遍的需求。只要是体育或者娱乐,都有这样的需求。因此,在这个领域,广度(体育品类)和深度(各个子领域都能提供满足个人情感价值的内容)是没有上限的。

乌镇展示的智慧体育场解决方案利用人工智能捕捉和分析体育视频并自动生成统计数据。
第三是文旅领域:基于梧桐大模型进化的算法服务于“旅游”行业。AI通过摄像头采集,选择性生成照片和vlog模式,可以覆盖景区、游乐园、博物馆等各种场景,与当下的共享经济更好地结合,服务于个体情感价值的满足。算法的优化效果、视频的清晰度、视频剪辑的创意、更有趣的表达方式等都有充足的优化进化空间。
第四个是AI拍照:通过利用AI算法完成照片的优化和“PS”,可以配合个人快速完成不同场景、不同服饰、不同形象(二次元、商务等)的照片生成,可以帮助找到适合自己的风格,并在过程中带来娱乐性,同时也可以服务于个人对于快速获取特定场合所需照片的需求。
观察者网:未来大模型面临的最大挑战可能是能耗。模型能力的增长、计算能力的增长和能耗之间的关系是怎样的?为什么分布式能源系统和能源计算的融合是解决方案?
李从廷:我们要把大模型技术和大模型应用分开,也要把大模型应用中的互联网服务和设备产品分开。对于面向C端用户的大模型互联网服务,比如Sora,算力和能耗问题更加突出,每增加一个用户,都需要增加算力和能耗。而对于使用大模型技术的设备,算力和能耗是有限且固定的,不存在算力和能耗焦虑。
对于算力高度集中的数据中心应用场景,能源算力一体化或许是一个发展方向。能源自给自足肯定有利于降低成本,但代价是能源供应的稳定性。分布式能源是比能源算力一体化覆盖范围更广的能源结构,解决的也不仅仅是数据中心能耗问题。