OpenAI 的理念竟被国内公司抢先践行,360 首创 CoE 架构,能否超越 OpenAI o1?

   日期:2024-09-20     来源:网络整理    作者:二手钢材网    浏览:263    评论:0    
核心提示:比起OpenAI,这家公司的idea提出得更早,方法更前瞻,落地应用也更快。大会上,360创始人周鸿祎从「快思考」和「慢思考」的角度出发,对比人类的思维过程,对LLM思维链进行解读。周鸿祎形容的这种「慢思考」,和OpenAI强调的推理思维链似乎如出一辙,不得不让人惊叹360的技术思维和先见之明。

相比较而言,这家公司的理念提出得更早,做法更有前瞻性,应用落地得更快。

他们所采用的架构已经可以和o1相媲美了,如果更新到下一代的大型车型,甚至有可能占据领先地位。

没错,这次周鸿祎等人走的路,是殊途同归。

360首创的CoE架构,已经可以和o1的思维链模型相媲美。

360不仅在技术方面如此有前瞻性,在实施上也领先一步,对应用趋势的把握非常准确。

“试金石”思维链让人沉默

o1的出现,开辟了GPT系列之外的新一代机型。

它代表了人工智能发展新范式的开始,首次在法学硕士领域实现了一般复杂推理能力。

在代码生成方面,o1 堪比 IOI 金牌水平,在物理、生物、化学等 STEM 学科的基准 GPQA 测试中,甚至超越了人类的博士。

在最新的LMSYS排行榜上,o1-不仅包揽了各个领域的第一名,而且数学能力更是领先第二名3.5个区块。

这一切,都得益于o1背后的思维链(CoT),那么思维链的具体工作原理是什么呢?

他们对此讳莫如深,坚决关闭o1思维链的推理过程,并向深挖此事的用户发出“封禁警告”。

让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻__让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻

在官方的报告中,只有很简短的一句话提到模型训练:通过强化学习,o1学会了磨练自己的思维链CoT,并改进自己的策略。

然而业界惊讶地发现,o1的思维链模式,居然与360的“慢思考”理念不谋而合?

而这一次,国内企业更是领先了。

LLM,你需要学会“慢慢思考”

作为国内公司的先行者,360早在o1发布之前就提出了类似的结论。

今年7月底的ISC.AI大会上,360创始人周鸿祎从“快思考”与“慢思考”的角度解读了LLM思维链,类比人类的思维过程。

具体来说,“快速思考”的特点是无意识的快速直觉,导致反应很快,但能力不足。

GPT类型的大模型,通过大量的知识进行训练,主要目的是学习“快速思考”的能力,可以不假思索地回答各种问题,并且说得流利,但答案的质量不够稳定。

“慢思考”则相反,其特点是缓慢、有意识、有逻辑,就像写一篇复杂的文章,需要很多步骤,在回答问题之前,会反复思考、分解、理解、推理问题,然后才能给出最终答案。

周鸿祎所描述的“慢思考”似乎与他强调的链式推理思维如出一辙,让人不得不惊叹360的技术思维与远见。

_让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻_让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻

技术报告

创新的CoE架构,可比的CoT模式

o1采用的思维链,能将困难的问题分解成更简单的步骤,让模型一步步去解决,从而实现“慢思考”,提高推理能力。

那么,如果不利用思维链实现这种“慢思考”的推理模式,还有哪些其他的技术路径呢?

还有网友大胆发声,认为o1并不是一个从头训练出来的新模型,而是一个相对较小的模型,与GPT协作才解锁了如此惊人的推理能力。

在这方面,360的研发团队是走在前列的。

早在8月1日,他们就推出了第一个CoE技术架构,让多个大模型可以以团队形式协同工作,每个查询不仅调用多个模型,还会进行多次调用,强调像CoT一样的推理过程。

例如在搜索场景中,原始查询先经过意图识别模型处理,再将任务分解、分类后派给相应模型进行处理。

在“三模型”设定中,第一个人充当专家,回答第一轮提问;第二个人充当反思者,对专家的答案进行修正和补充;第三个人充当总结者,对前两轮答案进行优化和总结。

相比之下,MoE(混合专家)架构虽然也是由多个专家模型组成,但每次推理只能调用其中一个,并且极大依赖于路由分配机制。

如果路由错误或者某个专家出现故障,CoE 架构的整体性能就会受到影响。

让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻__让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻

: 与和

CoE 架构允许多个模型协作、并行工作,进行多步骤推理。

用一句话总结,相较于MoE,CoE模型在泛化性、鲁棒性、可解释性和推理效率等方面都做出了提升,既能加快推理速度,又能降低使用成本。

更进一步,360还提出了CCoE设计,包括一个主干LLM和多个CoE(of)层,每层包含一个或多个不同领域的SOTA专家模型。

_让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻_让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻

论文地址:

集成到 CoE 层不需要对原始模型进行任何修改,并允许每个专家模型单独进行微调。这种松散耦合的方法提供了良好的可扩展性,并支持灵活地增加到任意数量的专家。

实验结果表明,与直接使用不同领域的基础模型相比,CCoE框架可以在消耗更少的训练和推理资源的情况下显著提高性能。

国产大咖上演“复仇者联盟”,联手挑战“灭霸”o1

360首创的CoE架构,不仅让国内公司的技术开发水平与其他公司看齐,而且具有很强的实际应用价值。

目前国产的大模型在数据、算法、算力等方面跟旗舰模型还有差距,如果拿出来单项挑战的话,可以和GPT-4o媲美,但很难超越o1。

这时候,我们就需要运用中国传统的智慧——“三个臭皮匠,胜过一个诸葛亮”。

灭霸虽然强大,但复仇者联盟的能量也是无可阻挡的;o1模型虽然强大,但绝不是无敌的。

如果国内大佬们能通过CoE架构更好地分工协作的话,或许就能打败那些看起来无比强大的,甚至创造出更大的价值。

而且这也不是说说而已,早在CoE架构发布的时候,各个大模型的混合能力就已经超越了GPT-4o。

该耦合混合大模型在翻译、写作等12项指标测试中取得了80.49的总分,超过了GPT-4o的69.22分。

除了在编码能力上稍有劣势外,CoE模型在其余11个指标上均优于GPT-4o,尤其是在“逻辑推理”“多步骤推理”“诗歌欣赏”等更具中国特色的题目上,CoE的领先优势更加明显。

目前,360的“多模型协同”已经可以击败并远远超越GPT-4o,与o1-相媲美。

这就是复仇者联盟的力量,不管灭霸有多强大,团结起来的团队还是有足够的力量对抗他。

尽管8月1日才刚刚发布,但CoE早已从理论走向实践和产品,并已在360AI搜索、360AI浏览器等AI产品中落地。

人工智能搜索

据AI产品榜统计,8月360AI搜索增长113.92%,访问量超2亿,位列全球各大AI搜索增长榜单第一。

之所以如此受欢迎,是因为360AI搜索会在充分理解问题的基础上进行任务分解和规划,提供更丰富、更及时、更精准的答案。

而且,用户可以选择简单、标准、深度和多模型协同四种“AI工作流”中的一种,得到自己想要的答案模型。

比如“有多少个r?”这种简单的问题,你可以用“简单”模式提问,这样不但会有明确的答案,还能帮你分析为什么大部分LLM都会犯数数错误。

如果是代码相关的问题,AI搜索会自动安排擅长生成代码的人来帮你解答。

“标准”模式下的答案更加全面,除了代码和注释外,还提供分析解释和相关参考链接。

“深入”模式适合那些需要更多解读和分析的题目,比如下面这个书卷气和历史感十足的题目:

从最基本的来源阐释,到意境的解读与欣赏,以及创作背景、文化内涵的延伸分析,可以说是全面而完美的解答,没有任何盲区。

此外,AI搜索不仅能给出文字答案,还能根据答案自动生成思维导图,更加简洁清晰、易懂。

值得一提的是,AI搜索的第四种模式“多模型协同”,通过多位专家的协作来处理复杂的查询,帮助你找到更准确、更全面的答案。

比如前段时间最火的“9.9和9.11哪个更大?”等一系列变体。

在《o1-》刚发布的时候,纽约大学助理教授谢赛宁就考了这个经典题目,没想到连o1-这样的强生也答错了。

让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻__让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻

但如果结合国产大机型的“三将”,我们就能得出o1没有给出的正确答案。

可以看出,模型之间的协作可以大大提高问答的质量——放大每个模型的优点,同时弥补彼此的缺点。

即使第一个专家模型给出的答案并不理想,后续的反思模型、总结模型也能及时发现并修正,实现不断分解、反思的“慢思考”。

360AI浏览器

在CoE等技术的支持下,360AI浏览器可以对文本、视频、音频、图片等多模态媒体内容进行分析处理,为用户提供全方位的AI助手功能,绝对是一款不输于其他产品的效率工具。

视频内容亦是如此,即使很长的视频,也可以快速概括和描述。点击“全文”按钮,可直接获取视频的文本转录。

自动分条、文字编辑等功能大大方便了没有学过Adobe Pro的工作者,让视频编辑变得像文字处理一样直观、简单。

除了处理各类媒体内容外,用户还可以直接在浏览器中召唤AI助手,解答你在工作、生活中遇到的各种问题。

这款全能型AI助手也是基于CoE架构。

_让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻_让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻

门户网站:

具体来说,用户可以在16家厂商的54款大机型中任意选择3款大机型组建团队,进行多机型协同,从而取得远超单一大机型的效果。

这是一个典型的“愚蠢”问题——多少个半小时等于一个半小时?

专家模型一出现,漫长的分析就开始了。

但别担心。

下面的反射器模型提供了非常准确的优化建议。

后续的根据给出了一句话的总结——一个半小时就是三个半小时。

目前AI助手已推出三模型协同版本,预计9月底将推出五模型甚至更多模型协同版本。

为方便用户对比模型能力,360还推出了国内首个基于AI助手的大模型竞赛平台,收录了来自百度、腾讯、阿里、华为、智普AI、月之暗面等厂商的54个国内大模型,并支持3个模型同场竞技。

让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻__让OpenAI o1逆天的慢思考,360两月前就做出来了?周鸿祎CoE媲美CoT,应用太前瞻

如果你懒得自己选择模型,也可以直接使用AI助手的混合模型版本进行提问,根据提出的具体问题,系统会自动调度最强大的模型进行回答。

比如提的问题是关于代码生成的,就会丢给你解决,不仅代码质量高,还附带注释和测试代码。

def quick_sort(arr):
# 如果数组长度小于等于1,直接返回数组
if len(arr) <= 1:
return arr
# 选择基准元素,这里选择数组的最后一个元素
pivot = arr[-1]
# 定义两个子数组,分别存放小于和大于基准的元素
left = [x for x in arr[:-1] if x <= pivot]
right = [x for x in arr[:-1] if x > pivot]
# 递归地对左右子数组进行排序,并将结果合并
return quick_sort(left) + [pivot] + quick_sort(right)
# 测试代码
if __name__ == "__main__":
arr = [3, 6, 8, 10, 1, 2, 1]
print("原始数组:", arr)
sorted_arr = quick_sort(arr)
print("排序后的数组:", sorted_arr)

对于一些与日常生活相关的问题,比如今年国庆假期安排,统一财经就会自动出现。

擅长逻辑推理和知识题的豆包模型,可以解答你所有奇怪的问题。

这说明国产各大机型各有所长,在实现高效的分工协作之后,能够展现出前所未有的全方位能力。

大型模型协作的意义何在?

国内16家主流机型厂商齐聚360平台,足见其强大的号召力。

那么,360为何能聚集如此多国内领先的LLM厂商呢?

可能有两个最重要的原因:

- 首先是因为CoE的技术架构

好处是LLM制造商可以获得连续的数据和“坏案例”反馈,这对于提高大型模型的能力至关重要。

例如基于CoE架构的360AI搜索、AI浏览器多模型协同、模型竞赛等,都为国产模型提供了深度技术融合和“以赛促训”的平台。

相比之下,这种技术产品深度融合与提升的机会,比起国内办公平台企业收藏大型号的“龙珠”的方式,对LLM厂商来说更有价值。

- 其次是关于入口和场景

基于360在PC领域的优势,LLM可以通过桌面、浏览器、搜索的“三级火箭”入口或场景触达十亿电脑用户,这对于希望超越AI定位、成为生产力工具的厂商来说,也是一个“天赐良机”。

不难想象,未来随着国产大模型推理能力的逐渐提升,再加上能够耦合更多模型、实现更好协作模式的CoE技术架构,LLM推理势必解锁更多高级应用。

国产大机型在技术、产品上超越对手的那一天已经为期不远了。

参考:

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2