相比较而言,这家公司的理念提出得更早,做法更有前瞻性,应用落地得更快。
他们所采用的架构已经可以和o1相媲美了,如果更新到下一代的大型车型,甚至有可能占据领先地位。
没错,这次周鸿祎等人走的路,是殊途同归。
360首创的CoE架构,已经可以和o1的思维链模型相媲美。
360不仅在技术方面如此有前瞻性,在实施上也领先一步,对应用趋势的把握非常准确。
“试金石”思维链让人沉默
o1的出现,开辟了GPT系列之外的新一代机型。
它代表了人工智能发展新范式的开始,首次在法学硕士领域实现了一般复杂推理能力。
在代码生成方面,o1 堪比 IOI 金牌水平,在物理、生物、化学等 STEM 学科的基准 GPQA 测试中,甚至超越了人类的博士。
在最新的LMSYS排行榜上,o1-不仅包揽了各个领域的第一名,而且数学能力更是领先第二名3.5个区块。
这一切,都得益于o1背后的思维链(CoT),那么思维链的具体工作原理是什么呢?
他们对此讳莫如深,坚决关闭o1思维链的推理过程,并向深挖此事的用户发出“封禁警告”。

在官方的报告中,只有很简短的一句话提到模型训练:通过强化学习,o1学会了磨练自己的思维链CoT,并改进自己的策略。
然而业界惊讶地发现,o1的思维链模式,居然与360的“慢思考”理念不谋而合?
而这一次,国内企业更是领先了。
LLM,你需要学会“慢慢思考”
作为国内公司的先行者,360早在o1发布之前就提出了类似的结论。
今年7月底的ISC.AI大会上,360创始人周鸿祎从“快思考”与“慢思考”的角度解读了LLM思维链,类比人类的思维过程。
具体来说,“快速思考”的特点是无意识的快速直觉,导致反应很快,但能力不足。
GPT类型的大模型,通过大量的知识进行训练,主要目的是学习“快速思考”的能力,可以不假思索地回答各种问题,并且说得流利,但答案的质量不够稳定。
“慢思考”则相反,其特点是缓慢、有意识、有逻辑,就像写一篇复杂的文章,需要很多步骤,在回答问题之前,会反复思考、分解、理解、推理问题,然后才能给出最终答案。
周鸿祎所描述的“慢思考”似乎与他强调的链式推理思维如出一辙,让人不得不惊叹360的技术思维与远见。

技术报告
创新的CoE架构,可比的CoT模式
o1采用的思维链,能将困难的问题分解成更简单的步骤,让模型一步步去解决,从而实现“慢思考”,提高推理能力。
那么,如果不利用思维链实现这种“慢思考”的推理模式,还有哪些其他的技术路径呢?
还有网友大胆发声,认为o1并不是一个从头训练出来的新模型,而是一个相对较小的模型,与GPT协作才解锁了如此惊人的推理能力。
在这方面,360的研发团队是走在前列的。
早在8月1日,他们就推出了第一个CoE技术架构,让多个大模型可以以团队形式协同工作,每个查询不仅调用多个模型,还会进行多次调用,强调像CoT一样的推理过程。
例如在搜索场景中,原始查询先经过意图识别模型处理,再将任务分解、分类后派给相应模型进行处理。
在“三模型”设定中,第一个人充当专家,回答第一轮提问;第二个人充当反思者,对专家的答案进行修正和补充;第三个人充当总结者,对前两轮答案进行优化和总结。
相比之下,MoE(混合专家)架构虽然也是由多个专家模型组成,但每次推理只能调用其中一个,并且极大依赖于路由分配机制。
如果路由错误或者某个专家出现故障,CoE 架构的整体性能就会受到影响。

: 与和
CoE 架构允许多个模型协作、并行工作,进行多步骤推理。
用一句话总结,相较于MoE,CoE模型在泛化性、鲁棒性、可解释性和推理效率等方面都做出了提升,既能加快推理速度,又能降低使用成本。
更进一步,360还提出了CCoE设计,包括一个主干LLM和多个CoE(of)层,每层包含一个或多个不同领域的SOTA专家模型。

论文地址:
集成到 CoE 层不需要对原始模型进行任何修改,并允许每个专家模型单独进行微调。这种松散耦合的方法提供了良好的可扩展性,并支持灵活地增加到任意数量的专家。
实验结果表明,与直接使用不同领域的基础模型相比,CCoE框架可以在消耗更少的训练和推理资源的情况下显著提高性能。
国产大咖上演“复仇者联盟”,联手挑战“灭霸”o1
360首创的CoE架构,不仅让国内公司的技术开发水平与其他公司看齐,而且具有很强的实际应用价值。
目前国产的大模型在数据、算法、算力等方面跟旗舰模型还有差距,如果拿出来单项挑战的话,可以和GPT-4o媲美,但很难超越o1。
这时候,我们就需要运用中国传统的智慧——“三个臭皮匠,胜过一个诸葛亮”。
灭霸虽然强大,但复仇者联盟的能量也是无可阻挡的;o1模型虽然强大,但绝不是无敌的。
如果国内大佬们能通过CoE架构更好地分工协作的话,或许就能打败那些看起来无比强大的,甚至创造出更大的价值。
而且这也不是说说而已,早在CoE架构发布的时候,各个大模型的混合能力就已经超越了GPT-4o。
该耦合混合大模型在翻译、写作等12项指标测试中取得了80.49的总分,超过了GPT-4o的69.22分。
除了在编码能力上稍有劣势外,CoE模型在其余11个指标上均优于GPT-4o,尤其是在“逻辑推理”“多步骤推理”“诗歌欣赏”等更具中国特色的题目上,CoE的领先优势更加明显。
目前,360的“多模型协同”已经可以击败并远远超越GPT-4o,与o1-相媲美。
这就是复仇者联盟的力量,不管灭霸有多强大,团结起来的团队还是有足够的力量对抗他。
尽管8月1日才刚刚发布,但CoE早已从理论走向实践和产品,并已在360AI搜索、360AI浏览器等AI产品中落地。
人工智能搜索
据AI产品榜统计,8月360AI搜索增长113.92%,访问量超2亿,位列全球各大AI搜索增长榜单第一。
之所以如此受欢迎,是因为360AI搜索会在充分理解问题的基础上进行任务分解和规划,提供更丰富、更及时、更精准的答案。
而且,用户可以选择简单、标准、深度和多模型协同四种“AI工作流”中的一种,得到自己想要的答案模型。
比如“有多少个r?”这种简单的问题,你可以用“简单”模式提问,这样不但会有明确的答案,还能帮你分析为什么大部分LLM都会犯数数错误。
如果是代码相关的问题,AI搜索会自动安排擅长生成代码的人来帮你解答。
“标准”模式下的答案更加全面,除了代码和注释外,还提供分析解释和相关参考链接。
“深入”模式适合那些需要更多解读和分析的题目,比如下面这个书卷气和历史感十足的题目:
从最基本的来源阐释,到意境的解读与欣赏,以及创作背景、文化内涵的延伸分析,可以说是全面而完美的解答,没有任何盲区。
此外,AI搜索不仅能给出文字答案,还能根据答案自动生成思维导图,更加简洁清晰、易懂。
值得一提的是,AI搜索的第四种模式“多模型协同”,通过多位专家的协作来处理复杂的查询,帮助你找到更准确、更全面的答案。
比如前段时间最火的“9.9和9.11哪个更大?”等一系列变体。
在《o1-》刚发布的时候,纽约大学助理教授谢赛宁就考了这个经典题目,没想到连o1-这样的强生也答错了。

但如果结合国产大机型的“三将”,我们就能得出o1没有给出的正确答案。
可以看出,模型之间的协作可以大大提高问答的质量——放大每个模型的优点,同时弥补彼此的缺点。
即使第一个专家模型给出的答案并不理想,后续的反思模型、总结模型也能及时发现并修正,实现不断分解、反思的“慢思考”。
360AI浏览器
在CoE等技术的支持下,360AI浏览器可以对文本、视频、音频、图片等多模态媒体内容进行分析处理,为用户提供全方位的AI助手功能,绝对是一款不输于其他产品的效率工具。
视频内容亦是如此,即使很长的视频,也可以快速概括和描述。点击“全文”按钮,可直接获取视频的文本转录。
自动分条、文字编辑等功能大大方便了没有学过Adobe Pro的工作者,让视频编辑变得像文字处理一样直观、简单。
除了处理各类媒体内容外,用户还可以直接在浏览器中召唤AI助手,解答你在工作、生活中遇到的各种问题。
这款全能型AI助手也是基于CoE架构。

门户网站:
具体来说,用户可以在16家厂商的54款大机型中任意选择3款大机型组建团队,进行多机型协同,从而取得远超单一大机型的效果。
这是一个典型的“愚蠢”问题——多少个半小时等于一个半小时?
专家模型一出现,漫长的分析就开始了。
但别担心。
下面的反射器模型提供了非常准确的优化建议。
后续的根据给出了一句话的总结——一个半小时就是三个半小时。
目前AI助手已推出三模型协同版本,预计9月底将推出五模型甚至更多模型协同版本。
为方便用户对比模型能力,360还推出了国内首个基于AI助手的大模型竞赛平台,收录了来自百度、腾讯、阿里、华为、智普AI、月之暗面等厂商的54个国内大模型,并支持3个模型同场竞技。

如果你懒得自己选择模型,也可以直接使用AI助手的混合模型版本进行提问,根据提出的具体问题,系统会自动调度最强大的模型进行回答。
比如提的问题是关于代码生成的,就会丢给你解决,不仅代码质量高,还附带注释和测试代码。
def quick_sort(arr):
# 如果数组长度小于等于1,直接返回数组
if len(arr) <= 1:
return arr
# 选择基准元素,这里选择数组的最后一个元素
pivot = arr[-1]
# 定义两个子数组,分别存放小于和大于基准的元素
left = [x for x in arr[:-1] if x <= pivot]
right = [x for x in arr[:-1] if x > pivot]
# 递归地对左右子数组进行排序,并将结果合并
return quick_sort(left) + [pivot] + quick_sort(right)
# 测试代码
if __name__ == "__main__":
arr = [3, 6, 8, 10, 1, 2, 1]
print("原始数组:", arr)
sorted_arr = quick_sort(arr)
print("排序后的数组:", sorted_arr)
对于一些与日常生活相关的问题,比如今年国庆假期安排,统一财经就会自动出现。
擅长逻辑推理和知识题的豆包模型,可以解答你所有奇怪的问题。
这说明国产各大机型各有所长,在实现高效的分工协作之后,能够展现出前所未有的全方位能力。
大型模型协作的意义何在?
国内16家主流机型厂商齐聚360平台,足见其强大的号召力。
那么,360为何能聚集如此多国内领先的LLM厂商呢?
可能有两个最重要的原因:
- 首先是因为CoE的技术架构
好处是LLM制造商可以获得连续的数据和“坏案例”反馈,这对于提高大型模型的能力至关重要。
例如基于CoE架构的360AI搜索、AI浏览器多模型协同、模型竞赛等,都为国产模型提供了深度技术融合和“以赛促训”的平台。
相比之下,这种技术产品深度融合与提升的机会,比起国内办公平台企业收藏大型号的“龙珠”的方式,对LLM厂商来说更有价值。
- 其次是关于入口和场景
基于360在PC领域的优势,LLM可以通过桌面、浏览器、搜索的“三级火箭”入口或场景触达十亿电脑用户,这对于希望超越AI定位、成为生产力工具的厂商来说,也是一个“天赐良机”。
不难想象,未来随着国产大模型推理能力的逐渐提升,再加上能够耦合更多模型、实现更好协作模式的CoE技术架构,LLM推理势必解锁更多高级应用。
国产大机型在技术、产品上超越对手的那一天已经为期不远了。
参考:


