MiniMax 举办第一届伙伴日,发布视频生成大模型 abab-video-1

   日期:2024-09-03     来源:网络整理    作者:二手钢材网    浏览:226    评论:0    
核心提示:位在场的投资人说,视频生成模型是他们当天最在意的成果。数月前我们对话闫俊杰时,他提到今年视频生成模型会变得实用,这是他们的目标之一。模型能每天处理几十亿次交互的核心原因。推出了我们的第一个视频模型,也有可能是国内目前最好的视频生成模型。做视频生成模型,在你们整个布局里的必要性是什么?

“如果我们不能赢得比赛,我们就会被淘汰,没有其他选择。

程曼琪

编辑:黄俊杰

上周六(8月31日),大模独角兽在上海黄浦江畔螺旋状的“西岸漩涡”举办了首届“合作伙伴日”。

这是这家成立近三年的公司首次线下发布会,他们回顾了业务起步,披露了目前的关键用户数据——每天30亿次AI交互,3万亿个Token处理量;以及技术架构的更新。

发布会上最受瞩目的是当天首次发布的大视频生成模型abab-video-1,目前可以生成6秒2K带文字视频,帧率为25,用户可以在海螺AI网页版上体验该模型。而Sora可以生成60秒30帧的2K视频,普通用户还无法体验到。

发布会举办地的“西岸漩涡”四周环绕着巨大的螺旋楼梯,游客可以沿着步道走到顶层露台,俯瞰浦东风光,这是一条先上升,再变平,然后再上升、变平,最后到达顶部的路。此时,AI领域似乎也在螺旋中处于一个相对平稳的时期。

当创始人闫俊杰展示完利用视频生成模式制作的动画短片时,台下响起了数声尖叫声,在场至少有三位投资人表示,视频生成模式是他们当天最关心的成果。

但视频生成模型本身并不新鲜,自今年年初Sora发布以来,已有多家中国公司朝这个方向发展。

“期货”也正在成为业界的关键词:GPT-5、GPT-4o的语音和视频功能、Sora……它们要么比预期晚推出,要么亮相后迟迟未进行大规模测试。而据我们所知,国内“六小龙”(包括月之暗面、智浦AI、百川智能、零一万事、步步星等6家大型模型独角兽)今年的基础模型或多模态模型更新时间也晚于原计划。

发布会结束后,颜俊杰被问及如何看待技术进步放缓,他表示,上升、平缓、再上升的螺旋曲线是合理、健康的。从今年全球AI算力、算法性能的指数级增长,颜俊杰看到规律还在起作用:

“虽然 GPT-4o 与 GPT-4 性能差不多,但速度快了 10 倍,这也意味着算法有所提升。当计算量超过 10 倍,算法也快了 10 倍时,无法训练出更好的模型是没有意义的。”

我们还在逐一推进计划中的节点,几个月前我们和颜俊杰交流的时候,他提到视频生成模型会在今年实现实用化,这是他们的目标之一。

他当时也提到,处理较长文本的关键技术方法他们还没有实现,现在它成为了新架构的基石之一,另一个就是他们之前开发的 MoE(混合专家系统)。新的基础模型 abab 7 是一个使用 MoE+ 的多模态模型。

我们整理了颜俊杰在新闻发布会上的主旨演讲和会后集体访谈的部分内容,其中有他对评估技术进步、应对激烈竞争的思考和做法。

颜俊杰演讲摘要

以及由此得出的三个判断

大家好,我是IO创始人(昵称闫俊杰),欢迎参加我们第一届合作伙伴日活动。

首先讲一下我创办公司之前的故事。在我创办自己的公司之前,我从事了十几年的人工智能研发。当时人工智能是什么?最有代表性的应用就是人脸识别和……它们都需要定制模型,但不可能针对每个场景都进行定制,所以人工智能对很多人来说只是一个冠冕堂皇的概念。这让我作为从业者越来越困惑:我们花那么多精力去研究人工智能,到底是为了什么?

2021年春节期间,我回老家看望爷爷,他们那一代人的生活经历是我小时候最喜欢听的故事。80岁的爷爷想写一本回忆录,但不会打字,精力也不够。理论上来说,AI很适合做这个任务,但很遗憾,当时的AI还做不到。

这件事让我意识到,AI发展的最终目的是更加普惠,帮助所有人。用三个词来总结,就是。

当我想通了这一点,一切开始明朗起来,让我重新找回了对人工智能研究的初心和热爱,以及强烈的使命感。

但问题出现了:如何开始?

为了追寻这个目标,我们在2021年底成立,在一间不到100平米的房间里写下了我们的初心和道路,直到今天我们依然坚定地选择了其中的三个判断。

交互式视频制作软件_交互纪录片什么意思_

颜俊杰展示了Team X在创业之初写下的初衷和路径判断。

首先,我们相信下一代人工智能已经无限接近通过图灵测试,交互自然,触手可及,无处不在。

第二,要实现这个目标,是一个庞大的系统工程,就像做芯片一样,不可能只做5%、10%的提升,需要有技术突破,带来一个数量级的提升。

第三,因为这个很难,所以我们要坚定地迈出步伐,把问题分解开来。我们认为应该从容错率高的闲聊、写作开始。随着技术一步步进步,我们可以做出更强大、更面向问题解决的应用,最终将为每个人带来扩展的智能。

在多元化用户的参与与反馈下,和用户一起创造智能不仅是目标,也是最高效甚至唯一的途径,很多时候不是我们的技术帮助了用户,而是用户帮助我们拥有更好的智能。

每天 30 亿次互动,处理 3 万亿个 token

从2021年12月9日成立到现在已经整整996天了,目前大模型每天与终端用户(包括自有产品+开放平台合作伙伴)的互动次数达到30亿次。

30亿次意味着什么?这包括每天处理超过3万亿个文本token,每天生成2000万张图片,每天生成7万小时的语音。

3万亿个文本标记意味着什么?这相当于一天经历3000个人的生命。

_交互纪录片什么意思_交互式视频制作软件

这30亿个连接的背后,是来自全球各地与我们一起成长的用户,无论性别、年龄、地位,他们都有一个共同的特点:多元、创意、活力。我们力求用最好的技术与他们一起创造惊喜时刻,这也是我们更加专注于改进技术的底层驱动力。而这些用户真实的故事,在模型中汇聚成了每天超过3亿分钟的互动时长。

交互时间也是处理量最好的近似指标,相关数据可以在很多第三方数据网站上找到,比如Tower。

一年前今天,我们每天的互动时间只有3%左右,而今天已经超过50%,这也是中国所有公司中互动时间最多的,多个数据显示,我们可能。

_交互式视频制作软件_交互纪录片什么意思

继续提高人工智能渗透率的方法:降低错误率、无限长度的输入/输出、多模态

但即使取得了一些进展,我们连接的用户还没有达到世界人口的1%,只有0.8%,而距离50%还有很长的路要走。

如何从今天的1%增长到100%?最重要的是提高AI产品在用户中的普及率和使用深度。

基于两年来的多次回顾和总结,我们认为提高这两点只有通过一句话才能实现:“科学技术是第一生产力”。

在大模型领域,每当我们的模型有显著的提升、处理速度有显著的提升的时候,我们可以看到用户的使用场景、用户的使用深度都有了显著的提升,反过来这里也有一个真实的案例:我们曾经出现过一个bug,导致重复对话的错误率上升,当天的对话量下降了40%。这也解释了我们坚持技术创新的深层原因。

当今AI应用要想在普及和使用深度上实现质的提升,还有许多技术挑战需要克服。我们认为最重要的三个优化方向是:

如何让模型的错误率降下来:目前的模型错误率还是比较高的,有时候很惊人,有时候又很不靠谱,这也是模型无法处理复杂任务的原因,因为复杂任务往往需要多个步骤,更高的错误率会导致失败率呈指数级增长。降低模型的错误率是模型处理复杂任务最根本的前提,也是增加用户使用深度的核心手段。 无限的输入输出:为什么这个很重要?原因很简单,人有这个能力,传统大模型的计算需求随着输入输出处理量的平方增长,很快就会达到计算能力无法承受的上限,需要底层创新来解决。 多模态:生活中不难发现,文字交互只是很小的一部分,更多的是语音、视频交互。声音、图片、文字、视频等多模态内容已经成为信息传递的主流,为了提高普及率,多模态内容越来越受欢迎。莫代尔是最佳选择。

MoE + 线性注意力机制:更快 + 更长

那么,我们如何攻克这些技术难关呢?在大模型领域,我们认为在同等能力的前提下,“越快越好”。

我们都知道,大型语言模型有一个规律,就是同样的算法,训练数据和参数越多,可以达到的效果越好。推理速度越快的模型,可以更有效地利用计算资源迭代更多的数据,从而达到更好的模型能力。所以我们认为,速度越快越好,这是一个简单却容易被忽视的道理。

“快”是底层大模型最核心的技术研发目标,我们围绕这一点做了很多技术创新,这里举两个具体的例子。

第一,MoE。在 MoE 架构还未被业界认可的时候,我们就下定决心,要在国内率先在核心 MoE 算法技术路线上实现突破。我们对比了 Dense 模型和非原生的 MoE, MoE。在上一代模型 abab 6.5s 中,我们的 MoE 模型比 Dense 模型快 3-5 倍。这也是 6.5s 模型能每天处理数十亿次交互的核心原因。我们的 6.5s 足够快,可以得到广泛部署。

交互纪录片什么意思__交互式视频制作软件

在解决MoE问题的过程中,我们遇到了很多技术挑战,但在花费大量精力并最终解决问题之后,更加坚定了我们自主攻关的信心和面对复杂技术挑战的勇气。

这种勇气使得我们在过去几个月里解决了一个更加困难的技术挑战,这也是我的第二点——。

它不仅带来了层面的提升,更是解决无限长度输入、无限长度输出问题的关键一步,简单来说就是通过左边的计算乘法找到右边乘法的近似值,让传统模型架构中的输入长度与计算复杂度之间的二次增长关系变成了线性关系。(注:随着处理的文本量增加,线性函数的线性关系带来的计算复杂度的增加会越来越小于二次函数的平方关系。)

虽然这个想法在 2019 年就被提出,但从来没有人将它在大规模模型上实现。我们的团队找到了一种新的规范化方法来替代它(标准中使用的计算操作),以及一种位置编码来提供计算非线性。此外,我们还找到了一种有效的方法,使大规模训练成为可能。

今年 4 月,我们作为最早一批深入该领域的 AI 公司之一开始研发,并成功开发出真正媲美 GPT-4o 水平的新一代基于 MoE+ 的模型。

以目前国际上领先的三个模型 GPT-4o、.5、abab 7 为例,我们可以看到当输入长度变长时,相比非标准模型,速度的提升非常显著。当 token 长度为 10000 时,新模型的处理效率可以达到 2-3 倍,而且长度越长,模型效率的提升越明显。理论上,模型能处理的 token 接近无限长。

_交互式视频制作软件_交互纪录片什么意思

在这个过程中,我们惊喜地发现 GPT-4o 竟然做到了同样的事情。这给了我们很大的信心,我们在探索前沿技术上走的是同一条路。团队已经越来越强大了。在技术创新能力方面,我们需要继续坚持,不断寻找加速技术进步的创新,才真正有机会成为最好的。

我们意识到,即使我们已经做到了 MoE,并取得了数倍的提升,我们仍然需要做很多其他的技术创新。乘法让 AGI 成为现实。abab 7 模型的核心技术是基于 MoE+ 的。

多模式进展和视频生成模型

另外我们在abab 7上构建了多模态理解能力,另外我们把类似的创新技术应用到文本等多个模型上,包括声音、视频。

如今的语音机型又增加了国际领先、非常实用的功能:

多语言:支持日语、韩语、西班牙语、法语、粤语等十余种语言,也是全球首创;情感表达:生成的句子超拟人化,情绪变化细腻;音乐:第一个音乐模型已经发布,这个模型具有极高的艺术性和可塑性,相信会给我们的创作者和合作伙伴带来很多新的玩法和惊喜。

我们的语音模型是从星业,海螺等产品中磨练出来的。我们坚持在自己的产品和API中使用相同的模型。

我们推出了我们的第一个视频模型,这可能是国内最好的视频生成模型。与市场上的视频模型相比,我们的模型有以下独特之处:

文字反应良好:得益于文字的不断积累,指令一气呵成;压缩率高:得益于我们在网络架构方面的经验,对于高度动态变化的信息有良好的表现力,由此带来的高推理效率功不可没。风格多样:我们在全球拥有多样化的用户分布,无论是3D电影场景还是2D动画,都能驾驭自如;无论是中国风还是科幻、美漫,都不是难事。

当我们把更新更强大的模型能力结合起来,会发生什么?我们尝试使用多个模型生成短视频《魔币》,无需任何人工修改,后期会把视频背后的应用发布出来,为“如何只用模型生成优质视频内容”提供参考。未来我们会把所有新模型、新能力同步到开放平台、兴业、海螺AI上体验。

交互式视频制作软件__交互纪录片什么意思

利用人工智能生成的素材制作的短片《魔法硬币》放映结束。

我这里有一个神奇的硬币,我们非常希望我们的AI能够像这个神奇的硬币一样,帮助很多人创造无限的想象,把AI带给每一个人。

视频、声音和音乐模型已全面发布并可供使用;新模型 abab 7 将在未来几周内发布

模型和产品更新方面,声音模型、音乐模型、视频模型目前均已全面发布。

此外,速度和有效性可与GPT-4o匹敌的模型abab 7新版本也将在未来几周内发布。

交互纪录片什么意思_交互式视频制作软件_

现有型号和产品。

所有的模型,包括最好的音乐模型、声音模型、最好的视频模型以及我们认为可能成为最好的文本模型,都可以在开放平台上体验。

我们的开放平台到现在有3万多开发者,2000多付费客户,还在快速增长。同时这些模型在海螺AI里面也可以体验到,海螺AI也是我们的个人助理。复杂的模型组合在一起用,能结合出什么样的复杂、高级的玩法?我们会把它放在内容社区产品星野APP里面。

作为有理想却又脚踏实地的人,我们仍在努力前行;两年半过去了,我们很荣幸能有你们这么多同行,以及我们在世界各地日益增多的用户。

感谢大家一直以来的关注与支持,希望与大家一起努力,把人类智慧的界限再推得更远一些,真正实现。

小组访谈摘录

谈技术:在我们自己的测试集上,所有国产模型都比 GPT-4 差

问:今年的一个现象是,许多进展都变成了未来,发布或公开测试被推迟。您认为目前人工智能技术进步的速度如何?下一个重要的进展会在什么时候?

闫俊杰:核心的标志可能不是 GPT-4o 的发布,也不是我们做了一个 MoE 模型,真正本质的变化是现在所有模型的错误率都是两位数,什么时候能有一个模型,能把错误率降到个位数?

为什么这个这么重要?因为这个改变可以让很多复杂任务从不可能变成可以完成。复杂任务需要乘以多个步骤,而乘以之后错误率就会被放大。这也是为什么现在 Agent 不行,而 GPT-store 也不行的原因,就是模型不够好。

什么时候能实现?我们可以看到现在很多公司都有10倍以上的算力。算法也在进步:GPT-4o和GPT-4性能差不多,但是速度可能快10倍。也意味着算法的进步。当计算量10倍以上,算法快10倍的时候,没有理由不能训练出更好的模型。

所以我的判断是,如果Law是对的,那么这个模型一定会出现,而且标志就是产生个位数错误率的模型。

Q:你是怎么评价各大模型公司的模型质量的?现在大家都说他们很棒。

颜俊杰:这个任务比较难,我们也经历过评估标准不够好,模型迭代就走偏的情况。

我只能说说我们目前的做法:我们的开放平台有超过 3 万名开发者和数千名付费客户,其中一些客户要求我们保证结果。我们根据这些场景构建了一个测试集。这是来自多个来源的。客户的真实使用。

如果看其他排名,GPT-4 基本排在中游,但在我们的测试集上,GPT-4 和 GPT-4o 确实排在最前面,包括我们的模型,其他模型跟 GPT-4 有根本的差距,而且问题越难,差距就越大。从这个评估来看,我们还有很大的进步空间。

Q:今年视频生成赛道竞争非常激烈,在你们的整体布局中,发展视频生成模型的必要性是什么?

颜俊杰:我们的目标一直是做多模态输出,很少有基础大模态的公司把声音做好,但我们把声音和音乐都做得非常好,今天我们也把视频做得非常好。

本质是一个基本的道理:大模型之于人类社会最核心的意义,就是为了更好地做信息处理,而我们每天看到的信息,绝大多数不是文字,而是多模态内容:打开小红书,全是图文;打开抖音,看到的全是视频;甚至打开拼多多买东西,看到的全是图片。

因此要想增加用户覆盖率和用户深度,唯一的办法就是输出多模态内容。

Q:你们把 80% 的算力和资源都投入到了 MoE 上,未来你们在大模型的开发上还会保持这样的投入吗?你们会在产品和大模型之间如何分配投入资源?

颜俊杰:我对技术的理解逐渐简单了:在投入巨资进行技术研发的时候,我们追求的不是10%的提升,而是几倍的提升。因为前者你不做,别人就会做;很多时候我们自己不做,别人也不做,但满足用户需求非常重要。

那么什么样的技术我们最愿意花钱呢?核心的判断是我们是否认为这个方向能带来几倍的提升。

谈产品:星野不是一款陪聊产品,而是一个内容社区

问:您如何看待.AI被收购以及同伴AI的发展前景?

颜俊杰:我解释一下一件事,我们的产品比如星野,并不是设计来陪用户聊天的,而是一个内容社区,用户可以在里面创造人物、故事,甚至世界观,其他用户也可以分享别人创造的世界观,形成一种互动的、类似小说的互动体验。

聊天类产品,体验主要来自于模型,而星野的输入来自于用户,所以每个用户得到的个性化输出,都来自于模型加上其他用户的创作,这是最核心的区别。

至于收购.AI,则是大家都受益,是一件值得高兴的事。

Q:有用户反映,使用星野或者星野时,很难与虚拟人物进行深入交流,导致用户流失,你们如何处理这个问题?

颜俊杰:模型还不够好,它没有长时间的记忆,不能理解特别复杂的指令。这就是为什么我们想让模型能够处理无限的输入和输出,让它能够理解更多,拥有更多的多模态。

这其中也包括对创作者的更多激励。社区是所有互联网产品中最难做的,需要一步步进化,如果看十年前,B站可能还是金克拉,但现在B站显然是有很多知识、AI内容,什么都有,这是一个进化的过程。

谈竞争:大公司之间的竞争让我们更快地看到胜利的本质

问:朱啸虎最近说,六大模型公司最好的归宿就是被大公司收购,因为商业化难度太大。您看到的主要困难是什么?用户付费习惯、模型调用成本,还是中国公司的数字化程度太低?

颜俊杰:当一个产品没人用或者不赚钱的时候,你绝对不能怪用户,也不能怪生态系统,只能怪你自己。

2000年的时候腾讯不知道怎么赚钱,尝试了很多商业化方案,都失败了。最后找到了手机增值业务,后来慢慢又找到了QQ、游戏,都经历了这个过程。对一个行业来说,这是一个考验,能过就走,过不去就关门。

Q:跟星业类似的产品有很多,比如字节跳动的猫盒子、腾讯文学的梦想岛、快手的太空飞船、美团的哇喔,如何提高壁垒?

颜俊杰:总体来说这是好事,在电动汽车、手机、移动互联网等领域,很多企业进行了长期激烈的竞争,最终让中国产品走上了世界领先地位。

作为一家小型创业公司,如果我们不能赢得竞争,我们就会被淘汰和倒闭。其实没有其他选择。

和大公司竞争还有一个好处,就是让我们更快的看到创业公司取胜的根本因素是什么。比如在买流量方面,大公司的实力可能比你强上千倍,你跟他们竞争可能会亏钱,这是没用的。

我们能做的,就是把那些可以让我们更强大的东西无限放大,有两点:一是如何提升技术,二是如何更好地和用户共创。

Q:除了产品的竞争以外,您怎么看待今年的大车型价格战?

颜俊杰:大模型的价格战客观上大大增加了模型调用的次数,很多传统企业也开始愿意用大模型,觉得反正成本低,出错了再调用一次就行了。

正是因为竞争激烈,国内企业才不得不把自己的模型做得更好。到了一定阶段之后,他们发现他们在海外也是有竞争力的。比如在东南亚或者一些地区,以前他们觉得可能要用GPT,但是GPT的语言支持其实是不够的。现在国内的模型,至少在非英语语言方面,已经可以和GPT相媲美了。

竞争是不可避免的,我们看到了积极的一面:中国大模型的使用量在大幅增长,中国模型在海外的竞争力越来越强,这是两个积极的变化。

标题图片来源:利用视频生成模型制作的短片《魔法币》截图。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2