具体来说,火山引擎推出了新的豆袋和视频生成模型,以及豆袋音乐模型和同声传译模型。还升级了通用语言模型、图模型、语音模型,不断增强各种模态和大规模调用量,持续凸显豆宝大模型“模型更强、价格更低、实施更容易”的优势”。此外,众多行业客户也在会上分享了他们在大模型应用方面的实践经验。
此次豆宝带来的一系列大型模型开发中,最引人瞩目的莫过于全新的豆宝视频生成模型,能够带来影视级视觉体验的视频生成效果,全面推动豆宝的步伐。 AIGC豆包大模型应用创新。 。
在豆宝视频生成模型正式上线之前,很多同学可能已经使用过市面上的一些AI生成视频产品。小编以前做过经验。一般来说,这些大模型生成的视频往往带有明显的“AI痕迹”。无论是视频的内容逻辑、画面的自然度等都需要提高,而且语义指令的理解也存在问题,经常会生成一些不符合指令要求的视频。
这些问题在豆宝视频生成模型中得到了具体解决,也成为其不可忽视的产品亮点。
首先,豆宝视频生成模型具有精准的语义理解能力,支持多动作、多主体交互的内容生成。与大多数视频生成模型只能完成单个动作的简单指令相比,豆宝视频生成模型可以遵循更复杂的操作,解锁顺序多镜头动作指令和多个主体交互的能力,指向哪里打,打开哪里你的想象力。权力之门。
比如下面的视频,两个主角的动作和表情都非常自然,包括马匹看起来都非常真实。

下面还有视频。首先,女主的表情非常细腻、自然。当男主进入画中时,女主慢慢戴上墨镜,与男主动作的互动也非常真实。她似乎有些抗拒,复杂而细腻的微动作全部展现出来,赋予了视频浓厚的“故事性”。

其次,豆宝视频生成模型支持强大的动态和炫酷的镜头动作,让AI生成的视频告别PPT动画质感。针对高动态的复杂场景视频和表情多样的文字指令,豆宝视频生成模型基于高效的DiT融合计算单元,对视频和文字进行更充分的压缩和编码,使得生成的视频的动作更加灵活,镜头更加多样,表达方式更加丰富、更加细致。
并且生成的视频既可以包含拍摄对象的大幅动作,也可以包含炫酷的镜头切换。支持变焦、环绕、平移、变焦、目标跟随等多种镜头语言,灵活控制视角。
比如下面的视频,前后两位主角的变焦切换非常自然。感觉就像是真正的摄影师在水中拍摄的场景,不像之前人工智能生成的视频那样僵硬。


在内容逻辑上,豆宝视频生成模型还支持一致的多镜头生成,可以在10秒内讲述一个完整的故事。它采用全新设计的扩散模型训练方法,成功克服了多镜头切换时保持一致性的困难。多个镜头切换时,保持题材、风格、氛围、逻辑的一致性,实现导演自由。
例如下面的动画视频,三个镜头组成了一个简短易懂的场景故事,看起来就像是从普通动画电影中截取的片段。

另一个例子是下面的视频,讲述了一名男子乘坐火箭撞向建筑物并引发爆炸的故事。三个镜头的剪辑展现了流畅的故事逻辑,还给了主角紧张表情的特写,调动观众的情绪,让人唏嘘不已。 AI的“创造意识”觉醒了吗?

此外,豆宝视频生成模型还可以保证视频的高保真度和高美感,可以生成细节层次丰富、保真度极高的影视级图像。拥有专业级的色彩和谐和光影布局,极大提高了图像的视觉美感。
比如下面的视频,整个画面的灯光、色调、场景、人物表情都非常精致细腻,有大片电影的质感。谁会想到这是一段人工智能生成的视频?

同时,其深度优化的结构大大提高了视频生成的泛化能力,支持黑白、3D动画、2D动画、国画、厚涂等多种风格,包括1:1、3:4 、4:3、16:9、9:16、21:9比例,带您进入更自由的世界。

可见,豆宝视频生成模型的表现确实相当惊人。无论是语义理解能力、多个主体动作的复杂交互画面,还是多镜头切换的内容一致性,都能接近专业真人视频。至于工人的水平,可能大家很难察觉,除非是人工智能生成的。

能够做到这一点,对于字节跳动和火山引擎来说,其实完全是在意料之中。
首先,在“视频”能力方面,字节跳动已经占据优势。火山引擎不仅是抖音计算服务的提供者,也是国内众多视频、直播等业务背后的可靠支撑。多年来积累了应对视频业务流量、时延、稳定性等各种严峻挑战的经验。独特的技术能力。
在AI方面,也就是大模型的能力,在火山引擎的支持下,字节跳动豆宝大模型在算力、算法、数据、场景等方面都有非常丰富的资源。具体到这个豆宝视频生成模型,我们也可以看到字节跳动在视频大模型技术研发方面的持续投入和创新。例如,他们采用了高效的DiT融合计算单元,并新设计了扩散模型训练方法,以实现一致的多镜头生成。此外,他们还对结构进行了深度优化,大大提高了视频生成的泛化能力。
自去年5月正式发布以来,大豆袋款就展现出了强劲的市场竞争力。在深圳火山引擎AI创新巡演上,火山引擎总裁谭代也透露了豆袋模型的最新用法:
截至9月,豆宝大模日均使用量已突破1.3万亿,4个月整体增长超过10倍。在多模态方面,豆宝和文声图模型平均每天生成5000万张图像,此外,豆宝目前每天处理85万小时的语音。”
谭岱,火山引擎总裁
如此巨大的使用量显然代表了市场对大豆袋模型使用体验和效果的认可。同时,也得益于字节大模式一贯的发展路径和逻辑:先通过toC打磨产品,模式能力具备竞争优势后,再通过toB拓展市场。
比如,豆宝语言大模型其实早在去年就在字节跳动内部上线,也是首批通过大模型服务安全注册的大模型之一。字节跳动内部已有50多家业务广泛使用豆宝大模型进行AI创新,其中包括抖音、今日头条等数亿DAU的产品。经过近一年的打磨,于今年5月正式发布。
这次的豆宝视频生成模型也是如此。其早期版本于今年2月在极萌()上应用。经过不断迭代优化,此次正式进军企业市场。
未来,豆宝视频生成模式还可以为很多企业场景带来创新。例如,在电商营销场景中,豆包视频生成模型不仅可以将产品快速变成3D动态多角度展示,还可以配合中秋、七夕、春节等节点。更换背景和样式,生成不同尺寸并快速上架;在动画教育场景中,豆袋和视频生成模型可以显着降低动画的制作成本,生动地呈现童话故事的情节。
此外,还有城市文化旅游、音乐MV、微电影、短剧等应用场景,都可以通过豆宝视频生成模型来降低成本、提高效率、实现创意合规。

总之,豆宝视频生成模式的推出将为创作者乃至各行各业的工作者带来探索未来世界的强大工具,为大家提供有趣、快乐、自由的创作体验,用更广阔的创作空间和灵感 启发并帮助每个人打开连接现实和想象世界的大门。


