推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

火山爆发震撼天地，字节跳动进军 AI 视频生成领域

日期：2024-09-30 来源：网络整理作者：二手钢材网浏览：282 评论：0

核心提示：秒的视频是豆包视频生成模型基于以上提示词想象创造的。你不仅能心动，而且不久之后就能真正开始体验豆包视频生成模型！除了视频生成，字节跳动也强势进军音频生成领域，发布了豆包音乐模型及同声传译模型。

字节实时音视频__字节跳动短视频制作

视频链接：

提示词：火山爆发，巨大的蘑菇云升起，岩浆顺山而下。镜头拉近，岩浆从火山口中喷涌而出。

这段10秒的视频是豆宝视频生成模型根据上述提示词的想象而创作的。可以说，这段视频非常写实，摄影技术也很娴熟，足以纳入到任何影视制作中。

拥有、Dream等视频创作工具的字节跳动正式宣布进军AI视频生成领域。那是本周二，“2024火山引擎AI创新之旅”来到深圳。此次巡演，字节跳动如火山爆发，发布了针对不同细分领域（视频生成、音乐、同声传译）的三大多模态模型。图模型和语音模型得到了重大升级。这些模型共同打造了火山引擎的“豆宝全模大模型家族”。

家族新秀：豆宝视频生成模型与

惊人的、惊奇的、令人眼花缭乱的……

此次深圳站城市巡演，火山引擎带来了豆宝全模大模型家族的两位新人：（Pixel Beat）和（）。

记忆力好的读者可能还记得这个词。是的，去年11月，它就已经凭借高动态视频生成能力在AI界引起轰动。有兴趣的读者可以访问《视频生成新突破：轻松呈现复杂动作和炫酷特效》。

今年5月，豆宝视频生成模型的早期版本开始在极盟AI上应用，并获得了大量好评。现在几个月过去了，豆宝视频生成模型已经迭代升级，能力得到了很大的提升。机器之心也测试体验了其最新版本。

经过实际测试，这两个豆袋视频生成模型的效果确实超出了我们的想象。在此之前，大多数视频生成模型给出的结果就像PPT一样：场景通常变化不大，而变化较大的场景往往会出现不一致的情况。

豆宝视频生成模型不仅可以生成连贯的视频，还支持在生成的视频中使用不同的摄像机移动、多镜头切换、变焦等技术。此外，豆宝视频生成模型还支持各种常见设备的多种不同风格和长宽比，使其适用于各种平台和场景。

字节跳动短视频制作__字节实时音视频

视频链接：

提示语：一位老人正在眺望远处的大海。镜头慢慢拉远。一艘白色的船从画面右侧驶来，天空中飞翔着几只海鸥。

从技术上来说，豆宝视频生成模型是基于DiT（扩散）架构的。通过高效的DiT融合计算单元，视频可在大动态和移动镜头之间自由切换，并具备变焦、环绕、平移、变焦、目标跟随等多镜头语言能力。全新设计的扩散模型训练方法，克服了多镜头切换的一致性问题，在切换镜头时能够同时保持题材、风格、氛围的一致性。这也是豆宝视频生成模式的独特亮点。

前几天，豆宝视频生成模型刚刚发布的时候，机器之心就受邀进行了一波内测。当时我们测试的主要型号是-。请参阅机器之心的报道《字节版Sora终于来了！》两个视频模型同时出现，带来的不仅仅是一点震撼。”带有“极萌AI”水印的视频。报道发表后，有读者评论说，这比还处于PPT阶段的Sora好多了。

这一次，我们又有机会对另一款豆袋进行内测。让我们用更多的例子来验证一下豆宝视频生成模型的能力，看看它是否真的能够超越Sora传说中的性能。

能力一：支持更复杂的提示词和多动作、多主体交互：想象一个充满活力的城市广场，熙熙攘攘的人群，街头艺人表演，孩子们嬉戏，情侣漫步。豆宝视频生成模型可以将这种复杂的场景生动地呈现出来，而不再局限于单一的动作或简单的命令。它可以准确捕捉多个主体之间的微妙互动，从眼神接触到肢体语言，并能完美解读。这种先进的理解为创作者开启了无限的可能性，让他们的想象力在视频中自由翱翔。

字节实时音视频__字节跳动短视频制作

视频链接：

提示词：80年代风格，小男孩在街上奔跑，汽车在街道上行驶。

能力二：切换镜头时有效保持镜头一致性：10秒足以让豆宝视频生成模型讲述一部跌宕起伏的微电影。从温馨的家庭聚餐到激烈的街头追逐，再到感人的团圆场面，镜头变换流畅，却始终保持着主角特征、场景风格、情感氛围和叙事逻辑的完美统一。这种精湛的一致性控制可以为创作者的视频作品增添专业电影般的叙事魅力。

字节跳动短视频制作_字节实时音视频_

视频链接：

提示语：女孩先是流下了眼泪，然后开心地笑了，主动拥抱了男孩。

能力三：强大的动态和炫酷的镜头动作：生成的视频既可以包含主体的大幅动作，也可以包含炫酷的镜头切换。支持变焦、环绕、平移、变焦、目标跟随等多种镜头语言，实现视角的灵活控制。无论是震撼的动作场面，还是细腻的情感表达，豆宝视频一代模型都能从最佳视角呈现，带来超乎想象的视觉盛宴。

字节实时音视频_字节跳动短视频制作_

视频链接：

_字节跳动短视频制作_字节实时音视频

提示词：特写，一个女孩悲伤的脸，她慢慢转过身，镜头拉远，她看到一个英俊的男人正在看着她。

能力四：风格多样支持：从经典黑白到前卫3D动画，从清新淡雅的水墨国画到热情奔放的厚涂风格，再到温馨可爱的2D动画，豆宝视频生成模型可以赋予每个创意独特的风格艺术魅力。无论你想要怀旧、未来、现实还是梦幻，豆宝视频生成模型都能完美诠释你的艺术视野。

字节实时音视频__字节跳动短视频制作

视频链接：

提示词：油画风格，镜头拉远，一个穿着黑色西装的男人走在这条路上。

能力五：支持多种宽高比：支持1:1、3:4、4:3、16:9、9:16、21:9，全面覆盖各种常见的显示或应用。无论是传统电视、电影屏幕、电脑显示器，还是各种移动设备，生成的视频都可以完美显示。让您的创造力在任何平台上大放异彩，不受设备限制。

_字节跳动短视频制作_字节实时音视频

你兴奋吗？你不仅会兴奋不已，而且很快你就可以真正开始体验豆宝视频生成模型了！据了解，豆宝视频生成模型已获邀在火山引擎上进行测试，企业可通过火山引擎官网提交测试申请。

音频模式的打破者：豆袋音乐和同声传译模型

除了视频生成之外，字节跳动还强势进军音频生成领域，发布了豆袋音乐模型和同声传译模型。我们知道声音的本质是空气中振动的机械波，人类对此有着非常深刻的物理认识。然而，人工智能创造动人和谐的节奏，或者瞬间跨越语言鸿沟，是完全不同的两件事。挑战。

火山引擎近期发布的豆袋音乐模型和同声传译模型在各自的难点上实现了质的突破，达到了可以投入实际生产应用的水平。

豆袋音乐模式：每个人都可以拥有自己的歌曲

想象一下，仅仅用一句话或一张图片就能瞬间编织出动人的旋律！

是的，与Suno等其他常见的音乐生成模型只能使用文字作为提示词或歌词信息不同，豆宝的音乐生成模型还可以使用图片作为灵感来源。这不仅极大丰富了用户的灵感来源，还可以让用户根据视觉场景生成最适合场景的音乐。豆袋音乐模型还支持音乐转换。只需要10秒的语音或歌唱录音即可将其转换成不同风格的音乐。

_字节跳动短视频制作_字节实时音视频

不仅如此，这位AI作曲家还精通10多种音乐风格和情感色彩，让你随心所欲地探索民谣、流行、摇滚、中国风、嘻哈等各种风格和情感表达。

例如，如果你随机拍摄一只小猫的照片，它可以为你创作一首非常好听的歌曲：

_字节跳动短视频制作_字节实时音视频

视频链接：

当然，您也可以让豆袋音乐模型唱您自己的歌词。我们用杜甫的名诗《登高》来测试一下：

_字节实时音视频_字节跳动短视频制作

视频链接：

豆宝音乐模式现已向用户开放。企业和开发者可以通过火山方舟使用其API。用户还可以通过豆宝App和海绵音乐App直接创作音乐。

豆宝同声传译模型：准确、实时、真实的同声传译

与注重和声、节奏的音乐模型相比，同声传译模型的核心要求是准确性和实时性。

豆宝同声传译模型采用端到端的方式实现同声传译。这不仅避免了分阶段处理（语音识别→机器翻译→语音合成）过程中的错误传输和累积问题，而且大大降低了延迟。据了解，豆宝同声传译模型在办公、法律、教育等场景下的准确率接近甚至超越人类同声传译水平，而延迟水平仅为半句话左右。

除了基本能力外，豆宝同声传译模型还具备音色克隆能力，可以生成与说话人音色一致的外语声音，实现真正的“同声”传译。

字节跳动短视频制作__字节实时音视频

视频链接：

字节跳动短视频制作_字节实时音视频_

更多相关细节，请参阅我们之前的报告《字节大模型同声传译代理，同声传译水平堪比人类》。

现有机型进行了大幅升级，效率大幅提升。

除了新发布的视觉和音频模态模型外，火山引擎还对现有的通用语言模型、图模型、语音模型进行了重大升级。

通用语言模型：增加上下文，提高综合能力

5月至9月，大豆袋款的使用量出现了10倍以上的爆发式增长。顺着这种爆发式的增长势头，火山引擎宣布将旗舰豆包模型“豆包万能模型Pro”迭代为更强大的新版本推出，模型综合能力提升25%，达到国内领先水平各个维度，特别是数学和专业知识能力。

字节跳动短视频制作_字节实时音视频_

这样的改进可以让豆宝更轻松应对更复杂的工作和生活场景。

此外，豆宝通用模型Pro的上下文窗口也从之前的128k翻倍到256k，一次可以处理约40万个汉字，相当于读完了《三体》的前两部分。一试。

图模型：推理效率和性能大幅提升

火山引擎还将豆宝图模型迭代到了2.0版本。它采用了更高效的DiT架构。模型的推理效率和性能得到显着提升。除了继承以往高颜值等优点外，本次升级，火山引擎重点优化了文森图模型的物理感知能力，让模型能够感知多个主体、数量、大小、身高、胖瘦等复杂属性，和运动，并实现相应的生成。

图模型2.0的想象力也得到了改进，可以更好地呈现虚构和超现实的图像。此外，文森图模型2.0还可以呈现各种中国古代绘画风格，具有极高的美感。如下图所示，生成的角色的头发、手指、妆容都很完美。

字节跳动短视频制作_字节实时音视频_

提示词：古装美女赏月图，长发烛光璀璨。

同时，文森图模型的绘制速度也得到了提升——最快可以到3秒。

_字节实时音视频_字节跳动短视频制作

图模型 2.0 已在上线，用户可以立即开始试用。

声音模型：超级混音，音色自由组合

火山引擎也对自身的语音合成模型带来了一轮升级。最有趣的新功能是混合组合形成不同的音色，从而打破了音色数量的限制。而且，该功能不仅可以让用户自由组合火山引擎提供的声音，还可以将自己的声音再现为混合声源。

这些通过混音产生的声音不仅在音色的自然度上有了质的飞跃，其连贯性、音质和节奏也达到了与真人几乎相同的水平，让人难以辨别现实与现实。，这太神奇了。

例如，通过将猴哥和港剧女声的音色比例混合，我们可以得到有趣的新音色。

字节跳动短视频制作_字节实时音视频_

视频链接：

效率提升与成本降低：让大模型真正可用的基础

大模型服务要真正对用户有用、可用，光有强大的能力是不够的。他们还需要强大的服务器来提供硬件支持，使用成本也需要控制好，让用户能够接受。

效率方面，火山引擎总裁谭代宣布，豆宝Pro默认初始TPM（每分钟令牌数）为800k，高于业内其他机型，并可根据具体需求进一步扩展的企业。事实上，800k TPM是业界最强的，可以满足很多企业级应用场景。

字节实时音视频__字节跳动短视频制作

在成本方面，火山引擎也做了很多创新和探索，并于今年5月成功将每千代币成本降低至1分钱（0.001元）以下，使字节跳动成为国内首家这样做的公司。这么低成本的公司。可以说，Token的价格已经不再是AI应用创新的阻碍。

此外，还开发了新的上下文缓存技术。这允许用户保留上下文而不必重复对话。这样可以减少多轮对话的延迟，提高用户体验。同时也可以有效降低企业使用大型机型的成本。

结论

在这场眼花缭乱的AI盛宴中，火山引擎在视频、音频、文本等不同模式下展示了其出色的能力。同时，它也不断重申对安全和隐私的重视。

火山引擎的全模式大模型战略正逐渐显示出全力以赴AI的决心。从文本到图像，从视频到音频，再到跨模态融合应用，火山引擎正在构建全方位、多维度的AI生态系统，甚至可以让用户“独自成为想象力的指挥者”。完成从创意处理到视频制作的全流程。这个生态系统不仅为开发者和企业用户提供了丰富的工具和接口，也为未来的智能应用描绘了令人兴奋的前景。

标签： 豆包视频生成模型视频生成多模态大模型迭代升级机器之心

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

火山爆发震撼天地，字节跳动进军 AI 视频生成领域

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司