字节新 AI 豆包支持视频生成,效果极其强横,多人复杂表情表现力自然

   日期:2024-09-25     来源:网络整理    作者:二手钢材网    浏览:283    评论:0    
核心提示:,也就是他家豆包这次支持可以视频生成了,而且效果极其强横。》,这也意味着视频生成大模型和影视行业某种意义上算双向奔赴。但这种趋势也会带来新的问题,比如模型训练需要的素材得更真实,那这些视频素材可能会有版权和隐私安全的问题。其他视频生成模型如果要在这方面继续进步,可能也需要和影视行业联系更加紧密才行。

说实话,我真的不知道这个月会发生什么。

这些制造商就像一群看着同一本年鉴的人,都急于在这个月实现目标。

12号几家公司召开的发布会我就不多说了,上周参加了不少发布会,看到各种大牌车型接连上市,逛得我心力交瘁。

结果你猜今天发生了什么?字节跳动官方公布了旗下新AI豆包,现在支持视频生成,效果极其强悍。

也就是说,憋了这么久,定于本月底亮相的字节跳动开始上菜了,而且还是难度最高的菜。

影视级别模型_影视模型要求_

文字不足以表达,直接给大家看效果:

比如这次官方演示的“与凡人为伴,过上无忧无虑的生活”,这段视频中多人的表情、复杂的表情可以说相当自然,虽然我是马丁先生的老粉丝,但只能说,这《权力的游戏》式的剧情相当重口。

也就是说,这个东西只有10秒长,而且速度极慢,否则它就会被误认为是电影或电视片段。

还有这场戏,男子乘坐火箭冲向世界最高城市礼堂,引起巨大爆炸。这场戏前后镜头的风格非常一致;中间男子闭上眼睛紧张地准备死亡的镜头也很有灵魂。画面充满感情……

不过如果只看官方的视频,可能感受不到它的特别之处,有时候这些AI的宣传物料就像方便面的外包装一样,看上去是一回事,打开之后却是另一回事。

而且在视频生成方面,过去也曾出现过图像微调的情况,有些视频模型只用于宣传片,至今还不允许人们使用,就像扇贝一样,被变成了期货。

影视级别模型_影视模型要求_

所以尽管看了这些演示视频之后,我们觉得豆宝或许真的有一些技巧,但要知道产品是否真的有看上去那么好,我们还是要亲自尝试一下。

影视模型要求_影视级别模型_

发布会一结束,时超就立马抓紧这个(像素跳跃)模型的内测,先把我们AI测评的传统保留项目都安排上去了,请了我们的老员工们,准备了火锅给大家看。

给模型喂一张火锅的照片,然后输入提示词“狗狗站起来,抱起旁边的娃娃,离开屏幕”。

影视级别模型_影视模型要求_

根据我们之前用热锅评测一些视频模特的经验,在2秒内,锅哥的身体和脸就会开始变形。甚至还出现过热锅变身拉布拉多的情况。

但你猜怎么着?

这段 10 秒的视频几乎没有出现图像抖动、丢帧、闪烁或失真的现象。

热锅起身的动作一气呵成,仔细看它拉兔娃娃过来的瞬间,娃娃耳朵的抖动,脚踩下去踩在垫子上的凹陷,这些细节大家都很欣赏,热锅一来,大家就会说:兄弟好稳啊!

如果不是最后几秒露出火锅的头发纹理,这段视频大概能得9分。

接下来,我们尝试了许多视频生成模型屡屡失败的灯光效果。

提示词“一辆摩托车在路上飞驰,街景迅速后退”

影视级别模型__影视模型要求

街景变换流畅,明暗的变幻毫无违和感,尤其是建筑上的灯光和地板上的倒影一一对应。

如果一定要挑毛病的话,那就是对面驶来的车的画面控制得不太好。

在经典的吃播节目中,这次的提示是“面对镜头的男人张开嘴,吃筷子上的食物”,描述的比较准确,基本就是让模特指指点点,打打杀杀。

影视模型要求_影视级别模型_

模特没有让我们失望,拿筷子的动作很熟练,食物真的放进嘴里,脸部也没有因为咀嚼而变形,虽然提示没有提示后面的一群人,但模特还是让大家动了起来。

那么,这个咀嚼动作是不是太刻意了一点?

其实我们到这里测试完,已经对模型的水平有了一些了解,但是为了测试的更加全面,我们再多试几次。

我们来看这张石超随手拍的日落,提示是“远处的天空中,有一条黑龙在飞翔,距离镜头越来越近”,略显复杂。

影视级别模型_影视模型要求_

背后的天空、一排房屋、还有一条朝镜头飞来的黑龙,所有元素基本都完成了,镜头也会慢慢向上跟随。

不过照片左下角原本应该是桥边的围栏,不知道是不是因为太暗,模型没能识别出来,稍微有些变形。

还有编辑部同事下班后自己泡麦汁的视频,最让世超震惊的是杯子里8+1的效果。

_影视级别模型_影视模型要求

因为碰杯的晃动和手部的动作,液体向右倾斜了。哇,看来我真的找到了一个理解物理定律的模型。

而且手臂的屈伸、关节的运动看上去也很符合人体的生理结构。

不过也有瑕疵,比如有一次我边喝着手中的酒,边突然喂到旁边同事的嘴里,桌上的杯垫不知为何变成了一张纸。

相信看完这些,大家对豆包模式已经形成了一个基本的判断。

虽然没有达到爆发力的水平,但绝对是第一梯队,而且在图像稳定性和一致性方面该机型确实是独一无二的。

但对于世超来说,这并不是很意外。

_影视级别模型_影视模型要求

主要原因是,不只是我们,很多人对豆宝的视频能力抱有很高的期望。

虽然慢了点,但是有发源于视频行业的抖音的加持,以及基础大模式的投入,豆宝想靠着这些优势奋起直追,其实也是符合大家的认知的。

也就是说,豆宝这么做,是在意料之中的,更何况他们想出的东西,显然是一流的。

影视模型要求_影视级别模型_

影视级别模型__影视模型要求

不过,字节跳动此时发布豆包视频模式,其实还是挺及时的,恰逢大视频模式发展的黄金时期。

仅今年一年,6月,冀梦AI出演了AIGC短剧《三星堆:未来启示录》,7月13日,快手也上线了AIGC短剧《山海镜》;

在影视行业,AI制作也越来越受欢迎,先是AI在《传奇》中还原了27岁的成龙,之后还有暑期档的漫画改编电影《异星之下》,这也意味着视频大片的生成和影视行业从某种意义上来说是一个双向的旅程。

东吴证券预计,国内AI视频潜在产业空间或达5800多亿元,且全AI模式下,影视剧制作成本较传统模式可降低95%以上。

影视模型要求_影视级别模型_

但这种趋势也会带来新的问题,比如模型训练所需要的素材必须更加真实,而这些视频素材可能存在版权和隐私安全问题。

另一方面,电影级的视频生成模型也需要AI厂商具备电影相关的经验,例如豆宝就结合了剑影等专业剪辑调色软件的经验,创造出更加贴近影视的光影色彩效果。

其他视频生成模型如果想在该领域继续取得进展,可能也需要与影视行业更加紧密地联系在一起。

_影视模型要求_影视级别模型

总之,豆宝这次提交的论文值得一个高分,但这对于视频模型来说还远远不是终点,期待未来国产大模型的表现。

话说空为什么不出来说话啊,不用萱草的话会很冷的啊。

撰文:纳西 & 西西

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2