量子比特 |公众号
直播的一天,谷歌版Sora迎来了2.0——
Veo 2,从文本或图像生成更高质量的视频。
从官方介绍来看,此次升级主要有三个方面。
分辨率可达4K;它能理解镜头控制;它更注重对真实物理世界和人类表达的理解和展示。

公众号下,大家都对这些效果表示惊叹:
我真的希望谷歌输掉这场比赛,但谷歌没有。

此外,图像生成模型3也得到了进一步的改进。

版Sora 2.0:重新定义质量和控制
质量和控制是本次视频模型升级的关键词。
除了清晰度明显提高(高达 4K 分辨率)之外,它还能够忠实地遵循简单和复杂的指令,并令人信服地模拟现实世界的物理以及各种视觉风格。
这具体体现在其真实性和保真度上,例如细节的显着改进和伪影的减少。
还有高级运动函数,它们基于物理学的理解,可以更高精度地表示运动。
它还准确地遵循各种相机控制类别,例如拍摄风格、角度、运动以及所有这些的组合。
那我们就直观感受一下效果吧。

:特写镜头聚焦于一位女 DJ 的脸部,她美丽浓密的黑色卷发勾勒出她的五官,她完全沉浸在音乐中。她闭上眼睛,沉浸在节奏中,嘴角挂着微笑。当她点头并随着节拍摇摆时,摄像机捕捉到了她头部的微妙动作,她的身体对耳机中传出的音乐本能地做出反应,并传播到人群中。浅景深使背景变得模糊。她周围都是明亮的霓虹灯颜色。特写镜头强调了她迷人的存在以及音乐传达和超越的力量。
还有这个集体蜂群也可以被描绘出来。

:镜头轻轻地飘过一排排粉刷成白色的木制蜂箱,嗡嗡作响的蜜蜂在画面中进进出出。镜头聚焦在画面中央的优雅农民身上,他洁白的养蜂制服在金色的午后阳光下闪闪发光。他举起一罐蜂蜜,稍微倾斜以捕捉光线。在他身后,高大的向日葵在微风中有节奏地摇曳,花瓣在温暖的阳光下闪闪发光。镜头向上倾斜,露出一座老式农舍,里面有薄荷绿色的百叶窗和摇曳的树木,在墙壁上投下斑驳的阴影。使用 35 毫米镜头在柯达 400 胶片上拍摄,金色的光线在农民的手套、果酱罐和蜂箱的风化木材上创造出丰富的纹理。
还可以将镜头从近景切换到远景,镜头下蜂蜜或咖啡泡沫的细节都被准确地描绘出来。

:太阳在整齐排列的早餐场景后面缓缓升起。厚厚的金色枫糖浆慢慢地倒在蓬松的煎饼上,每张煎饼都散发出柔软温暖的蒸汽云。脆皮培根在特写镜头中嘶嘶作响,金色油脂的微小余烬在空中飞舞。咖啡以平稳的旋转动作倒入晶莹剔透的杯子中,杯子里充满了一层深棕色的咖啡油。场景结束时,摄像机俯冲到一个刚切好的橙子上,以令人惊叹的宏观细节展现出其明亮多汁的果肉。
嗯,在人类对其性能的评估中,Veo 2 优于其他领先的视频生成模型
在 meta 基准数据集上,人类参与者观看了 1003 个提示和响应视频。
结果表明,与市场上主流的视频生成模型相比,Veo2.0在整体偏好度和准确的指令遵从性方面表现最好。
值得一提的是,除了Sora以外,所有国产车型这里都有。

所有对比均在720P分辨率下进行,Veo的采样时间为8秒,其他型号为10秒,其他型号为5秒。我们向评分者展示完整的视频时长。

最后,他们表示,创建逼真、动态或复杂的视频并在复杂场景或具有复杂运动的场景中保持完全一致性仍然是一个挑战。他们将继续发展并提高这些领域的表现。
图像模型3也得到增强
除此之外,他们的图像生成模型也得到了增强3。
可以产生更多样化的艺术风格,例如现实主义、幻想、肖像画等等。


由此产生的图像将更加忠实于图像,无论它多么离谱。 (总督)

从生成的各种图像来看,视觉效果比以前更加明亮,构图也更加平衡。



