OpenAI与Google DeepMind发布新视频生成模型,图森未来推出Ruyi图生视频大模型

   日期:2024-12-21     来源:网络整理    作者:二手钢材网    浏览:190    评论:0    
核心提示:文|新浪科技 罗宁近日,随着OpenAI的Sora模型以及Google DeepMind发布的Veo 2模型正式发布,视频生成模型再次受到公众关注。而在国内

近日,随着Sora模型的正式发布以及Veo 2模型的发布,视频生成模型再次引起了大众的关注。在国内,图森未来还正式发布了《如意》图森视频模型,这是《三体》系列动画长片项目官宣后发布的首款图森视频模型产品。新浪科技也首次进行了简单的上手评测。

评测之前需要了解的是,这款如意大模产品还处于起步阶段。目前,用户需要提供图片作为输入,并可以选择输出持续时间、输出分辨率、运动幅度和镜头移动方向等选项。如意 根据输入图像输出不超过5秒的视频。此外,如意支持多分辨率、多时长生成,最小分辨率为384*384,最大分辨率为1024*1024,任意长宽比,视频生成可达120帧/5秒。此外,如意还可以支持基于最多5个起始帧和最多5个结束帧的视频生成。通过循环叠加可以生成任意长度的视频。如意提供4级运动范围控制和5种镜头控制,让用户可以控制整体画面的变化程度。

风景图片的理解和效果

第一个考验是如意处理风景照片的能力。风景照片之所以被视为更容易的测试对象,是因为在这样的场景中,无论是建筑、自然风光还是天空中的云彩,AI大模型通常都会表现出很强的理解能力。如意的表现确实不负众望。在处理多张风景照片时,无论是城市建筑风光还是自然景观,如意都能实现细致、生动的动态效果。

真人处理效果

在处理真人图像方面,如意展示了其在动态视频生成方面的多样性和挑战。我们选取了几个有代表性的电影画面进行测试,以评估如意处理不同风格和情感表达的能力。

首先,我们选取​​了《哈利·波特与魔法石》中的一个场景,其中哈利·波特和海格的动作被转化为自然流畅的动态画面。如意不仅捕捉到了人物的基本动作,还加入了细节的动态处理,让原本静态的画面变得更加生动。

接下来我们测试了《天使天使爱美丽》中的主角艾米丽的笑容。如意成功地将这一经典微笑从静态转化为动态,保留了面部微表情的生动性,展示了模型处理复杂面部表情的潜力。

最后我们尝试了周星驰在《唐伯虎点秋香》中夸张的动作戏。虽然如意在生成的效果上达到了基本的动作要求,但在捕捉和再现周星驰独特的夸张风格方面,效果仍然中规中矩,未能充分体现角色的夸张感。这表明如意在处理特定风格和文化背景下的表演时可能需要进一步优化和学习。

可爱宠物风格化图片的视频转换

在测试如意处理风格化图像的能力时,我们首先选择了一张在社交网络上流行的可爱猫咪的照片。从生成的效果来看,如意能够在这张静态图片中注入动态元素,营造出一只猫在画面中移动的错觉。如意在保持萌宠可爱的同时,加入自然的动作,让画面更加生动。

动漫风格图片的视频化

除了可爱的宠物照片之外,我们还测试了一张钢铁侠动漫照片。如意在处理这张图片的时候,成功地生成了不同的动作,让图片变得更加细致、生动。然而,我们也注意到一些不一致之处——钢铁侠在空中飞行时的动作看起来更像是跑步。这表明,如意在理解图像内容并生成与其匹配的动作方面仍有一定的改进空间。对于动画和游戏领域来说,视频风格化图像的能力尤为重要,所以如意需要在未来的迭代中对此进行更多的优化和学习。

技术架构及性能

据悉,如意大机型对用户的硬件要求还是很高的。通过4090显卡进行现场渲染需要3-5分钟,目前还没有云解决方案。

技术架构方面,如意基于DiT架构,由VAE模块和VAE模块组成。前者负责视频数据的压缩和解压缩,后者负责压缩视频的生成。模型总参数量约7.1B,约200M视频片段用于训练,展示了其强大的数据处理能力。

如意的训练过程分为4个阶段,从256分辨率的预训练到图胜视频的训练。每个阶段都针对不同的数据集和分辨率进行了优化。图森未来表示,如意将持续关注如何真正解决行业痛点,尤其是动漫游戏内容的开发周期和开发成本。

结局:为创作者提供更灵活的选择

图森未来在与新浪科技的交流中表示,计划于2024年第四季度面向社区爱好者和创意团队发布开源模型Mini-7B,并于2025年上半年推出面向专业内容制作团队的封闭模型.源码型号-30B,提供私有部署。

就在12月19日,图森未来正式推出新品牌,并公布了在生成式AI领域的多项重大进展。宣布获得著名武侠IP《金庸群侠传》正式授权,将开发一款大型武侠开放世界RPG游戏。我们还将与著名动画导演河森正治以及顶级动画制作公司白组株式会社合作,利用AIGC技术推动创作者在展示宏大的宇宙文明方面取得更多突破。同时,还发布了旗下首款大模产品“如意”,定位于开源土生视频领域。作为其自研AI基础设施的底层核心,公司将基于“如意”构建多种用于游戏和动漫制作的AI生成工具。

图森未来的如意大模型展现了其孵化生成式人工智能工具的雄心。虽然如意在手部畸形、多人时面部细节塌陷、过渡不可控等问题上仍有改进空间,但新浪科技了解到图森未来已经在积极解决这些问题,并于今年8月宣布进军未来。在AI大模型领域,以及《三体》动画电影的开发,《如意》仅用了三个月就正式上映。可以预见的是,图森未来在动画制作和游戏开发方面正在加速推进。相信此次开源模式的发布将为不同需求的创作者提供更灵活的选择。

模型达人_于小彤身高飞长让导演头痛_

海量信息、精准解读,尽在新浪财经APP

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2