AI 初创公司 Hotshot 文生视频模型开放公测,兼顾效率与稳定性

   日期:2024-08-23     来源:网络整理    作者:二手钢材网    浏览:308    评论:0    
核心提示:与主流的AI文生视频模型相比,Hotshot公测版兼顾视频生成效率和稳定性的同时,视频风格更丰富,生态也更加开放,可生成无水印视频。Act-One则是Hotshot-XL的升级版,拓展了AI视频生成的时长上限。

该模型由四人小团队利用数千块 GPU 进行训练,可在 10 秒内生成不同主题的视频,制作时间短、清晰度高、操作界面简洁。与主流 AI 文胜视频模型相比,公测版兼顾了视频生成效率与稳定性,视频风格更丰富,生态更开放,并能生成无水印视频。

▲可生成多种风格的视频(来源:)

该公司成立于2023年,联合创始人为、John和。公司三位创始人均拥有11年的消费应用开发经验,曾获得Lachy Groom、、SV Angel等公司的资金支持。

体验地址:

1.最长10秒,分辨率720p,可自定义动画效果

视频模型是一个扩散模型,其最新版本可以根据文字描述生成最长10秒、分辨率为720p的视频。

比如我们在视频中输入“柯基坐在学校教室”,就能得到两只皮毛分明、光滑的柯基,穿着不同颜色、款式的衣服,坐在木椅上四处张望的视频。柯基的身后是一块黑板,上面用粉笔写着字,黑板旁边是展示柜,上面放着地球仪等教具。整体的拍摄角度不断推进。

图片

▲AI根据文字《柯基坐在学校教室里》生成的视频(图片来源:)

除了模拟真实的人物、场景和风景之外,用户还可以使用它来创建动画、逐帧动画和特效等风格化的视频。

在其中一段生成的视频中,一位身穿蓝色衬衣和深色裤子的金发青年坐在客厅的黄色沙发上,玩着掌上游戏机。客厅里摆放着绿植和画作。视频色彩鲜艳,笔触粗犷,呈现出一种 1950 年代的复古漫画风格。

图片

▲视频可以进行风格化处理(图片来源:)

2. 四个人花了四个月的时间,拍摄了 6 亿个视频片段,并使用了数千台 GPU

如此“类似Sora”的视频模型的训练,仅由4人团队耗时4个月完成。

据介绍,最新版本的文胜视频模型使用了6亿个视频和音频片段、数千块GPU进行训练。高强度的模型训练经常导致H100 GPU出现故障,“机房差点着火”。为了不让模型偏离预期方向,团队成员一个月没有休息,轮流监控训练结果。

三位创始人和新成员 Aluru 还开发了一种新的自动编码器,可以在不损害视频质量和相关数据的情况下在“空间”和“时间”上压缩视频内容,从而更有效地训练长序列视频。

3. 过去一年,该模型已升级三次

其曾推出过AI文胜图片应用、两代AI文胜视频机型,但可惜没能引起太大的轰动。

去年曾有同名消费级AI文生图应用上线,用户可以免费生成、修改照片,但该应用或已下架。

随后,AI文胜视频模型-XL推出并开源,该模型可以生成时长1秒、帧率为8fps的视频,当时-XL的月活跃用户数超过2万。Act-One是-XL的升级版,拓展了AI视频生成时长的上限,Act-One模型可以产出时长3秒、帧率为8fps的视频。

联合创始人在社交媒体X上发文表示,这是“目前最先进的公开可用模型”,十多年来我们首次能够为用户提供“强大而新颖”的AI生成视频功能,而这仅仅是一个开始。

结论:AI文胜视频模型大行其道,但尚无绝对赢家

相信在接下来的一年里,荧幕上将会充斥着多模态生成式AI作品,AI文字生成图像、文字生成视频、文字生成音频、图像生成视频等创作方式将成为数字媒体的常态。

市场上AI视频生成模型和应用的竞争日趋激烈,AI视频初创公司ML的Gen-3 Alpha Turbo、AI大模型独角兽尚未公开的Sora、3D建模及视觉AI公司Luma的Dream、AI视频初创公司Pika Labs的Pika AI视频生成应用等均获得了高度关注。

相比于竞品,虽然文字还原度更高、视频生成速度更快,但目前的视频生成效果在画质、细节、解析度等方面还不尽人意,不少网友利用模型制作的视频存在手脚重影、物体悬空、动作逻辑错误、言语表情和唇形单一等明显漏洞。

图片

▲马腿的双重图像(来源:)

来源:X公众号

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2