AI 初创公司 Hotshot 文生视频模型开放公测，兼顾效率与稳定性

日期：2024-08-23 来源：网络整理作者：二手钢材网浏览：308 评论：0

核心提示：与主流的AI文生视频模型相比，Hotshot公测版兼顾视频生成效率和稳定性的同时，视频风格更丰富，生态也更加开放，可生成无水印视频。Act-One则是Hotshot-XL的升级版，拓展了AI视频生成的时长上限。

该模型由四人小团队利用数千块 GPU 进行训练，可在 10 秒内生成不同主题的视频，制作时间短、清晰度高、操作界面简洁。与主流 AI 文胜视频模型相比，公测版兼顾了视频生成效率与稳定性，视频风格更丰富，生态更开放，并能生成无水印视频。

▲可生成多种风格的视频（来源：）

该公司成立于2023年，联合创始人为、John和。公司三位创始人均拥有11年的消费应用开发经验，曾获得Lachy Groom、、SV Angel等公司的资金支持。

体验地址：

1.最长10秒，分辨率720p，可自定义动画效果

视频模型是一个扩散模型，其最新版本可以根据文字描述生成最长10秒、分辨率为720p的视频。

比如我们在视频中输入“柯基坐在学校教室”，就能得到两只皮毛分明、光滑的柯基，穿着不同颜色、款式的衣服，坐在木椅上四处张望的视频。柯基的身后是一块黑板，上面用粉笔写着字，黑板旁边是展示柜，上面放着地球仪等教具。整体的拍摄角度不断推进。

▲AI根据文字《柯基坐在学校教室里》生成的视频（图片来源：）

除了模拟真实的人物、场景和风景之外，用户还可以使用它来创建动画、逐帧动画和特效等风格化的视频。

在其中一段生成的视频中，一位身穿蓝色衬衣和深色裤子的金发青年坐在客厅的黄色沙发上，玩着掌上游戏机。客厅里摆放着绿植和画作。视频色彩鲜艳，笔触粗犷，呈现出一种 1950 年代的复古漫画风格。

▲视频可以进行风格化处理（图片来源：）

2. 四个人花了四个月的时间，拍摄了 6 亿个视频片段，并使用了数千台 GPU

如此“类似Sora”的视频模型的训练，仅由4人团队耗时4个月完成。

据介绍，最新版本的文胜视频模型使用了6亿个视频和音频片段、数千块GPU进行训练。高强度的模型训练经常导致H100 GPU出现故障，“机房差点着火”。为了不让模型偏离预期方向，团队成员一个月没有休息，轮流监控训练结果。

三位创始人和新成员 Aluru 还开发了一种新的自动编码器，可以在不损害视频质量和相关数据的情况下在“空间”和“时间”上压缩视频内容，从而更有效地训练长序列视频。

3. 过去一年，该模型已升级三次

其曾推出过AI文胜图片应用、两代AI文胜视频机型，但可惜没能引起太大的轰动。

去年曾有同名消费级AI文生图应用上线，用户可以免费生成、修改照片，但该应用或已下架。

随后，AI文胜视频模型-XL推出并开源，该模型可以生成时长1秒、帧率为8fps的视频，当时-XL的月活跃用户数超过2万。Act-One是-XL的升级版，拓展了AI视频生成时长的上限，Act-One模型可以产出时长3秒、帧率为8fps的视频。

联合创始人在社交媒体X上发文表示，这是“目前最先进的公开可用模型”，十多年来我们首次能够为用户提供“强大而新颖”的AI生成视频功能，而这仅仅是一个开始。

结论：AI文胜视频模型大行其道，但尚无绝对赢家

相信在接下来的一年里，荧幕上将会充斥着多模态生成式AI作品，AI文字生成图像、文字生成视频、文字生成音频、图像生成视频等创作方式将成为数字媒体的常态。

市场上AI视频生成模型和应用的竞争日趋激烈，AI视频初创公司ML的Gen-3 Alpha Turbo、AI大模型独角兽尚未公开的Sora、3D建模及视觉AI公司Luma的Dream、AI视频初创公司Pika Labs的Pika AI视频生成应用等均获得了高度关注。

相比于竞品，虽然文字还原度更高、视频生成速度更快，但目前的视频生成效果在画质、细节、解析度等方面还不尽人意，不少网友利用模型制作的视频存在手脚重影、物体悬空、动作逻辑错误、言语表情和唇形单一等明显漏洞。

▲马腿的双重图像（来源：）

来源：X公众号

标签： Hotshot 文生视频模型 720p 清晰度风格化处理视频消费级 AI 文生图应用

打赏

更多>同类资讯

0 条相关评论