当8月正式宣布进军生成式AI应用领域时,“自动驾驶第一家公司”图森未来的战略转型引发争议。如今该模式上线,不少业内人士仍心存疑虑。对此,北京商报记者采访了图森未来高级副总裁李海泉,聊聊这个大模型背后的故事。

4个月
12月17日,图森未来正式发布图森未来视频模型如意,并正式开放如意-Mini-7B版本供用户下载。这是图森未来正式发布的第一个“图胜视频”模型。这也是图森未来推出的首款进入生成式AI应用赛道的产品。
“我们从8月份开始做,到12月初训练就结束了。后来我们和其他模型进行了对比,做了很多内部测试,才选择现在发布。”在谈到12月推出是否有什么特殊考虑时,李海泉告诉北京商报记者。
外界获悉图森未来将过境,也是在8月,准确的说是8月15日。同日,图森未来宣布与该公司达成合作,共同开发《三体》系列长篇动画电影及视频游戏。图森未来通过此次公告宣布正式进军生成式AI应用领域,甚至正式进军动漫和视频游戏市场。
从8月到12月,对于图森未来来说,制作大视频模型最短的时间是4个月吗?
“是的,这可能是我们最短的时间了。”不过,李海泉也坦言,因为涉及到可以调动的资源以及如何高效调动资源,4个月并不是行业内最短的时间。
回到如意,“对于小团体的个人和有一定技术背景的公司来说会非常友好。我们没有在线网站或App。如果用户没有高性能显卡,就很难玩如意。” ”。在介绍了如意面向的用户群体后,李海泉向北京商报记者“安利”:“我们不需要写提示文字,直接把图片拖上去即可。”
合不来?可以重复使用吗?
从流程上看,如意与市面上其他图胜视频型号没有太大区别。
根据图森未来官方的说法,如意要求用户提供图像作为输入,并可以选择输出时长、输出分辨率、运动幅度、镜头运动方向等选项。如意会根据输入图像输出不超过5秒的图像。视频。
相关人士在与开发者沟通时表示,“我们(图森未来)内部做了比较,我们的一个主要特点是动画比较好,另外一个就是我们是24fps(每秒播放24帧),动作更顺畅。”滑”。
不过,图森未来也承认,如意仍存在手部畸形、多人时面部细节塌陷、过渡不可控等问题。该公司正在改进这些缺陷,并将在未来的更新中修复它们。
业内人士另一个关心的问题是,自动驾驶和视频模型之间有何联系?
“从技术复用的角度来看,它们是不兼容的。”一位自动驾驶从业者告诉北京商报记者。
某视频模型公司CTO告诉北京商报记者,“准确来说,视频模型无论从技术上还是体验复用上都与自动驾驶无关。图森未来之所以能做到,可能是基于开源的基础上。”市场上的车型,已经收集了一些数据,门槛并不高。”
对此,李海泉持有不同意见。
从自动驾驶的角度来看,他认为“自动驾驶领域的算法和规划控制不能用在视频模型上,但还是有很多东西可以复用,比如模型设计、数据处理、基础工具等。 种类”。
对于开源模型,李海泉直言,“我们的设计中确实参考了很多开源方案的实现,不仅仅是图森未来。我们一直关注大模型的开发,没有必要封闭门。”
画什么?
根据GIR研究,2023年全球文胜视频模型收入约为720万美元,预计2030年将达到22.19亿美元。2024-2030年期间,CAGR(复合年增长率)预计将达到56.6%。
数据很诱人,但实际上视频生成的技术成熟度并不高,实现大规模商业化还需要时间。
在图森未来看来,最好的应用场景是孵化生成式AI工具的驱动力。公司致力于利用大型模型来降低动画和游戏内容的开发周期和开发成本。如意的大模型已经可以在输入一个关键帧后生成5秒的内容,或者输入两个关键帧,模型会生成中间的过渡内容,减少了开发周期。这与图森未来未来想要进入的动漫、游戏市场密切相关。
不过,文远智库创始人王超对北京商报记者表示,“我认为图森未来是赚钱的,那些早期的AI公司跟不上大模型的浪潮。”
在与北京商报记者沟通时,瑞大恒研究院经理王庆林认为,“从目前的经营情况来看,图森未来的主营业务尚未显现出明显优势,公司内部存在混乱的情况。因此,图森未来亟需探索新的业务领域,开辟新的增长点 鉴于视域生成技术尚未形成清晰的市场格局,这为图森未来提供了尝试和突破的机会。这个的尚待进一步验证和观察”。
一个插曲是:图森未来长期存在的内讧不时暴露出新的进展。近日,有投资者向媒体透露,即将于12月20日召开的图森未来股东大会正在进行股东投票,将决定图森未来下一阶段的控制权。
李海泉12月17日向北京商报记者透露,“12月19日,我们会讲清楚AIGC(人工智能生成内容)业务与其他业务和自动驾驶业务将如何整合。”
北京商报记者 魏巍


