量子比特 | 官方账号
“这或许是今年世界人工智能大会上最令人振奋的发布。”
在刚刚结束的世界人工智能大会(WAIC)上,快手分享了一个月前科灵上线的成果:
“目前申请人数超过50万人,开放用户超过30万,生成短视频超过700万条。”
作为全球首个用户友好型的实景图像级视频生成大规模模型,自上线以来就引起了强烈反响,就连外国网友也投来了羡慕的目光……
就连人工智能专家也表示,这次中国遥遥领先。

但快手似乎并不满足于此。

柯灵网页版上线,更高画质,首末帧,镜头控制,文声视频开放至10s;柯图开源...
随着快手高级副总裁、主站业务及社区科学线负责人盖坤宣布几则重要消息,现场数度沸腾。
【请前往公众号观看宣传视频】
科灵网页版上线,文胜图模型开源
之所以一经推出就受到如此追捧,是因为柯灵生成的视频不仅质量高,而且更符合物理定律,能够精准刻画大动作。
例如这只在公路上高速奔跑的老虎,不仅画面连贯,拍摄角度变化合理,老虎肢体动作协调,而且在奔跑过程中,其躯干的抖动也清晰地表现出来。

两周后的 CVPR 上, 推出了两个新功能:图像生成视频和视频延续。
其中,图片转视频功能有很强的逼近世界运行规律的能力,比如网友利用可灵让《戴珍珠耳环的少女》里的人物动起来,玩手机、喝咖啡、吃苹果……动作逼真,优雅有致。

【请前往公众号观看视频】
而且该函数还表现出很强的泛化能力。
比如,通过一幅水墨画,柯玲只需要一些简单的提示,就能让画中的动物栩栩如生地动起来。
但盖坤介绍,像水墨画这样的素材在科灵的训练过程中非常少见,就连球队自己都没有见过。

【请前往公众号观看视频】
更有意义的是,可玲拍摄的照片视频不仅可用于娱乐,一些网友还用它“复活”了长辈们的老照片,留下了感人的故事……

【请前往公众号观看视频】
视频续拍功能可以将之前生成的视频每次连续延长5秒,最长可延长三分钟。

在本届WAIC上,快手高级副总裁、主站业务及社区科学线负责人盖鲲宣布,快灵将再次迎来一系列重大更新。这也是快灵发布后一个月内的第三次重大举措。
首先是基础模型的升级,可以进一步提高生成视频的质量。
就拿这个名场面来说,柯灵的作品升级前后的对比是这样的,可以看出所有的细节都处理得比之前更加细腻。

此外,新版本可以一次性直接生成10秒的视频,而不需要先生成5秒然后再延长。
功能方面,此次科灵还增加了首尾帧控制(图像生成视频)以及镜头控制(目前仅支持图像生成视频)。
只要上传第一张和最后两张照片,科灵就能自动“填充”中间的动作变化。

△素材图片由快手图片生成模型“Ketu”生成
镜头控制功能可以让创作者直接指定镜头移动方式,不用担心不知道如何写镜头提示而去“开盲盒”。

对于可灵背后的技术方案,快手视觉生成与交互中心负责人万鹏飞从模型设计、数据保障、计算效率、能力扩展等方面进行了深入分析。
万鹏飞介绍,最新版本的科灵在运动生成、物理定律、视频质量、命令响应等七个领域的能力得到了进一步升级。
未来,视频生成模型有望给游戏、动漫、泛视频行业带来新的机会,并有望作为世界模拟器,为具身智能提供可交互的仿真环境。
除了模型升级、功能更新外,快手还发布了课令Web版(链接见文末),让用户可以在PC上更便捷地创作和管理作品。
包括网页端在内,这些新功能也秉承了快手一贯的“不做空头承诺”的原则,一上线就上线,目前还在限时免费开放。

此外,此次上线的网页界面还融入了图片生成功能,这背后是快手自研的基于文本的图片模型——客图。
而且这里 Ketu 和 的联系很深,生成图片之后可以一键切换到图片生成的视频,也可以在图片生成的视频里直接选择 Ketu 画的图片。
回到Ketu本身,与其他图像生成模型相比,它具有更高的质量和语义跟随能力,并且支持更丰富的场景。
在内部盲测中,Ketu 夺得第一名,超越了、等一系列知名车型。
在北京人工智能研究院进行的第三方测试中,科图也以75.23的成绩夺得第二名,仅次于得分76.66的DALL E-3。

此外,Ketu还拥有强大的“写字”能力,支持在图片中嵌入文字,效果逼真。

他的中文也比较好,甚至能看懂一些古诗词,比如韩愈的《春雪》中“白雪嫌春来迟,穿院落树成飞花”这句,就被克图完美还原。
如果仔细观察画中细节,会发现远处模糊的树木已经泛绿,树上的花也绽放了,很符合诗中的季节设置。

Ketu 比 更早推出,于今年 5 月 31 日向公众开放。在本次 WAIC 大会上,盖坤郑重宣布 Ketu 大模型正式开源。

目前Ketu的推理代码和已在 中发布,相关LoRA和工作流程也将在未来推出。
最后给大家展示一个小彩蛋——
本月即将上线的快手首部AIGC短剧《山海镜之劈波斩浪》,将有可灵深度技术支持。

【请前往公众号观看预告片】
在快手庞大的模型家族中,克灵、克图可以直接用来进行创作,所以我们的感受更加直接。
但实际上,快手还拥有更庞大的“大模型矩阵”。
快手大模特家族全员亮相
快手的大模型矩阵除了可灵、可图等视觉生成大模型外,还包括语言大模型、推荐大模型等等。
比如有“静默”推荐模型,旨在让你浏览的内容更符合你的喜好。
盖坤介绍,快手的推荐模型基于SIM(Model)模型构建,有10万亿个参数。
而且针对每个用户,快手的推荐模型处理的行为序列长度可达百万。
现在,快手大模型团队正在积极开发基于的下一代推荐大模型技术。

还有一个名为“快译”的语言模型,在内部盲测中,它的中文能力已经达到GPT-4的水平。
快手副总裁、大模型团队负责人张迪介绍,快手大模型从诞生之初,已经发展了四个版本。
从早期的13B版本开始,到现在主应用的175B版本和多模态版本,经过多个版本的研发,快手大模型已经在快手内部运用到素材创作、AI交互、内容生产等多个场景。
在快手大模型家族中,快手是最基础的能力,未来除了不断完善快手大模型的基础能力,团队还将结合快手的应用场景,打造差异化的功能。

快手家族的这些大模型,涵盖了生成、推荐、理解等多个层面,一直深度服务于快手各大业务场景。
此外,基于一系列大模型能力,快手还构建了数字人的全流程AIGC服务。
其中包括数字人脚本创意生成、数字人渲染生成、数字人实时交互、智能客服问答的全流程。
在C端,快手还基于APP评论区大模型上线了智能实体“AI小快”,它是快手官方智能交互助手,定位为快手用户好用、有趣、有温度的聊天伙伴。

你可以向他询问视频里的各种内容,他都能基于多模态大模型的理解能力做出精准的回答。AI小快也很有趣,你可以在评论区画图、发表情,也可以在评论区寻求安慰、祝福,实现情感价值。
目前,AI小快的粉丝已经超过1000万,累计互动量超过1.5亿,而这还是在AI小快不会主动评论你、只能被动召唤的前提下实现的。

总之,借助大模型矩阵中的各类模型,快手用AI武装从B端到C端、从服务到产品的整个生态。
那么,快手这背后有着怎样的战略布局?
坚持自研,拥抱开源
在快手的战略框架中,坚持全栈自研与技术创新是至关重要的一环。
快手团队持续投入大模型的基础研究和前沿探索,从底层芯片算力、网络架构到顶层应用,都可以看到快手的自研技术。
张迪表示,快手相信坚定投入自主研发,长远来看将带来“技术滚雪球”效应和巨大的成本优势。
在上层,快手最大的优势之一就是AI应用场景非常多,这会给大模型的落地带来很多机会。我非常有信心,快手可能是中国对大模型应用探索最深入的公司。

细节来看,快手大模型技术体系覆盖文本()、图像(Ketu)、视频()等多数据模态,并强调多模态大模型之间的连接与互联互通,实现更加智能、灵活的感知和生成能力。
在自研精神和持续研发投入的推动下,快手在视频生成、对话交互、数字人等领域取得了行业领先的突破。
当然,即使是完整的技术体系,也必须与实际的应用场景深度结合才能落地并快速产生商业价值。
这也是快手战略体系中又一重要环节。
当然,得益于庞大的内容平台与创意生态,快手的优势之一就是更容易找到大模型技术的最佳应用点。
具体来说,快手聚焦内容推荐、创意助手、互动社区、电商直播、数字营销等几个场景,努力将大模型技术嵌入到业务的每一个关键环节。
例如在电商直播场景,快手希望通过虚拟主播、智能导购助手等规模化模型应用,为商家提供更加智能、高效的直播带货解决方案;
例如在数字营销方面,快手将大模式技术与广告平台深度融合,加强多模态广告素材智能创意生成,提升广告成本效益,为广告主创造更大价值。

与人分享快乐不如独自享受,因此快手除了不断强化自身之外,还积极致力于推动生态发展。
Ketu的开源就是一个很好的例子。
此外,快手不仅与多所高校、科研机构合作开展技术研发,还设立专项基金支持学术界的科研创新。
例如,中国计算机学会(CCF)与快手携手,共同宣布成立“CCF-快手大模型探索者基金”。
该基金聚焦“大型语言模型”、“视觉理解与生成”等五大核心领域,今年将启动共12个研究项目,每个项目最高可获得30万元资助。
纵观WAIC大会,大模型、算力、数据、AI治理等都是今年的热门话题,而说到大模型,开源与否是一个绕不开的问题。
但快手没有参与这场口水战,而是用行动做出了选择,并用实实在在的成果证明了开源模式的力量。

这一做法也体现了快手一贯务实的大模式作风,不搞空话、不开空头支票,始终坚持产品一发布就上线,立志为用户提供最好的AI技术。
科灵网页版入口:
可用页面:
图模型权重:


