Midjourney V6、Imagen 3、FLU.1[pro]等文生图 AI 大 PK,谁更胜一筹?

   日期:2024-08-11     来源:网络整理    作者:二手钢材网    浏览:202    评论:0    
核心提示:网友赞叹道:从一年半前惨不忍睹的威尔·史密斯吃意面,到今天这个程度,进步可谓是疯狂的。同时,也有火眼金睛的网友发现,这个视频依然有一些细微的bug。SD一作携原班人马创业,一出手就是王炸尤其是FLUX.1[pro],经过测试在一众文生图模型中拔得头筹。

当然,几家顶流文生图AI的PK,肯定也少不了:Midjourney V6 vs Imagen 3 vs FLU.1[pro]。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

异色瞳的亚洲女性。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?__超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

美洲原住民。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?__超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

有美人痣的南亚妇女。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

疯狂的艺术家。

很遗憾,谷歌大概因为安全设置过于敏感,并不能生成这个prompt……

_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

留着八字胡的高加索老人。

_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

Runway也来蹭了一波,但…

趁着这股热度,Runway创意总监Nicolas Neubert,还用自家的Gen-3 Alpha生成了一段视频。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?__超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

果然,AI图片变成视频后,效果依然杠杠的!

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

而这个帖子,也同样引起了轰动。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?__超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

网友赞叹道:从一年半前惨不忍睹的威尔·史密斯吃意面,到今天这个程度,进步可谓是疯狂的。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

同时,也有火眼金睛的网友发现,这个视频依然有一些细微的bug。

比如人的舌头不会动,牙齿有些弯曲、扁平,第4秒时左臂出现了奇怪的斑点,还有Google标志处的bug,也非常明显。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

如果看得再仔细点,会发现所有的阴影都很不自然,比如麦克风的阴影。还有东西接触的地方,很多线条是乱的。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?__超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

嘴唇的动作也不自然。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

眼睛看起来仍然没有灵魂。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?__超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

总的来说,相比于AI生图,目前AI视频的bug显然要多得多。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

背后的原因还是在于,AI根本不理解人类的舌头、头发、眼睛究竟是什么东西。接下来的AI,还是要学会人体解剖和物理学才行。

_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

而且,在文生图这块,Runway就要差得多了。

_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

SD一作携原班人马创业,一出手就是王炸

说回到FLUX.1,其实在8月初的时候它就引起过一波热议。

Stable Diffusion一作、Stabililty AI核心成员Robin Rombach下场创业,官宣成立Black Forest Labs。

祭出的首个产品FLUX.1系列模型,效果直接秒杀Midjourney、DALL-E和Stable Diffusion!

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

根据官博的介绍,FLUX.1在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了SOTA。

尤其是FLUX.1[pro],经过测试在一众文生图模型中拔得头筹。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?__超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

视觉质量、提示词遵循、尺寸/纵横比变化、排版和输出多样性

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

ELO得分

为了在可访问性和模型能力之间取得平衡,FLUX.1有三种变体:FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]:

- FLUX.1 [pro]:FLUX.1的顶级版本,提供最先进的图像生成,具有一流的提示词跟随能力、视觉质量、图像细节和输出多样性。

- FLUX.1 [dev]是一个开放权重的指令蒸馏模型,用于非商业应用。由于是从FLUX.1 [pro]直接蒸馏而来,因此FLUX.1 [dev]不仅获得了强大的质量和提示词跟随能力,而且比同规模的标准模型更加高效。

- FLUX.1 [schnell]是最快的模型,专为本地开发和个人使用而设计。(schnell在德语中就是快的意思)

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

值得一提的是,所有FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构,参数规模为120亿。

其中,团队通过构建流匹配(flow matching)改进了之前的扩散模型,并且通过结合旋转位置嵌入(rotary positional embeddings)和并行注意力层提高了模型性能和改进硬件效率。

团队成员

扒开Black Forest Labs主页,可以看到团队共有15位成员。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

创始人正是老熟人Robin Rombach。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

Stability AI曾收购了Robin的Latent Diffusion模型,并聘请他成为首席科学家。

在Google Scholar网站上,Robin Rombach参与论文《High-Resolution Image Synthesis With Latent Diffusion Models》已经收获了9000多次引用。

_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

期间他领导了全球著名文生图开源项目Stable Diffusion系列,这也是全球下载最多、使用最广的开源大模型之一。

超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_

论文地址:

Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD论文作者,也是Black Forest Labs创业团队的新成员。

除了Bjorn Ommer,可以说Robin将SD核心元老全都带走了。

《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》,正收Robin离职前发表的最后一篇论文。

_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

论文地址:

值得一提的是,在这篇论文中,Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也参与了其中。

除此以外,新团队曾经的创新成果包括创建VQGAN和潜在扩散(Latent Diffusion)、用于图像和视频生成的SD模型(SD XL 、SVD)以及用于超快速实时图像合成的对抗扩散蒸馏(Adversarial Diffusion Distillation)。

_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?_超越恐怖谷,全球500万网友被骗,爆火TEDx演讲者没一个是真人?

看来,AI生图和视频的进步速度,还在不断加快。

再过一年,我们能看到的AI图片和视频,将是惊人的。

参考资料:

本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2