Midjourney V6、Imagen 3、FLU.1[pro]等文生图 AI 大 PK，谁更胜一筹？_其他资讯_资讯

Midjourney V6、Imagen 3、FLU.1[pro]等文生图 AI 大 PK，谁更胜一筹？

日期：2024-08-11 来源：网络整理作者：二手钢材网浏览：202 评论：0

核心提示：网友赞叹道：从一年半前惨不忍睹的威尔·史密斯吃意面，到今天这个程度，进步可谓是疯狂的。同时，也有火眼金睛的网友发现，这个视频依然有一些细微的bug。SD一作携原班人马创业，一出手就是王炸尤其是FLUX.1[pro]，经过测试在一众文生图模型中拔得头筹。

当然，几家顶流文生图AI的PK，肯定也少不了：Midjourney V6 vs Imagen 3 vs FLU.1[pro]。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

异色瞳的亚洲女性。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？__超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

美洲原住民。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？__超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

有美人痣的南亚妇女。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

疯狂的艺术家。

很遗憾，谷歌大概因为安全设置过于敏感，并不能生成这个prompt……

_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

留着八字胡的高加索老人。

_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

Runway也来蹭了一波，但…

趁着这股热度，Runway创意总监Nicolas Neubert，还用自家的Gen-3 Alpha生成了一段视频。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？__超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

果然，AI图片变成视频后，效果依然杠杠的！

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

而这个帖子，也同样引起了轰动。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？__超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

网友赞叹道：从一年半前惨不忍睹的威尔·史密斯吃意面，到今天这个程度，进步可谓是疯狂的。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

同时，也有火眼金睛的网友发现，这个视频依然有一些细微的bug。

比如人的舌头不会动，牙齿有些弯曲、扁平，第4秒时左臂出现了奇怪的斑点，还有Google标志处的bug，也非常明显。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

如果看得再仔细点，会发现所有的阴影都很不自然，比如麦克风的阴影。还有东西接触的地方，很多线条是乱的。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？__超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

嘴唇的动作也不自然。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

眼睛看起来仍然没有灵魂。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？__超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

总的来说，相比于AI生图，目前AI视频的bug显然要多得多。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

背后的原因还是在于，AI根本不理解人类的舌头、头发、眼睛究竟是什么东西。接下来的AI，还是要学会人体解剖和物理学才行。

_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

而且，在文生图这块，Runway就要差得多了。

_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

SD一作携原班人马创业，一出手就是王炸

说回到FLUX.1，其实在8月初的时候它就引起过一波热议。

Stable Diffusion一作、Stabililty AI核心成员Robin Rombach下场创业，官宣成立Black Forest Labs。

祭出的首个产品FLUX.1系列模型，效果直接秒杀Midjourney、DALL-E和Stable Diffusion！

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

根据官博的介绍，FLUX.1在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了SOTA。

尤其是FLUX.1[pro]，经过测试在一众文生图模型中拔得头筹。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？__超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

视觉质量、提示词遵循、尺寸/纵横比变化、排版和输出多样性

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

ELO得分

为了在可访问性和模型能力之间取得平衡，FLUX.1有三种变体：FLUX.1[pro]、FLUX.1[dev]和FLUX.1[schnell]：

- FLUX.1 [pro]：FLUX.1的顶级版本，提供最先进的图像生成，具有一流的提示词跟随能力、视觉质量、图像细节和输出多样性。

- FLUX.1 [dev]是一个开放权重的指令蒸馏模型，用于非商业应用。由于是从FLUX.1 [pro]直接蒸馏而来，因此FLUX.1 [dev]不仅获得了强大的质量和提示词跟随能力，而且比同规模的标准模型更加高效。

- FLUX.1 [schnell]是最快的模型，专为本地开发和个人使用而设计。（schnell在德语中就是快的意思）

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

值得一提的是，所有FLUX.1模型都基于多模态和并行扩散Transformer块的混合架构，参数规模为120亿。

其中，团队通过构建流匹配（flow matching）改进了之前的扩散模型，并且通过结合旋转位置嵌入（rotary positional embeddings）和并行注意力层提高了模型性能和改进硬件效率。

团队成员

扒开Black Forest Labs主页，可以看到团队共有15位成员。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

创始人正是老熟人Robin Rombach。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

Stability AI曾收购了Robin的Latent Diffusion模型，并聘请他成为首席科学家。

在Google Scholar网站上，Robin Rombach参与论文《High-Resolution Image Synthesis With Latent Diffusion Models》已经收获了9000多次引用。

_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

期间他领导了全球著名文生图开源项目Stable Diffusion系列，这也是全球下载最多、使用最广的开源大模型之一。

超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_

论文地址：

Andreas Blattmann、Patrick Esser、Dominik Lorenz三人皆是SD论文作者，也是Black Forest Labs创业团队的新成员。

除了Bjorn Ommer，可以说Robin将SD核心元老全都带走了。

《Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation》，正收Robin离职前发表的最后一篇论文。

_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

论文地址：

值得一提的是，在这篇论文中，Andreas Blattmann、Tim Dockhorn、Axel Sauer、Frederic Boesel、Patrick Esser也参与了其中。

除此以外，新团队曾经的创新成果包括创建VQGAN和潜在扩散（Latent Diffusion）、用于图像和视频生成的SD模型（SD XL 、SVD）以及用于超快速实时图像合成的对抗扩散蒸馏（Adversarial Diffusion Distillation）。

_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？_超越恐怖谷，全球500万网友被骗，爆火TEDx演讲者没一个是真人？

看来，AI生图和视频的进步速度，还在不断加快。

再过一年，我们能看到的AI图片和视频，将是惊人的。

参考资料：

本文来自微信公众号“新智元”，作者：新智元，36氪经授权发布。

打赏

更多>同类资讯

• 买车必看！车身钢材五大核心密码，教你不被数字	• 2024年全球新船下水盛况，解密中国造船业二十年
• 黄石：从矿冶传奇到创新高地的百年钢火重生之路	• 美国新泽西州特斯拉Model X事故被动安全护人安
• 12月2日新款阿维塔11上市预售29.99 - 42.99万	• Mistral AI 发布超大杯基础模型 Pixtral Large
• 比亚迪腾势 Z9 轿车 12 月初交付，定位 D 级科	• 2024 广州车展全新 MINI 燃油车家族上市，限时
• 比亚迪腾势 Z9 轿车 12 月初交付，标配多项智能	• 微软宣布旗下 Microsoft 自动填充 Chrome 扩展

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

Midjourney V6、Imagen 3、FLU.1[pro]等文生图 AI 大 PK，谁更胜一筹？

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司