Infinity自回归文生图模型超越Stable Diffusion3,字节商业化技术团队推出20B规模新开源模型

   日期:2025-01-03     来源:网络整理    作者:二手钢材网    浏览:371    评论:0    
核心提示:自回归文生图,迎来新王者——值得一提的是,这其实是从前段时间斩获NeurIPS最佳论文VAR衍生而来的文生图版本。tokenizer的表示空间,大大提高了自回归文生图的上限。自回归文生图新王者Token建模自回归后,词表可以无限大了。下图列出了Infinity和其他文生图模型对比的例子。

量子比特 |公众号

自从回到闻圣图,迎来了新的王——

由Byte商业化技术团队制作的新开源模型超越了Model。

字节客户端开发_字节跳动开源_

值得一提的是,这其实是前段时间获得最佳论文的VAR衍生出来的图的一个版本。

字节跳动开源__字节客户端开发

在预测下一级分辨率的基础上,使用更细粒度的建模图像空间。同时,他们将词汇量扩展到无穷大,增加了图像的表示空间,并大大提高了自回归静脉图的上限。他们还将模型尺寸扩大到 20B。

这样一来,它不仅在图像生成质量上直接击败了VAR,而且在推理速度上也完全继承了VAR的速度优势。在2B模型上,比同大小的SD3快3倍,比Flux dev快14倍,在8B模型上。 SD3.5的大小快了7倍。

字节客户端开发_字节跳动开源_

目前模型和代码均已开源,并提供体验网站。

我们来看看具体情况。

自回归文森图的新王

在过去自回归模型扩散模型的比较中,自回归模型广受诟病的问题是生成图像的质量较低且缺乏高频细节。

字节客户端开发__字节跳动开源

在这样的背景下,生成的图像非常细致,还可以生成各种长宽比的图像,这就解决了大家过去一直担心的VAR不支持动态分辨率的问题。

从具体性能来看,作为纯离散自回归文森图模型,它是自回归方法中的一鸣惊人,远远超过HART、Emu3等方法。

_字节跳动开源_字节客户端开发

字节跳动开源__字节客户端开发

同时也超越了其他路线的SDXL、SOTA方式。

在人体评价方面,用户从整体画面、命令遵从性和美观性三个方面对生成的图像与HART、-Sigma、SD-XL和SD3生成的图像进行了双盲比较。

其中,HART也是基于VAR架构,集成了自回归方法。 -Sigma、SD-XL、SD3- 是 SOTA 的扩散模型。

以接近90%的节拍率击败HART模型。在自回归模型中显示出强大的地位。

此外,它还以75%、80%、65%的节拍率击败了SOTA的扩散模型如-Sigma、SD-XL、SD3-等,证明它可以超越同尺寸的扩散模型。

字节客户端开发_字节跳动开源_

那么,这是如何实现的呢?

Token自回归建​​模提高了模型的高频表示

《道之剑》的核心创新在于提出了一个Token的自回归框架——

_字节客户端开发_字节跳动开源

放弃原来的“Index-wise Token”,采用+1或-1组成的细粒度“Token”来预测下一级分辨率。

在此框架下,通过连续视觉编码器( ) 和 ,表现出很强的特性并获得了更好的性能。

字节跳动开源__字节客户端开发

在Token自回归框架中,关键技术是多尺度位粒度视觉编码器( )。

它将大小为 H×W×3 的图像编码并量化为多尺度特征:1×1×d、2×2×d、...、h×w×d。其中d是视觉编码器的维度,每个维度为+1或-1。词汇表的大小是2d。过去的方法中,d维特征会继续组合成一个Index-wise Token(索引的范围是0~2d-1,这个Index-wise Token作为多类别预测的标签。总类别是词汇表的大小,即 2d。

Index-wise Token存在监管模糊的问题。如下图所示,当量化前的连续特征受到轻微扰动(0.01变成-0.1)时,Index-wise Token的标签就会发生剧烈变化(9变成1),导致模型优化变得困难。

但只有 Token 的一位位标签被翻转,其他位标签仍然可以提供稳定的监管。与 Index-wise Token 相比,Token 更容易优化。

_字节客户端开发_字节跳动开源

研究人员在相同的实验设置下比较了 Index-wise Token 和 Token。

结果表明,预测 token 使模型能够学习更细粒度的高频信号并生成细节更丰富的图像。

字节客户端开发__字节跳动开源

无限的词汇量扩展了表示空间

从信息论的角度来看,扩散模型使用的连续表示空间是无限的,而自回归模型使用的离散表示空间是有限的。

字节客户端开发_字节跳动开源_

这导致自回归使用的图像压缩程度较高,并且恢复高频细节的能力较差。为了提高自回归静脉图的上限,研究人员尝试扩大词汇量来提高效果。

然而,基于Index-wise Token的自回归框架非常不适合扩展词汇量。基于Index-wise Token的自回归模型预测Token的方式如下图左侧所示。模型参数的数量与词汇量的大小正相关。

当d=32时,词汇量为232,预测Index-wise Token的分类器需要参数量为2048×232=8.8×1012=8.8T!

仅一个分类器的参数数量就达到了GPT3的50个参数。在这种情况下,将词汇量扩展到无穷大显然是不可能的。

_字节跳动开源_字节客户端开发

研究人员的解决方案简单粗暴,如上图右侧所示,丢弃索引,直接预测比特!通过Token自回归建​​模,研究人员使用d+1或-1二元分类器并行预测+1或-1分辨率的下一级比特标签。进行这样的更改后,参数大小从 8.8T 下降到 0.13M。因此,使用Token对自回归进行建模后,词汇量可以无限大。

在词汇量无限的情况下,离散化滞后于连续性的问题似乎并没有那么严重:

字节跳动开源_字节客户端开发_

如上表所示,当词汇量放大时,离散视觉编码器重建的FID实际上超过了所提出的连续VAE。

字节客户端开发__字节跳动开源

从可视化效果来看,无限词汇表(Vd=232)相比小词汇表,在高频细节(如上图中人物的眼睛和手指)的重建效果上有质的提升)

模型性能稳步提升

在解决了视觉编码器限制性能天花板的问题后,研究人员开始了一系列关于缩放词汇和缩放模型的实验。

_字节跳动开源_字节客户端开发

研究发现,对于125M的小模型,使用Vd=216的小词汇量会比Vd=232的大词汇量收敛得更快、更好。

然而,随着模型的增长,大词汇量的优势逐渐显现出来。当模型增加到2B并且训练迭代超过50K时,大词汇量取得更好的效果。最终采用Vd=232的大词汇量。考虑到232已经超出了int32的数值范围,可以认为是无限数,这也是名字的由来。

综上所述,(无限)大词汇量且训练充分的放大模型效果明显优于小词汇量放大模型。

字节跳动开源_字节客户端开发_

除了词汇量之外,研究人员还对模型大小进行了实验。

他们在完全相同的实验设置下比较了五个不同尺寸的模型:125M、361M、940M、2.2B和4.7B。

可以看出,随着模型的增大和训练资源的增加,验证集损失稳步下降,验证集准确率稳步上升。此外,研究人员发现验证集Loss与各项测试指标之间存在很强的线性关系,线性相关系数高达0.98。

字节跳动开源__字节客户端开发

下图中的每个九方格子对应着相同提示词在不同模型大小和不同训练步骤下的生成图像。

我们可以清楚地看到,凭借良好的特征、更大的模型和更多的训练,它可以生成具有更好语义结构和高频细节的图像。

_字节跳动开源_字节客户端开发

此外,提出了位自校正技术,使得视觉自回归文森图模型具有自校正能力,缓解自回归推理过程中的累积误差问题。

字节跳动开源__字节客户端开发

字节客户端开发_字节跳动开源_

它还可以生成各种长宽比的图像,解决了VAR不支持动态分辨率的问题。

下图列出了与其他 图模型的比较示例。

可以看出它在命令跟随、文字渲染、画面美观等方面都有更好的表现。

_字节跳动开源_字节客户端开发

除了效果之外,它完全继承了VAR在预测下一级分辨率时的速度优势,并且相比扩散模型在推理速度上有显着的优势。

字节客户端开发__字节跳动开源

2B模型生成图像仅需0.8s,比同尺寸的SD3快3倍,比12B Flux Dev快14倍。 8B型号比同尺寸的SD3.5快7倍。 20B模型生成图像需要3秒,仍然比12B Flux Dev快了近4倍。

目前,仓库中的训练和推理代码、demo、模型权重均已上线。

2B和20B型号均已开放网站体验。有兴趣的同学可以尝试一下效果。

开源地址:

项目页面:

体验网站:

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2