ModernBERT:现代版BERT模型发布,更快更准,上下文长度提升至8192 token

   日期:2024-12-25     来源:网络整理    作者:二手钢材网    浏览:271    评论:0    
核心提示:更现代的ModernBERT问世,更快、更准、上下文更长,发布即开源!token,相较于以BERT为首的大多数编码器,其长度是它们的16倍而像BERT这样的仅编码器模型可以同时考虑前后文信息,向前向后看都行。

量子比特 |公众号

时隔6年,曾经被认为濒临死亡的“BERT”回来了——

更现代的出现,更快,更准确,具有更长的上下文,作为开源发布!

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_

去年,一张“大语言模型进化树”的动画图在学术界疯传。 ——only欣欣向荣,但是,曾经繁荣的——only,却似乎走向了没落。

_时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

作者说:

-仅被低估。

他们最近推出了两款型号,参数分别为139M(base)和395M(Large)。上下文长度为 8192 个标记。与大多数以BERT为首的编码器相比,它们的长度长了16倍。

它特别适用于信息检索(RAG)、分类、实体提取等任务。

在检索、自然语言理解和代码检索测试中性能达到 SOTA:

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_

效率也很高。

速度提高一倍;通过更常见的输入长度混合,速度提高高达 4 倍;长上下文推理比其他模型快约 3 倍。

关键是它占用的内存还不到五分之一。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_

表示当前关于生成模型的热烈讨论掩盖了-only模型的作用。

GPT-4 这样的大型模型太大、太慢、私有化且成本高昂,并且不适合许多任务。还有Llama 3.1,参数达到405B。

这些模型速度慢、成本高并且不受您的控制。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_

像 GPT-4 这样的生成模型也有一个局限性:它们无法提前看到后续的 token,只能根据之前生成的或已知的信息进行预测,即只能向后看。

像 BERT 这样的纯编码器模型可以同时考虑上下文和上下文信息,无论是前向还是后向。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文__时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

发布后吸引了数十万网友在线观看和点赞。

花黄连联合创始人兼CEO克莱姆前来力挺并表示“我喜欢!!”。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文__时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

为什么叫“现代”呢?相比BERT做了哪些升级?

仅限不可杀死

现代性体现在三个方面:

让我们一一看看。

首先,深受++(以Mamba命名)的启发,该架构的第一个应用是在一系列模型上。

该团队用其改进版本替换了旧的类似 BERT 的构建模块,主要包括以下改进:

接下来,在提高速度/效率方面,采用了Flash 2进行改进,主要依赖于三个关键组件:

一是利用交替注意力( )来提高处理效率。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文__时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

二是使用sum来减少计算浪费。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文__时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

三是通过硬件感知模型设计(-Aware Model)最大化硬件利用率。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_

我这里就不详细说了。有兴趣的小朋友可以自行查看原论文。

最后,让我们看看训练和数据方面的改进。

该团队认为,训练数据落后的实际问题在于训练数据的多样性,即许多旧模型是在有限的语料库上训练的,这些语料库通常只包括维基百科和书籍,而这些数据只有单一文本情态。

因此,训练时使用了多种数据,包括网络文档、编程代码和科学文章,涵盖2万亿个token,其中大部分是唯一的,而不是之前常见的20-40个重复数据。

训练过程中,团队坚持使用原来的BERT训练公式,并做了一些小升级,比如去掉下一句预测目标,因为研究表明这样的设置增加了开销但没有明显的好处,而且还减少了mask率从15%提高到30%。

具体来说,139M和395M模型都通过了三阶段训练。

首先,第一阶段,序列长度为1024时训练1.7T。然后是长上下文适应阶段,模型处理的序列长度增加到8192,训练数据量为250B,同时保持通过减少批量大小,每批处理的总量大致相同。最后,模型在 500 亿个临时样本上进行退火,遵循强调长上下文扩展的理想混合。

经过一些操作后,该模型在长上下文任务上表现得具有竞争力,并且其处理短上下文的能力没有受到损害。

训练过程团队还对学习率做了特殊处理。在前两个阶段,模型采用恒定学习率,而在最后的500亿次退火阶段,采用阶梯学习率策略(预热-稳定-衰减)。

该团队还使用了两种技术来加速模型的训练过程,一种是常见的batch-size,另一种受到微软Phi系列模型的启发,利用现有性能良好的-base模型权重,通过转换基础模型的权重“平铺”扩展到更大的模型,提高了权重初始化的效果。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文__时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

作者透露,他们将被公开以支持后续研究。

谁建造的?

前述者是该作品的作者之一。

三位核心作者是:

, , 克拉维昂。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_

据透露,该项目最初由 Clavié 七个月前发起,随后作为该项目的联合领导者加入。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文__时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

ClaviéOn,相同,来自 .AI。 .AI打造了一款可以用AI解决问题、解释概念、记忆和复习考试的教育应用,在北美比较流行。

它来自一家做生成式人工智能的公司。

该团队表示,虽然 BERT 似乎被谈论得较少,但如今它仍然被广泛使用:

目前,该平台每月下载量超过 6800 万次。正是由于其唯一的架构,它非常适合解决日常事件检索(例如 RAG)、分类(例如内容审核)和实体提取任务。

该公司表示,明年将训练该模型的更大版本。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文_

博客:

-根据:

-大的:

纸:

参考链接:

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2