推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

ModernBERT：现代版BERT模型发布，更快更准，上下文长度提升至8192 token

日期：2024-12-25 来源：网络整理作者：二手钢材网浏览：271 评论：0

核心提示：更现代的ModernBERT问世，更快、更准、上下文更长，发布即开源！token，相较于以BERT为首的大多数编码器，其长度是它们的16倍而像BERT这样的仅编码器模型可以同时考虑前后文信息，向前向后看都行。

量子比特 |公众号

时隔6年，曾经被认为濒临死亡的“BERT”回来了——

更现代的出现，更快，更准确，具有更长的上下文，作为开源发布！

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_

去年，一张“大语言模型进化树”的动画图在学术界疯传。 ——only欣欣向荣，但是，曾经繁荣的——only，却似乎走向了没落。

_时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

作者说：

-仅被低估。

他们最近推出了两款型号，参数分别为139M（base）和395M（Large）。上下文长度为 8192 个标记。与大多数以BERT为首的编码器相比，它们的长度长了16倍。

它特别适用于信息检索（RAG）、分类、实体提取等任务。

在检索、自然语言理解和代码检索测试中性能达到 SOTA：

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_

效率也很高。

速度提高一倍；通过更常见的输入长度混合，速度提高高达 4 倍；长上下文推理比其他模型快约 3 倍。

关键是它占用的内存还不到五分之一。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_

表示当前关于生成模型的热烈讨论掩盖了-only模型的作用。

像 GPT-4 这样的大型模型太大、太慢、私有化且成本高昂，并且不适合许多任务。还有Llama 3.1，参数达到405B。

这些模型速度慢、成本高并且不受您的控制。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_

像 GPT-4 这样的生成模型也有一个局限性：它们无法提前看到后续的 token，只能根据之前生成的或已知的信息进行预测，即只能向后看。

像 BERT 这样的纯编码器模型可以同时考虑上下文和上下文信息，无论是前向还是后向。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文__时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

发布后吸引了数十万网友在线观看和点赞。

花黄连联合创始人兼CEO克莱姆前来力挺并表示“我喜欢！！”。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文__时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

为什么叫“现代”呢？相比BERT做了哪些升级？

仅限不可杀死

现代性体现在三个方面：

让我们一一看看。

首先，深受++（以Mamba命名）的启发，该架构的第一个应用是在一系列模型上。

该团队用其改进版本替换了旧的类似 BERT 的构建模块，主要包括以下改进：

接下来，在提高速度/效率方面，采用了Flash 2进行改进，主要依赖于三个关键组件：

一是利用交替注意力（）来提高处理效率。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文__时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

二是使用sum来减少计算浪费。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文__时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

三是通过硬件感知模型设计（-Aware Model）最大化硬件利用率。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_

我这里就不详细说了。有兴趣的小朋友可以自行查看原论文。

最后，让我们看看训练和数据方面的改进。

该团队认为，训练数据落后的实际问题在于训练数据的多样性，即许多旧模型是在有限的语料库上训练的，这些语料库通常只包括维基百科和书籍，而这些数据只有单一文本情态。

因此，训练时使用了多种数据，包括网络文档、编程代码和科学文章，涵盖2万亿个token，其中大部分是唯一的，而不是之前常见的20-40个重复数据。

在训练过程中，团队坚持使用原来的BERT训练公式，并做了一些小升级，比如去掉下一句预测目标，因为研究表明这样的设置增加了开销但没有明显的好处，而且还减少了mask率从15%提高到30%。

具体来说，139M和395M模型都通过了三阶段训练。

首先，第一阶段，序列长度为1024时训练1.7T。然后是长上下文适应阶段，模型处理的序列长度增加到8192，训练数据量为250B，同时保持通过减少批量大小，每批处理的总量大致相同。最后，模型在 500 亿个临时样本上进行退火，遵循强调长上下文扩展的理想混合。

经过一些操作后，该模型在长上下文任务上表现得具有竞争力，并且其处理短上下文的能力没有受到损害。

训练过程团队还对学习率做了特殊处理。在前两个阶段，模型采用恒定学习率，而在最后的500亿次退火阶段，采用阶梯学习率策略（预热-稳定-衰减）。

该团队还使用了两种技术来加速模型的训练过程，一种是常见的batch-size，另一种受到微软Phi系列模型的启发，利用现有性能良好的-base模型权重，通过转换基础模型的权重“平铺”扩展到更大的模型，提高了权重初始化的效果。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文__时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

作者透露，他们将被公开以支持后续研究。

谁建造的？

前述者是该作品的作者之一。

三位核心作者是：

, , 克拉维昂。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_

据透露，该项目最初由 Clavié 七个月前发起，随后作为该项目的联合领导者加入。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文__时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文

ClaviéOn，相同，来自 .AI。 .AI打造了一款可以用AI解决问题、解释概念、记忆和复习考试的教育应用，在北美比较流行。

它来自一家做生成式人工智能的公司。

该团队表示，虽然 BERT 似乎被谈论得较少，但如今它仍然被广泛使用：

目前，该平台每月下载量超过 6800 万次。正是由于其唯一的架构，它非常适合解决日常事件检索（例如 RAG）、分类（例如内容审核）和实体提取任务。

该公司表示，明年将训练该模型的更大版本。

时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_时隔6年BERT升级！仅编码器架构没被杀死，更快更准确更长上下文_

博客：

-根据：

-大的：

纸：

参考链接：

标签： GPT-4 生成模型 BERT ModernBERT 训练过程

打赏

更多>同类资讯

0 条相关评论

• 微软医疗论文意外曝光OpenAI模型参数，GPT-4o m	• 2024年人工智能产业回顾：模型端与应用端的进展
• 百川智能发布全链路领域增强大模型Baichuan4-Fi	• 百川智能发布全链路领域增强大模型Baichuan4-Fi
• OpenAI发布下一代模型o3，双12直播活动奥特曼现	• OpenAI推出强化微调新功能，企业组织将受益于AI
• OpenAI强化微调o1 mini测试通过率提升82%，企业	• ChatGPT发布两周年：回顾AI行业的重要时刻与动
• GPT-4与AI智能体串谋操控市场价格，自主算法共	• AI智能体距离自主研发多远？多项成果显示其在研

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

ModernBERT：现代版BERT模型发布，更快更准，上下文长度提升至8192 token

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司