小模型时代开启!OpenAI、Mistral AI、HuggingFace、苹果纷纷入局,谁能称霸战场?

   日期:2024-07-22     来源:网络整理    作者:二手钢材网    浏览:130    评论:0    
核心提示:如今,苹果也发布了70亿参数小模型DCLM,性能碾压Mistral-7B。对比大部分科技巨头只搞闭源模型,或「犹抱琵琶半遮面」,只开源代码或权重的做法,大方的苹果获得了网友的好评。7B模型落后的事情,反而让1.4B模型反超了,果然小模型才是苹果的看家本领。

小模特的战场已经开始!

继GPT-4o mini和NeMo发布之后,苹果也进入了该市场。

DCLM小模型拥有70亿和14亿两种参数规模,发布即开源,最大70亿参数超过-7B,性能接近Llama 3和Gemma。

开源官方网站_开源模型百度百科_

据苹果 ML 小组的一位研究科学家(也是 DCLM 的开发者)称,这是迄今为止表现最好的“真正开源”模型,不仅有权重和训练代码,而且基于开放数据集 DCLM-。

开源模型百度百科__开源官方网站

相较于典范表现,DCLM树立的“真开源”榜样更引人注目。

相比于多数科技巨头仅采用闭源模型,或者“半隐半现”、只开放源代码或权重的做法,苹果的慷慨大方赢得了网友们的称赞。

_开源模型百度百科_开源官方网站

此外,还宣布模型中间检查点和优化器状态将继续上线。

_开源官方网站_开源模型百度百科

这会是LLM开源社区的春天吗?

开源官方网站__开源模型百度百科

DCLM系列完全开源

目前,所有模型权重均已上线发布,模型卡基本涵盖了关键信息。

开源官方网站__开源模型百度百科

DCLM-7B 也使用 -only 架构,并使用和框架进行预训练。

总共有 4T 个 token 的 DCLM- 来自总共 240T 的 DCLM,DCLM-7B 模型进一步筛选出 2.5T 进行训练。

_开源模型百度百科_开源官方网站

上下文长度为2048,小于8k长度的7B和Gemma 2的9B。

性能方面,作者直接使用评估套件LLM在53个基准任务上测试了模型的得分。

在与其他模型进行比较时,除了MMLU分数外,作者还定制了两个指标——“核心准确率”(core)和“扩展准确率”( )。

前者是、ARC-E等22个任务的中心准确率的平均值,而后者涵盖了全部53个任务。

虽然 DCLM 使用的数据并不是最多的,但是与同等规模的其他开放数据模型(权重和数据集均开源)相比,DCLM 在三个指标上都取得了最优表现。

_开源模型百度百科_开源官方网站

基准测试分数的三列从左到右依次为:Core、MMLU、

与之前的 SOTA MAP-Neo 模型相比,DCLM-7B 在 5-shot MMLU 任务中达到了 63.7% 的准确率,提升了 6.6 个百分点,同时减少了 40% 的训练所需计算量。

但与开源权重、闭源数据集的模型相比,结果并不令人满意。

DCLM在各项指标上与Phi-3均有明显差距,其得分与-7B-v0.3或Gemma 8B大致相当。

开源官方网站__开源模型百度百科

研究人员发现,如果使用来自同一数据集的额外 100B 数据进行训练,并将上下文长度扩展至 8k,模型在核心和扩展基准上的得分会进一步提高,但 MMLU 结果并没有变化。

这个结果完全超出了7B-v0.3的分数。

此外,针对7B模型的微调版本指令发布,使得GSM8K在数学推理任务中的表现获得大幅提升,分数由原来的2.1飙升至52.5。

_开源官方网站_开源模型百度百科

除了7B版本之外,1.4B版本也同步发布,令人惊奇的是,训练数据量相比7B版本增加了0.1T。

开源官方网站_开源模型百度百科_

与最近发布的DCLM-1B相比,性能明显更好,尤其是5-shot MMLU分数,提升了11.9%。

不仅如此,DCLM-1B 在 MMLU 上的得分 41.9 也高于 Qwen-1.5B 的 37.87 和 Phi-1.5B 的 35.90。

开源官方网站__开源模型百度百科

7B机型的延迟问题已经被1.4B机型克服了。看来小机型才是苹果的强项。

值得注意的是,7B模型只能从一万亿庞大的数据中洗出来,足够训练18个GPT-4了!全球有23家机构联手使用ASCL旗下的清洗秘诀,但2.0下发布了1.4B版本,允许商业使用、分发和修改。

说到此次发布的DCLM系列车型,就不得不提其重要的基础——标杆。

开源官方网站_开源模型百度百科_

论文地址:

该论文于6月17日首次发表,共同第一作者Li、Alex Fang和共同最后一位作者也是Apple DCLM的开发者。

文章不仅详细阐述了数据集的构建过程,还提到了一些关于DCLM模型的内容。

他们表示将很快发布该论文的更新版本,其中包含更多有关模型预训练的技术细节。

与针对同一个数据集修改模型相比,其思路是相反的——评估所用的模型是固定的,任务是在总计240T的数据池中筛选并处理出最好的数据。

可以说,这种做法与科技巨头的研发思路十分一致——对于LLM的性能而言,预训练数据正在成为比模型架构和权重更为重要的因素。

毕竟Llama、Gemma、Phi等一系列“开源”模型只给出权重,并不公布数据。

我们既需要法律,也需要 SLM

对于AI科技巨头来说,有时模型越大越好。

开源模型百度百科__开源官方网站

事实上,AI社区里一直不乏小模型,比如微软Phi系列模型的多次迭代,以及谷歌6月底刚刚更新的Gemma 2 7B。

本周突然发布的GPT-4o mini、AI联手发布NeMo,以及其他小模型的发布,都再一次为小模型领域添油加火。

正如研究人员所说,“虽然我们比任何人都更喜欢训练大型模型,但我们也知道如何训练小型模型。”

开源模型百度百科__开源官方网站

小型模型具有成本低、速度快、专业性强等优势,通常仅使用少量数据进行训练,针对特定任务而设计。

把大型模型做小,然后扩大其规模,可能是未来的发展趋势之一。

_开源模型百度百科_开源官方网站

两天前,GPT-4o mini发布时,也发表了一条长推,​​表达了类似的观点。

开源官方网站__开源模型百度百科

他认为,车型尺寸的竞争会“反方向加剧”,不是比谁更大,而是比谁更小、更轻。

目前的 LLM 之所以逐渐成为“庞然大物”,是因为训练过程还是非常浪费的,我们基本上是要求模型记住整个互联网的内容(而事实上 LLM 的记忆能力还是相当不错的,比人类要好得多)。

但对于小型模型来说,训练目标已经发生了变化。关键问题是人工智能系统如何从更少的数据中学到更多东西。

我们需要模型先变大,再变小,因为我们需要一个“庞然大物”来将数据重建、塑造成理想的合成形态,逐步得到“完美训练集”,然后将其喂给小模型。

马斯克也认同这个观点,所描述的模型改进阶梯,正是特斯拉在现实中走过的路。

_开源模型百度百科_开源官方网站

2023年4月,Sam宣布大型AI模型时代结束。在最近的一次采访中,他还证实数据质量是进一步进行AI训练的关键成功因素。

开源官方网站_开源模型百度百科_

微软研究人员在开发Phi模型时做出了这一假设,Face AI研究人员近期也证实了这一假设并发布了高质量的训练数据集。

以GPT-4为例,开发和使用超过一万亿个参数的成本就超过1亿美元。

小型模型(例如专门针对法律数据集进行训练的模型)可能使用少于 100 亿个参数,成本低于 1000 万美元,并且使用较少的计算能力来响应每个查询,因此成本较低。

纳德拉曾表示,Phi 系列小型模型的大小仅为其背后免费模型的 1/100,并且在许多任务上的表现几乎一样好。

开源官方网站_开源模型百度百科_

此外,谷歌、、和今年也推出了尺寸较小的机型。

今年6月,苹果公布了自己的AI发展路线图,计划采用小型模型,让软件能够完全在手机上运行,​​从而提高速度和安全性。

对于许多任务来说,例如总结文档或生成图像,大型模型可能会显得过于庞大。

这项开创性工作的作者 Illia 表示,计算 2 + 2 并不需要进行千万亿次运算。

不过科技巨头们并没有放弃大屏模式,在今年的WWDC大会上,苹果就宣布将其嵌入到Siri助手中,用于执行撰写邮件等复杂任务。

毕竟,在通往终极AGI/ASI的道路上,参数规模的扩大与智能的增长是成正比的。

_开源官方网站_开源模型百度百科

参考:

本文来自微信公众号“新智元”,作者:新智元,经授权36氪发布。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2