浏览器里直接能跑的 SOTA 小模型,抱抱脸出品,秘诀只有两个

   日期:2024-08-19     来源:网络整理    作者:二手钢材网    浏览:158    评论:0    
核心提示:浏览器里直接能跑的SOTA小模型来了,分别在2亿、5亿和20亿级别获胜,抱抱脸出品。抱抱脸使用当时最好的开源模型Mixtral-8-7B构造了25B合成数据。抱抱脸团队称这项实验结果是“苦乐参半”的:虽然模型性能前所未有的高,但也显示出了合成数据还是比不过真实数据。

早上起来发现右脸肿了_洗完脸就可以用蒸脸器_

秘密只有两个:

首席科学家Wolf总结了团队在开发小模型方面的经验,并提出了新的想法,引起了业界的关注:

合成数据目前仅在特定领域有用;网络如此庞大且多样化,以至于真实数据的潜力尚未充分发挥。

洗完脸就可以用蒸脸器__早上起来发现右脸肿了

目前360M模型版本已经发布demo,可以在线游玩(注意流量)。

早上起来发现右脸肿了_洗完脸就可以用蒸脸器_

在浏览器中调用本地GPU运行,包括模型权重和Web前端UI,都在400MB以内。

_早上起来发现右脸肿了_洗完脸就可以用蒸脸器

严格过滤网络数据,性能大幅提升

至于微软的Phi系列小模型,其宣称使用了一半的合成数据,效果非常好,但是数据并未公开。

开源行业的领导者们再也忍受不了了:

创建一个基准大型合成数据集并将其开源。

而且该团队暗示,此举也是为了测试微软在修改测试集上的排名的传言是否属实。

洗完脸就可以用蒸脸器_早上起来发现右脸肿了_

使用当时最好的开源模型构建了 25B 合成数据——8-7B。

训练好的模型表现良好,但仍然比Phi-1和Phi-1.5的水平略低。

他们尝试建立大型模型来解释中学阶段的各种主题,但最终在博士级别的主题——MMLU 测试中表现不佳。

_洗完脸就可以用蒸脸器_早上起来发现右脸肿了

真正的性能突破来自于一个支线任务:

除了使用大型模型从头生成合成数据外,还可以尝试使用大型模型来过滤网络数据。

具体来说,我们利用 -70B- 生成的注释开发了一个分类器,以便仅保留数据集中最具教育意义的网页。

使用经过严格过滤的网络数据后,性能飙升,在大多数基准测试中超越了包括 Phi-1.5 在内的所有其他类似大小的模型。

早上起来发现右脸肿了__洗完脸就可以用蒸脸器

团队称这次实验的结果“苦乐参半”:虽然模型性能达到了前所未有的高水平,但也表明合成数据仍然不如真实数据。

后来他们用同样的思路从自然语言扩展到代码,过滤后的代码数据集也被证明非常强大。

将基准得分从13%左右直接提高到20%以上。

他们最终构建的混合数据集中,去重过滤后的数据集占了绝大多数,纯粹的合成数据v2只占15%。

_早上起来发现右脸肿了_洗完脸就可以用蒸脸器

那么,总而言之,合成数据还有用吗?

该团队认为,它可能只有在真正缺乏真实数据的领域才更有意义,比如推理和数学。

_洗完脸就可以用蒸脸器_早上起来发现右脸肿了

即使小型模型也需要数万亿次训练

就在他们对这些新发现和新成果感到兴奋之时,一位新的实习生Elie加入了。

虽然当时他只是一名实习生,但他确实是各项训练技术的专家。

_洗完脸就可以用蒸脸器_早上起来发现右脸肿了

在Elie的帮助下,团队将模型大小从1.7B缩减到360M甚至170M,与经典模型GPT-1、GPT-2和BERT相当。

这个过程中还有第二个重要发现:与过去的共识不同,即使是小模型也要在数万亿个token上进行训练,而且时间越长越好。

此外,数据退火也被证明是有效的,即在训练的最后部分保留一组特殊的高质量数据。

最终发布的系列模型适合部署在从智能手机到笔记本电脑等多种设备上,其中最大的1.7B模型BF16精度仅占用3G内存。

作为参考,15的入门版也有6G,安卓手机就更多了。

洗完脸就可以用蒸脸器_早上起来发现右脸肿了_

虽然这次训练出来的基础模型已经足够好了,但是团队还是发现了一个问题。

过去的对齐和微调技术,例如SFT,DPO,PPO等,对于大模型非常有效,但对于小模型并不理想。

团队分析称,对齐数据集包含许多对于小型模型来说过于复杂的概念,并且缺乏精心设计的简单任务。

下一个新坑也挖好了,有兴趣的团队可以开始动手了,说不定能成为小模型的大救星呢。

在线试用:

参考链接:[1][2]

本文来自微信公众号“量子位”,作者:孟辰,36氪经授权发布。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2