微软发布 3 款超强轻量级模型,Phi-3.5 系列性能超越 GPT-4o mini

   日期:2024-08-22     来源:网络整理    作者:二手钢材网    浏览:204    评论:0    
核心提示:微软今天发布的3个Phi-3.5模型包括用于基础快速推理的Phi-3.5-mini-instruct(38.2亿个参数)、性能更为强大的Phi-3.5-MoE-instruct(419亿个参数)和视觉模型Phi-3.5-vision-instruct(41.5亿个参数)。

此次发布的一系列轻量级模型叫Phi-3.5,适合在内存和计算能力有限的环境中运行,都支持128k上下文长度。Phi-3.5-mini - 主要用于基本的快速推理任务,Phi-3.5-MoE - 用于复杂的推理任务,Phi-3.5 - 用于文本和视觉功能。

最强大的 Phi-3.5-MoE- 模型,拥有 419 亿个参数,在 5 个样本的 MMLU 测试中击败了 GPT-4o mini。这是 首次使用混合专家模型架构。

Phi-3.5-mini-是该模型系列中最小的,在长上下文代码理解任务中明显优于Llama-3.1-8B-和-7B-,而其参数大小不到Llama-3.1-8B-的一半。

此次发布的三款机型名称中均带有“”字样,这意味着这些机型经过优化,可以遵循用户指令,这对于设备侧机型来说是一个极其重要的技能。

在开源模型库Face上详细公布了这三个模型的提炼过程,包括数据源、数据规模、算力等。这三种模型都是在 MIT 许可下的开源模型,开发人员可以自由使用、修改或出售该软件的副本。

项目地址:

1、三款轻量级机型相继发布,击败GPT-4o mini和Llama 3.1-8B

_上下文模型图_上下文设计模式

今天发布的三 Phi-3.5模型包括用于基本快速推理的Phi-3.5-mini-(38.2亿个参数)、Phi-3.5-MoE-(419亿个参数)和Phi-3.5--,视觉模型(41.5亿个参数)。

1. Phi-3.5-mini-:A16芯片可本地运行

Phi-3.5-mini - 此模型旨在遵循指令,非常适合在内存或计算受限的环境中为代码生成、数学问题和基于逻辑的推理等任务提供强大的推理功能。

尽管只有 38.2 亿个参数,但 Phi-3.5-mini- 模型在多语言和多轮对话任务中表现良好。它在许多基准测试中都是先进的,并且在长上下文代码理解任务(Llama-3.1-8B-和-7B-)中明显优于其他模型。

▲Phi-3.5-mini - 在长上下文代码理解任务中具有明显优势(来源:)。

没有直接说明Phi-3.5-mini是否会在手机上运行,但与其参数大小基本相同的Phi-3-mini,在4位量化后,可以在A16仿生芯片上流畅运行,每秒产生超过12个token。

2. Phi-3.5-MoE-:首个专家混合模型

Phi-3.5-MoE - 是 的第一个专家混合模型。这种类型的模型结合了具有不同功能的多个模型,每个模型都专注于特定任务。

该模型利用了一个具有 419 亿个激活参数的架构,但根据 在 Face 上的文档,该模型只需要 66 亿个激活参数即可运行。

Phi-3.5-MoE - 在各种推理任务中表现出色,在代码、数学和多语言理解方面具有强大的性能,超越了其他参数尺度更大的开源模型。

上下文设计模式__上下文模型图

▲对Phi-3.5-MoE-pair、Java等编程语言的掌握程度明显优于其他同类模型(来源:)。

该模型还在 5 个示例 MMLU 测试中击败了 GPT-4o mini。该基准涵盖技术、工程、数学、人文和社会科学领域的问题。

▲Phi-3.5-MoE-在5个样本的MMLU测试中以微弱优势击败GPT-4o mini(来源:)。

MoE 模型的独特架构也使 Phi-3.5-MoE- 在处理多种语言的复杂 AI 任务时保持高效。此模型支持 23 种语言,包括中文。

3. Phi-3.5--:适用于OCR、图表理解和视频摘要

Phi-3.5 – 结合文本和图像处理。它可以在计算能力和内存不足的情况下提供良好的通用图像理解、光学字符识别(OCR)、图表和表格理解、多图像比对以及多图像或视频剪辑摘要。

该模型可以管理复杂的多帧视觉任务。 强调,该模型是使用合成和过滤的公开可用数据集的组合进行训练的,重点关注高质量、推理密集型数据。

2. 训练时间少于1周,模型全部开源提供

还宣布在Face上训练这套轻量级模型。Phi-3.5-mini 模型使用了 3.4 万亿个 token 数据,训练能力来自 512 个 H100-80G GPU,训练历时 10 天。

上下文设计模式_上下文模型图_

▲Phi-3.5-mini-的Face页面(来源:Face)。

Phi-3.5 – 该模型的训练时间更短,仅为 6 天。数据量为 5000 亿个令牌,训练过程中使用了 256 个 A100-80G GPU。

Phi-3.5-MoE-参数尺度大,因此训练持续时间为23天。该模型使用的训练能力与 Phi-3.5-mini- 相同,但数据量为 4.9 万亿个令牌。

所有三个 Phi-3.5 模型都是在 MIT 许可下的开源,符合 之前对开源社区的承诺。MIT 许可证赋予开发人员使用、修改、合并、发布、分发、再许可或出售软件副本的自由。

该许可证还包括一项免责声明,即软件按“原样”提供,不提供任何形式的保证。 和其他版权所有者对因使用本软件而可能产生的任何索赔、损害或其他责任概不负责。

结语:的轻量级模型再造佳绩,端侧AI潜力凸显

的 Phi 系列模型一直以轻量级为特点。今年 4 月底, 发布了 Phi-3 系列模型,其功能水平与 GPT-3.5 大致相当,但运行成本要低得多。仅仅 4 个月后, 就将其轻量级型号的性能提升了一个档次。

开发具有低计算能力要求的端到端模型可以使 的 AI PC 和其他使用该系统的设备获得本地化、低延迟和高安全性的 AI 体验。苹果的苹果背后也有一系列的端侧机型,这表明,即使现在机型越来越大,功能越来越强大,无论是性能还是性价比都有很大的潜力。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2