推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

微软发布 3 款超强轻量级模型，Phi-3.5 系列性能超越 GPT-4o mini

日期：2024-08-22 来源：网络整理作者：二手钢材网浏览：204 评论：0

核心提示：微软今天发布的3个Phi-3.5模型包括用于基础快速推理的Phi-3.5-mini-instruct（38.2亿个参数）、性能更为强大的Phi-3.5-MoE-instruct（419亿个参数）和视觉模型Phi-3.5-vision-instruct（41.5亿个参数）。

此次发布的一系列轻量级模型叫Phi-3.5，适合在内存和计算能力有限的环境中运行，都支持128k上下文长度。Phi-3.5-mini - 主要用于基本的快速推理任务，Phi-3.5-MoE - 用于复杂的推理任务，Phi-3.5 - 用于文本和视觉功能。

最强大的 Phi-3.5-MoE- 模型，拥有 419 亿个参数，在 5 个样本的 MMLU 测试中击败了 GPT-4o mini。这是首次使用混合专家模型架构。

这

Phi-3.5-mini-是该模型系列中最小的，在长上下文代码理解任务中明显优于Llama-3.1-8B-和-7B-，而其参数大小不到Llama-3.1-8B-的一半。

此次发布的三款机型名称中均带有“”字样，这意味着这些机型经过优化，可以遵循用户指令，这对于设备侧机型来说是一个极其重要的技能。

在开源模型库Face上详细公布了这三个模型的提炼过程，包括数据源、数据规模、算力等。这三种模型都是在 MIT 许可下的开源模型，开发人员可以自由使用、修改或出售该软件的副本。

项目地址：

1、三款轻量级机型相继发布，击败GPT-4o mini和Llama 3.1-8B

_上下文模型图_上下文设计模式

今天发布的三 Phi-3.5模型包括用于基本快速推理的Phi-3.5-mini-（38.2亿个参数）、Phi-3.5-MoE-（419亿个参数）和Phi-3.5--,视觉模型（41.5亿个参数）。

1. Phi-3.5-mini-：A16芯片可本地运行

Phi-3.5-mini - 此模型旨在遵循指令，非常适合在内存或计算受限的环境中为代码生成、数学问题和基于逻辑的推理等任务提供强大的推理功能。

尽管只有 38.2 亿个参数，但 Phi-3.5-mini- 模型在多语言和多轮对话任务中表现良好。它在许多基准测试中都是先进的，并且在长上下文代码理解任务（Llama-3.1-8B-和-7B-）中明显优于其他模型。

▲Phi-3.5-mini - 在长上下文代码理解任务中具有明显优势（来源：）。

没有直接说明Phi-3.5-mini是否会在手机上运行，但与其参数大小基本相同的Phi-3-mini，在4位量化后，可以在A16仿生芯片上流畅运行，每秒产生超过12个token。

2. Phi-3.5-MoE-：首个专家混合模型

Phi-3.5-MoE - 是的第一个专家混合模型。这种类型的模型结合了具有不同功能的多个模型，每个模型都专注于特定任务。

该模型利用了一个具有 419 亿个激活参数的架构，但根据在 Face 上的文档，该模型只需要 66 亿个激活参数即可运行。

Phi-3.5-MoE - 在各种推理任务中表现出色，在代码、数学和多语言理解方面具有强大的性能，超越了其他参数尺度更大的开源模型。

上下文设计模式__上下文模型图

▲对Phi-3.5-MoE-pair、Java等编程语言的掌握程度明显优于其他同类模型（来源：）。

该模型还在 5 个示例 MMLU 测试中击败了 GPT-4o mini。该基准涵盖技术、工程、数学、人文和社会科学领域的问题。

▲Phi-3.5-MoE-在5个样本的MMLU测试中以微弱优势击败GPT-4o mini（来源：）。

这

MoE 模型的独特架构也使 Phi-3.5-MoE- 在处理多种语言的复杂 AI 任务时保持高效。此模型支持 23 种语言，包括中文。

3. Phi-3.5--：适用于OCR、图表理解和视频摘要

Phi-3.5 – 结合文本和图像处理。它可以在计算能力和内存不足的情况下提供良好的通用图像理解、光学字符识别（OCR）、图表和表格理解、多图像比对以及多图像或视频剪辑摘要。

该模型可以管理复杂的多帧视觉任务。强调，该模型是使用合成和过滤的公开可用数据集的组合进行训练的，重点关注高质量、推理密集型数据。

2. 训练时间少于1周，模型全部开源提供

还宣布在Face上训练这套轻量级模型。Phi-3.5-mini 模型使用了 3.4 万亿个 token 数据，训练能力来自 512 个 H100-80G GPU，训练历时 10 天。

上下文设计模式_上下文模型图_

▲Phi-3.5-mini-的Face页面（来源：Face）。

Phi-3.5 – 该模型的训练时间更短，仅为 6 天。数据量为 5000 亿个令牌，训练过程中使用了 256 个 A100-80G GPU。

Phi-3.5-MoE-参数尺度大，因此训练持续时间为23天。该模型使用的训练能力与 Phi-3.5-mini- 相同，但数据量为 4.9 万亿个令牌。

所有三个 Phi-3.5 模型都是在 MIT 许可下的开源，符合之前对开源社区的承诺。MIT 许可证赋予开发人员使用、修改、合并、发布、分发、再许可或出售软件副本的自由。

结语：的轻量级模型再造佳绩，端侧AI潜力凸显

的 Phi 系列模型一直以轻量级为特点。今年 4 月底，发布了 Phi-3 系列模型，其功能水平与 GPT-3.5 大致相当，但运行成本要低得多。仅仅 4 个月后，就将其轻量级型号的性能提升了一个档次。

开发具有低计算能力要求的端到端模型可以使的 AI PC 和其他使用该系统的设备获得本地化、低延迟和高安全性的 AI 体验。苹果的苹果背后也有一系列的端侧机型，这表明，即使现在机型越来越大，功能越来越强大，无论是性能还是性价比都有很大的潜力。

标签： 微软 Phi-3 模型手机运行

打赏

更多>同类资讯

0 条相关评论

• 市值超10万亿微软永久关全球实体店铺，不锈钢行	• 微软起诉组织非法入侵Azure OpenAI服务，涉及10
• 微软宣布DirectX未来支持协作向量，推动神经渲	• 微软确认少量裁员，影响不到1%员工，公司股价表
• 2024年英伟达AI投资激增：10亿美元押注初创企业	• 黑莓QNX与微软合作加速软件定义汽车开发，QNX S
• 微软豪掷800亿美元建设数据中心，2025财年投资	• Windows 11动态壁纸探索：微软设计师Sergey Kis
• 微软医疗论文意外曝光OpenAI模型参数，GPT-4o m	• 特斯拉全年交付量首次下滑，周四美股成交额榜首

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

微软发布 3 款超强轻量级模型，Phi-3.5 系列性能超越 GPT-4o mini

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司