推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

OpenAI强化微调o1 mini测试通过率提升82%，企业新功能超越正式版o1

日期：2024-12-07 来源：网络整理作者：二手钢材网浏览：203 评论：0

核心提示：Altman在X发帖称，强化微调的效果非常棒，是他今年最大的惊喜之一，期待看到大家利用这种功能的创造。examples）、甚至12个例子，模型就能以有效的新方式学习特定领域的推理。

连续12天的“王炸”第二弹来了。与第一天关注人工智能（AI）模型不同，王扎第二天重点关注服务公司等组织的新功能。虽然看起来并不针对普通消费者，但据悉甚至可以进行简化。推理模型o1 mini的效果超过了本周四发布的o1正式版，即所谓的全健康o1。

美国东部时间12月6日周五，社交媒体X公布的活动第二天主题是新功能“Fine-”。主题是企业组织将能够通过“增强微调”对o1 mini进行微调，以满足其特定需求。

OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜__OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

_OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜_OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

首席执行官 Sam 发布于

OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜__OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

_OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜_OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

O1 的研究人员周五介绍说，科学家、开发人员和研究人员可以根据自己的数据定制强大的推理模型，而不仅仅是使用公开数据。不同行业的人们可以利用强化学习来创建基于o1的专家模型，从而提高该领域的整体专业水平。开发人员、研究人员和机器学习工程师将首次能够使用强化学习来构建各自专业领域的专家模型。

研究人员表示，强化微调不仅仅是教导模型模型输出。其工作方式是，当模型发现问题时，研究人员给予模型仔细思考问题的空间，然后评估模型给出的最终答案，利用强化学习，研究人员可以强化产生正确答案的想法并抑制产生错误答案的想法。只需“几十个”甚至 12 个示例，该模型就可以以有效的新方式在特定领域进行学习。推理。

OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜__OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

通过强化学习，用户可以使用大型模型在特定数据上训练其他模型。这对于涉及大量数据或需要专业领域知识的复杂领域的新研究非常有用。例如，研究人员最近与汤森路透合作，使用增强型微调对 o1 mini 进行微调，它充当法律助理，帮助他们的法律专业人员完成大部分分析工作流程。

据称，定制的模型平台将支持强化学习，这也是内部使用的一项技术，用于训练自己的尖端模型，例如GPT-4o和o1系列模型。在封闭测试中，增强微调在生物化学、安全、法律和医疗保健方面取得了成功。计划于2025年初向社会发布增强微调，目前应用测试通道向企业、高校和科研院所开放。

_OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜_OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

伯克利大学罕见遗传病研究员里斯本周五参加了 o1 mini 模型的现场演示。在演示中，研究人员试图从样本数据池中获取可能导致疾病的模型ID基因。

研究人员展示了一张评价表，如下图所示。第一排是本周四发布的o1正式版的评测表现，第二排是o1 mini的评测结果，第三排结果来自o1 mini最终的增强微调。研究人员进行了三种类型的评估。其中，top@1是测试模型给出的正确答案出现在列表顶列的概率，top@5是正确答案出现在前五列的概率，top@max是答案出现在列表顶栏中的概率。所有正确答案列表的概率。

如图所示，o1正式版的测试通过率为25%，o1 mini的测试通过率为17%。而增强微调后的o1 mini达到了31%，超过了o1正式版，比o1正式版的评测结果高出24%。，与未进行微调前相比，微调后的结果提高了82.3%。

_OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜_OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜__OpenAI王炸第二弹强化微调：12个例子搞定专业学习推理，Altman称为今年最大惊喜

据称，用户可以利用o1、微调和数据，打造定制化的小o1车型o1 mini。用户要做的就是提供数据，然后在强化微调方面，设置一个数据集和一个“评分器”，根据训练和验证数据集来评估模型的性能，剩下的就剩下了到它。

标签： OpenAI 研究员强化学习定制模型 GPT-4

打赏

更多>同类资讯

0 条相关评论

• OpenAI CEO萨姆・阿尔特曼：AI时代提出正确问题	• OpenAI推出Tasks测试版功能，ChatGPT迈向成熟个
• OpenAI招聘揭示机器人项目进展：定制传感器与高	• 微软起诉组织非法入侵Azure OpenAI服务，涉及10
• ChatGPT两年震撼世界：技术、应用、法规、伦理	• OpenAI创始人奥特曼反思GPT发展历程与AGI未来，
• DeepSeek震撼科技界：国产AI之光，139人团队如	• 2025年AI与汽车行业趋势：小鹏汽车CEO何小鹏荣
• 马斯克Grok AI应用上线苹果App Store，加速进军	• 马斯克要求强制拍卖OpenAI股份，外部投资者或控

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

OpenAI强化微调o1 mini测试通过率提升82%，企业新功能超越正式版o1

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司