OpenAI推出强化微调新功能,企业组织将受益于AI模型定制化

   日期:2024-12-08     来源:网络整理    作者:二手钢材网    浏览:151    评论:0    
核心提示:Altman在X发帖称,强化微调的效果非常棒,是他今年最大的惊喜之一,期待看到大家利用这种功能的创造。examples)、甚至12个例子,模型就能以有效的新方式学习特定领域的推理。

美国东部时间12月6日周五,社交媒体X公布的第二天活动主题是新功能“Fine-”。主题是企业组织将能够通过“增强微调”对o1 mini进行微调,以满足其特定需求。

OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜__OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜

OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜_OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜_

首席执行官 Sam 发布于

OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜__OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜

OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜__OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜

O1 的研究人员周五介绍说,科学家、开发人员和研究人员可以根据自己的数据定制强大的推理模型,而不仅仅是使用公开数据。不同行业的人们可以利用强化学习来创建基于o1的专家模型,从而提高该领域的整体专业水平。开发人员、研究人员和机器学习工程师将首次能够使用强化学习来构建各自专业领域的专家模型。

研究人员表示,强化微调不仅仅是教导模型模型输出。其工作方式是,当模型发现问题时,研究人员给予模型仔细思考问题的空间,然后评估模型给出的最终答案,利用强化学习,研究人员可以强化产生正确答案的想法并抑制产生错误答案的想法。只需“几十个”甚至 12 个示例,该模型就可以以有效的新方式在特定领域进行学习。推理。

OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜_OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜_

通过强化学习,用户可以使用大型模型在特定数据上训练其他模型。这对于涉及大量数据或需要专业领域知识的复杂领域的新研究非常有用。例如,研究人员最近与汤森路透合作,使用增强型微调对 o1 mini 进行微调,它充当法律助理,帮助他们的法律专业人员完成大部分分析工作流程。

据称,定制的模型平台将支持强化学习,这也是内部使用的一项技术,用于训练自己的尖端模型,例如GPT-4o和o1系列模型。在封闭测试中,增强微调在生物化学、安全、法律和医疗保健方面取得了成功。计划于2025年初向社会发布增强微调,目前应用测试通道向企业、高校和科研院所开放。

OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜__OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜

伯克利大学罕见遗传病研究员里斯本周五参加了 o1 mini 模型的现场演示。在演示中,研究人员试图从样本数据池中获取可能导致疾病的模型ID基因。

研究人员展示了一张评估表,如下图所示。第一排是本周四发布的o1正式版的评测表现,第二排是o1 mini的评测结果,第三排结果来自经过最终增强和微调的o1 mini。研究人员进行了三种类型的评估。其中,top@1是测试模型给出的正确答案出现在列表顶列的概率,top@5是正确答案出现在前五列的概率,top@max是答案出现在列表顶列中的概率。所有正确答案列表的概率。

如图所示,o1正式版的测试通过率为25%,o1 mini的测试通过率为17%。不过,增强微调后的o1 mini达到了31%,超过了o1正式版,比o1正式版的评测结果高出了24%。 ,与未进行微调前相比,微调后的结果提高了82.3%。

OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜__OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜

OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜_OpenAI王炸第二弹强化微调:12个例子搞定专业学习推理,Altman称为今年最大惊喜_

据称,用户可以利用o1、微调和数据的结合,打造定制化的小o1车型o1 mini。用户要做的就是提供数据,然后在强化微调方面,设置一个数据集和一个“评分器”,根据训练和验证数据集来评估模型的性能,剩下的就剩下了到它。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2