推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

OpenAI强化微调技术开放给外部开发者，提升模型推理能力和任务准确性

日期：2024-12-09 来源：网络整理作者：二手钢材网浏览：368 评论：0

核心提示：对此，奥特曼激动地表示：「这项工作效果出奇得好，是我2024年最大的惊喜之一！而更喜人的是，团队的成员全部来自字节跳动！一句话就是：拿上你的数据集和评分器，OpenAI就会给你一个微调模型。直播最后，依然是OpenAI式的圣诞冷笑话一则——

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_

首先，这是之前仅限于自身模型（如GPT-4o和o1系列）的强化学习技术首次向外部开发者开放。

其次，开发者只需要提供至少“几十个”高质量任务，就可以通过增强微调来定制领域专家模型！此外，可以根据提供的参考答案对模型的响应进行评分。

最后，密集微调增强了模型在处理领域问题时的推理能力，提高了特定任务的准确性。对于需要高精度和专业知识的领域，加强微调将发挥至关重要的作用。

从官方演示中不难看出，增强微调的效果相当显着——经过增强微调的o1 mini已经完全超越了如今最强大的基础款o1。

其中，增强微调版o1 mini的Top-1准确率直接跃升180%，达到31%，远超o1的25%。

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_

_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

对此，奥特曼兴奋地说：“这部作品的效果出奇的好，是我2024年最大的惊喜之一！我非常期待大家会用它来打造什么。”

目前，增强微调研究计划已进入Alpha阶段，将于2025年第一季度公开发布。

_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

为了弄清楚什么是“增强微调”，我们询问了我们自己的人工智能搜索。

没想到结果却出人意料——这个技术思路已经在ACL 2024接受为Oral的论文中提出。

更可喜的是，团队成员全部来自字节跳动！

_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

在这项工作中，研究人员提出了一种简单而有效的增强LLM推理泛化能力的方法——强化微调（Fine-，ReFT）。

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1__OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

论文地址：

简单来说，ReFT首先使用SFT对模型进行预热，然后使用在线强化学习（PPO算法）进行优化。

即针对给定问题自动采样大量推理路径，并根据真实答案获得奖励，进一步微调模型。

在GSM8K、SVAMP数据集上的大量实验表明，ReFT明显优于SFT，并且通过结合多数投票和重新排序等策略可以进一步提高模型性能。

不仅如此，ReFT还具有出色的泛化能力——训练时只需要使用与SFT相同的问题集，而不需要依赖额外或增强的训练数据。

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1__OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

增强微调，而非传统微调

此次参与直播的四人分别是研究员 Mark Chen、John 和 Julie Wang，以及伯克利实验室计算生物学家 Reese。

_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

他们表示，该功能已经允许用户在自己的数据集上微调 o1。

但需要强调的是，这不是传统的微调，而是增强型微调。真正利用强化学习算法，将模型从高中水平提升到专家博士水平。

该功能可以帮助您将高质量的数据集转化为独特的物资并带来“魔力”。

强化微调 (RFT) 为开发人员、研究人员和机器学习工程师提供了第一次使用强化学习创建在特定领域任务中表现出色的专家级模型的机会。

对于法律、金融、工程和保险等领域来说，这项技术是量身定制的。

例如，我们最近与汤森路透合作，利用增强微调对o1 Mini进行微调，使其成为法律助手，帮助法律专业人士完成一些需要深入分析的复杂工作流程。

历史上第一次，微调支持强化学习

去年年初，监管微调API上线。这项技术非常强大，核心目标是让模型复制输入文本或图像中的特征。

在强化微调中，它不仅仅是教导模型模仿输入，而是学习在自定义领域以全新的方式进行推理。

当模型看到一个问题时，研究人员会给它空间来思考这个问题，然后评估其最终答案。

然后，利用强化学习的力量，他们强化那些导致正确答案的思维路径，同时抑制那些导致错误答案的思维路径。

只需数以万计的高质量示例，该模型就可以在自定义领域中学习以新的有效方式进行推理！

用研究人员的话说，这太疯狂了，令人难以置信，仅用 12 个例子就可以完成，这是传统微调难以实现的。

这也是历史上第一次模型定制平台能够支持强化学习。

研究人员强调，内部使用相同的技术来训练 GPT-4o 和 o1 系列等顶级模型。

强化微调O1诊断罕见疾病

伯克利实验室介绍了增强微调给他的研究带来的巨大帮助。

_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

他研究使用计算方法来了解罕见疾病背后的遗传原因。

然而，现在评估罕见疾病并不容易。它需要医学专业领域知识和对生物医学数据的系统推理。

而这一点，o1 模型可以利用其高级推理能力来提供帮助。

在这个项目中，我和同事从数百份有关罕见疾病的科学病例报告中提取了疾病信息，包括患者的体征和症状。

他们希望根据患者的症状找出可能突变并导致这些症状的基因。

为此，他们和团队训练了 o1 模型，使其能够更高效地推理疾病原因。

在“根据一系列症状预测可能引发遗传病的基因”任务上，o1-mini的表现超越了o1！

这一点很重要，因为 O1-mini 比 O1 更小、更快且更便宜。

在开发平台上，他们经过一年多的监督微调模型。

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_

他们上传了包含 1100 个示例的训练数据集。

下面是一个包含三个部分的数据点：案例报告、说明和正确答案。

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_

病例报告显示，这是一名51岁的女性，出现眼睛睁大、甲状旁腺功能亢进等症状。在说明部分，研究人员提示模型它想要做什么。终于有正确答案了。

注意，在训练过程中，这个答案不会显示给模型，否则就是作弊。

然而，研究人员在训练过程中使用这个答案来评估模型。

可见，这个任务的难度已经远远超过了“有多少个R”的程度。

接下来，他们上传了一些验证数据，这些数据的格式与训练数据完全相同，但验证数据集和训练数据集之间的正确基因没有重叠。

_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

这意味着该模型不能作弊，只能记住一系列症状并将其与基因进行匹配。

它必须真正从训练数据集推广到验证数据集。

强化学习部分具体体现是这样的——

他们引入了评分器的概念，它将模型输出与正确答案进行比较，并返回 0 到 1 之间的分数。0 表示模型完全错误，1 表示模型完全正确。

在此示例中，模型得分为 0.7，因为 FOXE 3 是正确答案，并且在基因列表中排名第二。

列表越往下，分数就越接近 0。

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1__OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

最后，研究人员提供了一组评分器，可以有效覆盖强化微调中可能涉及的各种意图空间。

接下来，您可以快速复制记分器并开始训练任务。

很棒的是，你只需要提供数据集和评分器（体现领域专业知识），就可以利用强化学习算法的全部能力和完整的分布式模型训练技术栈，为你的项目定制最前沿的模型。自己的使用场景。。

一句话：拿起你的数据集和评分器，你将得到一个经过微调的模型。

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_

强化学习微调任务可能需要几个小时到几天的时间才能运行

可以看出，验证集的奖励分数呈现上升趋势。

由于训练数据集和验证数据集之间的基因没有重叠，这意味着：模型确实学会了泛化此任务！

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_

模型学习一般推理能力

为了更深入地了解模型在微调过程中发生的变化，您可以查看评估仪表板。

_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

其中，研究人员设置了三种不同的运行，分别是在o1、o1 mini和增强微调后的o1 mini上运行的任务。

可以看到右上角的奖励积分呈上升趋势，但这对于任务来说意味着什么呢？

为此，他们设置了三个不同的评价指标，分别是Top-1（第一项的正确率）、Top-5（前五项的正确率）和Top-max（是否包含正确答案）。

在Top-1指标中，o1 mini在约200条数据上得分为17%。 o1 获得了 25%，而经过微调的 o1 mini 获得了 31%。

这会产生更直观的图表。

这表明模型确实学会了对此类数据进行推理的一般能力！

_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1

看来强化学习将极大地激发生物研究界的兴趣，并且在不久的将来最好的解决方案可能是结合现有生物信息学工具和类O1模型的混合解决方案。

以上只是增强微调在科研中的一个应用。

除了经过验证的生物化学、人工智能安全、法律和医疗保健数据集之外，模型还将在数百个其他应用场景中发挥作用。

Alpha 计划将让更多人在最重要的任务上突破 o1 模型的能力界限。

直播结束，依旧是圣诞笑话——

最近，圣诞老人试图建造一辆无人驾驶雪橇，但由于某种原因，他的模型总是无法识别树木，导致雪橇不断撞向道路两旁的树木。你认为这是为什么？

答案是：因为他忘记了“松调整”模型！

OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_OpenAI直播第二弹！奥特曼2024年最大惊喜竟来自字节？强化微调让o1-mini逆袭o1_

参考：

标签： GSM8K MathQA SVAMP ReFT 强化微调

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

OpenAI强化微调技术开放给外部开发者，提升模型推理能力和任务准确性

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司