连续12天的“王炸”第二弹来了。与第一天关注人工智能(AI)模型不同,王扎第二天重点关注服务公司等组织的新功能。虽然看起来并不针对普通消费者,但据悉甚至可以进行简化。推理模型o1 mini的效果超过了本周四发布的o1正式版,即所谓的全健康o1。
美国东部时间12月6日周五,社交媒体X公布的活动第二天主题是新功能“Fine-”。主题是企业组织将能够通过“增强微调”对o1 mini进行微调,以满足其特定需求。


首席执行官 Sam 发布于


O1 的研究人员周五介绍说,科学家、开发人员和研究人员可以根据自己的数据定制强大的推理模型,而不仅仅是使用公开数据。不同行业的人们可以利用强化学习来创建基于o1的专家模型,从而提高该领域的整体专业水平。开发人员、研究人员和机器学习工程师将首次能够使用强化学习来构建各自专业领域的专家模型。
研究人员表示,强化微调不仅仅是教导模型模型输出。其工作方式是,当模型发现问题时,研究人员给予模型仔细思考问题的空间,然后评估模型给出的最终答案,利用强化学习,研究人员可以强化产生正确答案的想法并抑制产生错误答案的想法。只需“几十个”甚至 12 个示例,该模型就可以以有效的新方式在特定领域进行学习。推理。

通过强化学习,用户可以使用大型模型在特定数据上训练其他模型。这对于涉及大量数据或需要专业领域知识的复杂领域的新研究非常有用。例如,研究人员最近与汤森路透合作,使用增强型微调对 o1 mini 进行微调,它充当法律助理,帮助他们的法律专业人员完成大部分分析工作流程。
据称,定制的模型平台将支持强化学习,这也是内部使用的一项技术,用于训练自己的尖端模型,例如GPT-4o和o1系列模型。在封闭测试中,增强微调在生物化学、安全、法律和医疗保健方面取得了成功。计划于2025年初向社会发布增强微调,目前应用测试通道向企业、高校和科研院所开放。

伯克利大学罕见遗传病研究员里斯本周五参加了 o1 mini 模型的现场演示。在演示中,研究人员试图从样本数据池中获取可能导致疾病的模型ID基因。
研究人员展示了一张评价表,如下图所示。第一排是本周四发布的o1正式版的评测表现,第二排是o1 mini的评测结果,第三排结果来自o1 mini最终的增强微调。研究人员进行了三种类型的评估。其中,top@1是测试模型给出的正确答案出现在列表顶列的概率,top@5是正确答案出现在前五列的概率,top@max是答案出现在列表顶栏中的概率。所有正确答案列表的概率。
如图所示,o1正式版的测试通过率为25%,o1 mini的测试通过率为17%。而增强微调后的o1 mini达到了31%,超过了o1正式版,比o1正式版的评测结果高出24%。 ,与未进行微调前相比,微调后的结果提高了82.3%。


据称,用户可以利用o1、微调和数据,打造定制化的小o1车型o1 mini。用户要做的就是提供数据,然后在强化微调方面,设置一个数据集和一个“评分器”,根据训练和验证数据集来评估模型的性能,剩下的就剩下了到它。


