AI 助力数学研究,Transformer 模型学会因果推理的新范式

   日期:2024-07-17     来源:网络整理    作者:二手钢材网    浏览:131    评论:0    
核心提示:也就是说,如果学习公理的方式不是学习通过某个数据生成流程得到的数据,而是直接学习公理的符号演示(并由此学习因果推理),哪又会如何呢?学习因果公理,实现公理训练,该团队采用了以下方法构建数据集、损失函数和位置嵌入。下面问题又来了:如果使用这些数据训练一个模型,那么该模型能否学会将该公理应用于新场景?

AI 已经在帮助数学家和科学家进行研究。例如,著名数学家陶哲轩曾多次分享他使用 GPT 等 AI 工具进行研究的经验。如果 AI 要在这些领域取得长足进步,强大而可靠的因果推理能力必不可少。

本文介绍了一项研究,发现在小图的因果传递性公理证明上训练的模型可以推广大图的传递性公理。

也就是说,如果你学会了进行简单的因果推理,你就可以用它来进行更复杂的因果推理。该团队提出的公理训练框架是一种基于被动数据学习因果推理的新范式,只要论证充分,就可以用它来学习任意的公理。

介绍

因果推理()可以定义为一组符合因果关系特定预定义公理或规则的推理程序。例如,d-(有向分离)和 do-规则可以被视为公理,而集合或集合规范可以被视为从公理中得出的规则。

通常,因果推理使用与系统中的变量相对应的数据。公理或规则可以通过正则化、模型架构或特定变量选择以归纳偏差的形式集成到机器学习模型中。

Judea Pearl 的“因果阶梯”定义了因果推理的可能类型,具体取决于可用的数据类型(观察数据、干预数据、反事实数据)。

由于公理是因果关系的基石,我们不禁想知道我们是否可以使用机器学习模型直接学习公理。换句话说,如果我们不是通过学习某些数据生成过程中的数据来学习公理,而是通过直接学习公理的符号表示(从而学习因果推理)来学习公理,会怎么样?

与使用特定数据分布构建的任务特定因果模型相比,此类模型的优势在于它们可用于在各种下游场景中执行因果推理。随着语言模型获得从自然语言表达的符号数据中学习的能力,这个问题变得非常重要。

事实上,最近的一些研究通过创建用自然语言编码因果推理问题的基准来评估大型语言模型 (LLM) 是否可以执行因果推理。

来自微软、麻省理工学院和印度理工学院海得拉巴分校(IIT)的研究团队也在这个方向上迈出了重要的一步:他们提出了一种通过公理训练来学习因果推理的方法( )。

论文标题:

论文地址:

公理培训

他们假设因果公理可以表示为以下符号组⟨, , ⟩。其中是假设,即因果陈述;是前提,即用于确定该陈述是否为“真”的任何相关信息;是结果。结果可以是简单的“是”或“否”。

例如,论文“从大可以推断出吗?”中的公理可以表示为:,结论是“可以”。

基于该模板,通过修改变量名称、变量数量、变量顺序等可以生成大量的合成元组。

为了通过学习因果公理来实现公理训练,团队采用以下方法构建数据集、损失函数和位置嵌入。

Axiom 训练:数据集、损失函数和位置编译

训练数据

基于特定的公理,根据“前提”可以将“假设”映射到适当的标签(是或否)。为了创建训练数据集,团队枚举了特定变量设置 X、Y、Z、A 下所有可能的元组 {(P, H, L)}_N,其中 P 是前提,H 是假设,L 是标签(是或否)。

给定一个基于因果图的前提 P,如果前提 P 可以通过使用某些公理(一次或多次)推导出来,则标签 L 为“是”;否则为“否”。

例如,假设一个系统的底层真实因果图具有链式拓扑结构:X_1 → X_2 → X_3 →... → X_n。那么,一个可能的前提是 X_1 → X_2 ∧ X_2 → X_3,则前提 X_1 → X_3 的标签为 Yes,另一个前提 X_3 → X_1 的标签为 No。上述公理可以多次归纳使用,以生成更复杂的训练元组。

对于训练设置,使用传递性公理生成的 N 个公理实例构建合成数据集 D。D 中的每个实例都以 (P_i, H_ij, L_ij) 的形式构建,其中 n 是每个第 i 个前提中的节点数。P 是前提,是因果结构的自然语言表达(例如 X 导致 Y,Y 导致 Z);后面跟着问题 H(例如 X 是否导致 Y?);L 是标签(是或否)。此形式可以有效覆盖给定因果图中每个唯一链的所有节点对。

损失函数

因果模型构建__10万亿公理

给定一个数据集,损失函数根据每个元组的地面真实标签定义,表示为:分析表明,与下一个标记预测相比,使用此损失可以获得有希望的结果。

位置编码

除了训练和损失函数之外,位置编码的选择是另一个重要因素。位置编码可以提供有关序列中 token 的绝对和相对位置的关键信息。

著名论文《is all you need》提出了一种绝对位置编码策略,使用周期函数(正弦或余弦函数)来初始化这些编码。

绝对位置编码为任何序列长度的所有位置提供确定​​性值。然而,研究表明,绝对位置编码难以推广到长度。在可学习的 APE 变体中,每个位置嵌入都是随机初始化的,并使用此模型进行训练。这种方法很难处理比用于训练的序列更长的序列,因为新的位置嵌入仍然未经训练和初始化。

有趣的是,最近的研究结果表明,在自回归模型中删除位置嵌入可以提高模型的长度泛化能力,而自回归解码过程中的注意力机制足以编码位置信息。该团队使用了不同的位置编码来了解它们对因果任务中泛化的影响,包括可学习位置编码 (LPE)、正弦位置编码 (SPE) 和无位置编码 (NoPE)。

为了提高模型的泛化能力,团队还使用了数据扰动,包括长度、节点名称、链序和分支的扰动。

实验

10万亿公理__因果模型构建

现在出现了一个问题:如果使用这些数据训练模型,模型能否学会将这个公理应用到新的场景中?

为了回答这个问题,该团队使用这个因果独立公理的符号演示从头开始训练了一个模型。

为了评估其泛化性能,他们在大小为 3-6 个节点的简单因果无关公理链上进行了训练,然后测试了泛化性能的几个不同方面,包括长度泛化性能(大小为 7-15 的链)、名称泛化性能(较长的变量名)、顺序泛化性能(具有反转边或混洗节点的链)和结构泛化性能(具有分支的图)。图 1 显示了如何评估结构泛化。

具体来说,他们基于 GPT-2 架构训练了一个具有 6700 万个参数的解码器模型。该模型有 12 个注意层、8 个注意头和 512 个嵌入维度。他们在每个训练数据集上从头开始训练模型。为了了解位置嵌入的影响,他们还研究了三种位置嵌入设置:正弦位置编码 (SPE)、可学习位置编码 (LPE) 和无位置编码 (NoPE)。

结果如表1、图3、图4所示。

表 1 展示了不同模型在训练过程中未见过的较大因果链上评估时的准确率。可以看出,新模型 TS2(NoPE)的性能与万亿参数的 GPT-4 相当。

图 3 展示了对具有较长节点名(比训练集中的节点名更长)的因果序列的泛化能力评估结果,以及在不同位置嵌入的影响。

图 4 评估了对更长的未见因果序列的泛化。

他们发现,在简单链上训练的模型可以推广到在较大的链上多次应用公理,但无法推广到更复杂的场景,例如顺序或结构泛化。但是,如果在简单链和具有随机反向边的链的混合数据集上训练模型,则该模型可以很好地推广到各种评估场景。

通过将他们在 NLP 任务上的长度泛化结果进行扩展,他们发现了位置嵌入在确保长度和其他方面的因果泛化方面的重要性。他们表现最好的模型没有位置编码,但他们也发现正弦编码在某些情况下效果很好。

这种公理训练方法也可以推广到更困难的问题,如图 5 所示。也就是说,基于包含统计独立性陈述的前提,任务目标是区分相关性和因果关系。解决这个任务需要了解多个公理,包括​​ d 和马尔可夫性质。

该团队使用与上述相同的方法生成合成训练数据,然后训练了一个模型,发现在包含 3-4 个变量的任务演示上训练的模型可以学会解决包含 5 个变量的图任务。并且在这个任务上,模型的准确率高于 GPT-4 和 Pro 等更大的 LLM。

研究团队表示:“我们的工作为通过公理的符号演示来教授模型学习因果推理提供了一种新范式,我们称之为公理训练()。”这种方法的数据生成和训练过程具有通用性:只要一个公理能够以符号元组的格式表示,就可以用这种方法进行学习。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2