例如知识图谱(KG),一个整合实体关系的结构化知识库。
一般来说,语言模型代表语言能力,而知识图谱包含结构信息。

长期以来,KG的用途大致可以分为两类:
第一类是将KG线性化后嵌入到LM中,这种做法不能充分利用其结构信息;
第二类是利用图神经网络(GNN)来保留图结构,但是GNN无法表示文本特征,也无法与LM预训练的特征相结合。

——有没有办法结合两者的优势,保留预训练 LM 的能力,同时充分利用 KG 来增强模型对图概念和三元组的理解?
当然有,不然我也不会写出来,那就是海德堡大学的研究人员提出的图语言模型(GLM)。

论文地址:
GLM 结合了两种方法的优点并弥补了各自的缺点。
作者使用预训练的 LM 来初始化 GLM 的参数,并设计了一种新的架构来促进有效的知识分布,使得 GLM 能够同时处理图形和文本信息。

下表展示了对关系分类任务进行实证评估的结果,关系分类任务是相对复杂的任务,其中模型需要对来自文本和图形的互补输入进行推理,还需要推断文本中不存在的信息。

数据显示,GLM 在监督测试和零样本测试中都超越了基于 LM 和 GNN 的基线。
此外,通过线性探测实验,我们证明了 GLM 的架构变化与原始 LM 权重高度兼容。
图形语言模型
知识图谱对于组织大量数据、促进信息检索以及揭示决策中的隐藏见解至关重要。
KG 擅长显式地表示多种关系,一般采用三元组的形式:节点为实体,边表示实体之间的关系。这种复杂结构在下文中统称为 GoT。
为了有效地使用 GoT,我们需要对其组件进行有意义的编码。
上面提到了使用语言模型和GNN的问题,本质上,两种结构是由不同的基本原理驱动的,LM采用语义编码,而GNN进行结构推理。
融合
在图语言模型的设计中,作者通过早期融合文本和结构化信息来解决这一问题。
第一种是使用LM现成的参数来初始化——一方面保留了预训练的能力,另一方面从头开始训练的代价太高。
通过对 LM 的自注意力模块进行一些非侵入式更改,我们将 LM 转换为图形地面实况(GT),同时保持与其预训练参数的兼容性。

在对图进行编码时,LM 用于处理以三元组线性组织的文本信息,而 GT 则沿着图结构聚合信息。
因此,GLM 继承了 LM 对三元组的文本理解,而 GT 模块允许直接进行结构推理,而无需额外的 GNN 层。
重要的是,文本序列可以被视为一种特殊类型的图,并且在 GLM 中以与原始 LM 相同的方式处理。
图形设计
自可以写成

除了我们熟悉的Q、K、V之外,Bp表示位置编码,M是掩码矩阵。
在中,位置编码(PE)用于告知语言模型文本中标记的顺序。
包括绝对PE(对token的绝对位置进行编码)和相对PE(对token之间的相对位置),绝对PE通常被添加到输入序列中。
相对 PE 为每个可能的距离学习一个标量:

对于GT来说,不容易定义图中节点或边的绝对位置,因此本文采用相对PE。
给定图中的一条有向无环路径,我们可以将路径上任意一对节点之间的距离定义为节点之间的跳数,从而得到相对距离(PE)。
M(掩模)矩阵
一般来说,自我注意力是针对输入中所有可能的标记对进行计算的。
相比之下,GNN 中的节点通常只关注邻近节点,而较远节点之间的信息必须跨多个 GNN 层传播。
对于图,这种稀疏消息传递方法有时是首选,因为在大多数图中,邻域大小随着半径呈指数增长。
因此,在 GT 中引入图先验可能会有所裨益,比如仅在局部邻域中计算自注意力(M 中的连通节点设置为 0)。
另一方面,事实证明,全局视图可以实现高效的长距离信息流。因此,作者提出了两个版本:局部 GLM 和全局 GLM。

如上图所示,G2G连接属于全局视角,本地GLM不处理这种关系。
在局部 GLM 中,自注意力机制仅限于来自同一三元组的标记,而所有外部标记的注意力都设置为 0(因此也不需要 PE)。
尽管如此,由于属于一个概念的标记可以由多个三元组共享,因此消息可以通过跨多个层的图传播(类似于 GNN 中的标准消息传递)。
因此即使非相邻节点没有直接连接,它们仍然可以通过消息传递共享信息。

例如,在第一个局部 GLM 层中,“狗”由三元组“黑色贵宾犬是狗”和“狗是动物”表示。那么,在第二层中,“动物”的表示将受到“黑色贵宾犬”的影响,尽管两者之间没有直接联系。
此外,研究人员形式化了一个全局 GLM,它可以将任何节点连接到其他每个节点(具有自注意力)。此形式需要为任何 token 对设置 PE,包括那些不出现在同一个三元组中的 token 对。
为此,全局 GLM 引入了新的图到图 (G2G) 相对位置。LM 中没有学习 G2G 连接的参数,因此这里使用相对位置 (+∞) 来初始化参数,表示相应的 token 出现在文本段落的较远位置。
预处理
GT 架构引入了图先验,而 LM 的参数初始化赋予了它语言理解能力。
模型修改背后的总体思想是,三元组应该尽可能地像自然语言一样,以便 LM 学习,并且图形推理应该通过消息传递来进行。
与 LM 标记器将文本转换为词汇表中的向量的方式类似,GoT 也需要相同的过程,以便 GLM 可以像 LM 一样处理图形。
为了实现这一目标,研究人员首先将《权力的游戏》转换成 Levi 图,将每条边替换为包含关系名称作为文本特征的节点,并将新节点连接到原始边的头和尾,保留原始边的方向。
接下来,每个节点被拆分成多个节点,每个新节点对应一个令牌,并建立新的边来连接相邻节点,保留原来的方向。

在这种表示中,每个三元组都表示为一个标记序列,就像标准 LM 一样。
位置编码
如前所述,标记对之间的相对位置用于编码 - 只需将三元组视为一段文本,并计算该文本中标记之间的距离。
请注意,转换后的 GoT 的 token 序列不一定与输入三元组的 token 序列完全相同。这里对 Levi 图中的每个节点进行了单独标记,以保证多个三元组共享概念的一致性。
为了确定不属于同一三元组的标记对之间的距离,以前的研究考虑了它们之间最短路径的长度。
然而,对于 LM 来说,这种 PE 并不自然,因为如果在最短路径中朝错误的方向遍历,三元组将以相反的顺序出现。
因此,本文省略了没有结构信息的token之间的PE,而使用了局部(ℓGLM)和全局(gGLM)。
实验结果
作者在两个关系(标签)分类实验(分类哪种关系属于给定的头部和尾部实体)中评估了 GoT 中 GLM 嵌入的能力。
子图实验用于分析结构图性质的影响;而在子图和相关维基百科摘要上的实验用于测试交叉文本和图形输入的能力。

研究人员构建了一个平衡的英文 CN 子图数据集,其中包含 13,600 个训练实例、1,700 个开发实例和 1,700 个测试实例,以 17 种不同的关系作为标签,用 T5 模型的第一个 mask 替换待预测的关系。
GLM 对图进行编码并为每个标记生成嵌入。线性分类头根据掩码嵌入给出最终预测。这里使用静态模板来表达未掩码的关系。

子图中的关系分类实验表明,GLM 优于基于 LM 和 GNN 的编码方法——即使在 GLM 训练期间不会更新继承的 LM 参数。
KG 小组在 子图和维基百科摘要上进行的实验表明,GLM 可以推理 GoT 和文本的交错输入,这是 LM 所不具备的新功能。
参考:


