本次ACL大会,贡献者收获颇丰。
为期六天的2024年亚冠联赛正在泰国曼谷举行。

ACL 是计算语言学与自然语言处理领域的顶级国际会议,由计算语言学协会主办,每年举办一次,在自然语言处理领域学术影响力一直位居第一,也是 CCF-A 级推荐会议。
今年是第 62 届 ACL 会议,共收到 400 多篇 NLP 领域的前沿作品。昨天下午,会议公布了最佳论文奖,本次共设 7 个最佳论文奖(2 篇未发表)、1 个最佳主题论文奖、35 个优秀论文奖。
大会还颁发了3项资源论文奖、3项社会影响力奖和2项时间考验奖。
此外,本届会议的终身成就奖颁发给了纽约大学计算机系教授拉尔夫。
以下为具体获奖信息。
最佳论文

论文 1:
摘要:乔姆斯基等人认为,大型语言模型(LLM)同样有能力学习人类可能学习或不可能学习的语言。然而,很少有已发表的实验证据支持这一说法。
该研究开发了一组复杂程度不一的合成语言,每一种语言都是通过使用非自然的词序和语法规则系统地改变英语数据而设计的,目的是合成一种人类不可能学习的语言。
该研究进行了大量的评估实验来评估 GPT-2 小模型学习这些“不可能的语言”的能力,并在整个训练过程中的不同阶段进行了这些评估,以比较每种语言的学习过程。该研究的核心发现是,与英语相比,GPT-2 很难学习“不可能的语言”,这挑战了乔姆斯基等人的说法。
更重要的是,我们希望我们的方法能够开辟一条富有成果的研究路线,允许在各种“不可能的语言”上测试不同的 LLM 架构,以了解如何将 LLM 用作认知和类型学调查工具。

论文2:为什么它们很难?
摘要:实验研究已经发现了一系列可学习性偏差和局限性,例如在学习计算等简单形式语言时持续存在困难,以及对低阶函数的偏见。然而,理论理解仍然有限,现有的表示理论要么高估要么低估了现实的可学习性。
研究表明,在该架构下,损失状况受到输入空间敏感度的制约:输出对输入字符串的许多部分都很敏感,导致参数空间中出现孤立点,从而导致泛化中的低敏感度偏差。
该研究从理论和实验上表明,该理论统一了关于学习能力和偏见的大量实验观察结果,例如它们对低敏感性和低泛化的偏见,以及奇偶长度泛化的难度。这表明,理解的归纳偏见不仅需要研究其原则上的表达能力,还需要研究其损失函数格局。

试卷 3:骨头
摘要:甲骨文起源于约 3000 年前的中国商朝,是语言历史的基石,早于许多既定的书写系统。尽管发现了数千块甲骨文,但仍有大量甲骨文未被解读,为这种古老的语言蒙上了一层神秘的面纱。现代人工智能技术的出现为甲骨文解读开辟了新的领域,挑战了严重依赖大量文本语料库的传统 NLP 方法。
本文介绍了一种利用图像生成技术开发针对甲骨文解密优化的扩散模型(OBSD)的新方法。OBSD利用条件扩散策略为甲骨文解密生成重要线索,为人工智能辅助古语言分析开辟了新方向。为了验证其有效性,研究人员在甲骨文数据集上进行了大量的实验,定量结果证明了OBSD的有效性。

论文 4:
论文简介:理解语言模型中的记忆具有实际和社会意义,例如研究模型的训练动态或防止版权侵权。先前的研究将记忆定义为“使用实例进行训练”与“模型预测该实例的能力”之间的因果关系。这个定义依赖于一个反事实:观察如果模型没有看到该实例会发生什么的能力。现有的方法难以提供此类反事实的计算效率和准确性估计。此外,这些方法通常估计模型架构的记忆,而不是特定模型实例的记忆。
本文提出了一种基于计量经济学差异设计的全新、原则性强且有效的记忆估计方法,填补了一项重要空白。通过这种方法,研究人员通过观察模型在整个训练过程中仅在一小部分实例上的行为来描述模型的记忆概况,即训练期间的记忆趋势。在对一组模型进行的实验中,他们发现记忆 (i) 在较大的模型中更强且更持久,(ii) 由数据顺序和学习率决定,(iii) 在模型大小之间具有稳定的趋势,因此可以从较小的模型中预测较大模型中的记忆。

论文 5:Aya 模型:一个开放模型
论文简介:大型语言模型 (LLM) 的最新突破主要集中在少数数据丰富的语言上。突破之路如何才能延伸到其他语言之外?本研究介绍了 Aya,这是一种大规模多语言生成语言模型,它遵循 101 种语言的指令,其中超过 50% 的语言被认为是低资源的。Aya 在大多数任务上的表现都优于 mT0 和 CNN,同时覆盖的语言数量是 mT0 和 CNN 的两倍。
此外,该研究还引入了一个广泛的新评估套件,将多语言评估的最新成果扩展到 99 种语言。最后,该研究对最佳微调混合组成、数据修剪以及模型毒性、偏差和安全性进行了详细调查。

论文 6:原型
获奖理由:这项开创性的研究旨在半自动化历史语言学中的原型语言重建任务,并提出了一种新的半监督架构。该方法通过在“母语-原型”重建中引入“原型-母语”反射过程,优于以前的监督方法。这篇论文很好地说明了现代计算模型(如神经编码器-解码器)如何为语言学做出贡献。

论文 7::和基于(未发表)
获奖理由:这篇论文清楚地描述了一个用于逻辑推理的综合评估数据集。这对于大量推理数据集来说是一个很好的补充,因为在这些数据集中,我们不清楚要测量哪些能力。从理论上讲,确实有理由预期某些子集比其他子集更难,这些预期在论文中得到了验证。在每个类别中,作者都特别注意提取那些真正具有挑战性的案例。
时间考验奖

ACL 时间考验奖旨在表彰对自然语言处理和计算语言学领域产生长远影响的论文。该奖项分为两个奖项,一个是 10 年前(2014 年),另一个是 25 年前(1999 年),每年最多颁发两篇论文。

试卷 1:GloVe:用于 Word
论文简介:学习单词向量空间表示的方法已经成功地利用向量算法捕获了细粒度的语义和句法规则,但句法规则仍然不透明。本研究分析并阐明了模型需要具备哪些属性才能使句法规则出现在词向量中。
本研究提出了一种新的全局对数线性回归模型GloVe,旨在学习单词的向量表示。该模型结合了全局矩阵分解和局部上下文窗口方法的优点。
GloVe 在词语类比任务上取得了最佳性能的 75%,并在词语相似性任务和命名实体识别任务上超越相关模型。
获奖理由:2013 年至 2018 年间,词向量是自然语言处理 (NLP) 深度学习方法的基石,至今仍产生重大影响。它们不仅提升了 NLP 任务的性能,还对计算语义产生了重大影响,例如对词语相似度和类比的影响。最具影响力的两种词向量方法可能是 skip-gram/CBOW 和 GloVe。与 skip-gram 相比,GloVe 的提出较晚。它的相对优势在于概念简单,直接根据词语之间的分布属性来优化向量空间相似度,而不是从简化的语言建模角度间接地作为一组参数。


论文 2:
论文描述:作者研究了分布相似性度量,目的是改进未见共现事件的概率估计。他们的贡献有三点:他们实证比较了各种度量;他们根据相似性函数所包含的信息对其进行分类;他们引入了一种在评估潜在代理分布方面更出色的新函数。

终身成就奖

ACL 的终身成就奖颁给了 Ralph。Ralph 是纽约大学计算机系教授,专注于自然语言处理(NLP)领域的研究,是该项目的创始人,为信息抽取(IE)做出了重大贡献,推动了该领域的发展。

他还开发了 Java(JET),这是一种广泛使用的信息提取工具,它提供了各种语言分析组件,例如句子切分、命名实体标注、时间表达注释和规范化、词性标注、部分解析和共指分析。这些组件可以组合成用于不同应用程序的管道,既可用于单个句子的交互式分析,也可用于整个文档的批量分析。此外,JET 还提供了用于文档注释和显示的简单工具,并包含根据 ACE(自动内容提取)规范提取实体、关系和事件的完整管道。
教授的工作涵盖了NLP的几个核心问题,对现代语言处理技术产生了深远的影响。
35篇优秀论文
最佳主题论文奖

论文:OLMo:
引用:这项工作是朝着大型语言模型训练的透明度和可重复性迈出的重要一步,这是社区取得进展所需要的(或者至少是让其他非行业巨头的研究人员也能为进展做出贡献)。
资源论文奖
3篇论文获论文奖。
论文 1:Latxa:一个开放模型和套件
院校:西班牙巴斯克大学
获奖理由:本文详细描述了语料库收集和数据集评估。虽然这是一项与巴斯克语相关的研究,但该方法可以扩展到其他低资源语言的大型模型构建。
论文 2:卓玛:三人模型的开放
获奖理由:该论文证明了在准备用于训练大型语言模型的数据集时数据管理的重要性。这为社区中的大量人士提供了非常宝贵的见解。
论文 3: 应用程序的世界和
获奖理由:这项研究对于构建交互式环境模拟和评估来说是一项非常重要且令人惊叹的工作。它将鼓励大家为社区制作更多硬核动态基准。
社会影响力奖
3篇论文获得奖励。
论文 1:法学硕士如何走向人工智能:通过法学硕士走向人工智能
获奖理由:本论文探讨了人工智能安全主题——越狱,研究了社会科学研究领域内发展起来的一种方法。这项研究非常有趣,有可能对社区产生重大影响。
论文 2:用于 、 和 的 NLP -
获奖理由:方言变异是 NLP 和 AI 中研究不足的现象。然而,从语言学和社会角度来看,它的研究具有重要价值,对应用也有重要意义。本文提出了一个非常新颖的基准来研究 LLM 时代的这个问题。
论文 3:啤酒后? 大偏见
获奖理由:本文展示了LLM时代的一个重要问题:文化偏见。本文研究了阿拉伯文化和语言环境,结果表明我们在设计LLM时需要考虑文化差异。因此,同样的研究可以在其他文化中复制,以推广和评估其他文化是否也受到这一问题的影响。


