AIxiv专栏是机器之心发布学术和技术内容的专栏。几年来,机器之心AIxiv专栏已收到2000余篇报道,覆盖全球各大高校和企业的顶级实验室,有效促进了学术交流和传播。如果您有优秀的作品想要分享,请随时投稿或联系我们进行举报。提交电子邮件:;
第一篇论文由之江实验室研究专家、在职博士李岚清撰写。在香港中文大学。他的导师是香港中文大学计算机科学与工程系的 Pheng Ann Heng 教授。同济大学硕士生张海为论文共同第一作者,其导师赵俊桥教授为论文通讯作者。
如今,以GPT为代表的大型语言模型正在深刻影响人们的生产和生活,但在处理许多专业、复杂的问题时仍然面临挑战。在药物发现、自动驾驶等复杂场景中,AI的自主决策能力是解决问题的关键,但如何高效训练大型决策模型仍然是一个悬而未决的问题。
强化学习(RL)作为顺序决策模型的经典训练方法,必将成为训练和微调大型决策模型的核心技术之一。由于任务和数据的复杂性,我们希望模型能够摆脱强化学习在训练时与环境在线交互的传统方式,在海量历史数据中实现高效的离线、多任务学习。这种新范式被称为“离线元强化学习”(meta-RL)。
近期,针对离线元强化学习,浙江实验室、香港中文大学、同济大学等单位的研究团队提出了新的算法。该方法以信息论为基础,首次系统地提出了强化学习中任务表示学习(task)的理论框架(based meta)。它借鉴现有的主流方法,采用基于任务表示的通用互信息优化目标。已经统一,并凭借理论创新和全面的实验验证,成为离线和元强化学习领域的重要里程碑。被2024年人工智能三大顶级会议录用为文章(录用率为2.08%)。

问题背景
在经典的强化学习中,智能体通过与外部环境实时交互来收集反馈,并通过试错积累经验来学习。然而,在自动驾驶、疾病治疗等现实场景中,试错带来的风险往往难以承受,这让人们关注如何摆脱在线与环境的交互,只从历史数据中学习。这种新范式被称为“离线强化学习”(RL)。

另一方面,复杂多变的现实场景使得智能体越来越需要处理多项任务。这种允许智能体同时学习多种技能并像人类一样进行推理的范式被称为“元强化学习”(meta-g)。 -RL)。
离线强化学习和元强化学习作为强化学习的两个分支,有着各自独特的优势。前者由于摆脱了与环境的在线交互,可以复用历史数据进行训练,具有安全性高、样本效率高的特点;而后者则专注于多任务和迁移学习,在泛化能力方面表现突出。两者优势互补。 。

于是在2021年左右,人们开始尝试将两种范式结合起来,训练更强大的智能体。主流方法之一称为“基于上下文的离线元强化学习”(based meta-RL,COMRL)。核心思想是使用当前任务的表示作为附加状态信息来训练适合任何任务/环境的通用策略( ):
在此框架下,如何学习鲁棒且有效的任务表示Z成为核心问题,而最重要的挑战是上下文转移(shift)。由于Agent的训练数据是离线的,即固定分布,但测试时面临的任务上下文是未知且多变的,导致训练之间的状态-动作(state-)维度或任务维度存在巨大差异和测试集。分布偏移,这对模型的鲁棒性和泛化性提出了极高的要求。
针对上述问题,现有的主流方法如FOCAL[1]、CORRO[2]和CSRO[3]等相继提出了多种优化目标,利用度量学习( )和对比学习( )等思想来执行任务表示学习:

然而,现有方法主要侧重于对损失函数的实证改进,缺乏对任务表示学习,尤其是上下文转换的系统理论支持和设计指导。

基于信息论的统一理论框架
核心创新在于运用信息论,首次从数学定义、因果关系分解、中心定理三个层面系统地定义和解构了COMRL中的任务表征学习问题。统一了方法的优化目标,提出并验证了两种新的算法实现,以启发未来更多新方法的设计。
1.任务表征学习的数学定义

2. 因果关系分解

3.中心定理

这个中心定理引出了两个重要的结论,为未来COMRL领域新方法的设计指明了道路:

作为不等式的下界,主要因果关系不包含虚假相关,但部分因果相关缺失;而主要因果关系和次要因果关系之和作为上限,包括所有因果相关性,同时引入虚假相关性。因此,理论上,一个包含且仅包含所有因果相关性的“最优优化目标”应该介于两者之间,而I(Z;M)正好满足这个要求。基于上述观察,我们建议 I(Z;M) 应该用作任务表示学习优化目标的黄金标准(真相),这对上下文变化自然具有鲁棒性。现有的主流方法本质上都是对I(Z;M)的近似进行优化。例如FOCAL、CORRO、CSRO分别优化其上限、下限以及两者的线性插值。因此,寻找更好的I(Z;M)近似方法将成为COMRL领域未来发展的关键方向。
基于以上见解,为了论证该框架的指导意义,我们通过I(Z;M)的近似提出了两种新的算法实现:

实验结果
广泛的适用性和鲁棒性
为了证明理论框架的普适性,我们在各种机器人连续控制任务的相关设置下对两种新提出的方法进行了广泛的实验验证:
1. IID/OOD(训练集和测试集的行为策略是从相同分布/不同分布中采样的)

结论:该算法在同分布测试集上的性能与SoTA相当,在异分布测试集上的性能明显优于其他现有方法。
2. 不同质量数据集的表现


结论:算法(尤其是无监督版本)在不同质量的数据集上的性能达到SoTA。
3. 不同模型架构的可迁移性(测试结果应用于(DT))

结论:该算法在MLP/架构方面比现有方法表现出明显的优势,并且可以作为即插即用模块广泛应用于其他RL算法中。
4. 泛化到分布外任务
图左侧展示了分布外任务的构造方法:以Ant-Dir为例,训练任务的目标方向从第二象限和第三象限采样,测试任务分布在第一象限和第四象限,完全没有重叠。图右侧展示了测试结果:自监督是唯一实现正向小样本迁移(few-shot)的算法。

结论:使用无监督自动编码器和基于模型的强化学习可以推断代理执行分布之外任务的能力,这是其他现有方法无法做到的。
前景

为拓展大型决策模型的能力边界提供理论基础
为离线元强化学习提供了统一的理论基础和算法设计指南,对大规模离线、多任务预训练和大型决策模型的微调具有指导意义,从而进一步拓展能力边界大型决策模型。该技术有助于解决药物设计、精准医疗、体现智能等前沿领域面临的AI模型泛化、多目标优化、样本利用等挑战。同时,团队也在探索将该框架进一步推广到线上加固。了解更多场景。
参考:
[1]。李,杨锐,罗帝君。 Focal:完全元通孔和 . ICLR 2021。
[2].袁浩其、卢. meta-via 的任务。 ICML 2022。
[3].高,等人。转变为元-. 2023 年。


