要发展值得信赖的AGI,需要探索AI 45度平衡规律。长期来看,AI应该总体沿着安全性和性能的45度平衡发展。短期内可以有波动,但不能长期低于45度,也不能长期高于45度,否则会阻碍技术和产业应用的发展。
周博文表示,从人才密度、业务驱动力、算力投入等角度来看,安全方面的投入远远落后于AI能力的提升。

7月4日,2024年世界人工智能大会暨人工智能全球治理高层会议在上海开幕,上海人工智能实验室主任、首席科学家、清华大学惠妍讲席教授周博文提出探索“人工智能45度平衡定律”的技术命题。
目前,以大模型为代表的生成式人工智能发展迅猛,但随着其能力的不断提升,模型本身及其应用也带来了一系列潜在的风险和担忧。从公众对人工智能风险的担忧排序来看,首先是数据泄露、滥用、隐私和版权相关内容风险,其次是恶意使用以及伪造虚假信息等相关使用风险,这些风险还可能引发偏见、歧视等伦理问题。人们担心其是否会给就业结构和社会制度带来挑战。科幻电影中甚至出现人工智能失控、人类失去自主权等设定。

“这些人工智能风险有些已经显现,但更多的是潜在的。防范这些风险需要大家共同努力、科学设计、更多贡献。”周博文表示,对人工智能担忧的根本原因是人类目前发展不平衡。
如果说横轴代表的是AI技术能力的提升,那么以 为代表的基础模型架构,加上大数据、海量参数、海量计算的缩放规律,让当下的AI能力实现了指数级增长。然而在纵轴的AI安全维度,红队测试、安全标志、安全护栏、评估度量等典型技术则是离散化、碎片化、后置化的。近期的一些对齐技术兼顾了性能与安全性,比如有监督微调SFT、带人类反馈的强化学习RLHF等技术,有助于将人类的偏好传递给大模型,推动了GPT-4等激动人心的AI系统的出现。
但总体来看,AI模型安全能力的提升还是远远落后于性能。这种不平衡导致了AI发展的跛足。发展不平衡的背后,是两者投入的巨大差异。周博文表示,从人才密度、业务驱动力、算力投入等角度看,安全的投入远远落后于AI能力的提升。目前全球99%的算力都用于模型预训练,只有不到1%用于对齐或者更多安全优先的考虑。
“要发展值得信赖的AGI(通用人工智能),必须兼顾安全性和性能。因此,我们需要找到一个既优先考虑AI安全性,又能保证AI能力长远发展的技术体系。我们把这个技术思想体系叫AI 45度平衡定律。从长远来看,我们总体上要沿着安全性和性能的45度平衡发展。”周博文说,所谓平衡,就是短期内可以有波动,但不能像我们现在这样长期低于45度;也不能长期高于45度,这样会阻碍技术和产业应用的发展。

45度平衡技术思想体系需要强技术驱动、全流程优化、多主体参与和敏捷治理。周博文表示,实现人工智能45度平衡定律的技术路径有很多,上海人工智能实验室近期探索出一条以因果关系为中心的路径,称之为可信通用人工智能的“因果阶梯”,以纪念因果推理领域先驱、图灵奖获得者朱迪亚·珀尔。
可信AGI的“因果关系阶梯”将可信AGI的发展划分为泛对齐、干预、反思三个递进阶段。
“泛对齐”主要包括目前最前沿的人类偏好对齐技术。但需要注意的是,这些安全对齐技术仅仅依赖统计相关性,忽略了真正的因果关系,可能导致错误推理和潜在危险。一个典型的例子就是巴甫洛夫的狗:当狗单纯基于铃铛和食物之间的统计相关性形成条件反射时,它在任何场合听到铃铛都可能引发流口水的行为。
“介入”主要包括对人工智能系统进行干预,探究其因果机制的安全技术。“反思”要求人工智能系统不仅追求高效的任务执行,还要审视自身行为的影响和潜在风险,确保在追求性能的同时不突破安全和伦理的边界。此阶段的技术包括基于价值的训练、因果可解释性、反事实推理等。
周博文表示,目前人工智能安全与性能技术的发展主要处于第一阶段,也有人在尝试第二阶段。但要真正实现人工智能安全与性能的平衡,必须完善第二阶段,并勇于攀登第三阶段。通过攀登可信AGI的“因果关系之梯”,相信可以构建真正可信的AGI,实现人工智能安全性与卓越性能的完美平衡。“归根结底,就像安全可控的核聚变技术为全人类带来清洁丰富的能源一样,我们希望通过深刻理解人工智能的内在机制和因果过程,安全有效地开发和使用这项革命性的技术。”


