
大模式时代,企业面临更大的治理困难和挑战。
随着大型企业的聚集和发展,网络安全与价值取向也面临更加严峻的防范压力,如何在技术发展与内容标准化之间做出选择与平衡,是需要考虑的问题。
7月25日下午,一场以“AIGC时代的信息真相:价值偏见的识别与应对”为主题的发布会在上海市徐汇区摩苏空间举行。本次活动是上海市互联网信息办公室举办的“清朗e齐来”系列商务沙龙2024年的首场活动,旨在探讨和交流AIGC时代信息安全建设的有效路径。
大模型时代,治理更加困难
在新的技术背景下,网络安全治理正在发生巨大变化,确保大型模型生成的内容真实且符合人类价值观面临更大挑战。
百度安全副总经理冯景晖负责百度搜索内容检测系统,多年来致力于改善搜索生态的健康。冯景晖坦言,大模型时代对真实信息的识别比互联网时代更加复杂。一方面,大模型产品本身存在“错觉”缺陷,很多错误信息并非人类有意为之,目前还没有技术手段可以彻底解决“错觉”问题。
另一方面,黑灰产业利用AI技术产品生成非法内容,使犯罪行为的表现更加隐蔽。2023年4月发布的一份研究报告指出,生成式AI导致钓鱼邮件攻击增加了135%。
开普云科技有限公司(以下简称“开普云”)是一家AI产品服务商。该公司副总裁王颖向澎湃新闻()表示,根据他们的观察,大模型时代的生成性内容有以下几个明显特点:第一,生成性内容的传播具有碎片化、不可复制性。比如同一个问题,在不同终端问,由于环境差异,得到的答案也不尽相同,这让生成性内容传播效果的衡量变得更加复杂;第二,大模型处理输出的信息可能造成全网二次污染。王颖表示,随着大模型的使用越来越多,这一趋势越来越明显。
冯景晖坦言,在大模式时代,企业面临更大的治理困难和挑战。“在传统互联网搜索引擎时代,用户使用搜索引擎时,搜索结果会将用户的疑问引导到相关资源上。搜索结果和责任主体并不完全属于搜索公司,内容主体也要承担责任;但在AI搜索时代,搜索公司成为最有责任的主体,甚至可能承担高达80%的主要责任。”
此外,目前面向消费者(To C)的大模型产品已不再局限于语言模型,多模态大模型技术的发展增加了安全治理的难度,例如图片中文本内容的合规性审查等。
数据清理至关重要
冯景辉介绍,大模型的构建过程一般分为三个关键阶段,分别是训练阶段、部署阶段、业务运行阶段,每个业务阶段都面临着安全风险和挑战。冯景辉认为,大模型公司需要针对这三个不同的阶段采取措施,确保大模型价值观的契合:第一,通过数据清洗、安全契合,实现模型内生安全;第二,内生安全与外部防护协同,实现纵深安全;第三,公司要重视Agent安全,通过漏洞分析发现问题。

其中,大模型训练阶段,数据清洗尤为关键。“数据是大模型核心竞争力的基础,好的数据决定了大模型是否具备好的问答能力。”冯景辉介绍,在文心大模型的训练过程中,百度花费了大量的人力、物力、财力对数据进行清洗,以保证最终生成内容的质量。
冯景辉补充道,他们目前也在通过增强检索、用小模型回答敏感问题等方式降低安全风险。“由于小模型语料量少,数据干净,不容易产生幻听,可控性更强,适合一些答题场景。”
开普云副总裁、首席技术官杨春雨表示,从模型层面,大型模型公司可以通过调整模型来加强安全措施;从系统层面,对模型的输入和输出进行测试可能是更经济、更可控的方法,但仍然需要监管部门的抽检或自检,才能确保模型的安全可控。
治理和模型能力发展
目前,生成式人工智能伦理与安全治理已成为全球人工智能领域的共同话题。放眼国外,欧盟通过的《人工智能法案》是全球首个对人工智能进行全面监管的法案,法案根据人工智能的使用方式对人工智能提出不同程度的监管要求。
自大模型技术发展伊始,我国就将治理提升到重要位置,相关部门出台的法律法规为行业发展划定了底线,包括2023年7月发布的《生成人工智能服务管理暂行办法》指出,要采取有效措施鼓励生成人工智能创新发展,对生成人工智能服务实行包容审慎和分类分级监管。
杨春雨认为,推动大模型生态健康发展需要标本兼治。具体来说,大模型企业需要从语料质量入手,完善升级应用流程。此外,企业还需要配合网络监管机构,参与大模型治理。大模型时代的安全治理需要社会各界的共同投入。
冯景晖表示,人工智能能力和人工智能治理应该呈螺旋式发展。技术的发展离不开规范的治理,治理也能促进人工智能技术的发展。在内容审核和治理方面,技术也需要不断迭代更新,目前技术发展空间还很大;在监管方面,我们也需要在监管细节上进一步达成共识。


