2024世界人工智能大会(2024 WAIC)落下帷幕,关于人工智能三大要素“算法、算力、数据”如何持续演进发展的探讨贯穿了为期三天的大会,来自全球的顶尖学者带来前沿思想,产业界带来创新解决方案。
焦点在于大模型如何从通用到应用,在这三个维度上取得突破性进展。共识是,高质量的数据供给是大模型产业发展的关键,是大模型是“专家”还是“实体”的分界线。
但获取优质数据的关键在于数据的安全可靠流通。打破数据孤岛的老问题在产业转型的新趋势下变得更加紧迫。企业和行业出于对数据安全、隐私保护、商业利益的担忧,往往不愿意或不敢共享数据。不同企业的信息系统架构和格式各异,数据难以互通。同时,数据标准化程度低,缺乏统一规范,进一步增加了数据集成的难度。
蚂蚁集团副总裁、首席技术与安全官、蚂蚁机密董事长韦涛认为,数据供给决定了大模型能力的上限,而隐私计算技术则决定了跨域数据供给的上限。当大模型从通用走向专业应用,从技术想象走向产业生产力时,优质数据集稀缺、专业数据堵塞的挑战必须解决,否则作为“智能引擎”的大模型只能是白跑一趟。
数据融合蕴含巨大价值潜力,但往往停留在价值验证阶段,深度数据挖掘往往意味着多方数据的整合,而寻找一个中立、可信赖、具备深度处理大规模数据能力的第三方机构,将各方数据连接起来进行综合分析,仍是一大挑战。
视频链接:#rd
大模型密码计算平台:基于云服务的解决方案
优质数据的供给及其安全流通是大模型在垂直领域应用的首要挑战。
行业大模型要具备解决专业问题的能力,首先需要充足、优质的专业数据进行训练。然而专业数据往往分散在不同机构、企业之间,价值高、保密性要求高,难以流通。此外,企业、模型大厂、用户之间存在信任壁垒,企业担心数据泄露,模型大厂担心模型资产安全,用户担心个人数据和隐私风险。
在与多家机构沟通后,蚂蚁计算CEO王磊发现,他们主要有三点担忧:第一,数据非常容易被复制,数据提供之后,会不会被拿走、被滥用?第二,行业大模型某种程度上是数据的衍生品,大模型会“记住”数据,数据安全和数据价值无法得到保障。最后,数据“提供”之后,数据供应方和模型提供方都希望继续分享利润。但如何知道模型被谁使用了、使用了多少次、盈利情况如何?行业参与者很难建立信任机制。
打造行业大模型的核心是要有行业数据。但当数据安全、数据价值保护解决不了时,机构不愿意提供数据,打造行业大模型也就无从谈起。“我们认为,密码计算是深化大模型行业应用的必由之路。”王磊说。
7月5日,在2024世界人工智能大会(WAIC)上,蚂蚁密码计算(全称)发布了密码云大模型密码计算平台,这也是这家成立仅一个月的“初创公司”向市场推出的首款产品。
“银宇云大模型机密计算平台”采用软硬件结合的可信隐私计算技术,实现大模型托管和大模型推理过程中的机密数据流动,保护模型资产、数据安全和用户隐私。大模型机密托管是指模型提供方可将模型加密托管在平台上,一键完成云端机密部署,保护模型资产不被泄露和滥用;大模型机密推理是指以机密形式对数据进行推理,保护用户交互过程中的数据安全和商业秘密。
性能方面,平台支持可信执行环境下的GPU计算,使得加密形式下的大模型推理响应时间和效率接近大型明文模型,实现大规模商用。安全性方面,通过内存和磁盘加密,实现用户访问的端到端加密和托管模型的跨域访问控制。易用性方面,支持轻量级的远程身份验证,用户在访问网页时即可完成,无需额外步骤。
实践中,在垂直行业大模型应用时,不少企业倾向于选择私有部署方案以应对数据安全挑战。然而私有部署成本高昂,即便已从早期的一两千万降到现在的一两百万,但很多机构依然没有足够的预算。其次,私有部署模型的更新迭代非常缓慢,短则一个月,长则几个月才能完成更新。因此,私有部署也被一些业内人士认为是以更高的成本和更低的效率换取“物理安全”的妥协路径。
如何在云端提供加密计算服务,也是隐身云大模型加密计算平台切入市场的差异化点。根据产品介绍,平台提供公有云和私有云交付方案,支持市面上主流的通用大模型。以公有云为例,模型提供商可一键加密上传自有大模型,10分钟即可完成高可用推理服务发布。用户可通过网页实现模型加密访问,无需感知复杂加密流程,即刻获取。
王磊透露,未来还会继续打磨大模型密码计算产品,主要从两个维度:一是提升从数据标注到在线推理全链路的密码计算能力,本次首批上线的功能就是大模型密码推理和大模型密码托管。二是采用多种密码计算技术防御,适配不同场景,平衡安全性和成本。
信任问题在市场经济发展的不同阶段都得到解决。无论是立法、市场规则,还是近几十年的技术迭代,都在不断夯实商业信任的基础。比如在电商发展初期,为了解决淘宝平台上买家与卖家之间的信任问题,支付宝应运而生,作为一个中立的平台提供“担保交易”服务。
在大模型市场中,数据流动的环节更加复杂,数据提供者、模型提供者和使用者之间的信任也需要一个中立的平台来提供技术服务,在魏涛看来,这就是密集计算的意义所在。
如果说支付宝开创的“担保交易”见证了中国电商的爆发式发展,那么蚂蚁金服则在更为复杂的数据信任流动链条中,构建参与方之间的更多信任,见证数据要素市场化的大潮。
打破隐私计算的成本困境
技术创新与市场机制
自2016年起深耕隐私计算领域,历经技术探索、场景探索、规模应用等阶段,今年6月由蚂蚁集团作为唯一股东正式成立。
普遍认为,这是继5月底蚂蚁集团公布以“人工智能和数据要素技术”为重点的未来技术战略后,在技术商业化方面的最新动作。蚂蚁集团专门成立了一家公司,参与数据要素市场。在国内一线公司中,蚂蚁集团的决心尤为坚定。
魏涛透露,这一举措是经过深思熟虑后做出的果断决定。首先,是基于蚂蚁对未来的判断。“我们认为未来大规模、高价值数据要素的流通必须以保密的形式进行,而保密计算是数据要素可信流通的重要支撑技术。”
当前,数据要素市场建设正在加速推进。今年1月4日,国家数据局等部门发布《关于印发“数据要素×”三年行动计划(2024-2026年)的通知》,提出到2026年底,数据要素应用广度和深度将得到大幅拓展,数据要素在经济发展领域的乘数效应将得到充分体现。围绕这一目标,数据要素市场正在迅速集聚资金、人才和技术。
然而,要构建数据要素可信流通体系,无论是技术服务市场的构建,还是技术标准体系的建立,都还有许多挑战需要解决。从技术角度看,隐私计算的技术价值无可非议,市场也存在大量未被满足的需求,但高昂的成本制约了大规模应用。如何将小众的“奢侈品”转变为“公共服务产品”,降低机密计算的成本,是蚂蚁机密计算进入市场的一块硬骨头。
隐私计算成本高的原因在于该技术的复杂性,涉及密码学、人工智能、计算机体系结构等多个学科的交叉融合,技术开发难度大、门槛高,导致研发成本高昂。近年来,也有业内人士认为,只谈成本而不考虑隐私计算技术的商业价值,就像只谈发展而不考虑安全性一样,是一种偏颇的观点。
在魏涛看来,如果仅从技术环节的成本来看,应用隐私计算后成本肯定会更高。但考虑到商业因素、人为因素、技术因素、合规因素,隐私计算技术的成本更低。“明文计算看似计算简单,但一旦泄露,将付出巨大的代价,包括商业利益的损失、连带的法律风险等。”
随着跨域数据流通的大趋势,隐私计算技术成本过高的问题也更加凸显。密码学因为可以有效控制流动的数据,被技术界公认为最原始的技术。但单纯使用密码学由于性能和成本原因,较难大规模应用。
2024世界人工智能大会期间,公众在蚂蚁集团展位了解蚂蚁集团大规模模型加密云平台。图片来源:2024世界人工智能大会
如何降低隐私计算的应用成本、使其在商业上更具可扩展性,是技术创新、技术标准建设和市场机制共同努力的结果。
在技术方案上,蚂蚁提出了软硬件技术结合的技术融合路线,利用可信芯片和机密计算技术进行协同保障,平衡隐私计算的性能、成本和安全性,实现低成本的机密计算。第二步,在行业应用中,应用在高需求、高价值数据场景中,实现规模化之后,降低边际成本,进而服务于更多的场景。这也和云计算的商业化过程高度相似。
实现大规模推广的关键成本点是什么?魏涛认为,如果隐私计算的成本低于数据流通价值的5%,就可以实现大规模推广。这一判断源自蚂蚁对隐私计算产业应用的探索,目前已在多个金融场景落地。
此次与网商银行、蚂蚁集团联合推出的“农二贷”服务,基于密码学和星展可信隐私计算技术栈,联合构建金融风控模型,结合网商银行大山雀风控系统推出农二贷服务。截至今年5月,已有600多万农户获得贷款额度,授信总额达964亿元,其中约80%农户种植面积在10亩以下。该项目还被国家数据局评选为“数据元素x”典型案例。
解决问题的另一个方向是针对不同的数据场景匹配最合适的技术路线,以免矫枉过正。其实数据是有分类的,所以技术的安全分级之后,两者之间就建立了映射关系,根据数据场景匹配最合适的技术路线才是最划算的选择。
魏涛透露,蚂蚁密码计算将针对不同数据流通场景对安全性、性能、成本的不同诉求,提供灵活的解决方案。对于一般数据处理,密码计算成本可控制在明文分布式计算的2倍以内;对于重要数据,在达到较高安全等级的情况下,成本可控制在明文分布式计算的10倍以内。
应用过程中遇到的问题,技术方案、技术标准都是解决的。那么当黑天鹅事件真的发生时,如何提供安全网呢?参考国外行业实践,网络安全保险被认为是一种可行的方式。
数据安全保险之于数据产品交易,犹如交强险之于道路交通。魏涛认为,正如道路交通中,驾驶员的责任不仅限于自身安全,数据产品交易也不仅仅关乎交易双方,一旦发生数据泄露,潜在的风险可能影响个人隐私、行业利益甚至国家安全。
通过这种市场化机制,企业可以更清晰地了解数据泄露的风险成本,主动加大安全投入,从而降低整体风险,形成良性循环。欧美国家已开始在个人信息数据交易等领域要求购买网络安全保险。
一个新的创业团队已经进入数据要素市场
过去几年,数据要素市场面临变现场景不足的挑战,除了风控、营销等,大量非结构化数据尚未得到充分利用。不过,大模型已经崛起并快速进入产业化阶段,成为数据要素市场的关键增长点。
目前,隐私计算市场尚处于探索阶段,虽然面临技术、应用、法律法规等方面的挑战和风险,但毫无疑问,总体向好的趋势是持续的——市场规模不断扩大,应用场景不断拓展;技术创新不断推进,性能和安全性不断提升;行业标准逐步完善,生态体系日趋成熟。
中国在数据要素市场建设方面有着独特优势。在政策和法律法规方面,政府高度重视数据安全与隐私保护,出台了一系列切实可行的法律法规,为数据要素市场的健康发展保驾护航;在技术方面,除了蚂蚁集团,蓝象智联、微众银行、同盾科技、洞见科技、富数公司等众多初创公司,以及阿里巴巴、腾讯、百度、华为、京东、字节跳动、平安等巨头也积累了丰富的经验,正在不断突破性能瓶颈。
对于蚂蚁机密而言,如何平衡数据安全与商业利益,如何构建可持续发展的机密计算商业模式,如何应对愈加激烈的市场竞争、渡过深水区,是其未来发展的关键。
魏涛告诉机器之心:我们选择以商业的方式向外界开放我们的技术和生态积累,因为只有商业模式健康运转,技术的迭代才能持续发展。
“我们认为整个行业会从通用计算、智能计算走向机密计算。机密计算是数据可信流通的一个基本色彩,一定是整个行业发展的最优解。未来机密计算会成为数据可信流通新的算力,但在此之前,还有很多工作要做。”他说。


