目前,大医学模型正在疾病预测、辅助诊断、个性化治疗、药物发现等各个细分领域进行探索和应用。然而,他们也面临准确性、可解释性、数据隐私和医学伦理等问题。据不完全统计,目前全国大型医疗模式约有4000家。如何判断它们是否安全、合规、高效?
今天,由上海人工智能实验室牵头的上海医学大模型应用测试验证中心在上海成立。这是国内首个大型医疗模型应用评估验证平台。华山医院、中山医院、瑞金医院等12家医疗机构成为该中心首批核查单位。

检测中心的设立有何意义?专家表示,大型语言模型的改进很大程度上依赖于反馈,评估可以让大型模型发现缺点,加速进化“飞轮”的转动,打通“训练、评估、使用一体化”的环节。
评估是大模型闭环的组成部分

层出不穷的大医疗模式如何“打分”?得益于上海人工智能实验室在全球首个医学基础模型群“溥仪”和医学大模型评价体系“”方面的长期技术积累,市医学大模型检测中心目前支持14个应用场景评价。覆盖医疗大模型评估全链条。


开始评估的第一步是资格验证过程。用户提交评测申请时需要输入型号注册信息,平台将自动查询并检测网信部门注册的真实性。其中,基础大模型筛选采用上海人工智能实验室专利技术。在不添加水印、保持大语言模型通用能力的同时,采用基于表示的指纹识别技术对大语言模型的基础模型进行溯源,保证大语言模型的模型来源安全。
安全性评价分为一般安全性问题和医学伦理安全性问题及答案。只有通过了两条安全基线,才能进入下一步的评估。模型应用服务的时效性评估包括响应时间、吞吐量、计算效率等。性能评估根据场景应用需求,结合临床医学专家讨论,制定评估集,考察应用服务的能力响应评估集。

为什么大型模型评估很重要?上海人工智能实验室青年科学家徐杰表示,训练、评估和使用共同构成了大语言模型的闭环,因为大语言模型训练需要“正反馈”,而评估可以清楚地识别模型的缺点,并且然后通过有针对性的在本地Feed语料,帮助大型模型实现快速迭代。
针对模特多元化的培养需求,上海市健康与健康发展研究中心与上海市中医药档案馆联合发布了上海健康产业语料库1.0版。通过构建高质量语料库,创新语料库工具链服务和分发模型,为中医、健康管理领域大型医疗模型的训练和优化提供数据支撑。

市经济和信息化委员会主任张英表示,医疗大模型应用测试验证中心的启用,将能够加强对医疗大模型全链路的管理,也为医疗大模型应用提供平台。进一步推动医疗人工智能技术与临床实践的深度融合。保证。


