拨开迷雾,模型参数终于揭晓!微软华盛顿大学的一篇医学论文意外曝光了GPT-4、GPT-4o、o1系列模型参数。让大家震惊的是,GPT-4o mini只有8B。
谁能想到微软竟然在医学领域的一篇论文中“暴露”了模型的所有参数!
GPT-4参数约为1.76万亿
GPT-4o参数约2000亿
GPT-4o mini参数约80亿
o1参数约为3000亿
o1-mini参数约1000亿
3.5个参数约1750亿

研究人员:参数只是估计值
更让大家难以置信的是,GPT-4o系列的参数竟然这么少,而且mini版只有8B。

有网友推测4o mini是一个MoE模型,参数约为40B,其中激活参数为8B。
因为,他发现4o mini明显比8B模型学到了更多的知识,同时跑得也非常快。
另外,由于GPT-4o是MoE架构,因此迷你版本上可能会使用相同的架构。

另一位网友惊讶地表示,3.5参数实际上相当于GPT-3。

在本文中,来自微软和华盛顿大学的团队发布了一个具有里程碑意义的评估基准,旨在检测和纠正临床记录中的医疗错误。


该基准涵盖五种类型的错误,包括诊断、管理、治疗、用药和致病因素。
MEDEC的数据源收集了来自美国3个医院系统的488份临床记录,总计3,848份临床文本。
值得一提的是,这些数据此前从未被任何LLM接触过,保证了评估的真实性和可靠性。目前,该数据集已用于-CORR共享任务中,评估17个参与系统的性能。

获得数据集MEDEC后,研究团队对当前最先进的模型,包括o1-、GPT-4、3.5、2.0 Flash等在医疗错误检测和纠正任务中进行了全面测试。
同时,他们还邀请了两名专业医生来执行相同的错误检测任务,最后将人工智能和人类医生的结果进行了比较。
结果发现,最新的LLM在医疗错误检测和纠正方面表现良好,但与人类医生相比,AI仍有明显差距。
这也从侧面印证了MEDEC是一个足够具有挑战性的评估基准。
这篇论文是关于什么的?
美国一家医疗机构的一项调查显示,五分之一阅读临床记录的患者报告发现了错误。
百分之四十的患者将这些错误评为严重,最常见的错误类别与当前或过去的诊断相关。

与此同时,越来越多的医疗文档任务(例如临床记录生成)现在由法学硕士完成。
然而,使用LLM进行医疗文献任务的主要挑战之一是很容易产生“幻觉”并输出一些虚构的内容或错误的信息,这直接影响临床决策。
毕竟医疗无小事,一字之差,就可能生死攸关。
为了降低这些风险并确保LLM在医学内容生成中的安全性,严格的验证方法至关重要。这个验证需要相关的基准来评估是否可以通过验证模型来实现完全自动化。
在验证过程中,一项关键任务是检测并纠正临床文本中的医疗错误。
站在人类医生的角度思考,识别和纠正这些错误不仅需要医学专业知识和背景,有时还需要丰富的经验。
此前,大多数关于(常识)错误检测的研究都集中在通用领域。
为此,微软华盛顿大学团队引入了新的数据集——MEDEC,并在不同领先的LLM(如3.5、o1-和2.0 Flash)上进行了实验。

“据我们所知,这是第一个公开的基准测试和临床记录中自动错误检测和纠正的研究,”作者表示。
MEDEC数据集
MEDEC数据集共包含3848个来自不同医学专业领域的临床文本的新数据集。本次标注任务由8名医学标注员完成。
如前所述,该数据集涵盖五种类型的错误,包括:
():提供的诊断不准确
():提供的管理后续步骤不准确。
药物():推荐的药物不准确
():推荐的治疗不准确
病原体 ( ):指定的致病生物体或病原体不准确
(注意:这些错误类型是在分析医学委员会考试中最常见的问题类型后选择的。)
上图 1 显示了 MEDEC 数据集的示例。每个临床文本要么是正确的,要么包含由以下两种方法之一产生的错误:方法#1 (MS) 和方法#2 (UW)。
数据创建方法#1 (MS)
在这种方法中,作者利用了 MedQA 集合中的医学委员会考试问题。
四位具有医学背景的注释者参考了这些考试中的医学叙述和多项选择题,在检查原始问题和答案后,将不正确的答案注入到场景文本中,并排除包含错误或模糊信息的问答对。
医学注释者遵循以下准则:
使用医学叙述多项选择题,将不正确的答案注入场景文本中,并创建两个版本,将错误注入文本的中间或末尾。
使用医学叙述多项选择题,将正确答案注入到场景文本中以生成正确版本,如图2所示(生成的文本包含正确答案)。
手动检查自动生成的文本是否忠实于原始场景及其包含的答案。
最后,研究人员通过从两个不同的场景(错误注入到文本的中间或末尾)随机选择每个注释的正确版本和错误版本来构建最终数据集。

数据创建方法#2 (UW)

在这里,作者使用了 2009 年至 2021 年华盛顿大学 (UW) 三个医院系统(UW 和 Care)的真实临床记录数据库。
研究人员从17453条诊断支持记录中随机选取了488条,这些记录总结了患者的病情,为治疗提供了依据。
由四名医学生组成的团队手动将错误引入到 244 条记录中。
在初始阶段,每条记录都用多个候选实体进行注释,这些候选实体被 4 识别为统一医学语言系统(UMLS)概念。
注释者可以从这些候选实体中选择一个简洁的医学实体或创建一个新的文本段(跨度)。然后,该剪辑被标记为五种错误类型之一。
接下来,注释者用相似但不同的概念替换片段,错误版本由注释者自己设计或通过基于LLM的方法生成。这种方法向注释器建议替代概念,但不依赖于输入文本。医学注释者手动确定最终注入文本的概念或错误。
在此过程中,每个错误片段必须与临床记录中的至少两个其他片段相矛盾,并且注释者需要为每个引入的错误提供合理的解释。
作者使用工具在注入错误后自动消除临床记录的识别信息。
随后,每条注释均由2位注释者独立审核,以确保去标识化的准确性。任何分歧均由第三位注释者裁决。
下表1显示了训练集、验证集和测试集的划分。其中,MS训练集包含2189个临床文本,MS验证集包含574个临床文本,UW验证集包含160个临床文本。
MEDEC 测试集包含来自 MS 集合的 597 个临床文本和来自 UW 数据集的 328 个临床文本。在测试集中,51.3%的笔记存在错误,而48.7%的笔记是正确的。

下图 3 显示了数据集中错误类型的分布(诊断、管理、治疗、药物和病原体)。

医疗错误检测和纠正方法
为了评估模型在医疗错误检测和纠正任务上的性能,作者将该过程分为三个子任务:
子任务A:预测错误标志(0:如果文本没有错误;1:如果文本包含错误)
子任务B:为已标记错误的文本提取包含错误的句子(-1:如果文本没有错误;句子ID:如果文本包含错误)
子任务C:为包含错误的标记文本生成更正的句子(NA:如果文本没有错误;生成的句子/更正的内容:如果文本有错误)
为了进行比较,他们构建了一个基于 LLM 的解决方案,使用两个不同的提示词生成所需的输出,以评估模型在这三个子任务中的表现:
提示#1:

以下是一位患者的医学叙述。您是一位熟练的医生,正在审阅这些临床文本。文本要么正确,要么包含错误。文本中的每一行都是一个句子。每行以句子 ID 开头,后跟管道符号,然后是需要检查的句子。检查文本中的每个句子。如果文本正确,则返回以下输出: 。如果文本中存在与治疗、管理、病因或诊断相关的医疗错误,则返回包含错误的句子 ID,后跟一个空格,然后是更正的句子。发现并纠正错误需要医学知识和推理技能。
提示#2:与第一个提示类似,但包含从训练集中随机选择的输入和输出示例:
这是一个例子。
0 一位 35 岁的女性向她的医生抱怨手部疼痛和僵硬。 1 她表示疼痛是在 6 周前开始的,也就是她克服轻微上呼吸道感染几天后。 (…)9 双手双侧 X 线检查显示左手第五掌指关节周围有轻度关节周围骨质减少。 10 给予甲氨蝶呤。
在此示例中,错误出现在第 10 句:“给予甲氨蝶呤”。修改为:“给予泼尼松。”输出为: 10 1 已给出。示例结束。
实验与结果
语言模型
研究人员对几种最新的语言模型进行了实验:
Phi-3-7B:具有 70 亿个参数的小语言模型 (SLM)。
3.5(2024-10-22):3.5系列的最新模型(约1750亿个参数),在多个编码、视觉和推理任务中展示了SOTA性能。
2.0 Flash:最新/最先进的型号。其他谷歌模型(例如专为医疗用途设计的 Med-PaLM,5400 亿个参数)尚未公开。
(约1750亿个参数)和GPT-4(约1.76万亿个参数)是“高度智能”的模型。
GPT-4o(约 2000 亿个参数)提供“GPT-4 级别的智能,但速度更快”,而 GPT-4o-mini (gpt-4o-2024-05-13) 是一个专注于特定任务的小型模型(约80 亿个参数)。
最新的o1-mini(o1-mini-2024-09-12)(约1000亿个参数)和o1-(o1--2024-09-12)(约3000亿个参数)具有“新的AI能力”,可以处理复杂的推理任务。
值得注意的是,大多数模型的参数量都是估计值,主要用于帮助理解模型性能。一些模型(例如 Phi-3 和 Phi-3)需要少量自动后处理来纠正格式问题。
结果
下表2为医生人工标注的结果以及多个最新LLM使用上述两个提示词的结果。
在错误标志检测方面,3.5以70.16%的准确率优于其他方法,在错误句子检测方面达到65.62%的准确率。
o1-mini 在错误标志检测方面达到了 69.08% 的第二高准确率。
在纠错方面,o1-取得了最好的表现,综合得分为0.698,远超第二名GPT-4的0.639[P#2]。


下面的表 3 显示了每个数据集(MEDEC-MS 和 MEDEC-UW)的错误检测精度和错误纠正分数。其中,MS子集对于3.5和#2更具挑战性,而UW子集对于o1-和#1更具挑战性。
结果表明,与医生评级相比,最先进的法学硕士在错误检测和纠正方面表现良好,但在这些任务中仍然不如人类医生。
这可能是因为这样的错误检测和纠正任务在网络和医学教科书中比较少见,即LLM在预训练中遇到相关数据的可能性较低。
这可以从 o1- 的结果中看出,在基于公共临床文本构建的 MS 子集上,其错误和句子检测的准确率分别为 73% 和 69%,而在私人 UW 集合上仅实现了 58% 和 48% 的准确率。
另一个因素是该任务需要分析和纠正现有的非法学硕士生成的文本,这可能比从头开始起草新答案更困难。

下面的表 4 显示了每种错误类型(诊断、管理、治疗、药物治疗和致病微生物)的错误检测召回率和错误纠正分数。
可以看到,o1-在错误标记和句子检测上的召回率明显高于3.5和两位医生。但综合准确率结果后(见表2),发现医生在准确率方面表现更好。
这些结果表明,该模型在准确性方面存在重大问题,并且与医生相比,人工智能在许多情况下过度预测了错误(即幻觉)的存在。

此外,结果还表明分类性能和纠错生成性能之间存在排名差异。
例如,3.5 在错误标记和句子检测准确率方面在所有模型中排名第一,但在校正生成分数方面排名最后(见表 2)。
此外,o1-在错误检测精度方面在所有法学硕士中排名第四,但在校正生成方面排名第一且遥遥领先。两位医生之间也观察到了同样的模式。
上述现象可以用校正生成任务的难度来解释,也可能反映出当前SOTA文本生成评估指标在捕获医学文本中的同义词和相似性方面的局限性。
表5显示了3.5和GPT模型自动生成的参考文本、医生注释和校正示例。
例如,第二个示例的参考校正表明患者被诊断为无丙种球蛋白血症,而法学硕士提供的正确答案提到了 X 连锁无丙种球蛋白血症(这种罕见遗传性疾病的同义词)。
此外,一些法学硕士(如法学硕士)提供更长的答案/更正和更多的解释。类似的现象也出现在医生注释中,其中#1医生比#2医生提供了更长的修订,并且两位医生在一些例子/病例上存在分歧,反映出它们是由不同的医生/专家撰写的事实临床风格和内容的差异笔记。

下一步医疗错误检测与纠正的相关研究需要在提示词中引入更多的例子并优化例子。


