推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

o1-preview在医疗诊断中超越人类？AI与医生对比分析及专家评估

日期：2024-12-23 来源：网络整理作者：二手钢材网浏览：187 评论：0

核心提示：两位医生同时评估o1-preview的鉴别诊断质量，且在143个案例中有120个结果一致。两位医生分别评估o1-preview的临床推理质量，在80个案例中，有79个案例达成了一致（约占99%）。

【导读】o1-医疗诊断远超人类，网络医疗指日可待？

“根据最新论文（about），o1-在推理任务上远远优于医生，甚至差距很大。AI 对 143 例疑难 NEJM CPC 的诊断结果约为 80% 到 30%。现在相信你的医生，不要咨询 AI模型很危险。”

迪迪的言论吸引了数百万观众。

_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

事实是什么？

o1-模型在解决复杂的信息学、数学和工程问题以及医学问答方面表现出了优于 GPT-4 的能力。

医疗决策远不是问答，o1-在医学上已经完全优于人类了吗？

来自哈佛、斯坦福、微软等机构的多位医学和人工智能专家联手评估医学推理任务中的o1-。

结果表明，该模型在鉴别诊断、诊断临床推理、管理推理等方面已经超越人类；建议使用更好、更有意义的评估策略来跟上自动化系统在医学推理基准方面的进展。

文章推测，使用大型语言模型来协助医生需要对人工智能系统进行综合临床试验和劳动力（重新）培训。

_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

论文链接：

人工智能辅助诊断工具评估

在顶级医学期刊《JAMA》、《JAMA·内科医学》和《NPJ·数字医学》中，有论文指出大型语言模型在诊断基准测试中已经超越了人类，对象包括医学生、住院医生和主治医生。

此次，联合团队评估了o1-针对鉴别诊断生成、推理报告、概率推理和管理推理任务的临床多步推理能力。

_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

与医生和现有的大型语言模型相比，o1-显着提高了鉴别诊断和诊断管理推理的质量。

_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

鉴别诊断

自 20 世纪 50 年代以来，评价鉴别诊断生成器的主要标准是来自《新英格兰医学杂志》(NEJM) 上发表的临床病理学会议 (CPC) 的病例。这也是评估o1-的第一个基准。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

两名医生同时评估o1-鉴别诊断质量，143例中有120例结果一致。

o1-鉴别诊断准确率为78.3%（见图1）。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%__AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

图1：鉴别诊断（DDx）生成器和大语言模型的鉴别诊断准确度条形图，按年份排序

图 1 中 o1- 的数据基于《新英格兰医学杂志》(NEJM) 上发表的临床病理学会议 (CPC) 病例。其他大型语言模型或 DDx 生成器的数据是从文献中获得的。

建议的 o1- 首次诊断正确率为 52%。

o1-预训练截止日期之前的准确率为 79.8%，之后为 73.5%，没有显着差异。

表 1 显示了 o1- 可以解决但不能解决的复杂情况。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%__AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

表 1：o1 - 正确诊断了 GPT-4 无法解决的三个复杂病例

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

表1中的Bond Score范围为0到5，其中5分表示鉴别诊断列表中包含正确的目标诊断，0分表示鉴别诊断列表中没有接近目标的选项。

o1- 在 88.6% 的病例中产生了准确或非常接近准确的诊断，而 GPT-4 的诊断率仅为 72.9%（见图 2A）。

_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

两名医生根据CPC中描述的患者实际治疗情况对o1-提出的检查计划进行评分。共有132例，其中两位医生评分相同的有113例。

87.5%的情况下，o1-选择了正确的检查项目。另外11%的病例中，两位医生认为所选的检查方案是有用的，只有1.5%的病例认为没有用（图3）。相关示例见表2。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

图 3：o1-in 预测接下来应执行哪个诊断测试的性能

实验中，两位医生用“无用（）”、“有用（）”和“完全正确（对）”的李克特量表测量了预测结果。

因要求再次审查不合理而从总数中剔除7起案件。

_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%__AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%__AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

表 2：示例 o1- 提议的测试计划与案例中使用的测试计划的比较

表2中的案例得分为2，表明测试效果较好，与案例计划几乎一致。 1 分表示建议的诊断会有帮助，或者可以通过病例中未使用的测试来做出诊断。 0 分表示建议的诊断方法没有帮助。

NEJM 诊断案例为了评估临床推理，NEJM 案例专为虚拟患者会诊而设计。

_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

两名医生独立评估了 o1- 的临床推理质量，并在 80 例病例中的 79 例（约 99%）中达成一致。

在 80 例病例中，o1- 有 78 例达到 R-IDEA 满分，其表现远远超过 GPT-4、主治医生和住院医师，如图 4A 所示。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

图 4：A 组代表 20 个 NEJM 病例中按受访者分层的 312 个 R-IDEA 评分的分布。图B为初诊报告中不可漏诊的比例箱线图（）

B 组的总样本量为 70，其中包括主治医生、GPT-4 和 o1- 的 18 份回复，以及住院医师的 16 份回复。

o1-首次就诊报告 ( ) 中确定的“不容错过”诊断的比例如图 4B 所示。包含“不容错过”的诊断比例中位数为 0.92，与 GPT-4、主治医生或住院医生没有显着差异。

灰质管理案例

根据真实案例，25 位医师专家采用共识方法开发了 5 个临床实例 ( )。

该测试包括向模型呈现一个临床示例，然后向模型提出一系列有关后续管理步骤的问题。

两位医生对 o1- 的 5 个病例的反应进行了评分，结果一致。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

o1-每个病例的中位得分为 86%（图 5A），优于 GPT-4、使用 GPT-4 的医生和使用传统资源的医生。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

图 5：A 组代表大语言模型和医生的行政推理分数的标准化箱线图。 B 组代表模型和医师诊断推理评分的标准化箱线图。

图A共包括五种情况。 o1-每个案例生成一个响应，GPT-4 每个案例生成 5 个响应，导致使用 GPT-4 的医生总共有 176 个响应，使用传统资源的医生总共有 199 个响应。

使用混合效应模型，估计 o1- 比单独使用 GPT-4 的效果高 41.6%，比使用 GPT-4 的医生高 42.5%，比使用传统资源的医生高 49.0%。

标志性诊断病例

两名内科医生对六个诊断推理案例中o1-的答案进行了评分，评估结果比较一致。 o1- 的中位分数为 97%（图 5B）。

与历史对照数据相比，GPT-4 得分为 92%，使用 GPT-4 的医生得分为 76%，而使用传统资源的医生得分为 74%。

使用混合效应模型估计，o1- 的表现与 GPT-4 相当（好 4.4%），比使用 GPT-4 的医生好 18.6%，比使用传统资源的医生好 20.2%。

诊断概率推理案例

在诊断概率推理中，总共使用了五个初级保健主题案例。

根据科学参考概率（）比较了 o1-、GPT-4 和人类的概率推理能力。

由 553 名具有全国代表性的医生组成，其中包括 290 名住院医生、202 名主治医生和 61 名护士或医师助理。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%__AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

如图6和表3所示，在概率推理方面，o1-和GPT-4在测试前后表现相似。

只有在冠状动脉疾病压力测试中，预测的 o1- 密度才比模型和人类更接近参考范围。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%_

研究局限性

这项研究也有四个主要局限性。

首先，o1- 倾向于冗长，并且可能在测试中得分更高。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%__AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

其次，目前的研究仅反映了模型性能，而现实却离不开人机交互。人机交互对于临床决策辅助的发展至关重要，下一步应该是确定大型语言模型（例如o1-）是否可以增强人机交互。

但人与计算机之间的交互可能是不可预测的，即使性能良好的模型也可能在与人类的交互中性能下降。

AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%__AI看病竟比医生强？哈佛、斯坦福等联合评估o1-preview，诊断准确率高达近80%

第三，该研究仅考察了临床推理的五个方面；然而，已经确定了许多其他任务可能对实际临床护理产生更大的影响。

第四，研究案例集中于内科，但不能代表更广泛的医疗实践，包括需要多种技能的多个亚专业，例如手术决策。该研究也没有考虑诊断、患者特征或护理地点的差异。

参考：

本文来自微信公众号“新智元”，编辑：36氪，授权发布。

标签： 医学模型医疗推理鉴别诊断医生评估自动化系统

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

o1-preview在医疗诊断中超越人类？AI与医生对比分析及专家评估

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司