LLM模型在神经学研究中超越人类专家,准确率高达81.4%

   日期:2024-11-30     来源:网络整理    作者:二手钢材网    浏览:226    评论:0    
核心提示:LLM可以比科学家更准确地预测神经学的研究结果!结果显示,经过该基准训练的LLM在预测神经科学结果的准确度方面高达81.4%,远超人类专家的63%。本论文的一个重要贡献,就是提出了一个前瞻性的基准测试BrainBench,可以专门用于评估LLM在预测神经科学结果方面的能力。

LLM可以比科学家更准确地预测神经学研究结果!

近日,来自伦敦大学学院、剑桥大学、牛津大学等机构的团队发布了神经学专用基准,并发表在子期刊《自然人类行为(Human)》上。

结果显示,在该基准上训练的法学硕士在预测神经科学结果方面达到了 81.4% 的准确率,远远超过了人类专家 63% 的准确率。

在神经学的五个常见子领域:行为/认知、细胞/分子、系统/回路、神经系统疾病的神经生物学、发育/可塑性与修复,LLM的表现也全面超越人类专家。

更重要的是,这些模型被证明没有明显的数据记忆。

也就是说,他们掌握了一般科学研究的共同模式,能够做出更具前瞻性(-)的预测,预测未知的事物。

神经科学综述_神经科学进展_

这立即引起了科研界的关注。

很多教授和博士后也表示,未来LLM可以帮助判断更多研究的可行性,nice!

_神经科学综述_神经科学进展

神经科学进展_神经科学综述_

_神经科学综述_神经科学进展

神经科学进展_神经科学综述_

LLM的预测能力各方面超越人类专家

我们先来看看论文的一些重要结论:

总体结果:法学硕士的平均准确率为 81.4%,而人类专家的平均准确率为 63.4%。法学硕士的表现明显优于人类专家

神经科学综述_神经科学进展_

子领域表现:法学硕士在神经科学的几个重要子领域中表现同样出色:行为/认知、细胞/分子、系统/电路、神经疾病的神经生物学以及发育/可塑性和修复。优于人类专家,尤其是在行为认知和系统/电路领域。

神经科学进展__神经科学综述

型号比较:-7B 和-7B 等较小型号的性能与较大型号相同,而聊天或命令优化型号的性能不如其基本型号。

_神经科学综述_神经科学进展

人类专家的表现:大多数人类专家是博士生、博士后研究员或教师。当将人类反应限制在自我报告的专业知识的前 20% 时,准确性上升到 66.2%,但仍然低于 LLMS。

置信度校准:法学硕士和人类专家的置信度都经过良好校准,高置信度的预测更有可能是正确的。

_神经科学综述_神经科学进展

记忆评估:没有迹象表明法学硕士记住了这些项目。使用 zlib 压缩和困惑比的分析表明,法学硕士学习广泛的科学模式,而不是记住训练数据。

新的神经学基准

本文的一个重要贡献是提出了一种前瞻性基准测试,可专门用于评估法学硕士预测神经科学结果的能力。

_神经科学进展_神经科学综述

那么,具体是如何完成的呢?

数据收集

_神经科学综述_神经科学进展

首先,团队使用了2002年至2022年神经科学研究相关的摘要,并从Open(PMC OAS)中提取了全文文章,总计13亿篇。

评估法学硕士和人类专家

其次,根据上面收集的数据,团队创建了测试用例,主要是修改论文摘要。

具体来说,每个测试用例都包含两个版本的摘要:一个是原始版本,另一个是修改版本。修订后的摘要显着改变了研究结果,但保持了整体一致性。

测试人员的任务是选择包含实际研究结果的版本。

该团队使用 Al 模型框架让法学硕士在两个版本的摘要之间进行选择,通过困惑度来衡量其偏好 ( )。混乱度越低,模型越喜欢摘要。

人类专家的行为也会在相同的测试用例上进行评估,并且他们还需要提供信心和专业知识分数。最终,171名神经科学专家参与了该实验。

实验中使用的LLM是预训练的-7B-v0.1模型。通过LoRA技术微调后,精度可再提升3%。

神经科学进展_神经科学综述_

神经科学综述_神经科学进展_

评估LLM是否是纯记忆

为了衡量LLM是否掌握了思维逻辑,团队还使用zlib压缩率和困惑比来评估LLM是否记住了训练数据。公式如下:

其中,ZLIB(X)表示文本X的zlib压缩率,PPL(X)表示文本X的困惑度。

有研究者认为只能作为辅助

这篇论文向我们展示了神经科学研究的新方向。或许未来,神经学专家在早期探索时,可以借助LLM的力量,对科研思路进行初步筛选,排除一些在方法、背景资料等方面存在明显问题的问题规划等。

但与此同时,许多研究人员对LLM的使用提出了质疑。

有人认为实验是科学研究最重要的部分,任何预测都是不必要的:

_神经科学综述_神经科学进展

神经科学进展_神经科学综述_

一些研究人员认为,科学研究的重点可能在于精确的解释。

神经科学综述__神经科学进展

此外,还有网友指出,实验中的检验方法只考虑了简单的AB假设检验,实际研究中涉及平均值/方差的情况较多。

神经科学综述_神经科学进展_

总体而言,这项研究对于神经学研究的发展很有启发,未来可能会扩展到更多的学术研究领域。

研究人员怎么看?

参考链接:

[1]#-

[2]

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2