LLM可以比科学家更准确地预测神经学研究结果!
近日,来自伦敦大学学院、剑桥大学、牛津大学等机构的团队发布了神经学专用基准,并发表在子期刊《自然人类行为(Human)》上。
结果显示,在该基准上训练的法学硕士在预测神经科学结果方面达到了 81.4% 的准确率,远远超过了人类专家 63% 的准确率。
在神经学的五个常见子领域:行为/认知、细胞/分子、系统/回路、神经系统疾病的神经生物学、发育/可塑性与修复,LLM的表现也全面超越人类专家。
更重要的是,这些模型被证明没有明显的数据记忆。
也就是说,他们掌握了一般科学研究的共同模式,能够做出更具前瞻性(-)的预测,预测未知的事物。

这立即引起了科研界的关注。
很多教授和博士后也表示,未来LLM可以帮助判断更多研究的可行性,nice!




LLM的预测能力各方面超越人类专家
我们先来看看论文的一些重要结论:
总体结果:法学硕士的平均准确率为 81.4%,而人类专家的平均准确率为 63.4%。法学硕士的表现明显优于人类专家

子领域表现:法学硕士在神经科学的几个重要子领域中表现同样出色:行为/认知、细胞/分子、系统/电路、神经疾病的神经生物学以及发育/可塑性和修复。优于人类专家,尤其是在行为认知和系统/电路领域。

型号比较:-7B 和-7B 等较小型号的性能与较大型号相同,而聊天或命令优化型号的性能不如其基本型号。

人类专家的表现:大多数人类专家是博士生、博士后研究员或教师。当将人类反应限制在自我报告的专业知识的前 20% 时,准确性上升到 66.2%,但仍然低于 LLMS。
置信度校准:法学硕士和人类专家的置信度都经过良好校准,高置信度的预测更有可能是正确的。

记忆评估:没有迹象表明法学硕士记住了这些项目。使用 zlib 压缩和困惑比的分析表明,法学硕士学习广泛的科学模式,而不是记住训练数据。
新的神经学基准
本文的一个重要贡献是提出了一种前瞻性基准测试,可专门用于评估法学硕士预测神经科学结果的能力。

那么,具体是如何完成的呢?
数据收集

首先,团队使用了2002年至2022年神经科学研究相关的摘要,并从Open(PMC OAS)中提取了全文文章,总计13亿篇。
评估法学硕士和人类专家
其次,根据上面收集的数据,团队创建了测试用例,主要是修改论文摘要。
具体来说,每个测试用例都包含两个版本的摘要:一个是原始版本,另一个是修改版本。修订后的摘要显着改变了研究结果,但保持了整体一致性。
测试人员的任务是选择包含实际研究结果的版本。
该团队使用 Al 模型框架让法学硕士在两个版本的摘要之间进行选择,通过困惑度来衡量其偏好 ( )。混乱度越低,模型越喜欢摘要。
人类专家的行为也会在相同的测试用例上进行评估,并且他们还需要提供信心和专业知识分数。最终,171名神经科学专家参与了该实验。
实验中使用的LLM是预训练的-7B-v0.1模型。通过LoRA技术微调后,精度可再提升3%。


评估LLM是否是纯记忆
为了衡量LLM是否掌握了思维逻辑,团队还使用zlib压缩率和困惑比来评估LLM是否记住了训练数据。公式如下:
其中,ZLIB(X)表示文本X的zlib压缩率,PPL(X)表示文本X的困惑度。
有研究者认为只能作为辅助
这篇论文向我们展示了神经科学研究的新方向。或许未来,神经学专家在早期探索时,可以借助LLM的力量,对科研思路进行初步筛选,排除一些在方法、背景资料等方面存在明显问题的问题规划等。
但与此同时,许多研究人员对LLM的使用提出了质疑。
有人认为实验是科学研究最重要的部分,任何预测都是不必要的:


一些研究人员认为,科学研究的重点可能在于精确的解释。

此外,还有网友指出,实验中的检验方法只考虑了简单的AB假设检验,实际研究中涉及平均值/方差的情况较多。

总体而言,这项研究对于神经学研究的发展很有启发,未来可能会扩展到更多的学术研究领域。
研究人员怎么看?
参考链接:
[1]#-
[2]


