推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

LLM模型在神经学研究中超越人类专家，准确率高达81.4%

日期：2024-11-30 来源：网络整理作者：二手钢材网浏览：226 评论：0

核心提示：LLM可以比科学家更准确地预测神经学的研究结果！结果显示，经过该基准训练的LLM在预测神经科学结果的准确度方面高达81.4%，远超人类专家的63%。本论文的一个重要贡献，就是提出了一个前瞻性的基准测试BrainBench，可以专门用于评估LLM在预测神经科学结果方面的能力。

LLM可以比科学家更准确地预测神经学研究结果！

近日，来自伦敦大学学院、剑桥大学、牛津大学等机构的团队发布了神经学专用基准，并发表在子期刊《自然人类行为（Human）》上。

结果显示，在该基准上训练的法学硕士在预测神经科学结果方面达到了 81.4% 的准确率，远远超过了人类专家 63% 的准确率。

在神经学的五个常见子领域：行为/认知、细胞/分子、系统/回路、神经系统疾病的神经生物学、发育/可塑性与修复，LLM的表现也全面超越人类专家。

更重要的是，这些模型被证明没有明显的数据记忆。

也就是说，他们掌握了一般科学研究的共同模式，能够做出更具前瞻性（-）的预测，预测未知的事物。

神经科学综述_神经科学进展_

这立即引起了科研界的关注。

很多教授和博士后也表示，未来LLM可以帮助判断更多研究的可行性，nice！

_神经科学综述_神经科学进展

神经科学进展_神经科学综述_

_神经科学综述_神经科学进展

神经科学进展_神经科学综述_

LLM的预测能力各方面超越人类专家

我们先来看看论文的一些重要结论：

总体结果：法学硕士的平均准确率为 81.4%，而人类专家的平均准确率为 63.4%。法学硕士的表现明显优于人类专家

神经科学综述_神经科学进展_

子领域表现：法学硕士在神经科学的几个重要子领域中表现同样出色：行为/认知、细胞/分子、系统/电路、神经疾病的神经生物学以及发育/可塑性和修复。优于人类专家，尤其是在行为认知和系统/电路领域。

神经科学进展__神经科学综述

型号比较：-7B 和-7B 等较小型号的性能与较大型号相同，而聊天或命令优化型号的性能不如其基本型号。

_神经科学综述_神经科学进展

人类专家的表现：大多数人类专家是博士生、博士后研究员或教师。当将人类反应限制在自我报告的专业知识的前 20% 时，准确性上升到 66.2%，但仍然低于 LLMS。

置信度校准：法学硕士和人类专家的置信度都经过良好校准，高置信度的预测更有可能是正确的。

_神经科学综述_神经科学进展

记忆评估：没有迹象表明法学硕士记住了这些项目。使用 zlib 压缩和困惑比的分析表明，法学硕士学习广泛的科学模式，而不是记住训练数据。

新的神经学基准

本文的一个重要贡献是提出了一种前瞻性基准测试，可专门用于评估法学硕士预测神经科学结果的能力。

_神经科学进展_神经科学综述

那么，具体是如何完成的呢？

数据收集

_神经科学综述_神经科学进展

首先，团队使用了2002年至2022年神经科学研究相关的摘要，并从Open（PMC OAS）中提取了全文文章，总计13亿篇。

评估法学硕士和人类专家

其次，根据上面收集的数据，团队创建了测试用例，主要是修改论文摘要。

具体来说，每个测试用例都包含两个版本的摘要：一个是原始版本，另一个是修改版本。修订后的摘要显着改变了研究结果，但保持了整体一致性。

测试人员的任务是选择包含实际研究结果的版本。

该团队使用 Al 模型框架让法学硕士在两个版本的摘要之间进行选择，通过困惑度来衡量其偏好 ( )。混乱度越低，模型越喜欢摘要。

人类专家的行为也会在相同的测试用例上进行评估，并且他们还需要提供信心和专业知识分数。最终，171名神经科学专家参与了该实验。

实验中使用的LLM是预训练的-7B-v0.1模型。通过LoRA技术微调后，精度可再提升3%。

神经科学进展_神经科学综述_

神经科学综述_神经科学进展_

评估LLM是否是纯记忆

为了衡量LLM是否掌握了思维逻辑，团队还使用zlib压缩率和困惑比来评估LLM是否记住了训练数据。公式如下：

其中，ZLIB(X)表示文本X的zlib压缩率，PPL(X)表示文本X的困惑度。

有研究者认为只能作为辅助

这篇论文向我们展示了神经科学研究的新方向。或许未来，神经学专家在早期探索时，可以借助LLM的力量，对科研思路进行初步筛选，排除一些在方法、背景资料等方面存在明显问题的问题规划等。

但与此同时，许多研究人员对LLM的使用提出了质疑。

有人认为实验是科学研究最重要的部分，任何预测都是不必要的：

_神经科学综述_神经科学进展

神经科学进展_神经科学综述_

一些研究人员认为，科学研究的重点可能在于精确的解释。

神经科学综述__神经科学进展

此外，还有网友指出，实验中的检验方法只考虑了简单的AB假设检验，实际研究中涉及平均值/方差的情况较多。

神经科学综述_神经科学进展_

总体而言，这项研究对于神经学研究的发展很有启发，未来可能会扩展到更多的学术研究领域。

研究人员怎么看？

参考链接：

[1]#-

[2]

标签： LLM模型神经学研究准确率基准测试神经科学结果

打赏

更多>同类资讯

0 条相关评论

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

LLM模型在神经学研究中超越人类专家，准确率高达81.4%

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司