据介绍,传统的病毒发现方法包括病毒分离和生命组学的生物信息学分析,这些方法高度依赖现有知识。面对高度分化、多样且易突变的RNA病毒,识别效率较低。研究团队开发的人工智能算法可以深度学习病毒和非病毒基因组序列,并独立确定数据集中的病毒序列。


据IT之家介绍,这是一个能够深度学习的模型。在学习了大量的病毒和非病毒基因组序列后,它可以独立形成一套关于病毒的判断标准,从而在大量的RNA测序数据集中挖掘病毒序列。在测试中表现出极高的准确性和特异性,假阳性率为0.014%,假阴性率为1.72%。与其他病毒挖掘工具相比,它在处理较长序列方面也显示出优势。

研究团队利用全球生物环境样本的10,487个RNA测序数据进行病毒挖掘,发现了超过51万个病毒基因组,代表了超过16万个潜在病毒种和180个RNA病毒超群(相当于门或纲)。分类级别),将RNA病毒超群的数量扩大了约9倍。其中23个超群无法通过序列同源性方法识别,被称为病毒圈的“暗物质”。
在这项研究中,研究小组报告了迄今为止最长的RNA病毒基因组,长度为47,250个核苷酸;发现了超出以往知识的基因组结构,展示了RNA病毒基因组进化的灵活性;并鉴定出了多种病毒功能蛋白,尤其是与细菌相关的功能蛋白,进一步表明还有更多类型的RNA噬菌体需要探索。
研究指出,新发现的病毒分布在地球上的各种生态环境中。总体而言,落叶层、湿地、淡水和废水环境中的病毒多样性最高。但在南极沉积物、深海温泉、活性污泥、盐碱滩等极端环境中,RNA病毒的多样性和丰度并不低。即使在深海温泉的高温环境下,仍然存在RNA病毒。主动复制。
虽然它是专门为发现RNA病毒而设计的模型,但它也集成了识别蛋白质序列和隐含结构信息的功能,也可用于识别蛋白质功能。在论文中,研究团队开源了该模型,并通过在线网站与世界各地的科学家分享。


