AI 公司很快将耗尽大部分互联网数据,模型崩溃或成未来挑战

   日期:2024-08-04     来源:网络整理    作者:二手钢材网    浏览:237    评论:0    
核心提示:AI预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。AI的预测,到2028年互联网上所有高质量的文本数据都将被使用完毕,机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。

研究人员指出,使用生成的数据集来训练未来几代机器学习模型可能会导致“模型崩溃”。

人工智能(AI)

大型AI模型是否缺乏训练数据这一话题,近期再次成为多家媒体关注的热点。

近日,《经济学人》杂志刊登了一篇题为《AI公司将很快夺走大部分数据》的文章,指出随着优质互联网数据的枯竭,AI领域正面临“数据墙”。对于AI大公司来说,现在的挑战是寻找新的数据来源或可持续的替代方案。

_客户使用质量数据_2028中国大数据贵阳

文章援引研究公司 Epoch AI 的预测,到 2028 年,互联网上所有高质量文本数据都将被用尽,到 2026 年,机器学习数据集可能就会耗尽“高质量语言数据”。这一现象被业内称为“数据墙”。如何应对“数据墙”是当今 AI 公司面临的一大难题,也可能是最有可能拖慢其训练进度的问题。文章指出,随着互联网上预训练数据的枯竭,后训练变得更加重要。Scale AI、Surge AI 等标签公司每年通过收集后训练数据赚取数亿美元。

客户使用质量数据_2028中国大数据贵阳_

《经济学人》杂志引用 Epoch AI 图表

事实上,业界关于“数据枯竭”的声音由来已久。澎湃新闻注意到,2023年7月初,加州大学伯克利分校计算机科学教授、《人工智能:一种现代方法》一书作者斯图尔特·拉塞尔就警告称,人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”,通过收集大量文本来训练机器人的技术“开始遇到困难”。

但业界也有不同的声音。著名计算机科学家、斯坦福大学人工智能实验室联席主任、斯坦福大学教授李飞飞在2024年5月接受彭博科技记者Emily Chang采访时明确表示,她不认同“我们的人工智能模型正在耗尽训练数据”的悲观观点。李飞飞认为,这种观点过于狭隘。单从语言模型的角度来看,还有大量的差异化数据等待挖掘,以构建更加定制化的模型。

目前,解决训练数据有限问题的方案之一是使用合成数据。合成数据由机器生成,因此是无限的。但合成数据也有风险。7月24日,国际学术期刊《自然》发表一篇计算机科学论文指出,用人工智能生成的数据集训练未来几代机器学习模型可能会污染其输出,这一概念被称为“模型崩溃”。由于模型是在受污染的数据上训练的,最终会误解现实。

研究团队在研究中表明,在大型语言模型学习任务中,底层分布的尾部非常重要。大规模使用大型语言模型在互联网上发布内容会污染用于训练其后继者的数据收集工作。未来,人类与大型语言模型交互的真实数据将变得越来越有价值。不过,研究团队也提到,AI生成的数据并非完全不可取,但必须对数据进行严格过滤。比如在每一代模型的训练数据中,保留10%或20%的原始数据,并使用多样化的数据,例如人类生成的数据,或者研究更鲁棒的训练算法。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2