推广 热搜： 边框产量方形 pc材料工序投资税收分类 2022 低周疲劳冬季

AI 公司很快将耗尽大部分互联网数据，模型崩溃或成未来挑战

日期：2024-08-04 来源：网络整理作者：二手钢材网浏览：237 评论：0

核心提示：AI预测，到2028年互联网上所有高质量的文本数据都将被使用完毕，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。AI的预测，到2028年互联网上所有高质量的文本数据都将被使用完毕，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。

研究人员指出，使用生成的数据集来训练未来几代机器学习模型可能会导致“模型崩溃”。

人工智能（AI）

大型AI模型是否缺乏训练数据这一话题，近期再次成为多家媒体关注的热点。

近日，《经济学人》杂志刊登了一篇题为《AI公司将很快夺走大部分数据》的文章，指出随着优质互联网数据的枯竭，AI领域正面临“数据墙”。对于AI大公司来说，现在的挑战是寻找新的数据来源或可持续的替代方案。

_客户使用质量数据_2028中国大数据贵阳

文章援引研究公司 Epoch AI 的预测，到 2028 年，互联网上所有高质量文本数据都将被用尽，到 2026 年，机器学习数据集可能就会耗尽“高质量语言数据”。这一现象被业内称为“数据墙”。如何应对“数据墙”是当今 AI 公司面临的一大难题，也可能是最有可能拖慢其训练进度的问题。文章指出，随着互联网上预训练数据的枯竭，后训练变得更加重要。Scale AI、Surge AI 等标签公司每年通过收集后训练数据赚取数亿美元。

客户使用质量数据_2028中国大数据贵阳_

《经济学人》杂志引用 Epoch AI 图表

事实上，业界关于“数据枯竭”的声音由来已久。澎湃新闻注意到，2023年7月初，加州大学伯克利分校计算机科学教授、《人工智能：一种现代方法》一书作者斯图尔特·拉塞尔就警告称，人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”，通过收集大量文本来训练机器人的技术“开始遇到困难”。

但业界也有不同的声音。著名计算机科学家、斯坦福大学人工智能实验室联席主任、斯坦福大学教授李飞飞在2024年5月接受彭博科技记者Emily Chang采访时明确表示，她不认同“我们的人工智能模型正在耗尽训练数据”的悲观观点。李飞飞认为，这种观点过于狭隘。单从语言模型的角度来看，还有大量的差异化数据等待挖掘，以构建更加定制化的模型。

目前，解决训练数据有限问题的方案之一是使用合成数据。合成数据由机器生成，因此是无限的。但合成数据也有风险。7月24日，国际学术期刊《自然》发表一篇计算机科学论文指出，用人工智能生成的数据集训练未来几代机器学习模型可能会污染其输出，这一概念被称为“模型崩溃”。由于模型是在受污染的数据上训练的，最终会误解现实。

研究团队在研究中表明，在大型语言模型学习任务中，底层分布的尾部非常重要。大规模使用大型语言模型在互联网上发布内容会污染用于训练其后继者的数据收集工作。未来，人类与大型语言模型交互的真实数据将变得越来越有价值。不过，研究团队也提到，AI生成的数据并非完全不可取，但必须对数据进行严格过滤。比如在每一代模型的训练数据中，保留10%或20%的原始数据，并使用多样化的数据，例如人类生成的数据，或者研究更鲁棒的训练算法。

标签： AI 预测机器学习数据集短缺 AI 大模型数据枯竭真实数据有价值

打赏

更多>同类资讯

0 条相关评论

• ShangHai 2024: 中国高性能纤维产业发展与应用	• 比亚迪王朝系列秦领衔，新能源与燃油车双线布局
• 云中未来AICrane软件系统助力钢厂废钢无人天车	• 宝山新材料产业推动新能源车发展：先进钢铁材料
• 钢材钢材南钢与华为联手启动钢铁大模型百日会	• AI技术助力钢铁生产行业：Kaltenbach与OndoSens
• 兰格钢铁网2023年天津地区50强颁奖大会成功召开	• 湖南钢铁集团等联合发布钢铁行业盘古大模型，解
• 2024科技风云榜：大模型与AI技术在中高端招聘市	• 端侧AI崛起：英伟达Project DIGITS搭载GB10超级

• 滤芯PD/PDP130+2901300106阿托拉斯滤	• 滤芯PD130+2901200405滤芯DD25+阿托拉斯滤
• 不锈钢过滤器不锈钢压缩空气过滤器	• 304L不锈钢过滤器 316L不锈钢过滤器
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器
• JDG800给料机配件无极调速器摆线减速机	• GLD800/7.5给料机锰钢甲带柔性甲带片穿条
• 真空除菌过滤器食品级过滤器	• 304不锈钢过滤器 316L不锈钢过滤器

AI 公司很快将耗尽大部分互联网数据，模型崩溃或成未来挑战

推荐资讯

推荐图文资讯

一艘一万吨的货船一般造价是多少钱？(组图)

英特尔与高通口水战：高通处理器能否挑战英

钢板重量怎么算？钢板理论重量计算公式是什

日照钢铁收购营口中板，中国制造业更是雄居

联发科 Helio G81-Ultra 处理器性能分析：4

有哪些钢材会被用来制造剑呢？这些钢材的优

资讯点击排行

热门标签

推荐视频

最新加入公司