英伟达推出Nemotron-CC大型AI训练数据库，6.3万亿Token助力大语言模型训练

日期：2025-01-13 来源：网络整理作者：二手钢材网浏览：273 评论：0

核心提示：万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。模型的具体性能主要取决于相应模型的训练数据。的规模内含大量经过验证的高质量数据，号称是“训练大型语言模型的理想素材”。

英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_

_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC

目前业界各种AI模型的具体表现主要取决于对应模型的训练数据。然而，现有的公共数据库往往在规模和质量方面存在局限性。表示，-CC的出现正是为了解决这个瓶颈。 6.3万亿Token规模的训练数据库包含大量经过验证的高质量数据，被誉为“训练大型语言模型的理想材料”。

英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC__英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC

在数据来源方面，-CC是基于Crawl网站数据构建的，经过严格的数据处理过程，提取出高质量的子集-CC-HQ。

_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC

性能方面，表示，与目前业界领先的公共英语训练数据库DCLM（Deep Crawl Model）相比，使用-CC-HQ训练的模型在MMLU（）基准测试中得分提高了5.6分。

进一步测试表明，使用-CC训练的80亿参数模型在MMLU基准测试中提高了5分，在ARC-基准测试中提高了3.1分，并将10个不同任务的平均性能提高了0.5分，超越了性能基于 Llama 3.1 8B 模型，使用 Llama 3 训练数据集开发。

英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC__英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC

英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_

官方表示，在-CC的开发过程中，采用了模型分类器、合成数据重述（ Data ）等技术，最大程度保证了数据的高质量和多样性。同时，他们还减少了针对特定高质量数据的传统启发式过滤处理的权重，从而进一步增加数据库中高质量标记的数量，并避免损害模型精度。

英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC__英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC

IT之家注意到，已在 Crawl 网站上公开了 -CC 训练数据库（点击此处访问）。表示，相关文件稍后将在公司页面上发布。

标签： 英伟达大语言模型训练高质量数据 Nemotron-CC-HQ 模型技术

打赏

更多>同类资讯

0 条相关评论

• 英伟达股价下跌1.96%，CEO黄仁勋谈Blackwell平	• 端侧AI崛起：英伟达Project DIGITS搭载GB10超级
• 拜登政府发布史上最强AI芯片出口限制新规，对中	• 拜登离任前调整芯片出口管制，英伟达甲骨文等巨
• 2025年CES展：人工智能成焦点，汽车展区表现低	• 黄仁勋英伟达欲将AI融入PC，Windows系统面临挑
• 台积电美国亚利桑那州工厂启动4纳米芯片生产，2	• 英伟达员工财富奇迹：78%员工成百万富翁，高强
• 英伟达78%员工成百万富翁：高强度工作文化背后	• 英伟达批评拜登政府AI芯片出口限制计划，警告将