英伟达推出Nemotron-CC大型AI训练数据库,6.3万亿Token助力大语言模型训练

   日期:2025-01-13     来源:网络整理    作者:二手钢材网    浏览:273    评论:0    
核心提示:万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。模型的具体性能主要取决于相应模型的训练数据。的规模内含大量经过验证的高质量数据,号称是“训练大型语言模型的理想素材”。

英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_

_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC

目前业界各种AI模型的具体表现主要取决于对应模型的训练数据。然而,现有的公共数据库往往在规模和质量方面存在局限性。 表示,-CC的出现正是为了解决这个瓶颈。 6.3万亿Token规模的训练数据库包含大量经过验证的高质量数据,被誉为“训练大型语言模型的理想材料”。

英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC__英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC

在数据来源方面,-CC是基于Crawl网站数据构建的,经过严格的数据处理过程,提取出高质量的子集-CC-HQ。

_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC

性能方面,表示,与目前业界领先的公共英语训练数据库DCLM(Deep Crawl Model)相比,使用-CC-HQ训练的模型在MMLU()基准测试中得分提高了5.6分。

进一步测试表明,使用-CC训练的80亿参数模型在MMLU基准测试中提高了5分,在ARC-基准测试中提高了3.1分,并将10个不同任务的平均性能提高了0.5分,超越了性能基于 Llama 3.1 8B 模型,使用 Llama 3 训练数据集开发。

英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC__英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC

英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC_

官方表示,在-CC的开发过程中,采用了模型分类器、合成数据重述( Data )等技术,最大程度保证了数据的高质量和多样性。同时,他们还减少了针对特定高质量数据的传统启发式过滤处理的权重,从而进一步增加数据库中高质量标记的数量,并避免损害模型精度。

英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC__英伟达发布6.3万亿Token大型AI训练数据库Nemotron-CC

IT之家注意到, 已在 Crawl 网站上公开了 -CC 训练数据库(点击此处访问)。 表示,相关文件稍后将在公司页面上发布。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2