

目前业界各种AI模型的具体表现主要取决于对应模型的训练数据。然而,现有的公共数据库往往在规模和质量方面存在局限性。 表示,-CC的出现正是为了解决这个瓶颈。 6.3万亿Token规模的训练数据库包含大量经过验证的高质量数据,被誉为“训练大型语言模型的理想材料”。

在数据来源方面,-CC是基于Crawl网站数据构建的,经过严格的数据处理过程,提取出高质量的子集-CC-HQ。

性能方面,表示,与目前业界领先的公共英语训练数据库DCLM(Deep Crawl Model)相比,使用-CC-HQ训练的模型在MMLU()基准测试中得分提高了5.6分。
进一步测试表明,使用-CC训练的80亿参数模型在MMLU基准测试中提高了5分,在ARC-基准测试中提高了3.1分,并将10个不同任务的平均性能提高了0.5分,超越了性能基于 Llama 3.1 8B 模型,使用 Llama 3 训练数据集开发。


官方表示,在-CC的开发过程中,采用了模型分类器、合成数据重述( Data )等技术,最大程度保证了数据的高质量和多样性。同时,他们还减少了针对特定高质量数据的传统启发式过滤处理的权重,从而进一步增加数据库中高质量标记的数量,并避免损害模型精度。

IT之家注意到, 已在 Crawl 网站上公开了 -CC 训练数据库(点击此处访问)。 表示,相关文件稍后将在公司页面上发布。


