英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC
作者:高维数码时间:2025-03-11 12:11:44
本站 1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文AI训练数据库,总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。
目前,业界各类AI模型的具体性能主要取决于相应模型的训练数据。然而现有公开数据库在规模和质量上往往存在局限性,英伟达称Nemotron-CC 的出现正是为了解决这一瓶颈,该训练数据库 6.3 万亿 Token 的规模内含大量经过验证的高质量数据,号称是“训练大型语言模型的理想素材”。
数据来源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理流程后,提取而成高质量子集 Nemotron-CC-HQ。
在性能方面,英伟达称与目前业界领先的公开英文训练数据库 DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 训练的模型在 MMLU(Massive Multitask Language Understanding)基准测试中的分数提高了 5.6 分。
进一步测试显示,使用 Nemotron-CC 训练的 80 亿参数模型在 MMLU 基准测试中分数提升 5 分,在 ARC-Challenge 基准测试中提升 3.1 分,并在10项不同任务的平均表现中提高 0.5 分,超越了基于 Llama 3 训练数据集开发的 Llama 3.1 8B 模型。
英伟达官方表示,Nemotron-CC 的开发过程中使用了模型分类器、合成数据重述(Rephrasing)等技术,最大限度地保证了数据的高质量和多样性。同时他们还针对特定高质量数据降低了传统的启发式过滤器处理权重,从而进一步提高了数据库高质量 Token 的数量,并避免对模型精确度造成损害。
本站注意到,英伟达已将 Nemotron-CC 训练数据库已在 Common Crawl 网站上公开(点此访问),英伟达称相关文档文件将在稍晚时候于该公司的 GitHub 页中公布。
相关文章
-
寒武纪:预计 2024 年度净利润亏损 3.96 亿~4.84 亿元,同比收窄 42.95% 到 53.33%
感谢本站网友 HH_KK、朱丶工作室、Xr白糖 的线索投递! 本站 1 月 14 日消息,寒武纪今晚公告,2024 年度预计实现营业收入 10 7 亿元到
-
我国首个百万千瓦级居民虚拟电厂开建,居民参与错峰用电可获电费奖励
感谢本站网友 西窗旧事、HH_KK 的线索投递! 本站 1 月 14 日消息,据新华社从国网江苏省电力有限公司获悉,我国首个百万千瓦级居民虚拟电厂今日在江
-
十年前微软移动电源原型机“Mach”曝光:基于诺基亚 DC-19 设计、6W 输出功率
本站 1 月 14 日消息,消息源 @猫猫落泪 在二手交易平台展示了一款十年前(2015 年)微软移动打造的移动电源,这款移动电源印有 Microsoft Mobile 标志,侧面印有“Mach”代号
-
英国政府新提案:禁止公共部门向勒索软件黑客支付赎金,否则就是犯罪
本站 1 月 14 日消息,英国政府提出一项新提案,计划禁止公共部门和关键基础设施组织向勒索软件黑客支付赎金。此举旨在打击网络犯罪分子的核心商业模式,遏制日益猖獗的网络攻击。英国内政部于本周二启动了一
-
折后再减 30~50 元:京东京造超级年货节 0 点开启,充电宝支持国补 8 折购
京东京造将于 1 月 15 日 0 点~16 日 23:59 开启超级年货节狂促活动,这两天全场大多数商品可叠加 199-30 元 299-50 元叠加神券:点此前往主会场。199-30 神券:点
-
联想推出“EA400”G 型耳夹设计骨传导耳机:13mm 动圈、IPX5 防水防汗,199 元
本站 1 月 14 日消息,联想现已在京东上架一款型号为 EA400 的“G 型耳夹设计骨传导耳机”,这款耳机主打“IPX5防水防汗、空间音频”,定价为199元。这款耳机采用 G 型耳夹设计,号称拥有