首页 >  新闻中心 > 行业新闻

Share - WeChat

  随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。高质量数据集的建设是提升AI模型性能的关键,也是推动“人工智能+”行动落地的保障,标志着人工智能发展正在进入“数据驱动”新阶段。

  高质量数据集成为人工智能应用升级的核心要素

  “人工智能+数据要素”协同推动高质量数据集建设。2025年2月,高质量数据集建设工作启动会在京召开,27个国家部委的代表参加,会议落实“人工智能+”行动,推动高质量数据集建设,高效赋能行业发展。北京、辽宁、河北、贵州等地积极推动人工智能高质量数据集建设,开放重点行业领域数据集,打造“AI数据工厂”,为高质量数据集的建设和应用提供了有力的政策保障。

  大模型技术突破性进展重构了数据工程范式。DeepSeek通过自动化推理和数据生成技术,实现数据标注方式的智能化升级;采用数据蒸馏技术提炼低质数据有效信息,结合自动化筛选与人类专家反馈机制,形成“机器预处理+人工校准”的双层质检流程;运用强化学习框架,聚焦推理能力培养,构建了包含60万条推理型样本与20万条非推理型样本的训练集,优化模型架构。

  数据已成为人工智能行业应用落地的核心“护城河”。在算法趋同、算力普惠的背景下,高质量、高价值密度的数据资源构建起企业差异化竞争力。垂直领域的数据壁垒通过业务场景闭环持续积累,形成模型性能的代际优势。“数据—算法—应用”相互强化的生态闭环的形成,将形成难以复制的战略壁垒。

  高质量数据集建设“三大难点”

  当前,高质量数据集建设正处于探索阶段,主要面临目标定位模糊化、实施路径碎片化与技术底座薄弱化三重挑战。

  一是目标定位模糊化。数据集建设常陷入“为数据而数据”的误区,智能场景需求与数据集建设目标脱节,企业未将数据工程目标与核心业务指标深度绑定,导致数据价值难以转化为模型性能提升。

  二是实施路径碎片化。从数据采集到模型训练的全链路缺乏系统性规划和设计,无法形成体系化数据集构建和维护机制,造成多源异构数据标准难统一、跨部门跨层级难协作,致使清洗、标注等数据处理成本激增。

  三是技术底座薄弱化。现有数据处理技术难以应对复杂人工智能场景需求,多模态数据处理能力不足,制约模型迭代与应用规模化。同时,缺乏适配行业特性的工具链,自动化程度低,人力依赖严重,工程落地效率低,行业特性适配工具链缺失。

  构建人工智能数据工程能力“五大核心要素”

  一是组织管理。全方位解决人工智能数据工程项目管理效率、团队协同能力以及技术应用标准化等问题。

  二是开发维护。人工智能数据集构建包括数据设计、数据采集汇聚、数据预处理、数据标注、数据质检等共性关键技术和环节。首先,要构建人工智能数据工程技术工具,形成标准化底层能力。数据设计规划阶段,依据需求形成数据集设计方案和知识索引体系,梳理内外部数据资源,形成模型数据资源地图;数据采集汇聚阶段,构建多源异构数据连接器,通过元数据管理实现数据血缘追踪;预处理与标注阶段,研发自动化工具链,例如基于规则引擎的异常值清洗模块、弱监督标注工具;质量评估阶段,形成“模型—数据”质量反馈评估能力,联动修复工具实现闭环优化。其次,要定制人工智能数据工程技术方案,面向应用的深度适配。预训练阶段,通过定向采集领域知识,结合数据增强技术扩充样本多样性,消除训练数据性别、地域等潜在偏见。指令微调阶段,开发任务导向的数据构造工具,例如将用户问答数据转化为结构化思维链数据集。反馈对齐阶段,需搭建人类反馈闭环系统,设计多维度评价指标,利用偏好学习模型对齐人工评价与模型输出。此外,还需针对行业特性定制方案,确保数据工程与业务目标深度耦合。

  三是质量控制。数据质量直接决定大模型决策性能,需从评估准则、技术工具与流程管控三方面系统性突破。评估准则层面,需建立多维度的量化标准。技术工具层面,需融合自动化与智能化手段。流程管控层面,需贯穿数据全生命周期。

  四是资源运营。构建“资源管理、开放共享、流通交易”三位一体机制,破解数据资源“存不好、管不住、用不活”的难题。资源管理层面,需建立覆盖数据全生命周期的管理框架。开放共享层面,需考虑数据集和模型应用场景双重要素。流通交易层面,符合现有交易流通要求,鼓励模型数据生态合作。

  五是合规可信。数据合规可信是大模型可信的基石,需从数据合规与数据可信双向发力,确保数据应用合法合规、版权清晰、质量可靠、效果可溯。首先,数据合规以安全性、法律遵循和版权规范为核心,覆盖多重维度。数据需严格符合《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》《生成式人工智能服务管理暂行办法》等相关法律法规。明确数据采集、生成、加工过程中的版权归属,避免权属纠纷,规范数据使用与分发的版权授权,确保数据来源合法,使用范围符合授权约定。其次,数据可信围绕来源、治理、结果、效果构建质量闭环。来源可信强调真实性、准确性、合法性,验证数据采集过程的客观性。治理过程可信要求方案与流程透明可解释,治理规则清晰留痕,操作过程可追溯。结果可信要求数据分布合理,降低偏见样本率、毒化样本率,提升边缘案例覆盖度与标注准确性,避免因数据偏倚导致模型决策偏差。效果可通过模型训练效果验证价值,对比治理前后模型的准确率、泛化能力等表现,以效果反推数据治理的有效性。

  人工智能迈向“数据驱动”的关键阶段,人工智能数据工程能力建设也将从“经验驱动”向“标准驱动”深刻变革。高质量数据集不仅是模型性能提升的核心载体,更是激活数据要素价值、构建智能生态的战略基石。

  (作者:李荪 樊威 曹峰,单位:中国信息通信研究院人工智能研究所)

2022年7月12日,世界互联网大会国际组织正式成立,从互联网领域的国际盛会发展为国际组织,总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台,推动国际社会顺应信息时代数字化、网络化、智能化趋势,共迎安全挑战,共谋发展福祉,携手构建网络空间命运共同体。