从“经验驱动”到“标准驱动”　推动人工智能高质量数据集建设

2025-05-14来源：人民邮电报

Share - WeChat

　　随着大模型技术的迅猛发展，数据集作为人工智能核心三要素之一，在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。高质量数据集的建设是提升AI模型性能的关键，也是推动“人工智能+”行动落地的保障，标志着人工智能发展正在进入“数据驱动”新阶段。

　　高质量数据集成为人工智能应用升级的核心要素

　　“人工智能+数据要素”协同推动高质量数据集建设。2025年2月，高质量数据集建设工作启动会在京召开，27个国家部委的代表参加，会议落实“人工智能+”行动，推动高质量数据集建设，高效赋能行业发展。北京、辽宁、河北、贵州等地积极推动人工智能高质量数据集建设，开放重点行业领域数据集，打造“AI数据工厂”，为高质量数据集的建设和应用提供了有力的政策保障。

　　大模型技术突破性进展重构了数据工程范式。DeepSeek通过自动化推理和数据生成技术，实现数据标注方式的智能化升级；采用数据蒸馏技术提炼低质数据有效信息，结合自动化筛选与人类专家反馈机制，形成“机器预处理+人工校准”的双层质检流程；运用强化学习框架，聚焦推理能力培养，构建了包含60万条推理型样本与20万条非推理型样本的训练集，优化模型架构。

　　数据已成为人工智能行业应用落地的核心“护城河”。在算法趋同、算力普惠的背景下，高质量、高价值密度的数据资源构建起企业差异化竞争力。垂直领域的数据壁垒通过业务场景闭环持续积累，形成模型性能的代际优势。“数据—算法—应用”相互强化的生态闭环的形成，将形成难以复制的战略壁垒。

　　高质量数据集建设“三大难点”

　　当前，高质量数据集建设正处于探索阶段，主要面临目标定位模糊化、实施路径碎片化与技术底座薄弱化三重挑战。

　　一是目标定位模糊化。数据集建设常陷入“为数据而数据”的误区，智能场景需求与数据集建设目标脱节，企业未将数据工程目标与核心业务指标深度绑定，导致数据价值难以转化为模型性能提升。

　　二是实施路径碎片化。从数据采集到模型训练的全链路缺乏系统性规划和设计，无法形成体系化数据集构建和维护机制，造成多源异构数据标准难统一、跨部门跨层级难协作，致使清洗、标注等数据处理成本激增。

　　三是技术底座薄弱化。现有数据处理技术难以应对复杂人工智能场景需求，多模态数据处理能力不足，制约模型迭代与应用规模化。同时，缺乏适配行业特性的工具链，自动化程度低，人力依赖严重，工程落地效率低，行业特性适配工具链缺失。

　　构建人工智能数据工程能力“五大核心要素”

　　一是组织管理。全方位解决人工智能数据工程项目管理效率、团队协同能力以及技术应用标准化等问题。

　　二是开发维护。人工智能数据集构建包括数据设计、数据采集汇聚、数据预处理、数据标注、数据质检等共性关键技术和环节。首先，要构建人工智能数据工程技术工具，形成标准化底层能力。数据设计规划阶段，依据需求形成数据集设计方案和知识索引体系，梳理内外部数据资源，形成模型数据资源地图；数据采集汇聚阶段，构建多源异构数据连接器，通过元数据管理实现数据血缘追踪；预处理与标注阶段，研发自动化工具链，例如基于规则引擎的异常值清洗模块、弱监督标注工具；质量评估阶段，形成“模型—数据”质量反馈评估能力，联动修复工具实现闭环优化。其次，要定制人工智能数据工程技术方案，面向应用的深度适配。预训练阶段，通过定向采集领域知识，结合数据增强技术扩充样本多样性，消除训练数据性别、地域等潜在偏见。指令微调阶段，开发任务导向的数据构造工具，例如将用户问答数据转化为结构化思维链数据集。反馈对齐阶段，需搭建人类反馈闭环系统，设计多维度评价指标，利用偏好学习模型对齐人工评价与模型输出。此外，还需针对行业特性定制方案，确保数据工程与业务目标深度耦合。

　　三是质量控制。数据质量直接决定大模型决策性能，需从评估准则、技术工具与流程管控三方面系统性突破。评估准则层面，需建立多维度的量化标准。技术工具层面，需融合自动化与智能化手段。流程管控层面，需贯穿数据全生命周期。

　　四是资源运营。构建“资源管理、开放共享、流通交易”三位一体机制，破解数据资源“存不好、管不住、用不活”的难题。资源管理层面，需建立覆盖数据全生命周期的管理框架。开放共享层面，需考虑数据集和模型应用场景双重要素。流通交易层面，符合现有交易流通要求，鼓励模型数据生态合作。

　　五是合规可信。数据合规可信是大模型可信的基石，需从数据合规与数据可信双向发力，确保数据应用合法合规、版权清晰、质量可靠、效果可溯。首先，数据合规以安全性、法律遵循和版权规范为核心，覆盖多重维度。数据需严格符合《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》《生成式人工智能服务管理暂行办法》等相关法律法规。明确数据采集、生成、加工过程中的版权归属，避免权属纠纷，规范数据使用与分发的版权授权，确保数据来源合法，使用范围符合授权约定。其次，数据可信围绕来源、治理、结果、效果构建质量闭环。来源可信强调真实性、准确性、合法性，验证数据采集过程的客观性。治理过程可信要求方案与流程透明可解释，治理规则清晰留痕，操作过程可追溯。结果可信要求数据分布合理，降低偏见样本率、毒化样本率，提升边缘案例覆盖度与标注准确性，避免因数据偏倚导致模型决策偏差。效果可通过模型训练效果验证价值，对比治理前后模型的准确率、泛化能力等表现，以效果反推数据治理的有效性。

　　人工智能迈向“数据驱动”的关键阶段，人工智能数据工程能力建设也将从“经验驱动”向“标准驱动”深刻变革。高质量数据集不仅是模型性能提升的核心载体，更是激活数据要素价值、构建智能生态的战略基石。

　　（作者：李荪　樊威　曹峰，单位：中国信息通信研究院人工智能研究所）

2022年7月12日，世界互联网大会国际组织正式成立，从互联网领域的国际盛会发展为国际组织，总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台，推动国际社会顺应信息时代数字化、网络化、智能化趋势，共迎安全挑战，共谋发展福祉，携手构建网络空间命运共同体。

从“经验驱动”到“标准驱动” 推动人工智能高质量数据集建设

从“经验驱动”到“标准驱动”　推动人工智能高质量数据集建设