Article 10 核心条文

EU AI Act · Regulation (EU) 2024/1689 · Article 10 · Data and Data Governance

10(2) 训练、验证和测试数据集应满足以下数据治理实践:(a) 相关设计选择;(b) 数据收集;(c) 相关数据准备操作,如标注、清洗、充实和聚合;(d) 关于数据来源及范围的假设;(e) 评估可用性、数量和适用性;(f) 检查偏见的验证;(g) 识别任何可能的数据缺口或不足。

10(3) 训练、验证和测试数据集应与附件III所指的预期用途相关、代表性足够、尽可能无错误和完整。这些数据集应具有适当的统计特性,包括对于AI系统预期运行的人群。

10(5) 在高风险AI系统的开发中,可以处理特殊类别的个人数据,但必须遵守GDPR等数据保护规则,并仅在严格必要时处理此类数据,以检测和纠正偏见。

€1500万
不符合数据治理要求的最高罚款,或全球年营业额的3%(取较高者)

六大核心合规要求

Art.10(2)(f) 偏见检测与审查 高难度
必须在训练数据集上主动检测和记录偏见。对于中资AI企业,训练数据往往以中国数据为主,在人口多样性、文化代表性、语言分布上可能与欧盟市场存在系统性差异,导致模型在欧盟场景下表现存在偏见。
PET解决方案
联邦差异分析:在欧盟本地数据集上运行偏见检测算法,将统计摘要(非原始数据)传回中心,与中国训练数据进行比对分析。识别偏见差距,生成Art.10(2)(f)要求的偏见检测文档。
Art.10(2)(b) 数据收集过程文档 高难度
必须记录训练数据的完整收集过程,包括数据来源、收集方式、同意机制等。大量中国互联网爬虫数据、历史积累数据,往往没有符合GDPR标准的知情同意记录,直接违反Art.10(2)(b)。
合规策略
对现有训练数据进行数据溯源审计,区分"可用于欧盟高风险AI场景"和"需要重新采集"的数据。对欧盟用户数据采用TEE + 密态存储,确保采集过程合规可审计。
Art.10(3) 数据集代表性和完整性 中等难度
训练数据集必须对AI系统预期运行的人群具有足够代表性。以欧盟为目标市场的AI系统,必须包含足够的欧盟多语种、多文化、多人口群体数据。单纯依赖中国数据训练的模型无法满足此要求。
PET解决方案
联邦学习扩充:在欧盟市场用联邦学习持续收集欧盟用户数据训练本地化模型,提升欧盟人群代表性,同时满足数据本地化要求。通过统计测试文档证明数据集代表性。
Art.10(2)(c) 数据准备和标注记录 中等难度
数据标注、清洗、充实等所有准备操作都需要有文档记录。许多中国AI企业的数据标注依赖众包平台,标注质量参差不齐,且标注过程文档化不足。
合规策略
建立标注质量管理体系(参考ISO/IEC 5259系列),在欧盟数据上使用经过GDPR合规审查的标注服务商,建立标注版本控制和审计追踪机制。
Art.10(5) 特殊类别数据的偏见检测处理 高难度
仅为检测和纠正偏见目的,才可处理特殊类别数据(种族、健康、生物特征等)。此例外条款有严格限制,且必须实施"适当的保障措施",这实际上要求使用PET技术。
PET解决方案
TEE + 差分隐私:在Intel SGX安全飞地内处理特殊类别数据进行偏见分析,输出仅包含添加差分隐私噪声的统计摘要。满足"适当保障措施"的技术要求,同时获取偏见检测所需的统计信息。

传统合规路径 vs PET合规路径

合规要求 传统路径(挑战) PET路径(解决方案)
偏见检测
Art.10(2)(f)
需要将欧盟数据传回中国服务器分析,违反GDPR;或在欧盟另建数据分析基础设施,成本高 联邦偏见分析:检测算法下发到欧盟本地,只传回统计摘要;TEE内处理敏感属性数据
数据集代表性
Art.10(3)
欧盟数据量不足,需要大规模采集欧盟数据并集中存储,面临GDPR合规挑战 联邦学习持续在欧盟本地积累用户数据训练,数据不集中,满足数据本地化要求
数据收集文档
Art.10(2)(b)
历史数据缺乏GDPR合规的同意记录,无法直接使用;重新采集成本极高 新数据采集通过差分隐私+TEE保证合规记录;历史数据做合规审计分类处理
特殊类别数据
Art.10(5)
人脸识别、医疗AI涉及生物特征/健康数据,传统处理方式直接违反GDPR;豁免条件严苛 TEE内安全处理生物特征数据:硬件保护+远程证明,满足"适当保障措施"技术要求
持续监控
Art.9风险管理
欧盟运营数据的实时监控需要数据回传,面临合规障碍 联邦监控:异常检测算法在本地运行,只传回告警信号;TEE保护监控日志完整性

评估您的Art.10合规差距

申请体检报告,获取针对您具体训练数据情况的Art.10合规差距分析和PET解决方案建议

申请免费体检报告 查看PET技术方案