医疗高质量数据集怎么建？不是“攒病历”，而是让数据真正可信、可用、可流通

2026年6月，国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》，明确提出要围绕行业高质量数据集供给、流通、应用等关键环节，部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六个专项行动，并将“医疗卫生”列入重点建设领域。方案还提出，到2028年底，要建成一批覆盖重点领域、经过应用验证的行业高质量数据集。

这意味着，医疗行业的数据建设正在进入一个新阶段。

过去谈医疗数据，很多人第一反应是“医院有很多病历”“影像数据很多”“检验结果很多”。但真正到了科研、人工智能训练、真实世界研究、慢病管理、公共卫生治理等场景，问题马上出现：数据分散在不同医院、不同科室、不同系统里；同一个患者的数据难以连续关联；病历、检查、检验、用药、手术、出院、随访之间缺少统一时间轴；很多数据虽然“有”，但不完整、不标准、不易用。

所以，医疗行业建设高质量数据集，重点不是简单把数据集中起来，而是把原始医疗数据变成“合法合规、结构清晰、质量可评、来源可信、可以被模型和业务真正使用”的数据资产。

一句话概括：医疗高质量数据集，不是数据仓库，而是面向医疗人工智能、科研创新和健康治理的可信数据底座。

一、先解决“能不能用”：授权合规是第一步

医疗数据天然敏感，涉及个人健康信息、诊疗记录、检查结果、影像资料等内容。没有清晰授权，再多数据也不能安心使用。

因此，建设医疗高质量数据集的第一步，是建立统一、可追溯、可撤回的数据授权机制。

可以通过“个人信息泛知情同意书”建立授权基础。也就是说，在患者就诊、住院、复诊、随访等环节，通过电子签名、医院APP、小程序等方式，明确告知患者数据类型、使用目的、安全措施、第三方共享边界等内容，并形成医院与可信数据空间共同留存的“双授权”机制。附件方案中也提出，可通过统一模板、院内采集流程、双授权机制和授权状态管理，实现个人信息利用全过程可追溯、可审计、可撤回。

这一步的意义很直接：让患者知道数据怎么用，让医院知道边界在哪里，让科研和AI应用有合规基础。

医疗数据要流动，首先要让授权先“跑通”。

二、再解决“全不全”：围绕患者生命周期汇聚数据

高质量医疗数据集，不能只看某一次门诊，也不能只看一张片子。真正有价值的数据，应该围绕患者生命周期形成连续记录。

从诊前、诊中到诊后，一个患者可能会产生挂号信息、入院登记、门诊病历、住院病历、医嘱、护理记录、手术记录、麻醉记录、输血记录、用药记录、检查检验结果、出院记录、出院医嘱和随访记录等多类数据。附件方案提出，应围绕患者生命周期，将多源医疗数据脱敏后汇聚至可信空间，构建“连续、纵向、可关联”的健康档案。

这件事听起来复杂，但可以用一个简单比喻理解：过去的数据像散落的拼图，每块都在，但看不出完整图案；高质量数据集建设，就是把这些拼图按时间顺序、疾病逻辑和诊疗路径重新拼起来。

在技术处理上，需要去掉姓名、身份证号、手机号等直接身份标识，对地址、联系方式等敏感字段进行哈希或分级脱敏；同时在隐私计算环境中建立加密患者ID，让同一患者在不同医院、不同科室、不同时间产生的数据能够关联，但又不暴露真实身份。附件方案中也建议，通过加密患者ID和时间轴归集，实现数据“可关联、不可识别”。

这正是医疗数据建设的关键平衡：既要能用，又不能滥用；既要连续，又要保护隐私。

三、关键是“准不准”：用标准编码建立疾病数据资产体系

医疗数据如果没有统一标准，很容易出现“同病不同名、同名不同义”的问题。

例如，同一种疾病在不同医院、不同系统、不同医生记录中可能有不同写法。如果没有标准化处理，模型训练、病例筛选、科研统计都会受到影响。

因此，医疗高质量数据集建设必须以疾病编码为主线，尤其要充分运用ICD等医学编码体系，把诊断、检查、检验、用药、手术、随访等内容统一到标准框架下。

附件方案提出，可以基于ICD编码构建数据治理体系和数据目录，对每个ICD编码下的患者数量、病例数、数据项规模进行统计，并围绕完整性、一致性、可靠性进行质量评估。比如，一个疾病数据集是否包含病史、诊断记录、医嘱、检查、检验、用药、出院情况等关键数据项；诊断为“急性阑尾炎”的病例，其检查、检验、手术和医嘱是否符合诊疗路径；数据来源医院、科室、设备和医生资质是否可靠。

这一步决定了数据集是不是“高质量”。

数据多，不等于质量高。真正的高质量医疗数据集，应该经得起三问：病例是否完整？内容是否一致？来源是否可信？

四、医疗AI需要“懂医学”的标注，不只是“画框”

国家数据局方案专门提出“标注攻坚行动”，强调数据标注是将知识和经验注入训练数据的过程，要推动数据标注从“以人为主”向“人机协同、专家深度参与”的多层次标注模式转变。

这对医疗行业尤其重要。

普通图像标注也许可以标出“哪里有物体”，但医疗影像标注要回答的是：病灶在哪里？边界怎么分？属于哪种分型？严重程度如何？影像表现和临床诊断是否匹配？这些问题必须有医学专家参与。

因此，医疗高质量数据集建设应配套建设可信医疗影像标注平台，支持CT、MRI、DR、超声等影像数据脱敏上传、安全托管、多层级标注、版本追踪、全流程审计，并与医院PACS系统对接。附件方案也提出，可由影像科主任医师、主治医师等组成专家团队，制定统一标注规范和质控体系，对外提供专业级AI训练集标注服务。

医疗标注不是简单劳务，而是专业知识生产。

未来，谁能把医生经验、诊疗路径和影像判断沉淀进数据集，谁就能建设出真正有价值的医疗AI训练数据。

五、补上“最后一公里”：用随访队列形成数据闭环

很多医疗数据集有一个普遍短板：院内数据多，院外数据少；诊疗过程数据多，治疗后效果数据少。

但对医疗科研和AI模型来说，治疗之后发生了什么同样重要。患者有没有复发？是否再入院？药物依从性如何？生活质量有没有改善？有没有并发症？这些信息决定了数据是否能支撑真实世界研究和长期健康管理。

因此，建设医疗高质量数据集，不能止步于出院记录，而要主动构建随访队列。

附件方案提出，可围绕心血管、肿瘤、慢病等重点疾病建立长期随访队列，通过热线、小程序、短信、APP推送等方式开展标准化随访，采集生活方式、症状、药物依从性、再入院情况、并发症、生活质量指标等信息，并将随访数据推入可信空间，形成诊前—诊中—诊后的数据闭环。

这一步会显著提升医疗数据集的真实世界价值。

没有随访，数据只能说明“当时怎么治”；有了随访，数据才能回答“治完以后怎么样”。

六、用可信数据空间承接流通：让数据“可用不可见”

国家数据局方案提出，要鼓励依托国家数据基础设施，充分运用隐私保护计算、可信数据空间等能力，开展数据集安全存储、可信流通和高效应用，推动数据集从分散持有向集约化、标准化供给转变。

这为医疗行业提供了重要方向：医疗数据不一定要简单“搬走”，更应该在可信环境中实现安全使用。

所谓可信数据空间，可以理解为一个有规则、有权限、有审计、有安全技术保障的数据使用环境。数据提供方可以保留控制权，数据使用方可以在授权范围内开展科研、模型训练、统计分析或应用开发，系统则对数据调用、加工、标注、训练、输出等过程进行全链路记录。

对医疗行业来说，这种模式更适合现实情况。医院关心数据安全和责任边界，科研机构关心数据可获得性，AI企业关心数据质量和训练效率，监管部门关心合规、审计和风险控制。可信数据空间可以在这些需求之间建立平衡。

一句话说，就是让医疗数据在安全环境中“可用不可见、可控可审计、可计量可追溯”。

七、建立数据目录：让好数据找得到、看得懂、用得上

医疗数据集建设完成后，还需要解决一个问题：别人怎么知道你有什么数据？数据质量怎么样？适合什么场景？能否支撑某类科研或模型训练？

这就需要统一的数据目录。

医疗数据目录不应只是简单列出“某医院有多少条病历”，而应围绕疾病、数据类型、质量评分和应用场景进行组织。例如，目录可以包含ICD编码、诊断名称、病例数、数据量、完整性评分、一致性评分、可靠性评分等内容。附件方案中也提出，通过统一数据目录，政府、科研机构、医疗机构可以按需调用符合合规要求的可信医疗数据资源。

有了目录，医疗数据就从“沉睡资源”变成“可发现资源”。

这对行业非常关键。因为很多时候，数据不是没有，而是找不到；不是不能用，而是不知道质量如何；不是没有价值，而是没有形成标准化供给。

八、让数据形成价值闭环：从“建设成本”变成“长期资产”

国家数据局方案还提出“价值释放行动”，鼓励推动数据集商业化、资产化，发展订阅模式、商场模式、定制模式等多元服务形态，并培育为高质量数据付费的市场共识。

医疗行业也需要建立合理的数据价值回报机制。

如果医院只是提供数据，却没有合理收益；医生和专家参与标注，却没有价值体现；运营方负责安全、治理、审计和服务，却没有持续投入来源，那么高质量数据集很难长期运转。

附件方案提出，可以以“数据项”为最小计量单位建立定价体系。例如，一次检验中的某个结构化结果、住院期间的一条医嘱记录、一次影像检查的DICOM元数据，都可以作为可计量的数据项。数据项价值可综合考虑基础价值、医院贡献因子、数据质量权重和数据类型权重，并根据影像、检验、检查、病历、医嘱、费用等不同类型进行差异化评估。

这种方式的好处是清晰、精细、公平。谁贡献了高质量数据，谁就能获得相应回报；谁使用了数据，也能按需付费、按量结算。

未来，医疗数据价值体系可以逐步走向“可计量、可定价、可交易、可追溯”，让数据从成本中心变成医疗机构、科研机构和数字健康产业共同受益的新型资产。

九、医疗高质量数据集建设，可以分三步走

第一步，打基础。完成数据资源盘点、授权规则设计、脱敏规则制定、主索引建设和重点疾病选择。优先从肿瘤、心脑血管、慢病、罕见病、影像AI等价值高、需求明确的场景切入。

第二步，建样板。围绕若干重点疾病，建设从诊前、诊中到诊后的全生命周期数据集，形成ICD疾病目录、质量评分体系、专家标注规范和随访队列机制。先做出可验证、可复用、可推广的样板。

第三步，促应用。将数据集对接科研、真实世界研究、临床辅助决策、药械研发、公共卫生治理、医疗AI模型训练等场景，通过应用反馈持续优化数据质量，形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的数据飞轮。国家数据局方案也明确提出，要打造“场景—数据—模型”协同发展的良性循环。

结语：医疗数据的未来，不在“多”，而在“真、准、全、安、活”

医疗行业从不缺数据，缺的是可被安全使用、可被持续治理、可被模型理解、可被场景验证的高质量数据。

高质量医疗数据集建设，不是某一个系统项目，也不是某一次数据汇聚，而是一套长期能力：合规授权能力、可信流通能力、标准治理能力、专家标注能力、随访运营能力、质量评估能力和价值分配能力。

当患者授权有边界，医院数据有收益，专家经验可沉淀，科研机构能高效使用，AI模型能持续迭代，监管部门能全程审计，医疗数据才能真正从“沉睡资源”变成“行业生产力”。

在国家推进行业高质量数据集建设的大背景下，医疗行业应抓住这一轮机遇，把散落在诊疗流程中的数据，建设成为服务临床、科研、产业和公共治理的可信数据底座。

医疗AI的竞争，表面看是模型竞争，本质上是高质量数据集的竞争。谁先把医疗数据建成“真、准、全、安、活”的高质量数据集，谁就能在下一轮智慧医疗发展中占据主动。