2026年6月,国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》,明确提出要围绕行业高质量数据集供给、流通、应用等关键环节,部署强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六个专项行动,并将“医疗卫生”列入重点建设领域。方案还提出,到2028年底,要建成一批覆盖重点领域、经过应用验证的行业高质量数据集。

这意味着,医疗行业的数据建设正在进入一个新阶段。
过去谈医疗数据,很多人第一反应是“医院有很多病历”“影像数据很多”“检验结果很多”。但真正到了科研、人工智能训练、真实世界研究、慢病管理、公共卫生治理等场景,问题马上出现:数据分散在不同医院、不同科室、不同系统里;同一个患者的数据难以连续关联;病历、检查、检验、用药、手术、出院、随访之间缺少统一时间轴;很多数据虽然“有”,但不完整、不标准、不易用。
所以,医疗行业建设高质量数据集,重点不是简单把数据集中起来,而是把原始医疗数据变成“合法合规、结构清晰、质量可评、来源可信、可以被模型和业务真正使用”的数据资产。
一句话概括:医疗高质量数据集,不是数据仓库,而是面向医疗人工智能、科研创新和健康治理的可信数据底座。
一、先解决“能不能用”:授权合规是第一步
医疗数据天然敏感,涉及个人健康信息、诊疗记录、检查结果、影像资料等内容。没有清晰授权,再多数据也不能安心使用。
因此,建设医疗高质量数据集的第一步,是建立统一、可追溯、可撤回的数据授权机制。
可以通过“个人信息泛知情同意书”建立授权基础。也就是说,在患者就诊、住院、复诊、随访等环节,通过电子签名、医院APP、小程序等方式,明确告知患者数据类型、使用目的、安全措施、第三方共享边界等内容,并形成医院与可信数据空间共同留存的“双授权”机制。附件方案中也提出,可通过统一模板、院内采集流程、双授权机制和授权状态管理,实现个人信息利用全过程可追溯、可审计、可撤回。
这一步的意义很直接:让患者知道数据怎么用,让医院知道边界在哪里,让科研和AI应用有合规基础。
医疗数据要流动,首先要让授权先“跑通”。
二、再解决“全不全”:围绕患者生命周期汇聚数据
高质量医疗数据集,不能只看某一次门诊,也不能只看一张片子。真正有价值的数据,应该围绕患者生命周期形成连续记录。
从诊前、诊中到诊后,一个患者可能会产生挂号信息、入院登记、门诊病历、住院病历、医嘱、护理记录、手术记录、麻醉记录、输血记录、用药记录、检查检验结果、出院记录、出院医嘱和随访记录等多类数据。附件方案提出,应围绕患者生命周期,将多源医疗数据脱敏后汇聚至可信空间,构建“连续、纵向、可关联”的健康档案。
这件事听起来复杂,但可以用一个简单比喻理解:过去的数据像散落的拼图,每块都在,但看不出完整图案;高质量数据集建设,就是把这些拼图按时间顺序、疾病逻辑和诊疗路径重新拼起来。
在技术处理上,需要去掉姓名、身份证号、手机号等直接身份标识,对地址、联系方式等敏感字段进行哈希或分级脱敏;同时在隐私计算环境中建立加密患者ID,让同一患者在不同医院、不同科室、不同时间产生的数据能够关联,但又不暴露真实身份。附件方案中也建议,通过加密患者ID和时间轴归集,实现数据“可关联、不可识别”。
这正是医疗数据建设的关键平衡:既要能用,又不能滥用;既要连续,又要保护隐私。
三、关键是“准不准”:用标准编码建立疾病数据资产体系
医疗数据如果没有统一标准,很容易出现“同病不同名、同名不同义”的问题。
例如,同一种疾病在不同医院、不同系统、不同医生记录中可能有不同写法。如果没有标准化处理,模型训练、病例筛选、科研统计都会受到影响。
因此,医疗高质量数据集建设必须以疾病编码为主线,尤其要充分运用ICD等医学编码体系,把诊断、检查、检验、用药、手术、随访等内容统一到标准框架下。
附件方案提出,可以基于ICD编码构建数据治理体系和数据目录,对每个ICD编码下的患者数量、病例数、数据项规模进行统计,并围绕完整性、一致性、可靠性进行质量评估。比如,一个疾病数据集是否包含病史、诊断记录、医嘱、检查、检验、用药、出院情况等关键数据项;诊断为“急性阑尾炎”的病例,其检查、检验、手术和医嘱是否符合诊疗路径;数据来源医院、科室、设备和医生资质是否可靠。
这一步决定了数据集是不是“高质量”。
数据多,不等于质量高。真正的高质量医疗数据集,应该经得起三问:病例是否完整?内容是否一致?来源是否可信?
四、医疗AI需要“懂医学”的标注,不只是“画框”
国家数据局方案专门提出“标注攻坚行动”,强调数据标注是将知识和经验注入训练数据的过程,要推动数据标注从“以人为主”向“人机协同、专家深度参与”的多层次标注模式转变。
这对医疗行业尤其重要。
普通图像标注也许可以标出“哪里有物体”,但医疗影像标注要回答的是:病灶在哪里?边界怎么分?属于哪种分型?严重程度如何?影像表现和临床诊断是否匹配?这些问题必须有医学专家参与。
因此,医疗高质量数据集建设应配套建设可信医疗影像标注平台,支持CT、MRI、DR、超声等影像数据脱敏上传、安全托管、多层级标注、版本追踪、全流程审计,并与医院PACS系统对接。附件方案也提出,可由影像科主任医师、主治医师等组成专家团队,制定统一标注规范和质控体系,对外提供专业级AI训练集标注服务。
医疗标注不是简单劳务,而是专业知识生产。
未来,谁能把医生经验、诊疗路径和影像判断沉淀进数据集,谁就能建设出真正有价值的医疗AI训练数据。
五、补上“最后一公里”:用随访队列形成数据闭环
很多医疗数据集有一个普遍短板:院内数据多,院外数据少;诊疗过程数据多,治疗后效果数据少。
但对医疗科研和AI模型来说,治疗之后发生了什么同样重要。患者有没有复发?是否再入院?药物依从性如何?生活质量有没有改善?有没有并发症?这些信息决定了数据是否能支撑真实世界研究和长期健康管理。
因此,建设医疗高质量数据集,不能止步于出院记录,而要主动构建随访队列。
附件方案提出,可围绕心血管、肿瘤、慢病等重点疾病建立长期随访队列,通过热线、小程序、短信、APP推送等方式开展标准化随访,采集生活方式、症状、药物依从性、再入院情况、并发症、生活质量指标等信息,并将随访数据推入可信空间,形成诊前—诊中—诊后的数据闭环。
这一步会显著提升医疗数据集的真实世界价值。
没有随访,数据只能说明“当时怎么治”;有了随访,数据才能回答“治完以后怎么样”。
六、用可信数据空间承接流通:让数据“可用不可见”
国家数据局方案提出,要鼓励依托国家数据基础设施,充分运用隐私保护计算、可信数据空间等能力,开展数据集安全存储、可信流通和高效应用,推动数据集从分散持有向集约化、标准化供给转变。
这为医疗行业提供了重要方向:医疗数据不一定要简单“搬走”,更应该在可信环境中实现安全使用。
所谓可信数据空间,可以理解为一个有规则、有权限、有审计、有安全技术保障的数据使用环境。数据提供方可以保留控制权,数据使用方可以在授权范围内开展科研、模型训练、统计分析或应用开发,系统则对数据调用、加工、标注、训练、输出等过程进行全链路记录。
对医疗行业来说,这种模式更适合现实情况。医院关心数据安全和责任边界,科研机构关心数据可获得性,AI企业关心数据质量和训练效率,监管部门关心合规、审计和风险控制。可信数据空间可以在这些需求之间建立平衡。
一句话说,就是让医疗数据在安全环境中“可用不可见、可控可审计、可计量可追溯”。
七、建立数据目录:让好数据找得到、看得懂、用得上
医疗数据集建设完成后,还需要解决一个问题:别人怎么知道你有什么数据?数据质量怎么样?适合什么场景?能否支撑某类科研或模型训练?
这就需要统一的数据目录。
医疗数据目录不应只是简单列出“某医院有多少条病历”,而应围绕疾病、数据类型、质量评分和应用场景进行组织。例如,目录可以包含ICD编码、诊断名称、病例数、数据量、完整性评分、一致性评分、可靠性评分等内容。附件方案中也提出,通过统一数据目录,政府、科研机构、医疗机构可以按需调用符合合规要求的可信医疗数据资源。
有了目录,医疗数据就从“沉睡资源”变成“可发现资源”。
这对行业非常关键。因为很多时候,数据不是没有,而是找不到;不是不能用,而是不知道质量如何;不是没有价值,而是没有形成标准化供给。
八、让数据形成价值闭环:从“建设成本”变成“长期资产”
国家数据局方案还提出“价值释放行动”,鼓励推动数据集商业化、资产化,发展订阅模式、商场模式、定制模式等多元服务形态,并培育为高质量数据付费的市场共识。
医疗行业也需要建立合理的数据价值回报机制。
如果医院只是提供数据,却没有合理收益;医生和专家参与标注,却没有价值体现;运营方负责安全、治理、审计和服务,却没有持续投入来源,那么高质量数据集很难长期运转。
附件方案提出,可以以“数据项”为最小计量单位建立定价体系。例如,一次检验中的某个结构化结果、住院期间的一条医嘱记录、一次影像检查的DICOM元数据,都可以作为可计量的数据项。数据项价值可综合考虑基础价值、医院贡献因子、数据质量权重和数据类型权重,并根据影像、检验、检查、病历、医嘱、费用等不同类型进行差异化评估。
这种方式的好处是清晰、精细、公平。谁贡献了高质量数据,谁就能获得相应回报;谁使用了数据,也能按需付费、按量结算。
未来,医疗数据价值体系可以逐步走向“可计量、可定价、可交易、可追溯”,让数据从成本中心变成医疗机构、科研机构和数字健康产业共同受益的新型资产。
九、医疗高质量数据集建设,可以分三步走
第一步,打基础。完成数据资源盘点、授权规则设计、脱敏规则制定、主索引建设和重点疾病选择。优先从肿瘤、心脑血管、慢病、罕见病、影像AI等价值高、需求明确的场景切入。
第二步,建样板。围绕若干重点疾病,建设从诊前、诊中到诊后的全生命周期数据集,形成ICD疾病目录、质量评分体系、专家标注规范和随访队列机制。先做出可验证、可复用、可推广的样板。
第三步,促应用。将数据集对接科研、真实世界研究、临床辅助决策、药械研发、公共卫生治理、医疗AI模型训练等场景,通过应用反馈持续优化数据质量,形成“场景牵引数据、数据驱动模型、模型赋能应用、应用创造价值”的数据飞轮。国家数据局方案也明确提出,要打造“场景—数据—模型”协同发展的良性循环。
结语:医疗数据的未来,不在“多”,而在“真、准、全、安、活”
医疗行业从不缺数据,缺的是可被安全使用、可被持续治理、可被模型理解、可被场景验证的高质量数据。
高质量医疗数据集建设,不是某一个系统项目,也不是某一次数据汇聚,而是一套长期能力:合规授权能力、可信流通能力、标准治理能力、专家标注能力、随访运营能力、质量评估能力和价值分配能力。
当患者授权有边界,医院数据有收益,专家经验可沉淀,科研机构能高效使用,AI模型能持续迭代,监管部门能全程审计,医疗数据才能真正从“沉睡资源”变成“行业生产力”。
在国家推进行业高质量数据集建设的大背景下,医疗行业应抓住这一轮机遇,把散落在诊疗流程中的数据,建设成为服务临床、科研、产业和公共治理的可信数据底座。
医疗AI的竞争,表面看是模型竞争,本质上是高质量数据集的竞争。谁先把医疗数据建成“真、准、全、安、活”的高质量数据集,谁就能在下一轮智慧医疗发展中占据主动。