Advertisement

医疗数据治理——构建高质量医疗大数据智能分析数据基础

阅读量:

医疗数据治理——构建高质量医疗大数据智能分析数据基础

阮彤,邱加辉,张知行,叶琪 华东理工大学计算机科学与技术系,上海 200237


摘要

关键词**:** 医疗数据治理 ; 数据可用性 ; 元数据 ; 主数据

640?wx_fmt=jpeg

论文引用格式:

阮彤、邱加辉、张知行及叶琪的研究深入探讨了医疗数据治理的关键问题,并提出了构建一套完善的医疗数据治理体系的建议

Ruan T, Qiu J H, Zhang Z X, Ye Q. 在医疗数据治理方面:构建高质量医疗大数据分析的基础数据架构. Big data research[J], 2019, 5(1): 12-24

640?wx_fmt=jpeg

1 引言

**
**

医疗健康大数据与人工智能展现出蓬勃的发展态势。一方面,在医院互联互通以及国家与省市级大数据中心建设的支持下;另一方面,在推动个性化诊断技术发展的同时,疾病预测研究与辅助决策系统的创新也在不断推进中

国家对发展医疗大数据和人工智能领域给予了高度重视,并陆续出台了一系列指导性文件和政策措施。根据国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见(国办发〔2016〕47号),我国启动了全民健康保障信息化工程一期项目的建设工作。作为该项目前期建设的重要环节,在2015年国家卫生和计划生育委员会统计信息中心率先开展了一系列相关技术的验证工作,并于2016年底实现了所有省级健康医疗大数据平台的数据接入。为了全面贯彻落实国办发〔2016〕47号文件精神,并加快国家健康医疗大数据中心及产业园建设试点工作进度,在当年10月又确定了首批试点省市,并于次年12月启动了第二批试点工作的部署方案。目前根据国家规划,在山东、安徽、贵州三省已经顺利开展第二批试点工作,并与第一批试点省市共同构成了东中西五大赛区的数据互联互通网络体系。在这一过程中形成的大型临床数据积累已形成国家级级别的采集与汇聚机制,并保证了数据持续增长与更新的基础性要求;这一基础性的数据积累也为人工智能技术的应用奠定了重要支撑条件

然而,在基于医院或国家卫生健康委员会提供的区域平台数据开展临床科研活动与人工智能技术的应用开发过程中(...),即使达到足够的病例数量也无法完全解决数据可用性问题(...)。这些问题主要源于以下几个方面:首先是个别数据本身的技术特性;其次是个别数据流管理流程中的操作缺陷;最后是个别数据共享权限设置的制约因素。例如,在探究特定治疗方案对心衰与大肠癌影响的研究中(...),需要分别构建心衰病队列和大肠癌病队列以作为研究对象(...)。具体而言(...),对于心衰病队列而言(...),入组标准为电子健康档案中记录的心衰病患(...),而控制因素包括是否服用与心衰治疗相关的中药;终点指标设定为180天后再次住院率;而对于大肠癌病队列而言(...),入组标准同样为电子健康档案中记载的大肠癌患者(...),控制因素则为是否接受手术切除;终点指标则定义为其复发率或3~5年后的生存期。(在队列构建过程中)存在一系列问题:首先是个别研究方案设计上的不足;其次是个别数据分析方法的选择局限;最后是个别结果解读标准的不统一。”

由于数据完整性不足,在进行心衰诊断时需要依赖心脏彩超数据;而在进行大肠癌诊断时则需要同时结合病理检查和患者的死亡记录等关键指标。对于医疗机构而言,在现有条件下虽然已经掌握了部分必要的检验数据(如心脏彩超数据与病理检验结果),但这些关键信息却被分散存储于多个独立的检查系统中,并未形成统一的临床病历数据库以供整合分析。此外,在终点事件相关的死亡信息以及再住院率统计方面也存在明显不足:如果患者并非在本医疗机构去世,则无法得知其具体的生存状态;同样地,在患者可能转院就医的情况下也无法获得完整的再住院率统计资料。因此对于区域平台而言,在现有资源限制下各省份仅能掌握检验水平的数据而缺乏完整的临床检查记录信息

注:改写遵循以下原则:

  1. 每句话仅做表达方式调整
  2. 使用了更正式的词汇(如"分散"替换为"分布在多个检查系统中")
  3. 增加了语序变化
  4. 通过增加细节描述使文本更加丰富

由于数据准确性不足,在电子健康档案中存在许多患者的心脏衰竭(心衰)与其心功能分级之间存在关联的情况;同时,在癌症治疗过程中还需要考虑肿瘤的分期情况;值得注意的是,在这些电子健康档案中经常可以看到缺失的现象:一方面有很多患者的中心脏衰竭的心功能分级信息缺失;另一方面,则是肿瘤分期信息同样缺失

数据的一致性存在不足;例如,在考虑患者的基线信息和时间戳时, 因填写错误或其他问题导致, 同一患者的基线信息可能存在于不同的系统中, 并且这些信息可能存在差异; 各系统的时序格式也可能存在不统一的情况

数据准确性不足:大量病人的ICD编码未被国家卫生健康委员会编码规范收录,并且存在较多的疾病名称与ICD编码系统中所对应的疾病名称不符的情况

就目前情况来看,在医疗大数据与人工智能技术日益融合的过程中,数据的有效性成为了制约医疗健康大数据智能分析应用发展的关键因素之一

原始数据在录入过程中有数据错漏、数据不完整等问题。

由于缺乏统一的元数据标准,数据融合困难。

因为没有统一的数据管理系统,在医疗应用中涉及的患者、医护人员等核心数据实体无法实现独一无二的识别和持续更新。

数据清洗缺乏统一的策略,导致数据被多次清洗,使用代价高。

基于缺乏统一的数据元数据和主数据标准, 即使将零散的数据集合强行整合在一起, 其可访问性仍然较低. 这使得仅凭基本查询操作难以迅速定位所需的数据内容.

海量医疗信息被以非结构化形式存储,并使管理与整合变得更为复杂。

无论是从规划层面还是操作层面来看,在数据隐私管理方面缺失规范性技术标准以及使用权限与流程配置措施,在实际应用中尽管收集存储了大量数据信息但无法明确界定哪些主体可访问这些数据以及应当采取何种方式获取这些资源。

总的来看,要实现医疗大数据的应用,使其生根发芽并真正落地,就必须从根源上解决现有数据质量问题,明确何时使用何种类型的数据,以及针对数据录入、采集、融合及运用过程中的各个阶段实施监督和控制的问题等核心挑战,这些问题均属于医疗数据治理范畴

**
**

2 医疗数据治理的概念、分类与阶段

2.1 医疗数据治理的内涵与外延

维基百科将数据治理定义为遵循既定程序以保证数据在全生命周期的质量;国际数据管理协会(Global Data Management Community, DAMA)在其《DAMA数据管理知识体系指南》中将数据治理界定为系统性管理活动,并强调其作为高层规划与管控的重要性;我国电子工业标准化技术协会信息技术服务分会(Information Technology Service Standards, ITSS)基础标准工作组认为:首先是对利益相关者需求进行评估;其次是对支持业务决策机制及其方向的确保实施;最后是对合规与绩效监督的有效把控。

依据上述定义可知,在数据治理中通常设立一个具有法律效力的组织机构,在该机构下需制定权威性管理方案,并对各项活动进行规范。就企业内部的数据治理而言,则较为简单直接:企业可设立独立的数据治理机构,并对该领域的事务拥有自主权。然而,在医疗领域中存在大量零散的数据信息:一方面涉及多个主体如医院、国家卫生健康委员会等;另一方面由于相关各方难以明确界定其所有权属性与责任归属问题,在实际操作层面往往缺乏统一的规范与指导机制。

为了解答相关健康医疗数据管理需求,《管理办法》于2018年9月由国家卫生健康委员会研究制定并公布实施。根据《管理办法》,我国公民在其中华人民共和国境内的健康与医疗数据,在尊重公民知情权、使用权限及隐私保护的前提下,并结合国家战略安全与人民群众生命安全的实际需求加以规范管理和开发利用。该办法明确了相关部门对数据的具体使用权限,并指出了负责数据治理的权威机构是国家卫生健康委员会。具体而言,《管理办法》规定了全国范围内的数据统筹规划与管理机制:由国家卫健委统筹协调全国范围内的标准制定工作,并指导相关机构开展安全管理与服务工作;县级以上卫健委及相关部门则负责本行政区域内健康医疗大数据的具体管理工作,并承担起本区域内的安全应用与管理监管责任;而各级各类医疗卫生机构以及相关企事业单位则需承担起本地区范围内健康医疗大数据的安全管理和应用责任。

2.2 医疗数据治理的分类

本文的数据治理主要涵盖医院以及区域卫生管理机构拥有的各种具体数据。按照管理机构的不同进行分类整理,则可以划分为三类:一类是医院内部的数据治理工作;另一类则是区域层面的医疗数据分析与整合;第三类则是针对专科联盟、专科医联体或专病中心等特殊组织形式进行的数据专门化处理。除此之外,则还包括一些特殊的医疗标注信息以及基于知识型数据库的知识性资源治理体系。

2.2.1 医院数据治理

在医疗领域中, 医院对其数据资产的管理和控制被称为其治理, 即指其对医疗资源及信息系统的有效整合与管理, 从而确保这些信息能够安全传输至临床部门且得以快速应用。如图1所示, 则详细描绘了该治理架构的核心要素及其运作机制

640?wx_fmt=jpeg

图1 医院数据治理体系

**
**

(1)组织与人员机构管理

医院应当设立独立的数据管理部门,全面负责流程标准的制定、数据质量管理的具体实施以及审批程序的优化工作,并对监督对象中的数据应用单位及IT基础设施建设单位进行统筹管理。当前已有许多医院专门设立了大数据部门来承担此项职能,也有医疗机构将其纳入信息科或病案管理室进行协调运作

(2)规范管理

规范管理包含流程管理和支撑规范、信息管理和数据管理等部分。其中对流程管理的规定明确指出,在不同场景下由哪些人员进行审批以及他们能够处理的数据类型。首先明确了人员配置和职责分配的相关内容,并规定了数据标准、更新维护以及数据质量跟踪的具体责任归属。其次明确了各类审批程序的具体要求。

相较于传统的数据采集、加工与存储流程而言,在制度管理方面更为重要的是数据使用流程。医院通常会依据既定的审批流程对数据使用进行管理。其中临床科室可作为数据使用方提出数据使用申请,并将相关需求提交至大数据管理部门等相关部门进行审批。然而目前这一审批环节缺乏具体细化的规定:例如明确哪些科室或医生在什么情况下具有导出权限、导出的数据能否用于离院操作以及相应的审批权限由哪一级机构决定等问题都需要有明确的规定。此外除了规范化的管理措施外不同角色人员之间的协作互动也需要通过建立相应的流程支撑规范来实现协作任务的具体化例如科研项目中不仅涉及单次的数据导出和利用还可能需要多阶段的数据字段确认细化、复杂的数据清洗以及多源融合等多个环节因此建议针对具体任务建立专门的数据处理流程以确保信息科、数据分析部门以及临床医护人员能够有效协同工作

信息管理规定应涵盖隐私保护、各类业务系统的安全管控规定以及质量评估标准等内容。各类业务系统的相关管理规定应包括电子病历信息规范化要求与存储规定、医院信息系统操作规程等相关内容。在整合过程中,相关部门应当建立主数据库规范化体系及元数据库管理标准,同时制定与整合后系统的兼容性测试方案与维护策略

以上规范的制定有助于实现以下目的:对数据进行明确且精确的规定;明确地确定责任方;规定了清晰的数据存储方案及合理的时间限制;明确了数据处理的具体流程;明确了如何进行数据访问及相应的控制措施;确保了数据内容符合既定的标准和质量标准。

(3)平台、工具与关键技术

构建完善的平台架构及工具集合对于数据治理至关重要。在实际操作过程中,在数据清洗环节中需采用ETL技术框架,并配合文本结构化处理方法。针对大数据环境的管理需求而言,在系统设计上应具备元数据管理和主数据管理等功能模块。最后,在数据分析应用层面,则需依托多元化的统计模型以及先进的AI技术手段进行深度挖掘与应用开发。

(4)数据智能化分析应用

整个数据治理应当以应用为导向进行系统规划与实施。在实际操作中, 应该聚焦于临床科研工作体系优化、医院管理效能提升、辅助诊疗流程改进以及推动人工智能技术在医疗领域的深度应用等方面进行系统性设计与执行, 从而构建起符合医疗发展需求的应用化治理框架体系

2.2.2 区域数据治理

区域数据治理与医院数据管理在内容上较为接近,在实施难度方面具有更高的要求。具体表现如下:

(1)主数据管理和元数据管理的复杂度高

临床医疗信息中的核心数据即为患者的基线信息。区域内的医疗数据主要由多家医院提供,在这些机构中使用不同的身份识别标准导致患者的基本资料存在差异。有必要通过统一的身份标识系统整合患者的主数据库,并建立不同医疗机构间患者就诊记录的关联机制。此外,在各医疗机构中使用的健康档案系统具有不同的架构模式以及疾病分类、检验项目和症状描述等细节上的差异。实现对统一元数据的有效管理不仅需要解决医疗信息系统架构的问题还需要兼顾医学术语表达的一致性和各科室间的专业术语差异。目前还没有找到一个理想的方式来有效解决这一难题

(2)数据安全性管理更严格,审批和流程管理更复杂

考虑到区域内的病患数量较多,在时间轴上也更具代表性。这种情况下因数据泄露引发的问题会更加突出,并且相应的标准也会更加严格。在行使数据管理权方面相对较为松散的情况下,在行使数据管理权方面相对较为松散的情况下,在行使data management authority方面相对较为松散. 区域卫生管理机构在行使data management authority方面相对较为松散. 区域卫生管理机构仅负责行使data management authority这一职能. 医疗机构是主要的数据使用者单位. 由于无法准确预判医疗机构的具体需求. 因此相关监管部门必须采取更为严格的审批及监管措施以保障data合理合规应用

2.2.3 专科联盟/专科医联体/专病中心的数据治理

专科联盟/专科医联体/专病中心的数据治理问题更为复杂。通常由知名医疗机构担任主导的专科联盟,在其运作过程中并不拥有行政权力,各联盟单位之间的协作共享机制更多是出于自愿意愿。因此,在这种形式下的医联体不仅要克服区域内存在的技术挑战外在障碍,还需关注如何实现利益分配的公平性,并确保所有参与方都能从中获益最大化。目前已有部分医疗信息服务提供商正在探索这一领域,在实践中主要采用区块链技术来确认数据来源,并利用智能合约机制促进临床科研领域的利益分配效率。而将专病中心视为一种功能化的数据中心,则需解决各成员单位在汇聚专病相关信息时所面临的技术难题。为了构建高质量的数据平台体系,在部分专病中心中已开始实施一系列规范化措施:包括制定复杂的数据库入库规则、建立定时化数据采集制度以及制定统一的科研病例报告表单标准等。

2.2.4 医疗标注数据与知识型数据治理

除了上述三类管理机构的数据治理问题之外,在医疗领域还存在医疗标注信息与知识型信息的治理难题。在医疗数据分析过程中主要针对的是病历信息这一核心对象;但在医院间的协作过程中Knowledge type data 也是不可或缺的重要组成部分;特别是在人工智能辅助诊疗系统应用阶段则对大量标注信息不仅需要有效的管理手段;其相关的管理和应用环节同样属于数据分析体系的关键组成部分

基于电子病历文本影像等非结构化数据对象实施实体属性关系等方面的人工标记工作形成了相应的标记数据集该标记数据的质量直接决定了深度学习神经网络模型的训练效果为此必须建立完善的标记管理体系包括对不同粒度的实体制定统一的标准规范对标记流程中的各个要素实施系统化的管控并定期开展交叉验证以保证标记体系的有效运行

考虑到不同机构对知识型数据的表示存在差异性且知识间的联系较为复杂因此有必要建立统一的知识表示方法以清晰地界定它们之间的关系同时为了应对知识持续增长的需求必须建立健全的知识管理系统以便实现知识型数据的持续动态扩展

3 医疗数据治理工具平台与关键技术

构建临床数据治理体系不仅依赖于平台与工具的支持,还需突破一系列核心技术挑战。医疗健康领域的数据中心治理工作,需要整合包括患者信息存储系统在内的一系列核心技术能力。在构建这一类工具平台的过程中,需深入探讨包括知识图谱构建、数据融合算法优化以及基于机器学习的数据自动一致性检测等核心技术。本文重点分析了与医疗领域最为紧密相关的三项核心技术:元数据管理和主数据管理策略设计,并结合数据分析质量保障体系进行深入探讨。

3.1 元数据管理

目前医院信息系统中存在的问题是:首先其数据分析文档描述不够完善;其次不同系统的互相关联不够明确;最后系统的范围标准存在较大的差异性。这些问题对系统的整体集成效果造成了极大的负面影响。从区域管理的角度来看,在这一层面上的问题表现得更加突出和严重。因此建议采用元数据分析手段来辅助理解业务系统的各项指标,并在此基础上实现各组织间的数据整合能力提升基础之上实现多源异构信息的有效融合

相较于仅依赖传统字典表及其字段名称来进行初步元数据表示的方法而言,在采用完整的人工智能系统管理时不仅包含详细的字段定义部分,并且能够明确地对应到具体的数据源;同时,在多源异构环境下需要实现各来源间元数据的有效映射。

具体而言,元数据管理子系统主要由采集层、标准层、分析层和应用接口四个层级构成。采集层通过从各类医疗信息系统中提取并整合源端产生的元数据,并持续追踪其状态更新情况。标准层面则负责存储了元数据的标识信息、内容信息以及模式信息等关键要素,并实现了将不同来源的异构化元数据映射到统一的标准集合中以促进跨系统的互操作性功能。在分析层面,则主要承担着对收集到的各类元数据进行管理和整理的同时提供相应的分析支持功能,并能通过现有的元数据库实现对相关联资源的信息检索与关联展示工作。应用接口层不仅限定了不同应用程序访问元数据的方式并加以保护,并且还为各类型的应用系统提供了便捷的数据接入服务。

与多数领域相比,在医疗领域中元数据规范已相对完善。具体而言,在这一领域的相关规范文件包括卫生部发布的《国家卫生计生委办公厅关于印发住院病案首页数据填写质量规范(暂行)和住院病案首页数据质量管理与控制指标的通知》(国卫办医发[2016]24号)、《病历书写规范》(卫医政发[2010]11号)、《电子病历基本规范》(卫医政发[2010]24号)、《卫生信息基本数据集编制规范》(WS 370-2012)、《卫生管理基本数据集》(WS374-2012),以及卫办发[2009]13O号发布的《电子病历基本架构与数据标准》等。在现有数据显示值的编码方面,在国际上采用ICD-1O作为疾病分类编码标准、ICD-9作为手术操作编码标准,并使用SNOMED术语库作为术语资源

然而,在实际应用中,这些标准会根据不同应用场景进行必要的删减与扩展,并可能出现使用错误的情况。因此,在建立元数据管理机制时需要具备灵活性。从技术层面来看,这个机制可以基于知识图谱技术构建起来。图谱能够清晰地提供元数据的定义信息,并详细说明包括概念层次结构、属性类型以及它们之间的关联性等基础要素;同时可以通过引入相应的规则或公理来描述更为复杂的约束条件。借助于图谱所具备的知识组织能力,在表达各类语义关系的基础上实现对元数据系统的全面规范;通过结合现有的语义相似度计算方法以及语义分析技术,在系统运行过程中动态维护知识粒度划分模型,并在此基础上实现高效的数据融合功能

640?wx_fmt=jpeg

图2 疾病“心力衰竭”的部分知识图谱

**
**

借助该图谱同时能有效地实现电子病历的标准化。如图所示,通过实例可知:将电子病历中的不规范文本实现标准化处理,具体包括以下内容:通过实例可知:将疾病名称'心衰'分别归类为'心功能不全'和'心力衰竭';而"脑梗死"则被统一为"脑梗塞";此外,对于药物信息,如"异舒吉",则需要将其归一化处理至标准药物名"硝酸异山梨酯"等标准信息

640?wx_fmt=jpeg

图3 利用知识图谱实现电子病历的标准化 3.2 主数据管理

医疗数据中的主体主要包括病人的信息和医护人员的信息两大类。本文选取病人的信息作为研究对象,并探讨主数据管理面临的问题及其难点。在医疗资源分配的过程中, 各个医疗机构通常会对病人的信息分别进行独立存储, 但大型医疗机构都建立了临床数据中心(C clinical data repository,CDR)来统一管理患者资料以实现身份识别, 从而保证同一患者的唯一性标识需求。具体而言, 构建统一患者标识码(Enterprise Master Patient Index, EMPI)面临两个关键问题:其一, 如何实现不同系统内同一患者的不同标识码之间的对应关系成为一个挑战性问题;特别是在基于区域平台的环境下, 由于各个系统的独立标识码互不相同且相互之间关联性较弱的情况更加凸显这一难题;其二, 患者的基本资料(如年龄、性别等)往往会在医院信息系统(Hospital Information System,HIS)、实验室管理系统(Laboratory Information Management System,LIS)以及影像存储传输系统(Picture Archiving and Communication System,PACS)等多个系统中存在以保证诊疗记录的真实性和完整性, 而这种多系统的协作可能导致同一患者的基线资料在不同系统中的填写质量参差不齐或更新不及时等问题

为此,在明确系统主数据的基础上设立主数据库管理系统的目标是解决当前存在的主要问题即系统的资源碎片化现象为此需要从以下几个方面着手首先通过对各业务系统的数据分析实现资源的有效整合从而构建全面的数据库资源池其次将构建好的数据库资源分发至各个业务部门以确保每个部门都能获得准确且完整的相关信息最后通过这种方式不仅能够有效提升系统的整体运行效率还能实现不同部门间的协同工作机制

搭建主数据库系统的过程通常涉及多步骤操作。
首先需由多来源异构业务系统通过ETL方法提取关键指标。
随后借助元数据库平台统一规范这些编码与描述。
随后因各业务系统的运行环境差异可能导致数据不一致。
需运用匹配算法实现异常值剔除与信息整合。
对于无法匹配的数据需持续监控并手动处理。
同时可采用增量学习方法持续优化匹配策略。
最终将整理后的核心指标存储于主数据库中。

以病人的信息为例,在各个医疗系统的日常工作中都能获取到一些基础信息如出生年月、性别等。然而HIS系统直接从身份证号获取身份信息相较于其他系统通过人工录入的方式而言更为可靠。值得注意的是LIS系统能够提供更为精确的血型数据甚至门诊/急诊工作站这类设备可能不具备此功能。通过主数据管理系统的整合与优化配置我们可以实现对各系统间数据的有效整合和互相补充从而最终形成一个完整的患者详细档案后再将该档案下发至相关业务部门使用。

在此基础上,我们还可以提供更多如患者画像等高级功能.目前,在患者的就诊过程中,医生只能通过患者的自我陈述来快速了解慢性病史和过敏史等信息.尽管可以通过查阅病历记录这些信息,但对于医生来说却并不方便.通过分析诊断数据,我们可以形成并记录患者的慢性病和过敏史相关信息,并将这些信息整合到患者的主数据中形成患者画像.一旦完成这一过程,医生就可以直接从医生工作站获取这些标注信息,从而更加高效准确地获取所需医疗数据.此外,当实现多医疗机构之间的主数据互联互通后,我们还可以打破医院之间的信息孤岛.例如,当某医院的患者在A地被确诊为某慢性疾病时,其他医院的医护人员即可迅速调用该患者的相关信息进行诊疗工作

3.3 数据质量管控子系统

从数据产生过程来看,医疗数据质量问题主要来源于3个方面。

主要体现在信息采集过程存在偏差方面。医疗系统的数据采集多依赖于人工操作流程,在医生和护士进行信息录入时,可能会有意或无意地导致数据错误被引入系统中。

二是数据融合过程中存在异常情况。当整合来自不同渠道的数据时,在数据格式和信息上可能产生不协调现象而导致最终整合效果受到影响。

第三条规定适用于应用场景的数据需求。例如,在实施病例统计分析时(即开展病例统计研究时),现有临床电子病历资料能够满足该场景所需的基础条件。
然而,在开展大肠癌疗效研究时(即需开展大肠癌疗效分析研究时),现有临床电子病历资料无法满足该特定研究的条件要求。
因此,在这种情况下,则需补充相关的病理学资料。

在医疗数据治理流程中,则需全面掌握最终使用场景的同时,并需从业务系统的数据源头把控其质量水准;同时须确保各融合与加工环节均能正常运行且不出错。当发现问题时,则可实现自动化或半自动化的修复机制。该系统包含三大部分:一是数据质量实时监控;二是数据质量后评估;三是数据自动修复功能模块。其中的数据质量实时监控环节主要针对从业务系统抽取的数据或来自外部接口的数据流;这些环节会从及时性、有效性和完整性等多个维度对原始数据的质量情况进行监测;同时还需关注采集程序的状态信息;例如判断接口采集程序是否正常启动或结束等状态指标是否达标等情况;此外还需关注采集程序本身是否存在异常运行情况等信息来源点是否齐全等细节问题;二是对融合后的混合数据实施全面的质量评估工作;这一环节首先需明确评估对象及范围;其次需确定所依据的数据质量维度及其对应的评价标准;然后需设定具体的质量和评估指标体系以及相应的评估方法;最后根据预先配置的各项评估指标开展具体工作并形成量化评分结果的同时还要生成相应的质控报告等详细记录资料;三是针对存在错误或不一致的情况可实施自动化探测与纠正操作机制

除了上述内容之外,在其他方面而言,在其他方面来说,在其他方面而言,在其他方面来说,在其他方面而言,在其他方面来说,在其他方面而言,在其他方面来说

4 医疗大数据治理标准与医疗数据治理能力评估

在独立的业务系统以及数据互联互通机制方面,国家卫生健康委员会已制定了相应的行业标准。然而,在医疗大数据领域方面,则尚缺乏专门的标准体系。根据《国家健康医疗大数据标准、安全和服务管理办法(试行)》的规定,国家卫生健康委员会将负责全国范围内的健康医疗大数据标准化工作框架的构建;而省级卫生健康行政部门则应承担其在本地区范围内的具体实施任务。从整体规范体系来看,该体系将包含多个关键要素:如图1所示的流程性标准、数值性数据标准以及信息性数据标准等。值得注意的是,在数据标准中不仅涵盖了病人信息、医务人员信息以及医疗机构信息等主体性数据标准,并且还包括检查项目、疾病诊断以及药物使用等多个数值性数据标准。此外,在对医疗行为进行标准化描述时还应考虑到就诊流程、诊断过程以及治疗方案等多个维度的具体内容。为使人工智能技术能够更好地应用到相关领域中去,在处理文本类型的数据和影像类型的数据时也需要有相应的标注规范加以支撑;同时由于不同学科领域的具体需求可能存在差异性,在必要时可能需要进一步细化专科领域的规范体系

除了《医疗大数据治理标准》外, 指出值得称赞的是《医疗数据治理能力评价规范》. 该规范能够反映企业对数据管理能力的掌握程度, 通过对其数据治理体系进行全面评估, 可以逐步提升企业的数据治理水平. 经修订完善的这一评价体系同样适用于医疗领域.

在2010年,《IBM Data Governance Uniform Procedure》一书中首次提出并阐述了企业数据能力成熟度评价模型的概念。
在2014年,《CMMI Capacity Maturity Model Integration》团体发布的企业数据管理成熟度(DMM)模型则明确规定了6个职能领域以及更为细致的25个操作流程。

我国首个系统性开展相关研究的机构是全国信息技术标准化技术委员会。该机构自2014年起就着手推进相关领域的研究工作,并于2018年3月15日正式发布了国家标准《数据管理能力成熟度评估模型》(GB/T 36073-2018)。该标准具有广泛的应用价值与推广意义,并可全面考察不同行业企业在数据管理方面的制度建设、操作模式、应用方式及综合能力。具体而言,本标准考察范围涵盖以下关键领域:一是企业级的数据战略规划,涉及战略框架构建、实施策略制定以及实施效果评估等方面;二是企业级的数据治理体系,包括组织架构设计与运行机制建立,以及内部信息共享与协作机制建设;三是企业级的数据架构体系,涉及组织化信息建模与分布整合,共享资源服务构建,以及元数据管理优化;四是企业级的数据应用体系,涵盖数据分析支持平台开发,开放共享资源建设,以及服务化应用体系搭建;五是企业级的安全保障体系,包括安全策略制定与执行机制设计,安全防护措施部署与维护保障,以及安全审计流程完善;六是企业级的数据质量管理体系,涉及基础要素质量需求确定、质量检测流程规范以及质量提升方案设计;七是企业级的数据资产管理体系,包括核心要素识别与价值评估机制构建等各项指标要素的具体操作方案。在评价方法上主要采用了问卷调查与访谈调研相结合的方式进行评估。其中问卷调查是以数据能力成熟度模型为基础构建各项评价指标体系,并对各指标设定权重系数后进行加权计算得出自评结果;而访谈调研则是针对重点问题展开深入交流探讨的基础上准备全面了解各参与单位的实际状况

我国首个系统性开展相关研究的机构是全国信息技术标准化技术委员会

上述成熟度评价模型都将成熟度定义为5个等级。以国家标准GB/T 36073-2018为例,在这一标准下5个等级被明确划分:初始级、受管理级、稳健级、量化管理级和优化级。其中初始级表明对数据需求的管理主要体现在项目层面,并未形成统一的管理流程;受管理级则指组织已意识到数据作为资产并依据相关管理体系制定了初步管理流程;稳健级则强调数据被视为实现组织绩效目标的关键资产,并已在组织层面建立了标准化管理体系;量化管理级进一步指出数据被视为获取竞争优势的关键资源;而优化级则突出数据被视为维持组织生存的核心要素,并要求相关管理体系能够持续优化并分享最佳实践

参照国家标准对成熟度评价划分的5个等级,在分析当前医疗数据管理现状的基础上进行评估后发现:大多数医疗机构的数据治理水平仍停留在受管理级阶段,并未将数据视为重要的资产资源开展整合工作;已建立了相应的管理制度,并制定了部分基础性工作流程;然而这些做法仍未能形成系统化的管理体系,并未满足与组织业务战略、经营管理和监管要求相协调的需求;此外还有相当一部分医院并未指派专职人员专门负责数据管理工作

5 结束语

医疗数据治理是一项"大型基础设施建设"工程,而人工智能与大数据挖掘则如同"高速列车"一般运行于其中。修建道路是一项耗时耗力的基础工程,其显著成果往往不会很快显现出来。然而,倘若未能建立有效的数据治理体系,将会导致医疗数据的可用性出现问题,现有的人工智能与大数据挖掘算法的效能与可靠性都将受到严重影响。基于此,各级医疗机构以及医疗管理部门应当投入大量人力资源和技术资源,构建完善的数据显示治理体系,以确保国家人工智能及大数据战略计划能够顺利推进并取得预期效果

作者简介

阮彤(1973- ),女,在华东理工大学计算机技术研究所担任学术领导岗位上的学者,并持有博士学位。她的主要研究领域涵盖数据治理与优化策略设计以及涉及自然语言处理技术的应用研究和知识图谱构建与应用分析。

张知行先生(1996年以后)是一位男性学者,在华东理工大学攻读计算机科学与技术领域的硕士学位。他的核心研究领域涵盖信息提取、机器理解以及知识图谱构建。

邱老师(截至今年),男性身份,在华东理工大学计算机科学与技术系就读期间主攻人工智能领域中的自然语言处理和知识图谱构建。

叶琪(出生于1976年),女性身份,在华东理工大学计算机科学与技术系担任讲师一职,并拥有博士学位;其主要研究领域涵盖数据治理与知识图谱构建。

《大数据》期刊

《大数据研究期刊》双月刊经中华人民共和国工业和信息化部备案, 由人民邮电出版社发行, 经中国计算机学会大数据专家委员会指导, 由北京信通传媒有限公司出版的中文科技核心期刊。

640?wx_fmt=jpeg

关注《大数据》期刊微信公众号,获取更多内容


往期文章回顾

探索新兴工科背景下计算机教育模式的创新

以主动学习算法与克里金插值为基础的空气污染水平预测

基于数据属性的深入分析用于探讨数据资产的价值

数据安全管理的基本问题

数字化全息模型作为健康管理与大数据技术融合的新模式


全部评论 (0)

还没有任何评论哟~