大数据在各行各业的应用,给业态带来了颠覆式的改变。那么,在医疗行业,大数据可以起到什么作用?
医疗大数据与人工智能项目近年来非常火热,但是很多项目在变现过程中遇到一些困难,大家都明白医疗数据是一座金矿,但却不知道应当如何去挖。导致这样局面的因素很多,有历史原因、法律原因、产业原因等多个方面。
从历史原因来讲,医疗数据特别是临床系统独立性高,产生的数据难以整合。各地医院数据结构差异大,难以形成统一结构,各地方医学用语也不规范,产生了大量的歧义。这是由历史原因造成,当前正在通过制定标准逐步改善。
从法律原理来讲,医疗数据的归属和使用问题始终是一个灰色地带,数据权利游离在患者、医院、卫健委之间,医疗数据利用存在患者隐私泄露的风险,所以很少有机构愿意承担这样的风险。医疗数据上云在各地实施情况也不同,当前大多数医院能够接受混合云的实现方案。
从产业原因来讲,医疗行业是一个严谨不容出错的行业,关系到人的健康或者生命,当前科技的发展还不足以能够让数据描述自然科学,也正因为如此使得医疗大数据行业变现受阻。
医疗数据含义非常广泛,所有涉及人类健康的数据都可以称为医疗数据,包括药物数据、临床数据、健康数据、生活饮食数据、运动数据等。本文只讨论临床数据的应用,对于药物数据及其他数据的应用,在其它文章中进行讨论。
临床数据与药物数据或健康数据不同,临床数据的获取具有极高的门槛,从这个角度来讲数据本身就具有较高价值。换句话说,谁拥有了数据谁就拥有了发展临床数据应用的绝对主动权。
当前临床大数据主要服务于政府、药企、医院、保险四个类别。这四个类别用户相对典型,本文仅以这四类典型场景用户为例,说明临床大数据的落地。
当然,这四个类别也经常联动。例如药企-医院,就是一对典型的联动体系,临床数据同时服务于药企与医院才能构成完整的商业模式。
本文主要讨论对医院业务产品与服务模式。
二、对医院的服务
临床科研对医院来讲算是硬指标,医生资格晋升、新疗法、新药的科研工作都离不开医院。但是由于历史原因,医院系统独立性高,各个地方医院数据格式不同,难以将数据融合形成更大价值。所以,当前的主要认识是要按照一个确定的数据格式,先将医院内部的数据打通,从而推广到区域乃至全国。
针对临床科研问题,分为三个部分可以独立构成商业模式,也可以联合形成整体商业模式。
医疗数据治理是一项大工程,也是医疗大数据应用基础。卫健委在2019年出版了一本关于医疗数据治理的书籍,目的技术为了指导全国医院进行数据治理工作。
数据治理是一个非常复杂的过程,其中不仅仅是核心的技术领域,还有适当的数据保障机制及相应的组织架构。
数据治理的核心领域是针对主数据、元数据进行数据服务,其中包括数据质量、数据标准统一、数据安全等诸多方面;对应于构成这些要求需要有相应的保障机制,包括规则制度、数据服务组织、机制流程以及相应的技术规范。两个方面相辅相成,是一个有机整体。
数据治理是指将数据作为组织资产而展开的一系列的具体化工作,是对数据的全生命周期管理。包括针对数据产生、存储、加工、应用、删除等全流程制定一系列组织架构、管理制度、操作规范、IT应用技术甚至绩效考核等制度来规范约束的方式。
任何一个产品都是基于需求痛点而存在的,人工智能类产品并不例外,在产生大量数据的同时,我们需要将原有大量数据转化为有序、可利用的数据资产。经过上述过程,才能够利用人工智能技术来达到产品期望。将数据整合为数据资产的过程称为数据治理。
数据治理的内涵有如下的描述数据治理是贯穿数据采集、汇聚、存储、处理、加工、共享交换、应用开发和持续运营等整个生命周期的系统性工作,需要充分融合技术、管理和业务,从而确保数据资产安全并探索其商业用途。
数据治理的概念中,有3个基本问题需要了解。
数据治理的目标
数据治理流程
数据治理的应用
数据治理的目标是为了将数据转化为数据资产,为实现更好的决策,减少操作摩擦,保护数据利益相关者的需求,构建标准流程并提高流程透明度。实现数据资源在各组织机构部门的共享;推进信息资源的整合,从而提升公司企业数据的有效应用。
数据治理不仅需要完善的保障机制,还需要理解具体的治理内容和数据规范、元数据管理及每个过程需要哪些系统或者工具来进行配合。治理后的数据具有一致性的数据标准,拥有良好的扩展性、可用性、灵活性。
数据治理的是一个复杂的过程,主要过程分为三个阶段,每个阶段的要求也不尽相同。
第一阶段:数据的基础管理,包括数据标准化的相关内容,术语的统一、分词及代码表的统一等。同时需要确定元数据管理方案,确定标准字段与抽取原则,整合数据字典与相关的技术工具。
第二阶段:数据交换传输与异构化过程。在定义了相关数据规范与ETL工具之后,第二阶段需要根据之前定义的方案进行数据处理。数据处理中包含主数据管理、数据质量管理、属于交换与集成管理。第二阶段的主要工作是数据异构化过程。
第三阶段:数据治理的成熟阶段。在这个阶段已经完成了数据仓库的整合搭建,并可以基于数据仓库搭建一些应用,也可以进行数据挖掘的相关工作。
数据治理的应用其实就是数据的应用,只有治理过的数据才能较好应用。数据平台可以提供计算、以及各个业务板块的数据能力支撑。
首先我们解释一下什么是元数据。
元数据(MetaData)是指用来定义业务数据的数据,也就是说元数据定义了业务数据的数据结构,各个任务之间的血缘关系等。更进一步讲,所有能够位置系统运行的数据都可以叫元数据。
元数据按照用途可以分为2类:技术元数据(Tehnical Metadata)与业务元数据(Business Metadata)。
技术元数据是管理数据仓库使用的数据,用于开发与技术细节的统一。包括数据仓库结构的描述、视图、血缘关系、层级以及数据导出的结构定义等。技术元数据也定义了算法的度量、数据颗粒度等。
业务元数据主要从业务角度描述了数据库中的业务数据,包括业务数据字典、对象和属性名称、数据来源以及数据分析方法与报表等信息。业务元数据从架构方面也可以分为上、中、下三层,上层指的是业务概念,中层指的是业务实体描述、下层指的是业务术语;技术元数据架构也可以分为三层,上层指的是系统、中层指的是技术对象、下层指的是字段名称、表结构等。
元数据的治理关键在于规范性,主要分为2个步骤:元数据采集与元数据管理。元数据治理具有非常清晰的理论框架与技术框架,本节只是简要介绍并不过多进行展开讨论。
对于技术元数据,首先确定数据汇总后的元数据模型,各个系统中的数据结构不同,需要用元数据模型集中关联在一起,这样才能起到数据级联的作用。
业务元数据的治理则相对复杂的多,主要由于各个业务系统的行业性所致。业务元数据治理中,需要规范业务定义、业务名称、描述业务需要统一。
数据标准化是数据治理的必要过程,通过建立标准的业务词典来定义业务用语。作者长期从事医药有关大数据及人工智能产品工作,曾经处理过同样一个药物在几十个系统中拥有20多种名称,这些问题都需要在数据治理过程中解决,否则对后期数据应用及人工智能产品构建影响极大。
高质量的数据企业的分析决策与业务发展至关重要,只有建立了完整的数据质量标准体系,才能够有效提升企业整体数据质量。数据质量管理分为4大模块:清洗模块、稽查模块、操作模块、评估模块。
准确性:准确性是指记录的数据与事物或过程一致性。例如病例系统中病人人的性别、出生年月等数据的真实性。数据的准确性问题一般出自采集终端方面,所以在数据采集过程中进行数据多次核查十分必要。
及时性:及时性是指数据从产生到可以分析查阅的时间间隔,也叫延时时长。如果数据延时超出业务需求的时限,则可能导致数据毫无意义。例如要完成第一季度的销售分析,但到第三季度才看到目标数据,那就会变得毫无意义。数据及时性的问题一般出在政策法规或者数据安全性方面,所以需要及时保证数据合规,做好数据加密脱敏工作。
一致性:一致性是指不同系统中收集的同一数据不能存在差异或相互矛盾。例如火车飞机的始发站应该具有同样的站名,同一药物的名称一致。数据一致性与规范性问题往往同时存在,确保规范性是数据一致性的前提。
完整性:完整性指的是数据不能存在缺失的情况。例如今天门诊人数为120人,但电子病历只有110人的数据记录。不完整的数据会影响数据质量,同时也影响数据特征的提取。数据的完整性问题大多发生在数据采集终端,由于人为因素或设备故障而发生的漏采集问题。
规范性:规范性是指数据存储的标准化与规范性。标准有两层含义,其一指的是以特定的格式约束数据,例如手机号码必定是13位的数字;其二是指针对特定行业需要使用标准化术语对数据加以描述。当前医疗大数据被炒得十分火热,笔者也是医疗大数据的从业者,深切地感受到缺乏统一的医疗术语标准给数据分析带来的困难。同一种药在不同的医院的名字多达十几种,如药品“北京降压0号”就存在“降压0号”、“北京降压0”等多种名称。在构建产品之前,必须确定标准术语集才能使数据具有规范性与一致性。
唯一性:唯一性是指数据存储与检索的唯一性。一般来讲,数据的唯一性在检索中至关重要。例如一位公民只有一个身份证号。数据不唯一是系统级错误,需要对采集终端和整个系统进行排查分析。
数据质量的评估从以上6个方面展开,不过要注意数据的质量管控涉及到平台底层、整体架构、存储模式等很多方面的内容,结合行业特性综合分析才能够改善数据质量。
数据质量管理是一个流程化体系,在各个阶段管理重点也不尽相同。
在系统需求讨论与概要设计阶段,需要明确数据质量的规则定义,也就需要明确需要什么样的数据质量,这样才能知道数据结构与需求逻辑设计;在开发阶段需要确定数据质量规则的落实与实施;在上线后,需要实施数据质量监控按照评估维度进行数据质量评估,发现问题及时纠正。
数据生命周期管理(Data Life Cycle Management, DLM)是一种基于策略的方法,针对管理信息系统的数据在整个生命周期内的流动。从数据创建与存储,经过一段时间流动直到过时被删除。DLM产品的数据流动处理过程是自动化的,通常根据指定的策略将数据组织成各个不同的层,并基于关键条件自动地将数据从一个层移动到下一个层级。
数据的安全性是当今最热点的话题,笔者从事的医疗大数据行业,数据安全一直最为首要的问题。世界各国已经立法保证数据安全,其中法案中比较严格的是2018年5月25日欧盟颁布的《一般数据保护法案》(General Data Protection Regulation, GDPR)。
GDPR规制的行为主要针对个人数据的处理行为。
个人数据包括姓名、身份证号码、手机、定位数据等常规个人信息,同时也包括种族、生理、遗传、健康、心理、政治观点和宗教信仰等个人敏感信息。个人数据处理是指针对个人数据的任何操作行为,这必然也包括采用自动化方式的各种处理行为,如用户画像的自动获取等。
商业方面来讲,医疗数据治理本身就是一门生意,是所有临床产品构建的基础。
医疗数据治理通常来讲需要保证底层数据库不变,在底层数据库的基础上在搭建一套符合产品构建需求的数据体系。医疗数据治理可以与临床科研平台合并构成一个项目,买单方可能是医院本身,也可能是医院与药企合作的项目。
2. 临床科研平台建设
有了数据治理的基础,可以着手研发院内临床科研平台。临床科研数据平台是建立临床实践数据化的工具与复杂海量临床数据管理和利用的平台。临床数据经过整理、清理、装载、转换等过程,形成了蕴含丰富临床经验和临床规律的海量数据库。
它是“真实世界临床科研范式”的技术支撑,也是利用大数据实现临床科研变革的有力工具。在循证医学的基础上,通过此平台整合的不同研究中心、研究现场所产生的数据,形成蕴含内容极其丰富的大数据资源。临床科研平台属于一个工程项目,平台具有的功能应包含以下三个要点:
数据汇聚
多组协同
临床科研特征
临床科研平台建设过程中将通过自动化智能化代替手工整理临床疾病数据,完整集成病人院前院中和院后诊疗数据,实现对所有临床数据的深度智能化挖掘利用。
平台功能将有效促进医院临床研究发展和患者随访率,并大幅节省临床医生数据检索所需精力,利用其数据开展各类临床循证研究,可为优化和改进临床实践指南提供循证证据,并为转化医学研究提出新方向,同时利用“互联网+”技术实现系统智能化随访,监测该院的高危人群病人和跟踪疾病发展,提醒患者及时复诊,更好的为患者服务。
该平台建设还可促进区域临床科研数据管理发展,通过建立多中心临床科研数据中心,通过诊疗协同和信息共享,改善患者的诊疗结局;通过主动监测和随访,可以改善预后;也可作为卫生经济数据分析,为医疗政策制定提供咨询。
下图是作者参与的北京某大型三甲医院的医疗科研平台建设方案。
从底层的架构来讲以数据资源层为基础,针对院内各个独立的系统,在资源层上方构建数据治理与清洗层。
在数据平台层,按照研究方向不同,按照临床科研情况划分为不同的子项数据组,通过数据洞察层融合多种算法以及机器学习等人工智能技术。应用层主要集成各类产品,通常是根据医院的需求来制定。
3. 临床科研服务
临床科研种类繁多,针对已有数据开展的研究属于回顾性研究。临床科研服务与平台建设和数据治理密切相关。数据治理是所有工作的基础,平台建设属于临床科研的软件基础,基于上述的基础工作协助医生进行临床研究也是一项盈利模式。
利用以往数据进行的真实世界研究是一项典型的回顾性研究工作。近年来变得非常火热,其对于药企的经济利益甚至超过其科研价值。
还有很多与临床有关的服务内容,包括临床入组筛查、单病种闭环管理、单病种的DRGs服务等内容,将在与药企服务中讨论。
4. 影像辅助诊断与CDSS
医疗影像的人工智能产品,我想大家都不会陌生。医疗影像是医疗数据的重要组成部分,也是人工智能产品应用中最成功的案例。
由于在影像数据数据的研究中,可以利用算力最大程度的降低对医疗知识的依赖程度,所以通过影像大量数据进行训练后,可以得到影像的辅助诊断能力。影像类AI产品最重要的是图像数据的获取,有标注的、高质量的医疗影像成为各大公司能否胜出的关键资源。
图像的AI处理技术方面,本文不再讨论,都是非常成熟的技术方案,所有的瓶颈都在数据上。
影像诊断产品的商业模式方面并不成熟,当前最大的落地买单场景是医生的加速工具,由政府+医院+企业的PPP模式。这些与各地兴建的医疗影像中心的合作模式相似,在山东济宁就存集中的阅片中心,其中AI辅助产品作为加速阅片的工具之一。
临床辅助决策支持系统(CDSS)一般指凡能对临床决策提供支持的计算机系统,这个系统充分运用可供利用的、合适的计算机技术,针对半结构化或非结构化医学问题,通过人机交互方式改善和提高决策效率的系统。
CDSS是提升医疗质量的重要手段,因此其根本目的是为了评估和提高医疗质量,减少医疗差错,从而控制医疗费用的支出。临床医生可以通过CDSS的帮助来深入分析病历资料,从而做出最为恰当的诊疗决策。临床医生可以通过输入信息来等待CDSS输出“正确”的决策进行选择,并通过简单的输出来指示决策。
需要说明的是CDSS是一个大类系统的总称,在CDSS中大概可以分为以下几个类别,智能问诊、辅助诊断、辅助检验、治疗方案推荐、诊断质控、医嘱质量控制、医学知识库、药学知识库、处方审查等。
从技术上来讲,CDSS所使用的技术主要是以知识图谱以及自然语言处理两大类技术为主。对于临床知识图谱的构建,已经在业界讨论过很多。
根据不用的数据源,将疾病、药品、适应症、不良反应等数据相互联系,可以构成一个相对完整的医学数据支持系统。基于数据的积累与多元化发展,可以进行不同的AI能力训练,构成问答机器人、处方审查等不同的产品。
从商业上讲,CDSS的商业模式非常具有中国特色,在这期间涉及到几个问题。
首先是医疗数据是否上云,对于这个问题每个地方每个医院的看法都不尽相同。
第二个问题是中国医疗服务的总包模式。单纯的CDSS系统很难售卖,通常只能够包在大的医疗信息化项目作为一个模块打包售卖,而总包商可能根本就不是一个软件厂商,或可能是一个技术实施的运营商,每个企业都有自己的利益期望,所以项目的侧重点也有所不同。所以,单纯的CDSS还需要在整体信息化项目中实现变现。
总体来讲,本文是系列文章的第一篇,对临床大数据在医院方面的工作做一个概括。
但是,临床数据对医院的服务不会独立存在,必将与药企、保险、政府疾控、社会健康团体等部门联动构成横向项目,这样能才能构成有价值的商业模式。