2.13 医学与生命科学的发展三：大数据的应用与挑战_观点_爱国

伴随着信息化、自动化在医学与生命科学的推广与深入,从时间与经济成本的角度而言,统计的数据变得更加易于获取：在广度上获得了大幅的扩容，比如不同的检测的指标或特征；在数量上获得了大幅增加，比如病患的统计数等等。对于普通人而言，探病问诊时更关注的是如何治疗的部分，也就是说人们更在乎解决问题的方案。（大）数据的应用可以解决一些什么问题呢？

《自然》杂志的社论提到，科学应该更多地更好地服务于普通人，“很明显，推动现代科学发展的日程与兴趣并没有很好地服务于美国的数以百万计的人口（和世界上数以亿计的人们）。很多的报告显示，比如说，在人类基因组计划的公共投资，的确在创造公司与工作等方面中取得了不俗的成绩；（这些公共投资）理应渗透到社会中去，但某种程度上可以说，这些科学发现的好处更多有利于富人——研发了大多数人所无法负担的新药。”[1] 相对而言，统计数据本身便来源于广大的普通人，所以挖掘出来的信息，更加自然地承担了服务于大众的目的。

医学与生命科学建立在经验科学的基础上，它的一大任务是从常见的症状，化验与测试的数据，推断出病人的疾病，从而找出合适的医治方案。统计或者机器学习的一大任务，是从已有的数据中建立模型，从而用于推测与预测（注：预测forecast，相比推测一词，更强调时间上的未来性）。统计与医学学科具有天然的相似性和紧密联系，例如医治的方法与手段很大程度来源于是从病患的成功或失败的统计数据中积累的知识，甚至人们重视的医生的经验也直接与统计相关。

与生命科学的大数据直接相关而又耳熟能详的是人类基因组计划（Human Genome Project）。二十多年前，因为经济条件的限制，中国的科学家完成了1%的测序任务。而这1%的开端，培养了很多的中国科学家以及帮助建立了行业领先的华大基因等公司，实现了在基因组学领域研发的迅速追赶，为现代化的生命科学研究提供支撑。基因组学的研究也越来越多将在临床得到应用[2]，比如孕检的时候对婴儿胚胎的染色体进行检测，排除唐氏综合征的进行优生[3]，癌症的诊断（或者筛选）也一直在研究，也取得了进展[2]。我们也必须关注，利用基因测序结果对疾病进行筛选的伦理学的考量。美国的一些医疗保险公司过去可以针对一些既有身体状况（pre-existing condition）免于赔付，2010年以后的医保法案禁止了这种对既有身体状况的歧视，但是吸烟者的医保费用依旧高于非吸烟者（这也是可以理解的，吸烟是自己的主动选择，而既有状况则是被动的）。如果法律更改，利用基因测序罹患癌症概率较高的人，担忧会不会需要缴纳更高的保费。我们需要防止基因测序结果被保险与保费挂钩的行为，因为否则人们反而不愿意检测或进行预防保健，更加增加了社会的长远的医疗负担。

前华大基因的首席执行官，基因组学领域的科学家王俊在接受《自然》采访时说道。“基因组学是重要的，但它也只是解决问题的一个方面。复杂的生物特征，神经退化性疾病，癌症，糖尿病等都不仅仅与基因相关，如果我们只讨论基因组学，只讨论不涉及临床信息的大量数据，那是不够的。”[4] 研究人员也开始利用自然语言处理（natural language processing）的技术，在电子病历或者诊疗记录中寻找合适的符合描述的临床试验对象，利用机器学习帮助设计临床实验的步骤规范（protocol），改进加快研发药物。[5]

大数据的广度特征，例如大脑的断层扫描的影像因为过多的维度（比如每个像素的信息），个人难以从中找出有意义的规律或者特征，便可依赖于大数据的机器学习去识别用于区别是否健康的大脑的特征。[6] 更多的机器学习的算法被运用在日常的医学诊断中，一个广泛应用于实际场景中的算法是决策树（如图1所示）。实际上医生判断病人症状的过程也很类似一个决策树：从病人描述的症状与检测数据，通过逐层的条件判断（是否发烧、是否头疼，白细胞数量等等），逐一验证是否符合条件，而最后达到某种疾病的判断（比如情况丙）。在积累了更多的病患的数据以后，决策树也可以在急诊分类中运用。心肌梗死是一个很容易导致死亡的疾病，而一个常常与之伴随的症状是胸痛，但胸痛并不一定是心肌梗死。急诊过程中，因为时间紧迫需要快速决策，需要确定一些主要判断条件，而增加确定心肌梗死的概率，有效地运用紧缺的急救医疗资源。在潜艇中，决策树也运用于用于判断水兵的医学需求，指挥员需要在队员健康与军事隐秘性之间做出平衡，决定上浮送往医院治疗的时机。[7]

图1. 一个决策树的示意图。

医治过程大致可以为诊断与治疗两个步骤（当然，第二步的治疗涉及对疗效的观察，再次诊断与更新治疗手段）。上文中我们主要讨论了诊断（或预诊断，疾病早筛等），而由于变量数目的多寡，治疗过程中的应用展现出了截然不同的特征。诊断的过程主要依赖于医生的问询与检测数据，更多维度的检测数据一般对诊断是有用的。（注：因为特征变量过多而在机器学习中产生的过拟合问题，一般也可以通过剔除变量，而得到合适的模型）。相反的，在治疗过程中，诊断过程中的采用的检测数据很多是无法直接控制的变量（比如决定是否肥胖的身高体重，血型、血红蛋白数目等等），可控的变量数很少，大致有医生所使用的物理手段（如放疗、手术等）、或者化学手段（服用不同药物等）。这样一种数据从高维度特征塌缩到低维度可控变量，给大数据在治疗中的运用产生了很大的挑战。自然科学（物理化学生物等等）的传统知识，对机理的理解来源于可控变量的实验，依赖于还原的想法（reduction，精简减少变量）。一个图像识别的程序依赖于1000多个变量，可以产生比较精准的预测。那么这个模型更多具有工程性的意义与应用，但是很难给出科学的解释，尤其是机理的解释。一个难以从机理上解释的模型较难运用到病医学上的治疗，这也是为什么治疗或者药物研发，相比信息技术的研发更加困难的一个原因。这种变量数目的差异也有些类似中医和西医的不同。中医强调整体性，更多运用于预防疾病和长期养生；西医强调可控变量，通过耦合（牵连）较少的手段，主要目的在于寻找一些立竿见影的医疗措施，或许中医在大数据时代会有新的发展。

我们可以在不同省市设立若干家医疗数据中心:把临床的可控手段或治疗方案的数据，与更加低成本的检测的数据有机结合起来。筛选一些临床疾病的测试者，将治疗的实验手段与检测数据建立更加有解释力或者机理性的模型，从而加速临床医学与大数据的结合。而这些医疗数据中心，也可以和传染病的疾控中心的数据联合起来：在流感等传染病的高发季节，更多进行传染病传播趋势的预测，改善公共卫生与健康；在流行病低发季节，可以多从事临床医学研究，而且备份医疗电子病历的数据，建立机器学习与统计的数据与模型。建立一个工业或者经济中心带需要企业、人才、市场交通、时机、经济政策与措施等面要素，纽约、东京、珠三角、长三角城市群都经过了非常长时间的积累发展，在各方面的作用下产生。在不同省市建立若干长期的研究中心，需要的因素并没有那么多，大约需要对人才有吸引力，以及配套的教育资源、医疗资源、和一些生活资源。或许这些医疗数据中心会成为未来信息技术与医疗的初创企业的孵化器。

越来越多的科技公司，因为在机器学习与大数据等统计分析领域的技术优越性，而涌入医疗与健康领域，期望在这个新的领域获取新的利润与发展。这些庞大的科技公司，具有跨越不同平台的数据，比如智能家居、手机可穿戴设备的健康数据、搜索数据、地理信息、汽车行驶数据等等，而越来越让人担心全方面的个人隐私被企业所掌握。《自然》的一个评论文章，呼吁“停止健康数据的（企业）私有化”[8]。在研发如何使用大数据的改善人医疗与健康的过程中，我们也需要提高公众意识，邀请大众参与数据处理与运用的伦理与法律监管的讨论中来。科技作为一个改善人类生活水平的工具与手段时，并不自带价值观，才能更好地服务大众。

引用文献：

[1] 超越科学的泡沫，《自然》，542卷，391页，2017年，Beyond the science bubble. Nature, vol. 542, p.391 (2017).

[2] 杰·沈杜尔，山卡·巴拉素巴拉玛年，乔治·车池，沃尔特·基尔伯特，简·罗杰斯，杰弗理·肖罗斯，罗伯特·沃特斯屯，DNA测序四十年：过去现在与未来，自然，550卷，345页，2017年。 Shendure, Jay, Shankar Balasubramanian, George M. Church, Walter Gilbert, Jane Rogers, Jeffery A. Schloss, and Robert H. Waterston. "DNA sequencing at 40: past, present and future." Nature vol. 550, (2017): p.345.

[3] 埃里克·格林，爱德华·卢彬，梅纳德·奥尔森，DNA测序的未来，自然，550卷，179页，2017年。Green, Eric D., Edward M. Rubin, and Maynard V. Olson. "The future of DNA sequencing." Nature, vol. 550, p.179 (2017).

[4] 戴维·赛兰诺斯基，中国的基因研究大国的投标，自然，534卷，462页，2016年。Cyranoski, David. "China’s bid to be a DNA superpower." Nature vol. 534, (2016): p.462.

[5] 马库思·吴，人工智能推动临床试验，自然，573卷，S100页，2019年。Woo, Marcus. "An AI boost for clinical trials." Nature vol. 573, (2019): S100.

[6] 内尔·萨维奇，数字助手助力于疾病诊断，自然，573卷，S98页，2019年。Savage, Neil. "Digital assistants aid disease diagnosis." Nature, vol.573, p. S98 (2019)

[7] 马尔科姆·格拉德威尔，眨眼之间：不假思索的决断力，贝克湾图书，2007，p125-136页。Gladwell, Malcolm. "Blink: The power of thinking without thinking." Back Bay Books (2007), p125-136

[8]约翰·威尔班克斯，埃里克·托普尔，停止健康数据的私有化，自然，535卷，345页，2016年 Wilbanks, John T., and Eric J. Topol. "Stop the privatization of health data." Nature vol. 535, (2016): 345.

快好知 kuaihz

2.13 医学与生命科学的发展三：大数据的应用与挑战

2002年发表的“域外新书——她...

两年研究生经历了两位导师：兼谈研...

欧美国家为什么对新冠肺炎无动于衷

最新