关于 Scott F. Gilbert 的文章“Achilles and the tortoise: Some caveats to mathematical modeling in biology” 的评论
Swarthmore College 生物系的 S. Gilbert 在 Progress in Biophysics and Molecular Biology 发表观点文章[1],对生物中的数学模型提出5 点 caveats, 分别是:
1. Mathematical models are limited by the science known at the time.
2. Mathematical models can tell what can happen, not what does or did happen.
3. Real-world models can provide a better explanation than the mathematical model.
4. In abstracting reality, the things left behind can be very important.
5. Mathematics models can be Platonic rather than evolutionary.
这 5 点 caveats 有一定道理,对很多数学模型来说,确实有这样的问题,在我们解释或者应用数学模型的结果时是需要注意的。但是原文对这几点 caveats 的论述多有不准确的地方,如果通过该文而认为所有的数学模型有这些问题,那就有些以偏概全。在本文中,我将针对这5点 caveats 一一评述。希望能够通过讨论更好的理解数学模型在生物学中的作用和局限性。
Gilbert 文的摘要中写道:“However, there are certain dangers associated with mathematical modeling and knowledge of these pitfalls should also be part of a biologist’s training in this set of techniques. ” 如果作者把 mathematical modeling 仅仅看成是 a set of techniques, 我想这种看大是很局限的,没有真正了解数学模型的内涵。数学在研究中的作用从来就不是以一种“技术”出现的。数学对于科学研究的作用应该主要体现在两个方面:1. 数学体现的是逻辑思维方式(mathematical thinking),对于生物学(其他学科也是一样)来说,是一种能够帮助人们理解实验事实背后的逻辑关系的一种能力;2. 数学是科学的语言(formulation),是准确地表达人们对自然规律理解的最佳方式。数学对于生物学(包括其他科学)的魅力在于,他很好的表达了人们对自然规律的理解,并且通过逻辑的演绎去推断根据这些理解所可能得到的结果。对数学模型的理解和在生物学中的应用应该要放到这样的框架下去思考才可以看到更加本质的内涵。
对于作者所提出的 5 条 caveats,下面逐一评论如下。
1. Critique 1. Mathematical models are limited by the science known at the time.
我认为这句话应该修改为 Mathematical models are limited by our understanding of the science known at the time 更为合适。数学模型不仅仅是对我们所看到的世界的描述,而且是我们对世界行为背后的自然规律的理解的描述。这里的“理解”才应该是模型的核心,很多时候对相同的现象可以有不用的理解,因此就可以产生不同的数学模型,其中有一些是错误的,有一些是更加合理的。而人们对于自然规律(生命科学中的基本规律)的理解通常是渐进式,不断依赖新的发现而变化的。对于描述同一种现象的数学模型也是不断演化过程的。因此,对于数学模型这样的限制的并不是对数学本身的限制,而是因为人们对自然现象的理解的限制。
对于生物学来说,生物学家发现事实,探索生命的过程,所从事的工作很多时候是 discover the known science. 而对于这些known science 的理解,很多时候物理学家、数学家、化学家等可以发挥很大的作用,可以看懂生物学家所看不清楚的现象背后的规律。著名的例子就是 DNA 双螺旋结构的发现,从遗传物质的发现,DNA衍射图像的发现到双螺旋结构的发现这些过程,物理学家都在其中起很大的作用。另一个更加确切的与数学模型有关的例子是 Hodgkin-Huxley 方程的建立[2]。这个数学模型是描述神经元中动作电位发生机制的方程。这个方程的建立是基于当时 Hodgkin 和 Huxley 所进行的一系列神经元在电刺激下一系列反应所表现出来的电信号的动态信息。他们为了理解这一系列实验现象背后的机制,提出了离子通道的门控机制,并且根据实验数据给出了钠和钾离子通道门控机制的可能规律,由此并结合细胞膜的等效电路模型提出了著名的 Hodgkin-Huxley 方程。这个方程很好的描述了神经元动作电位的发生机制,并且预测了一系列的实验结果。而这个方程建立的时候,人们对于离子通道的结构一无所知,更加不知道门控机制的发生过程。如果当时 Hodgkin 和 Huxley 对所看到的电信号的变化没有去猜测背后的门控机制,而是去试图探索例子通道的结构和离子转运的细节过程的话,人们对于动作电位机制的理解至少要晚几十年。我想这个例子就是我们可以通过对 known science 更好的理解去建立更深刻的数学模型的一个例子。更有趣的是,后来人们发现这样的机制对于描述心肌细胞的电信号行为也是适用的。
2. Critique 2. Mathematical models can tell what can happen, not what does or did happen.
我认为作者认为 mathematical models can tell what can happen, but not what did happen 是片面的。对于统计模型也许确实如此,因为统计模型只能告诉你某件事情可能会发生的概率,而不能告诉你到底会不会发生。但是,还有很多模型是以确定性的方式给出来的,例如上面所提到的 Hodgkin-Huxley 模型,还有关于 Turing pattern 的反应扩散方程模型等。这类模型可以告诉你what can happen, 还可以告诉你 what cannot happen, 和帮你去理解 why something did happen. 所以,对于基于机制的数学模型来说,这句话应该修改为:Mathematical models can tell what can happen, and explain what does and did happen.
关于数学模型和实验的关系,如果通过简单的实验就可以预知会发生什么事情的情况,数学模型的引进并没有太大的意义,例如文章中所谈到的 X-linked disease 的情况。而对于一些有了实验结果,却不明白实验结果应该如何解释的情况,则可以通过数学模型的引进对可能的机制进行解释,从中挑选出更加合理的机制。例如,在发育生物学领域,关于 morphogen 的扩散机制,生物学家曾经提出不同的机制,后来经过数学模型的计算证实通过diffusion 的机制形成morphogen gradient 是最为可能 [3]. 对于这个例子的情况,数学模型不仅仅可以告诉我们 what did happen, 而且可以帮助我们理解为什么其它机制是不合理的。
当然,数学模型的提出需要根据实验事实给出合理的解释,而数学模型的合理性也需要能够经受实验事实的验证。当不同的模型都可以解释相同的实验结果时,我们就需要设计新的实验以区分不同的模型。在这种情况下,数学模型的建立需要随着新的实验事实的发现而不断进行修正,这也是我们认识自然规律必经的道路。但是,不能因为某些实验事实与实验不符合就否认数学模型的作用。相反,有时候通过数学模型与实验事实的偏差反而可以提醒我们去探索模型中所忽略或者错误假设的内容,通过对模型中的错误进行修正以达到更好的理解自然规律的目的。
3. Critique 3. Real-world models can provide a better explanation than the mathematical model.
这部分的标题有点不好理解。作者用了两个例子,分别是行星运动中的开普勒定律和引力解释,和果蝇胚胎发育中的binary code model来说明数学模型的局限性。然而,从摘要中的描述:A model does not have to conform to reality, even if it is logically consistent. 和这一节最后一句话:mathematics can give a model that explains that phenomenon, but which does not work as nature actually does. 我想想作者想说的是,数学模型可以解释很多事情,逻辑上也很符合,但是实际情况并非(不一定)如此。
作者的意思话基本正确,这也是很多生物学家不信任数学模型的一个理由。
我想说任何模型都是现实世界的一个近似,对于生物学领域的数学模型更是如此,没有模型可以考虑所有的细节。问题是,我们是不是需要考虑所有的细节?不同的模型对于所研究的问题来说,是否是有帮助的?我们举一个例子,物理学中的模型可以说是非常完善的,也是可以经受得住实验的考验的。但是,物理模型也是真实世界的近似。当我们需要研究常规尺度物体的运动(例如火箭的飞行,行星的运动等)时,通过牛顿力学所建立起的模型是足够的,当我们需要研究宇宙尺度的问题、黑洞和超大恒星附近的光线轨迹等问题时,则需要广义相对论所建立起来的数学模型,当我们需要研究量子行为时,需要考虑量子力学的数学模型。这些模型都是在某个尺度上对自然界非常好的描述。目前还不存在能够描述所有基本相互作用(4种基本作用力)的统一理论。即使有这样的理论,也不可能(同时也没有必要)用这样的理论去研究实际问题。
事实上,作者在这里用开普勒定律和引力理论论述他的观点是很不合适的。开普勒定律是根据天文观测数据所归纳出来的行星运动的规律,万有引力定理是可以根据牛顿第二定律和开普勒三大定律严格推导出来的,是对所观察到的规律的理论提升,在承认牛顿第二定律的基础上,这两者是等价的。然而,开普勒三个定律仅仅是对所观察到的行星轨道的规律的总结,这些规律对于更加广泛的范围是否可以成立是无法判断的,对于难于观察的行星轨道的预测能力更加是无从说起。而当我们有了万有引力定律以后,不仅仅可以很好的解释开普勒的三大定律,而且还可以很好的预测一些行星的运行轨道,例如彗星出现的时间,冥王星的发现,登月火箭的运行轨道等等。作者说万有引力定律不能解释为什么行星选择了我们可以看到的轨道,这个又涉及另外一个问题,关于行星的形成过程的数学模型,这个数学模型可以通过对万有引力定理的推广并考虑到包含星系形成过程中物质分布变化的数学模型来解释。
而作者提供的第二个例子,关于果蝇胚胎发育过程中的pattern formation 的问题,在初期是通过比较简单的binary code model 来描述的。后来发现了很多相关的基因和调控因子,根据这些调控关系所构建数学模型很好的解释了相关的实验现象[4] (Fig. 2)。
对于数学模型与现实的差距,还是需要回到第一点关于数学模型的限制来理解:
Mathematical models are limited by our understanding of the science known at the time.
数学模型与现实的差距,主要是来源于我们对现实世界的理解的差距,而不同的人在建立数学模型时的实验事实的理解和所提出的假设。有经验的应用数学家会通过对所研究问题的洞察力提出合适的解释,和对背后机制的大胆猜测。能不能对机制给出合理的猜测是衡量一个数学模型的工作是否成功很重要的指标。这方面有很多成功的例子,例如Hodgkin-Huxley 对于例子通道门控通道的机制,图灵对于 morphogenesis 形成斑纹结构的机制的猜测,海森伯格对于湍流形成的 energy cascade 机制的猜测,林家翘对于星系结构形成的密度波理论的猜测等。具体到生物中的数学模型,考虑到生物系统的复杂性,我们对生物过程的研究只能限制在一定的范围和条件下进行思考。对所研究的问题是否可以提出合适的猜测,需要数学家与生物学家的密切合作与讨论,并且通过不断的模型预测和实验验证来进行修正才能达到最终的结果。在这个过程中,双方的信任与合作是最为重要的。
此外,每个数学模型都有明确的适用范围,如果用超出模型本身适用范围的事实来否定某个数学模型,这个是不合适的。对于数学模型的适用性的问题,应该从几方面来考虑:(1)数学模型中所提出的假设是否在一定范围内是合理的?(2)数学模型的适用范围是什么?(3)对于模型中不合理的假设,或者超出使用范围的部分,应该如何进行改进?
4. Critique 4:In abstracting reality, the things left behind can be very important.
这个观点部分是正确的,特别是对于生物这样的复杂系统,我们在建立数学模型的时候必须要做一些简化和抽象,这种情况下以后会有一些内容是无法考虑到的。问题是这些没有被考虑到的因素对于我们所关心的问题来说有说明重要?通常来说,数学家在建立数学模型的时候会对所研究的问题的不同因素进行选择,选择他认为比较重要的因素进行建模。而这个过程是比较主观的,因此不同的人在建立数学模型的时候所考虑的因素可能是不一样的,因此也就有可能在某些模型中会遗漏一些重要的信息。另一方面,有时候限于我们目前的技术手段,无法发现重要的因素,因此在建模的时候就会遗漏。这些问题对所有的研究都是会面临的,并不是数学模型独有的缺陷。当某些数学模型(或者理论)遗漏一些重要的因素的时候,这也是我们作为研究人员的机会,我们完全可以以此为出发点将所需要考虑的重要因素补充到原有模型(后者理论)中,去发展出新的理论。
5. Critique 5. Mathematical models can be Platonic rather than evolutionary.
对这一部分我不确定我是否可以完全明白,作者似乎在说数学模型只能用来描述比较理想的状态,而对于复杂多变的环境和长期演化等问题是无法描述的。正如作者所说: But one must remember, that mathematics can only model regularities, and that evolution has a large component of contingencies.
对于这一点,我想从两个方面来说明。首先是从数学方法的角度来看,数学是可以描述更复杂的情况的,包括环境的变化,系统的演变等等,所采用的数学模型的方法包括随机动态规划、随机动力学、复杂系统动力学等等。另一方面,从我们对生物世界的认识上来说,数学模型不能无中生有,它不能对于人们不了解的事实或者系统给出更好模型。例如,如果我们对于生物现象中某些复杂的行为背后的机制不清楚,无法提出合理的假设,那么就无法建立合适的数学模型。数学模型不是变魔术,不能随意去研究不能提供合理机制的过程。
上面是对于 Gilbert 文章关于生物中数学模型的 5 点 caveats 的评论。最后,从应用数学的角度来看,生物中的数学模型与物理中的数学模型并没有本质的区别,虽然研究对象不同,但是研究方法、思路和过程是没有本质的区别的。下面分享应用数学家林家翘先生对于应用数学研究中建立数学模型的 General Themes,唯有领会这里所提出的 General Themes 才能体会数学模型对于不同学科的作用。
General themes of applied mathematics -- From handwriting of C.C. Lin
参考文献
1. Gilbert, S. F. Achilles and the tortoise: Some caveats to mathematical modeling in biology. Progress in Biophysics and Molecular Biology 137, 37–45 (2018).
2. HODGKIN, A. L. & HUXLEY, A. F. A quantitative description of membrane current and its application to conduction and excitation in nerve. Bull Math Biol 52, 25–71; discussion 5–23 (1990).
3. Lander, A. D., Nie, Q. & Wan, F. Y. M. Do morphogen gradients arise by diffusion? Dev Cell 2, 785–796 (2002).
4. Morelli, L. G. L., Uriu, K. K., Ares, S. S. & Oates, A. C. A. Computational approaches to developmental patterning. Science 336, 187–191 (2012).
==========================================================================
英文版发表于 Mathematics in Applied Sciences and Engineering, Vol. 1, No. 1, 2020, pp. 85-90.
VIEWPOINTS ON MODELLING.pdf