关于传染病的流行规律,作为一种最简单的考虑,我们通常可以假设一个患者的可传染时间为τ(从他具有可传染性到被隔离之间的时间),他每天可能传染的人数为n(等于他每天接触的总人数和感染概率的乘积)。那么由他所引起的感染总人数为R=nτ,R被称为感染倍乘系数。这些参数肯定是因人而异的,但统计上我们只需要考虑所有人平均的效果即可。那么,由一个人引起R个人感染,这R个人再引起R平方个人感染,R平方个人再引起R三次方个人感染,依此类推形成一个等比数列。对此等比数列求和可以得到t时间被感染的总人数为:
这里假设人群的总人数远远大于感染人数,所以暂时不必考虑感染的交叉重叠效应。在R(或n)和τ基本为常数且R>1的情况下,上式明显具有指数函数的形式。当R<1,上式可收敛于N(t0)/(1-R)。因此,对于疫情爆发阶段的数据(每天发布的确诊感染总人数),在纵坐标取对数的情况下,将表现为一条上升的直线,如下左图所示(1月19日至28日的数据):
通过拟合这些数据,原则上就可以限制得到R(或n)和τ的取值范围(如上右图)。当然,由于数据的波动(误差),参数取值就可能存在较强的简并性。而当数据的走势偏离原有直线的时候,就表明这些参数特别是R的值发生了显著的变化。更直观来看,通过将N对t求导,我们还可以得到:
当然,对于R值随时间变化的情况,简单的等比数列求和公式实际上是不适用的。不过作为一种简单的估计,对于R>1的情况,我们仍可以依据上式利用每天的增量除以前一天的总量来察看R值随时间的变化(假设τ值不变):
从下图可以看到(取τ=4天),大概从1月28日开始,R的数值一直在连续减小,说明防控的效果还是非常明显的。并且,R值在逐渐趋向于小于一。
需要注意的是,一个人从被感染到发病再到被确诊大概至少有一个星期的时间间隔(包括由于医疗条件的限制等原因)。换句话说,公布的确诊人数相对于传播过程来说具有明显的滞后性。1月28日数据显示的R值显著降低基本上应该是反映了1月20-21日时的传播情况,当时疫情开始受到公众的高度关注,民众开始采取戴口罩等防护措施。粗略来看,除开20日之前的数据(非常不清楚,且时间滞后性也不同),1月20日之后的数据大概经历了三个不同R值的阶段,这一点也可以从确诊人数的增长数据中直接看出来,如下图:
仔细一点看,目前是武汉市的增长还相对比较快,其它地区的增长势头都已经显著下降了,不同区块人数相对比例的变化可见下图:
原则上讲,医疗条件的限制会影响数据的产生时间,造成波动(如武汉人数在27日的急剧跳变),但不会使数据消失。而总得看来,与分段的指数增长趋势相比较,数据的波动性不大。从这一点来看,我认为数据受人为干扰的影响较小,是可靠的,最大的测量偏差估计不会超过7%(1sigma水平)。
总的来说,截止目前的数据显示,当前的疫情正在被有力的控制。鉴于确诊数据的滞后性,可以相信目前实际的R值很可能已经小于1了(将在数天后的数据中展现出来),之后将进入增长收敛阶段。但是,即使目前增长变缓,也仍然还是增长,且持续的时间尚不可完全预见(如果按照目前的趋势,也许会在接下来的半个月内实现停止增长)。所以,无论如何,防控措施不可松懈(特别是武汉市还比较严峻),不然很可能会发生反弹。
(数据来源:国家卫健委和湖北省卫健委网站)