1978年以来,经济保持了近40年的高速增长,在由计划经济向市场经济转型的过程中,中国借鉴了其他发达国家的成功经验,同时由于自身的特殊性,也采取了一系列具有中国特色的改革措施。一方面,中国幅员辽阔,地区之间差距巨大,很难实施“一刀切”的政策,中央政策必须充分考虑地方特色;另一方面,中国具有长达数十年的计划经济历史,改革存在严重的路径依赖,增量改革相对来说阻力更小。这意味着,我们的改革经验是在不断摸索过程中积累起来的,每一项公共政策的推出都是经过了充分的事先试验和事后总结,首先这必然要求决策层具有改革的智慧,能够举重若轻挑选出最有效率的改革方向,其次也要求决策层对改革的效果能够达成共识。此时的任务,就是如何科学量化政策的效应,如何确保此项改革试验没有包含其他政策的干扰。
自20世纪90年代开始,中国的经济改革逐渐呈现“顶层设计”的特征,可以说这个阶段的改革任务更加艰巨。顶层设计对每一项政策的目标要求更高,严格来说,这样的改革模式对失败是零容忍的。因此,决策层对改革的效应必须有非常充分的预判。无论是早期的试验性改革,还是近期的顶层设计,都提出了一个共同要求,那就是对政策效应的科学评估和预判。而政策评估,特别是基于试验设计的评估方法,正是经济学近30年来的前沿方向。大力普及、推广科学的政策评估方法,对时下中国的改革显得非常必要。
对这些方法的普及,首先要求相关的政府部门在思想上提高认识,明白错误方法带来的危害,这些危害有时候会导致一些好政策难以落地;其次,各决策机构和地方政府要有较高的包容性,有一些政策的评估,对相应的制度设计要求更高,相关的机构要能够理解这些前提条件,必要的时候还需要配合研究人员对政策进行调整,以满足“科学”这个重要条件;最后,当面临多个政策之间的优劣选择时,要建立以科学评估为基础的政策选择机制,从而更加精确地制定出相应的政策细节。
本文分三部分逐步展开对科学评估方法的介绍。首先,本文从逻辑上阐述科学评估方法,特别是强调一些基本的逻辑错误;其次,参照我国常见的三种改革模式,提出相应的三种常见评估方法,并举实例进行阐述;最后,重点说明这些方法的局限以及应用过程中的谨慎解读。需要特别强调一下,本文所有内容都是初步的介绍,任何一个方法背后都有非常完整的统计学理论作为支撑,读者若对这些初步的介绍感兴趣,可以尝试阅读一些更为专业的知识。如果是决策部门的同志,对基本方法的框架有一个基本了解,应该就足以引起重视,重视才是开展科学评估的前提。
一、科学评估方法的基本逻辑
从科学的意义上来说,评估一项政策的实施效应其背后的基本逻辑应该是:在给定其他条件相同的情况下,实施政策后的表现(例如价格)与假定没有实施政策后的表现的差异。这句话虽然很简单,但其背后的前提条件是非常苛刻的。举一个通俗的例子,假定我们要评估的是大学教育对工资的贡献度,我们可以造一个时空穿梭机器,首先让某人在现实中读大学,然后记录他工作时的收入A,接着我们用时空穿梭机将他再送回去,这次不让他上大学,记录他另一个平行世界中的收入B,则A-B就是此人上大学的教育回报。在政策评估的方法论中,这个例子中的B就是A的完美的反事实对照组(Counterfactual),也就是说,一旦其接受政策干预,则表现是A,如果没有接受政策干预,结果就是B。
但是我们知道,上述例子在任何的学科领域都是无法实现的,因为历史都是单线程往前发展的,理论上我们无法构造出一个完美的平行世界,因此我们就无法获得一个政策实施后的反事实对照组。在现实世界中,一个人要么受到政策的干预,要么就是没有收到干预。以上大学为例,现实世界中的某个人,其只可能占据两种状态的一种,要么真的上大学了,要么就没有,我们无法看到一个人上大学状态下的反事实(没上大学),也无法观察到没有上大学人群的反事实(上大学)。因此,如果从一种极致的科学评估的角度来看,严格来说是无法从这个例子中去评估上大学的效应。
自然而然,我们经常采取的方法是,直接比较那些受到政策干预的人群和未受到政策干预的人群的差别,将这个差别等价于政策实施的效果,这种简单比较的统计方法,其背后包含了一个极其苛刻的要求,那就是用未受到政策干预的人群作为政策干预人群的反事实,这句话的潜台词是说,如果那些受到干预的人群没有收到干预,其结果应该与未受到干预人群的结果是一致的。很遗憾的是,在大多数的现实政策中,这一前提条件往往是无法满足的,从而导致了整个评估结果的巨大偏误。举例说明,医疗卫生支出是政府需要大力进行资助的领域,但是作为决策层来说,任何的决策都是一种权衡和选择,用在医疗卫生领域的多了,用在教育、基建等就必须减少,因此在做具体的决策之前,就需要准确评估医疗卫生对国民健康的改善程度。我们可以采取随机抽样问卷的方式,询问一个人在过去一周是否去过医院,这个问题会呈现两种状态,如果去过医院,则是受到了医疗的干预,如果没有去过,则是未干预组;同时,我们还让接受问卷的人回答其自评健康程度,健康程度分为5档,1至5分别表示健康程度由差到好。最后,我们将调查的结果分组汇总起来,就得到如下的统计表格。
由于是随机发的问卷,去医院的只占全部人群的一小部分,因此在近10万份的问卷中,仅有7774人是去过医院的,剩下的90049人是没有去过医院的。我们将去过医院的人群的健康程度取均值,其健康程度是3.21,而没有去过医院的人群的平均健康程度为3.93。采用简单对比的办法,我们会得出医疗恶化健康的错误结论。正如上一段所说,当我们简单地将处理组(去医院)和控制组(没去医院)进行对比时,其背后隐含的假设是,如果去医院的那些人没有去医院时,他们和那些真正没去医院的人群的健康程度是相同的。我们假定去医院的人是生病了,而没去医院的人则没有生病,前面那句话的意思是,生病的人和没有生病的人,他们的健康程度是相同的。显而易见,这个前提条件是无法满足的,假设那些去医院的人没去医院,他们的健康程度也远低于实际上没去医院的人。因此,没去过医院的人群不能作为去过医院人群的反事实参照组。由于没去过医院的人群的健康程度更好,因此这种简单对比会严重低估医疗的效应。在表1的例子中,健康的效应应该是正向的,但由于低估的程度非常大,超过了理论上的正向效应,简单对比就会得出负向的健康效应。
另一种经常犯的错误是,简单对比政策前后的差异,并将这种时间上的差异等价于政策效应。这种纵向对比,其背后隐含的假设是,一旦没有实施该政策,该时间节点之后的表现应该与之前完全一致,因此将节点之前的表现作为节点之后的反事实参照组。但在实际的经济社会中,至少有两大类因素会使得这个假设不成立。一是时间趋势,即某些因素会随着时间的推移逐步增加或者减少,比如人的年龄、一个国家的CPI等,即使没有相应的政策干预,这些因素也会呈现一定的时间趋势,因此政策干预前的CPI并不能作为干预后的反事实参照组。二是共同冲击,这类因素往往是在国家层面统一实施的宏观调控,共同冲击会使得我们关注的指标也发生变化,而这种变化往往与政策效应是混合在一起的,很难将其单独分离出来。
我们以2011年实施的房产税试点政策为例,来说明纵向对比的偏误。2011年2月份,为了遏制房地产价格过快上升的势头,我国开始在部分城市进行房产税的试点,选择了上海和重庆两个试点城市。与其他税种不同,房产税是在持有环节征收,等价于增加了房屋的持有成本,理论上与提高利率的作用渠道是类似的,可以挤出一部分投资性的需求,进而发挥调节房价的作用。当然,房产税还有其他更加重要的作用,例如为地方政府筹集可持续收入等等,因此该税种自试点开始就被寄予厚望。但实际结果看上去却是不尽人意的,决策层和舆论界都认为房产税试点没有起到遏制房价的作用,这种结论的来源正是简单的纵向对比。如图1所示,重庆的房产税试点从2011年2月开始,但是我们并没有看到重庆房价在试点时出现过下降,相反,试点当年的房价反而上涨了11%,看上去重庆的房产税政策并没有使得重庆的房价下降,因此,就得出房产税无效的结论。
这种简单的对比是错误的,房价没有下降并不代表房产税没有效应,两者不可以简单地等价。按照科学意义上的评估方法,房产税的效应应该是比较重庆实际房价和假设没有房产税时的房价,当我们简单对比房产税前后的实际房价时,就隐含了一个重要的假设,那就是假设没有房产税时,重庆2011年的潜在房价水平应该跟2010年相同。但由于存在时间趋势和共同冲击两个因素,重庆2011年的潜在房价水平应该远远高于2010年。通俗来说,有房产税时的重庆房价上涨了11%,假设没有房产税,重庆的房价可能上涨了15%,此时4%的差距(15%-11%)才是房产税对房价的遏制效应。现实世界中,我们是无法知道假设2011年没有房产税时的重庆房价,不过我们还是可以大体上用其他城市的房价对重庆的趋势进行判断,与重庆相邻的成都市,其2011年的房价上涨了13%,是大于有房产税的重庆市的房价上涨幅度的,趋势上来说,重庆的潜在房价上涨幅度应该是超过11%,房产税政策是有效果的。因此,简单进行纵向对比,严重低估了重庆房产税政策的效应。
政策评估的科学方法,其本质上是要找到反事实参照组。反事实参照组要满足两个基本条件:一是要保证呈现反事实的特征,即一旦实验组没有受到政策影响,实验组的结果应该与反事实组是完全一致的;二是反事实参照组不能受到实验组的影响,即那些受到政策干预的人群不能把这种影响传递给其他人,理论上是允许实验组内部的互相影响,但如果这种影响外溢到参照组,无论这种外溢是主观还是客观原因,都会导致对政策效应估计的偏误,一般情况下都是低估了政策的效应。例如在房产税的例子中,重庆和上海实施了房产税之后,如果这些城市居民可以非常容易地到其他城市购房的话,那么在重庆和上海的房产税政策的效应就外溢到了其他城市,不过幸运的是,由于大多数城市都对非户籍居民采取限购房产的政策,因此房产税的外溢效应是比较小的。
显然,按照“穿越剧”的方式构造反事实参照组是不现实的,不过我们还是可以基于这样科学的视角,采取其他类似方法来构造一种近似的“穿越剧”。常见的构造方法有两类:一是通过数据筛选的方法,二是随机试验的方法。数据筛选的最佳例子是同卵双胞胎的数据,这一数据构造借鉴了医学和药物学的科学方法。在药物进入临床应用阶段,需要对药物的实际效果进行评估,因此需要招聘一些志愿者来服用药物,但是不能简单根据志愿者报名的情况直接进行药物试验,因为我们无法排除志愿者自身的特征对药物作用的影响。因此,在最理想的情况下,药物公司需要招聘一些同卵双胞胎的群体,给予双胞胎的其中一个服用药物,而另一个则不服用,在一段时间之后再评估他们的各项指标。不过,这里面还要进一步排除心理因素的作用,即那些服用了药物的双胞胎个人可能因为自我心理暗示,导致实际作用大于药物作用,这样也会高估药物作用。因此,一个完美的实验,除了需要双胞胎的组别之外,还不能让参加的那组人干扰药物实验,如果这样的话,则还需要进行安慰奖检验(Placebo test)的设计。具体来说,就是要给予双胞胎组别同时服用,其中双胞胎的一半服用真实药物,另一半服用一种外形无差别的糖丸,双胞胎的两方都以为自己服用了药物,心理干扰因素的作用对两方同时存在,他们事后的差异就完全是药物的作用。
第二种构造反事实参照组的方法是随机试验,更准确地说,是随机干预实验(Randomized ControlledTreatment,
RCT)。该方法最近几年在发展中国家非常盛行,由于其相对清晰和简单的实验设计,也被世界银行大范围应用于一些扶贫项目的效应评估。这一方法的核心在于“随机”二字,采用的是统计学的原理,即如果可以用随机的方法来选择哪些人群接受政策干预的话,同时保证受政策干预的人群数量足够大,那么从统计学上,就可以将随机分组的结果等同于政策效应。我们同样以表1的就医为例,如果采用随机试验的方法,应该是针对那些有就医需求的所有人群,通过抛硬币的方法来决定是否可以去医院,例如当抛硬币为正面时,就可以上医院,如果为反面,则不能上医院,由于抛硬币的正反面结果是一个随机冲击,因此对那些有就医需求的人群通过抛硬币的方法,就是一种随机分组,我们事后来评估有就医需求并去医院(正面硬币)和有就医需求并没有去医院(反面硬币)的健康差异,就是医疗对健康的实际改善程度。
这两种构造反事实组的方法虽然能够满足科学评估的要求,但在政策评估方面的应用性不强。同卵双胞胎的数据筛选方法局限于就业和收入方面的应用,例如可以评估教育(上大学)或党员身份对收入的影响,但由于绝大部分同卵双胞胎都在同一个辖区,大多数的政策又是对该辖区进行全覆盖,因此很难找到同一组双胞胎受不同政策影响的数据。随机试验方法的应用性比数据筛选方法好一些,但也存在另外两个问题:一是面临伦理难题,例如前面的就医例子,采用抛硬币的方法,就是一个伦理问题;二是很多随机试验,在操作过程中很难完全满足随机性的要求,为了操作便利性,一些随机试验并不是在个体层面随机筛选,而是在村镇甚至更加总层面的随机筛选,这就在一定程度上损害了该方法的科学性。
二、常见的几种评估方法和案例剖析
绝大多数的政策并不是根据评估的要求来实施的,因此政策评估的数据并不是一种实验数据,而是一种观测数据,即政策实施之后收集的数据。在大多数情况下,政策评估方并没有直接参与到政策的设计和实施过程,无法按照科学评估方法的要求来构造和生产数据,因此任何利用观测数据的政策评估就必须非常小心和科学论证,针对不同的数据结构和政策类型采用不同的评估方法,并反复检验该方法的适用性。
根据政策实施的过程,可以将一个国家或部门的政策分为三类,不同的政策类型刚好对应了不同的评估方法。第一种是“先行先试”的政策,这类政策往往是决策层无法准确预判其社会和经济影响,政策的容错空间小,需要挑选一些地区或者行业做政策试点,如果试点的效果比较理想,则可以在全国层面推广,反之则不推广。例如,2016年5月1日在全国实施的“营改增”,就是在2012年开始进行试点的,1994年至2012年增值税和营业税并存的状况,严重阻碍了制造业和服务业的分工和发展,也导致了服务业的重复征税问题,因此将服务业的营业税改为增值税就显得非常必要。不过,这样的政策影响深远,具体政策细则上的细微差别就会对相关行业带来致命影响,并且如此重大的税制改革也会在短期和长期产生完全不同的效应,因此就需要预留一些时间窗口来观察实际影响。于是2012年1月1日在上海挑选了“1+6”个服务业行业首先进行试点,然后再逐步将这“1+6”行业推广到八省市和全国,再逐步扩围至电信、邮政等行业,2016年5月开始覆盖房地产业、建筑业、金融业、生活服务业最后四个行业,这样就完成了从先行先试到全范围推开的过程。
第二种政策是“一刀切”,这类政策的实施往往是因为一些外在条件限制,无法在全部范围内实施,需要集中资源重点发展某些地区或者某些行业。“一刀切”的政策有两个要点:一是其门槛是非常清晰的,超过(或者低于)该门槛才会进入到政策范围;二是符合政策条件的那些群体会得到较多的资源支持。1994年实施的“八七扶贫攻坚计划”是典型的“一刀切”政策,按照前述的两个政策要点,“八七扶贫攻坚计划”对于贫困县的认定有非常严格的条件,规定1992年的人均GDP低于400元的县才能进入贫困县,反之,如果一个县的人均GDP超过400元,即使仅为401元,也会失去了贫困县的资格(具体实施过程有细微变化)。针对那些贫困县,中央财政在对地方进行转移支付时,会给予了额外的倾斜,使得这些贫困县获得了实质上的好处。“一刀切”的政策在产业发展中非常普遍,例如我国的高新技术产业、新能源产业等都制定了类似的准入门槛条件。
第三种是一次性推开的政策,这类政策往往带有自上而下的特征,决策层对该政策的效应有充分的论证和把握,能够合理预期政策带来的冲击,并且做好了相应的备案,因此可以选择某一时点在全国范围内一次性推开。1994年实施的分税制改革就是典型的一次性推开政策,在1993年之前,我国中央财政与地方财政还是财政包干制,自1994年开始,全国所有省级地区与中央财政采取以税种划分的财政制度,分税制针对全国所有地区实施相同的分成规则,时间节点清晰明朗。同时,考虑到该政策给地方财政带来的冲击,分税制改革也做了相应的备案,以1993年为基数对地方财政进行税收返还,以缓和此次改革对地方财政带来的不利影响。
严格来说,前两种政策是可以用科学评估方法对政策效应进行合理估计的,而一次性推开的政策是很难找到合适方法进行评估。接下来,本文将针对前两种政策类型分别介绍几种常见的评估方法,结合一些案例进行剖析,并重点指出各种方法应用的前提条件。
(一)双重差分法
双重差分法(Difference-in-difference,DID)有几种其他的称谓:倍差法、差分再差分等。该方法的原理非常简单,它要求数据期至少有两期,所有的样本被分为两类:实验组和控制组,其中实验组在第一期是没有受到政策影响,此后政策开始实施,第二期就是政策实施后的结果,控制组由于一直没有受政策干预,因此其第一期和第二期都是没有政策干预的结果。双重差分方法的测算也非常简单,两次差分的效应就是政策效应。如图2所示,AC是受政策影响的组别,BD是没有受政策影响的组别,我们在政策实施前后分别观察(收集)了一次数据,此时有两种差分的顺序,其结果都是等于CE的政策效应。第一种是先组内差分,再组间差分,也就是(C-A)-(D-B)=CE;另外一种是先组间差分,再前后差分,即(C-D)-(A-B)=CE。可见无论是哪种差分顺序,其结果是一致的。
双重差分法并不要求实验组和控制组是完全一致的,两组之间可以存在一定的差异,也就是图中的A和B是可以不相等的。但是双重差分方法要求这种差异不随着时间产生变化,也就是图中的ED=AB。如果满足了这个条件,那么实验组在没有政策干预的情况,其潜在的变化趋势应该是AE,AE和AC之间的差异恰好也是CE。也就是说,当我们用双重差分方法来评估政策效应时,是将AE作为AC的反事实参照组,但是AE本身是不可观察的,此时如果实验组和控制组有相同的时间趋势,那么就可以用控制组加上一个固定的差异作为AC的反事实参照组,也就是AE=BD+AB。因此,双重差分法本质上是用控制组作为反事实参照组,与其他方法不同的是,该方法允许控制组和反事实参照组之间存在一定的固有差异,然后再用差分的方法剔除掉这种固定差异。
这种方法可以进一步扩展到多时期和多政策实施点两种情况。常见的政策前期和后期,往往都是多期的,例如实施前存在3期数据,实施后有4期数据,这更加有利于精确评估政策效应。一方面,政策效应往往存在时滞,例如可能需要2-3年才会出现,因此需要更长期的跟踪数据;另一方面,政策效应还存在动态演变的过程,在实施之后的1-2年内呈现逐步强化的现象,3-4年逐步减弱。多期数据可以让我们精确估计政策效应在哪一期出现,同时在时间维度上呈现何种动态变化。此外,实际的政策实施也不是一次性的,往往是逐步增加试点的过程,也就是控制组逐步变为实验组;有些情况下,为了考察政策的力度,还会在同一期的实验组中,将实验组进一步分组,给予不同实验组不同的政策力度。通过一定的变通和扩展,倍差法也可以评估这两种情况下的政策效应。
接下来,我们用一个案例研究来剖析这种方法在实际中的运用,这个例子通俗来说就是“跑部钱进”(范子英和李欣,2014)。我国1994年分税制改革以来,中央财政的集权程度得到强化,中央财政收入占据50%以上,但支出占比仅为30%,因此中央对地方的财政转移支付也随之快速增长;以2012年为例,中央财政收入5.6万亿,其中4.5万亿直接转移给地方财政,占地方财政收入的比重高达74%。我国现存三大类财政转移支付:税收返还、一般性转移支付和专项转移支付,在很长一段时间,专项转移支付占比都是最高的,超过了转移支付总额的40%;不仅如此,专项转移支付由于按照项目划拨的方式,因此缺乏规范的分配方案。
在具体的管辖范围上,税收返还和一般性转移支付都是财政部主导,专项转移支付则分散于各部委。对地方财政来说,中央的转移支付数额庞大,并且几乎是没有成本的,因此各地都有“跑部”的激励。加上专项转移支付分配方案模糊,就产生了“跑部”的空间。“跑部钱进”是一个世界现象,美国的国会委员会在分配联邦财力时,也会受到“跑部”的影响。但是,要想评估我国的“跑部钱进”却没那么简单,因为各地都在“跑部”,不存在一些地区“跑部”,另一些地区不“跑部”,因此,从政策评估方法论角度来说,我们很难找到“跑部”的实验组和控制组。
考虑到各职能部委在专项转移支付分配中的重要作用,同时作为“一把手”的部长在相应领域的专业性和权威性,我们可以利用部长的差异来区分实验组和控制组。具体来说,我们收集整理了1998—2007年间国务院所有部委部长的个人信息数据,将部长的出生地与相应地级市进行匹配,在其他条件不变的情况下,我们重点研究了部长在分配转移支付时如何“照顾”其家乡。为了获得更加清晰的政策效应,我们以2003年的政府换届为政策实施点,在2002年年底至2003年两会期间,有17个部委更换了部长,涵盖主要的实权部门,如发改委、财政部、劳动和社会保障部等。如图3所示,我们将那些在2002年之前没有部长、之后有部长的地级市作为实验组,将一直没有部长的地级市作为控制组,可以清晰看出在部长换届之前,两组城市获得的专项转移支付没有差异,在换届之后,有部长的地级市获得了更多的转移支付。平均来说,部长会使得出生地城市的转移支付增加28%,如果是重要部委,增幅高达130%。从图3也可以看出,这种效应呈现先增后减的“U”型特征。
(二)断点评估法
断点评估法(Regression Discontinuity,RD)是近年来最为流行的方法,该方法具备简单、直观、适用性强等优点,被广泛应用于各国相关政策的效应评估中。断点评估法特别适用于“一刀切”的政策,根据“一刀切”门槛的执行程度,可以进一步分为模糊断点评估法(Fuzzy RD)和清晰断点评估法(Sharp RD)。为了更直观理解该方法的内涵,我们重点介绍清晰断点评估法。
断点评估法的核心内容是两部分。首先是要判断政策的“一刀切”是如何确定的,如图4所示,政策制定者选择某个因素作为门槛的基础,然后在该因素中选择某个具体的值作为政策门槛,规定所有大于等于门槛C的个体都是政策干预的范围,而任何低于门槛C的个体都不会受到政策的影响,因此低于C的个体受政策干预的概率为0,大于等于C的个体受政策干预的概率为100%。断点评估法的“断点”则是特指门槛C的左右一个很小的区域,在该区域内,
是否受政策干预的概率会有一个显著的跳跃。举例来说,假设今年的高考录取线为500分,则所有大于等于500分的考生都能够进入大学,而所有低于500分的考生则无法被录取,此时,500分就是高考“一刀切”的门槛,500分左右的一个小范围则是断点区域,例如495-499的录取概率为0,而500-504的录取概率跳跃至100%。
断点评估法的第二部分内容是在断点左右观察政策结果的变化。如图5所示,其中纵轴是政策的目标变量,横轴同样是政策门槛的选择因素,图中的实线是驱动因素和政策因素对结果的共同作用。驱动因素在C之前,其政策结果是从A到B,此时的AB段是一个平滑的演变分布,当驱动因素达到和超过C时,政策结果就变成了DE,同样是一段平滑分布,断点评估法的政策效应就是门槛附近的跳跃,即BD是该政策实施之后的真实效应。如果用前述反事实的原理进行阐述,则BF是DE的反事实结果,也就是说,如果没有“一刀切”的政策,则政策结果应该是ABE,是一段完全连续的平滑分布。不过,BF在现实世界是不存在的,不是观测的结果,就无法将DE和BF相减获得政策效应。幸运的是,B这一点是可以观测的,因此可以将B作为D的反事实结果,这样BD的差异也就是政策效应。
还是以高考为例,此时的政策结果就是四年(或更远)后的收入,驱动因素是高考分数,C是大学录取线。平均来说,高考分数越高,说明能力和智商越高,因此收入和高考分数应该是正相关的。AB是那些没有考上大学的人群的收入分布,DE是上大学的人群的收入和高考成绩的关系,BF是假设没有大学时,那些高考成绩超过录取线的人群的潜在收入。在现实世界中,AB和DE是我们可以观测到的数据,BF是不可观测的(所有被录取的都上了大学)。此时,我们可以计算500分(上大学)和499分(没上大学)两组人群的收入差异,由于两者的高考分数仅相差1分,可以认为两者之间的能力和智商是几乎无差别的,两组之间的收入差异就只可能是因为大学教育带来的,因此BD就是高考这种公共政策的政策效应。
断点评估法的一个经典案例是关于污染的健康损失效应的研究。由陈玉宇、李宏彬和另外两位作者2013年发表在美国科学院院刊PNAS的论文,采用的就是断点评估法。具体来说,污染对健康的实际影响是非常难以估计的,且影响程度的估计,有时候,连方向都是反的。这个问题的研究,最直接的方法就是在选某一年城市层面的数据,例如PM2.5和预期寿命,看看这两个指标是否负相关。如果在实际中这么处理,一般来说,这个系数都是正的,难道我们能据此得出污染有益于健康的结论么?很显然,这个处理方法犯了上文提到的一些基本错误,其中最典型的就是忽视了其他因素的作用,例如大城市往往也是医疗条件更好的地方,医疗条件会改善健康。即使我们考虑到城市层面的一些特殊因素,简单的统计和经济学方法依然不能准确估计出污染对健康的危害。
我国历来有北方冬天集中供暖的制度安排,当然由于燃料资源的有限,这种供暖政策只能覆盖全国的一部分地区,因此供暖政策就必须有一个清晰的标准,做到北方供暖、南方不供暖。接下来的问题就是,什么是北方?在20世纪50年代,国家按照地理上的秦岭-淮河为界,将全国分成了南方和北方,相应的供暖政策就变为淮河以北供暖、淮河以南不供暖。再加上,当时的冬季供暖基本都是靠煤,煤燃烧不彻底释放了大量的污染物。因此这种供暖政策的一个自然结果就是,淮河以北的城市的空气污染更加严重,如下图所示,他们的研究发现淮河北岸城市的空气悬浮颗粒物浓度更高。在经过长达数十年的持续暴露之后,这种持续性的污染对健康造成了严重的危害,平均来说,淮河北岸的人相对于南岸,其预期寿命要少5年。
这个研究之所以适用断点评估法,是因为以淮河为界的政策是“一刀切”的,在未实施集中供暖政策之前,淮河南北的城市之间差异很小,特别是淮河沿岸的城市之间几乎没有差异,因此淮河南岸的城市可以作为北岸城市的反事实参照组,这句话也就意味着,假设没有集中供暖这一政策,淮河北岸城市的污染水平和人均预期寿命,和南岸城市是完全相同的。当我们发现政策实施之后,两者之间的污染和预期寿命均有差异,那预期寿命的差异就只可能是由污染导致的。在理想的情况下,这样的研究设计应该还能够较为准确地估计出,空气污染每恶化一个单位对健康的影响程度。
断点评估法有三个基本的要求。首先是“一刀切”的政策执行力度要彻底,以高考为例,不能存在没达到录取线的学生被录取、达线的学生却没录取的情况,政策执行力度越弱,断点的跳跃就越小;其次,选择门槛的依据要素必须是个体不能改变的,例如在高考后才公布录取线,考生能否过线是既定事实,反过来说,如果事先公布录取线,就会使得那些比录取线低几分的考生,通过一些努力达到录取线;最后,那些影响政策结果的其他因素,不能也在门槛附近出现跳跃,比如考生的家庭财富如果在录取线附近突然增加,那么考生将来的收入就不一定是因为大学教育的效应,而可能是其家庭财富带来的。
(三)合成控制法
还有一类政策的试点过程是非常独特的,那就是仅选择一个或者两个地区作为试点,例如2008年世界金融危机时,就只有中国实施了“四万亿”这样的强刺激计划。前两种方法都不适用于这类政策的效应评估,我们很难从其他没有试点的地区找到合适的反事实参照组,这是因为此试点地区一般都非常特殊,严格来说,没有其他地区与试点地区是完全相似的。考虑到这种特殊试点政策在我国也非常常见,本文接下来将介绍针对该类政策的评估方法:合成控制法(Synthetic Control Method)。
我们以一个具体的研究案例来阐述这种方法的原理和应用,这个案例是我们的一个研究论文的内容(刘甲炎和范子英,2013)。自2000年以来,我国的住房价格持续走高,国家多次出台调控政策以缓和房价的上涨势头,房产税成为政策选择之一。中央政府希望通过对住房持有环节征税,一方面通过增加住房持有成本、打击投机炒作,引导居民合理性住房消费;另一方面还可以取得稳定的地方税收来源,弥补地方主体税种的不足。在2010年5月国务院提出要推进房产税改革,扩大原有的房产税征收范围,将个人所有的居住房产也作为征收对象。2011年1月国务院开始在部分城市试点房产税的征收,重庆和上海成为首批试点城市。这两个城市的入选主要有两个方面的原因:一是两者都是直辖市,在行政上更有利于管理;二是两者的房价具有很好的代表性,上海市作为东部沿海城市,房价水平是最高的几座城市之一,重庆作为西部城市,房价处于全国平均水平。两个城市的政策细则如表2所示,最大的差异在于重庆是存量征税,上海是增量征税。
考虑到重庆和上海的特殊性,我们可以采用合成控制法来评估政策效应。合成控制法与倍差法有两个主要区别:首先是权重的设定,倍差法的控制组的权重是完全相同的,例如选择10个城市作为重庆的对照组,那这10个城市权重都是1,而合成控制法则根据相似度来赋予权重,与重庆越相近的城市的权重越大,反之亦然;其次是控制组的选择,倍差法的控制组是主观选择的,合成控制法的控制组是数据驱动的,即由数据自身来选择哪些城市可以成为重庆的控制组,同时根据相近程度赋予相应权重。
我们通过合成控制法评估重庆房产税的政策效应,结果见图7。首先是利用2010年6月到2011年1月的40个大中城市来选择控制组和相应的权重,该过程的主要参考依据是,控制组的加权房价应该尽可能与真实的重庆房价相等,在图7中就是2011年2月之前的虚线要与实线尽可能接近,这个规则可以保证控制组和权重的选择是最优的。其次,基于选择的控制组和权重,再利用2011年2月之后控制组加权房价来外推重庆的反事实房价,也就是图7中2011年2月之后的虚线部分。该虚线部分说明的是,假设没有房产税,那些影响其他城市房价的因素也会同样影响重庆,这样从其他城市房价外推的重庆房价,就是没有房产税时的价格。因此,重庆房产税的效应就是2011年2月之后,图7中虚线高于实线的部分。
该方法的应用需要配合其他的证伪检验,即需要排除其他可能导致房价变化的共同因素。在合成控制法第一步完成之后,可以看到控制组中哪些城市的权重最大,我们可以将权重最大的城市挑选出来,做一次假想实验。在重庆房价的这个研究中,湛江是权重最大的城市,我们假设湛江在2011年2月前后也发生了重大的政策变化,该政策变化影响到湛江的房价。如果不是我们在图7中看到的重庆房产税政策效应,就可能是其他政策导致的,因为湛江没有实施房产税政策,却在2011年2月后保持了与重庆类似的趋势。具体结果如图8,可以看出湛江的房价并没有出现显著变化,这说明没有其他因素导致控制组房价发生变化,因此由控制组拟合的重庆房价就不存在其他政策干扰。
该方法的应用范围虽然很广泛,但也存在一定的限制。其中,最大的限制是无法应用于极端样本,例如该方法就不能用于上海房产税政策效应的评估,因为上海的房价是全国最高之一,很难从其他城市中找到足够与上海房价相似的样本,因此就无法选择控制组和相应的权重,这会导致第一阶段的拟合效果非常差,而第一阶段的拟合效果直接决定了第二阶段的线性外推。从操作层面来说,这种限制是因为控制组的权重都是界于0和1之间,如果放松这个假设,相应的应用限制也就不存在。
以上这三种方法有各自的适用范围,也有各自的前提条件。从因果推断的效率来看,断点评估法是最优的,其次是倍差法,最后是合成控制法。在一些更为复杂的应用中,还可能将倍差法和断点评估法结合使用,例如政策不仅存在“一刀切”,这种“一刀切”还只适用于很少一部分人群。此外,从因果推断的完整性考虑,在评估了政策效应之后,还要强化证伪检验,从逻辑上排除干扰因素的影响。
三、科学评估方法的应用前提和要点
中国的政策研究和评估,是需要有科学方法为前提的。但是方法本身是工具性的,方法论的发展都是中性的。我们在提倡大力普及科学评估方法的必要性时,也要非常清楚每一种方法的适用性,那些用错了方法的政策评估,其危害甚至要超过没有用这些方法的状况。我们可以将以上这些方法的应用前提总结为最重要的一点:反事实假设。所有的方法应用,如果能够满足这一基本假设,那么其应用满足了基本的条件,方法的应用总体上不会出现逻辑上的错误。除此之外,我也想特别强调一下,有时候方法与制度要能够有机结合,每一种类型的制度和改革,实际上都有对应的方法,与其说是理解方法的应用前提,不如说是了解制度的细节。
任何方法都有应用前提,同时也有其局限性。在我们使用这些方法评估政策效应时,也要在心里明白这些方法不能解决的问题,因此对结果的解读要非常谨慎,只能就结果解释结果,而不适合得出衍生性的结论。总体上,这些方法的应用,有两个方面要特别引起重视:再分配效应和外溢效应。
再分配效应是政策评估的陷阱。很多时候,我们评估的单位是一个加总的层级,例如在县、市、甚至省层面进行评估,此时要特别当心再分配效应的捣鬼。所谓的再分配效应,是指政策或者改革虽然有明确的标准,但是由于人、企业和其他要素是可以自由流动的,他们会通过改变自身行为来达到政策的要求,如果这种流动本身是跟随政策走的,那么很可能政策本身并没有实际效果,而是政策导致了要素在不同地区的重新配置。但是,我们在简单的方法应用时,是可以看到政策起到了积极作用,方法本身并不足以排除这些干扰。我们再回到淮河的那个例子,如果这个研究放到2000年之后,就可能会出现再分配效应,
因为人口是流动的,污染也是导致人口流动的一个重要因素,试想一下,如果那些关注健康的人都离开了污染重地,那么污染会对人群进行再配置,这种再配置就可能导致留在淮河北岸的人都是身体较差的人,而那些身体健康的人则搬迁到了淮河南岸。虽然我们这时也能够在政策评估模型中,得到北岸居民健康程度更差,但南北岸的这种差异却不完全是因为污染的直接影响,很大程度上是因为政策前后的人群分布发生了变化。
又例如,我国自2000年左右,开始实施区域性的发展战略,现如今快20年过去了,这些政策是否达到了预期的目标,这个问题本身是没法从宏观加总层面直接得到答案的。试想一下,如果我们也采用第二节的方法来评估西部大开发或者中部崛起,很显然,我们可以得到正向的系数,也就是那些有区域发展战略的地区,其增长相对于东部地区会更快,这一点也反映在近年来人均GDP的收敛。但是这并不完全等价于这些政策促进了内陆地区的发展,现实中,有很多企业因为内陆地区更优惠的投资环境,从东部搬迁到了内陆省份,这些更优惠的投资环境正是地区战略的重要组成部分,这时候就产生了再分配效应。也就是说,区域性的发展战略对原有的企业进行了空间的再配置,这实际上就对那些没有区域政策的省份带来了负面影响,我们在研究上得到的政策影响,是欠发达地区的正面效应,减去发达地区的负面效应,很显然这高估了政策效应。
外溢效应是与再分配效应相反的,再分配效应一般是导致了高估,外溢效应则是低估。从学术研究的角度来说,外溢效应影响不大,但是从政策研究的角度来说,外溢效应导致的低估,还是会对政策的把握出现偏差。外溢效应是指那些被政策干预的组别,通过其他渠道,把政策的影响也传递给了非政策干预组。在逻辑上,我们是将非干预组作为干预组的反事实参照组,这就是说,假设政策没有实施,那些干预组的表现,就应该和非干预组是一样的,但如果出现外溢效应,这一假设也不满足。我们可以举个例子来说明外溢效应的影响,比如,我们想评估一下中国高速公路对地方经济的拉动作用,进而为中国高速公路建设提供一些理论支撑。简单的处理方法,是比较有高速公路经过的县,和没有高速公路经过的县,两组之间的区别,如果再复杂一点,还可以加入两组县在高速公路开通之前的经济表现。一眼看上去,这是一个标准的双重差分法。但这里就出现了外溢效应,比如A县有一个高速公路出入口,B县没有,但是一旦A县的出入口开通之后,B县可以经由A县的出入口使用高速公路,因此A县的高速公路对B县带来了外溢效应,此时,我们比较A县和B县的差异,就包含了这种外溢效应,由于B县的表现比没有高速公路时更好,所以外溢效应会导致对高速公路的低估。
如果以发展的眼光来看待政策评估,一些原有的方法局限也在不断被突破,新的方法不断出现,这对我们在中国大范围推广和普及科学评估方法是非常有利的。我们在第二部分曾经提到,有一类改革是不适用传统的评估方法,那就是一次性推开的政策,但在满足一定条件下,这些政策也可以在一定程度上得到估计。同样,在公共经济学领域,越来越多的人开始关注一些政策带来的交易的聚束(Bunching),这种聚束可以用来评估人们对政策的反应程度,例如,当我们要评估个人所得税多档税率的影响时,我们是不能用传统的政策评估方法,因为个人会出于避税的考虑,将其应税所得降到某一档较低边际税率的范围,此时我们就能够观察到,在税率级次的左边,人群会出现非常明显的聚束,如果我们能够计算出这种聚束的幅度,就能够用来估计个税税率对劳动者产生的负向激励作用。