2019年3月,800多位来自世界各地的科学家和统计学家在《Nature》上联名发布一项宣言,呼吁‘摒弃整个统计显著性概念’【1】。也是2019年3月,《美国统计学家》出版了一个讨论统计显著性的专辑。该期刊主编在这期专辑的社论中建议“在统计分析中消除‘p值<0.05’和统计显著性的使用”;“不要说、不要用‘统计显著性’”【2】。然而,今年7月,《应用统计年鉴》发表了由15位资深美国统计学家署名的‘美国统计协会 (ASA) 主席关于统计显著性和可重复性专题组的声明’【3】。 该‘声明’的目的之一是“阐明正确应用的和解释的 P 值和显著性检验是不应放弃的重要工具”。专题组的声明发表后立即遭到改革派学者的批评。Megan Higgs 【4】在她的博客中写道:“…我们需要更多地看到分歧和讨论,而不是看到一个非常统一的声明,该声明不承认造成问题的固有混乱和细微差别。”
显然,对于是否摒弃或保留‘统计显著性’和 p 值这个问题,顶级统计学家持相反的立场。 保守派、改革派、和改良派唯一能够达成的共识是:统计显著性检验和p 值容易被误解和滥用。然而,在实际应用中,没有一个使用者会承认误解或滥用了‘统计显著性’和 p 值。并且,为了论文能够发表,追求‘p值<0.05’成为一种普遍现象。无法辨别和防止误解或滥用可能是改革派主张“在统计分析中消除‘p值<0.05’和统计显著性的使用”的原因之一。
如同其它统计学方法一样,统计显著性检验和p 值应该是科学家进行科学研究的‘工具’。但是,科学家真的需要‘统计显著性’和 p 值吗?
需要强调的是,‘统计显著性’不等于‘科学显著性’。对于某项研究成果,科学家需要评估的是其‘科学显著性’,而非‘统计显著性’。p 值本身的物理意义不甚明确,它的大小不能够表示‘科学显著性’。下面给出一个实例来说明。
《概率论及数理统计》第二版(下)【5】给出了一个t检验的范例。设有甲、乙两种安眠药,考虑比较它们的治疗效果。现独立观察20个病者,其中10人服甲药,另10人服乙药。下表显示睡眠延长时数。
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
甲(X)
1.9
0.8
1.1
0.1
0.1
4.4
5.5
1.6
4.6
3.4
乙(Y)
0.7
-1.6
-0.2
-1.2
-0.1
3.4
3.7
0.8
0:
2:
假定 X 和 Y 分别服从均值分别为a1 和a2,方差相同的正态分布。试问这两种药物的疗效有无显著性的差异?设H0:a1=a2。t检验计算结果是:t18=1.90,t18(0.05)=2.10。由于1.90<2.10(对应于p值=0.07>0.05),不能否定H0,因而认为这两种药物的疗效没有显著性的差异【5】。
然而,以上t检验给出的结果是‘统计显著性’,不是‘科学显著性’。根据这个t检验结果认为这两种药物的疗效没有显著性差异的结论是有问题的。
对于甲、乙两种药物的疗效:即‘科学显著性’,可以根据两个统计量来评估:(1)平均睡眠延长时数差,即‘效应量’(2)甲药比乙药更有效的概率,即 P(X>Y)【6】。这两个统计量具有明确的物理意义。甲药平均睡眠延长时数为2.35小时,而乙药平均睡眠延长时数为0.75小时,两者相差1.6小时。甲药比乙药更有效的概率为72.6%。根据这两个统计量,我们可以得出‘科学推断’(不是统计推断):甲药比乙药疗效好。
对这个教科书范例的分析表明:t检验和p值并不能够有助于科学家进行正确的‘科学推断’。
参考文献及相关链接:
【1】Scientists rise up against statistical significance, https://www.nature.com/articles/d41586-019-00857-9
【2】 Wasserstein R L, Schirm A L, and Lazar N A, 2019. Editorial: Moving to a World Beyond “p < 0.05”, The American Statistician, Vol. 79. https://www.tandfonline.com/doi/full/10.1080/00031305.2019.1583913
【3】The ASA President’s Task Force Statement on Statistical Significence and Replicability https://errorstatistics.files.wordpress.com/2021/06/presidents-task-force-statement.pdf
【4】Megan Higgs 2021 Thoughts on the Task Force Statement https://critical-inference.com/thoughts-on-the-task-force-statement/
【5】梁之舜、邓集贤、杨维权、司徒荣、邓永录编著,1988《概率论及数理统计》第二版(下),中山大学数学系,高等教育出版社。
【6】Huang H 2021 Exceedance probability analysis: a practical and effective alternative to t-tests, preprint, ResearchGate, https://www.researchgate.net/publication/348692325_Exceedance_probability_analysis_a_practical_and_effective_alternative_to_t-tests