快好知 kuaihz

科学家真的需要‘统计显著性’和p值吗?

2019年3月,800多位来自世界各地的科学家和统计学家在《Nature》上联名发布一项宣言,呼吁‘摒弃整个统计显著性概念’【1】。也是2019年3月,《美国统计学家》出版了一个讨论统计显著性的专辑。该期刊主编在这期专辑的社论中建议“在统计分析中消除‘p值<0.05’和统计显著性的使用”;“不要说、不要用‘统计显著性’”【2】。然而,今年7月,《应用统计年鉴》发表了由15位资深美国统计学家署名的‘美国统计协会 (ASA) 主席关于统计显著性和可重复性专题组的声明’【3】。 该‘声明’的目的之一是“阐明正确应用的和解释的 P 值和显著性检验是不应放弃的重要工具”。专题组的声明发表后立即遭到改革派学者的批评。Megan Higgs 【4】在她的博客中写道:“…我们需要更多地看到分歧和讨论,而不是看到一个非常统一的声明,该声明不承认造成问题的固有混乱和细微差别。”

显然,对于是否摒弃或保留‘统计显著性’和 p 值这个问题,顶级统计学家持相反的立场。 保守派、改革派、和改良派唯一能够达成的共识是:统计显著性检验和p 值容易被误解和滥用。然而,在实际应用中,没有一个使用者会承认误解或滥用了‘统计显著性’和 p 值。并且,为了论文能够发表,追求‘p值<0.05’成为一种普遍现象。无法辨别和防止误解或滥用可能是改革派主张“在统计分析中消除‘p值<0.05’和统计显著性的使用”的原因之一。

如同其它统计学方法一样,统计显著性检验和p 值应该是科学家进行科学研究的‘工具’。但是,科学家真的需要‘统计显著性’和 p 值吗?

需要强调的是,‘统计显著性’不等于‘科学显著性’。对于某项研究成果,科学家需要评估的是其‘科学显著性’,而非‘统计显著性’。p 值本身的物理意义不甚明确,它的大小不能够表示‘科学显著性’。下面给出一个实例来说明。

《概率论及数理统计》第二版(下)【5】给出了一个t检验的范例。设有甲、乙两种安眠药,考虑比较它们的治疗效果。现独立观察20个病者,其中10人服甲药,另10人服乙药。下表显示睡眠延长时数。

1:

2:

3:

4:

5:

6:

7:

8:

9:

10:

甲(X)

1.9

0.8

1.1

0.1

0.1

4.4

5.5

1.6

4.6

3.4

乙(Y)

0.7

-1.6

-0.2

-1.2

-0.1

3.4

3.7

0.8

0:

2:

假定 X 和 Y 分别服从均值分别为a1 和a2,方差相同的正态分布。试问这两种药物的疗效有无显著性的差异?设H0:a1=a2。t检验计算结果是:t18=1.90,t18(0.05)=2.10。由于1.90<2.10(对应于p值=0.07>0.05),不能否定H0,因而认为这两种药物的疗效没有显著性的差异【5】。

然而,以上t检验给出的结果是‘统计显著性’,不是‘科学显著性’。根据这个t检验结果认为这两种药物的疗效没有显著性差异的结论是有问题的。

对于甲、乙两种药物的疗效:即‘科学显著性’,可以根据两个统计量来评估:(1)平均睡眠延长时数差,即‘效应量’(2)甲药比乙药更有效的概率,即 P(X>Y)【6】。这两个统计量具有明确的物理意义。甲药平均睡眠延长时数为2.35小时,而乙药平均睡眠延长时数为0.75小时,两者相差1.6小时。甲药比乙药更有效的概率为72.6%。根据这两个统计量,我们可以得出‘科学推断’(不是统计推断):甲药比乙药疗效好。

对这个教科书范例的分析表明:t检验和p值并不能够有助于科学家进行正确的‘科学推断’。

参考文献及相关链接:

【1】Scientists rise up against statistical significance, https://www.nature.com/articles/d41586-019-00857-9

【2】 Wasserstein R L, Schirm A L, and Lazar N A, 2019. Editorial: Moving to a World Beyond “p < 0.05”, The American Statistician, Vol. 79. https://www.tandfonline.com/doi/full/10.1080/00031305.2019.1583913

【3】The ASA President’s Task Force Statement on Statistical Significence and Replicability https://errorstatistics.files.wordpress.com/2021/06/presidents-task-force-statement.pdf

【4】Megan Higgs 2021 Thoughts on the Task Force Statement https://critical-inference.com/thoughts-on-the-task-force-statement/

【5】梁之舜、邓集贤、杨维权、司徒荣、邓永录编著,1988《概率论及数理统计》第二版(下),中山大学数学系,高等教育出版社。

【6】Huang H 2021 Exceedance probability analysis: a practical and effective alternative to t-tests, preprint, ResearchGate, https://www.researchgate.net/publication/348692325_Exceedance_probability_analysis_a_practical_and_effective_alternative_to_t-tests

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:科学家  科学家词条  显著  显著词条  真的  真的词条  统计  统计词条  需要  需要词条  
观点

 什么是食管扩张?

什么是食管扩张?食管扩张,或扩张,是一种允许医生扩张或伸展食管狭窄区域的手术。食管扩张术医生可以使用各种技术来完成这个过程。您的医生可能会将此过程作为镇静内窥镜...(展开)