科学研究的统计学陷阱


如果你想让全世界的人都相信鱼能感觉到你的情绪,那么说实在的,只用一种统计指标即p值就够了。

p值是一种万金油式的指标,科学家常用它来确定一项实验结果是否具有“统计显著性”。遗憾的是,p值检验并非总像人们所吹嘘的那样给力。结果,即使一项观测结果有时只是一种毫无意义的巧合,研究人员也会给它贴上“有高度显著性”的标签。

假定你已经开展了一项科学实验,对比一种治疗心脏病的新药和一种安慰剂的效果。实验结束时,你比较了两组受试者。瞧,服药组患者的心脏病发作次数少于服用安慰剂的患者。成功啦!这种药真的有效!

且慢,说不定并非如此。即使此药根本无效,它在服药组患者中的效果,也有50%的可能好于安慰剂组(不管怎么说,总有一组的效果要优于另一组,而服药组和安慰剂组占上风的可能性各占一半)。

p值其实就是把随机性用一个数值表示出来。严格来讲,它是指观察到某一实验结果(即使你的假说有错)的概率。在众多科研领域中,长期通行的一个惯例就是,凡p值在0.05以下的结果均被认为具有统计显著性。这是个随意约定的惯例,它常常会出错。每当你把某种无效药物和兴奋剂作对比时,便有1/20的机会得到统计显著性结果。因此平均说来,倘若你在一篇论文中进行了20次这样的对比,就会得到一个统计显著性结果(也就是p值小于0.05),即使该药完全无效。

许多论文要进行数十乃至数百次对比。在这类论文中,研究人员如果不肯调整一下标准的p值阈值(即0.05),那么几乎肯定会出现本来毫无意义的统计,恰巧被当成是具有统计显著性的情况。今年2月,《美国临床营养学杂志》发表的一项研究对数十种物质进行了测试,并得出结论说,蓝莓中含有的某些物质可以降低高血压风险,p值为0.03。不过,这些研究人员检验的物质如此之多,所作的对比也是相当可观(50次以上),因此几乎可以肯定,该论文中有些p值之所以小于0.05纯粹是因为巧合。

无独有偶,一批心理学家对某条鲑鱼所作的研究也是如此。在这项广为人知的研究中,当心理学家让鲑鱼看到人们表达情绪的一组图片时,鲑鱼大脑中的某些部位便活跃起来。此结果是有统计显著性的,p值低于0.001。不过,诚如这些心理学家所言,既然可能存在的模式多如牛毛,以至于几乎肯定会得到一个具有统计显著性的结果,因而这种结果毫无意义。p值高也好低也好,反正那条鱼本来就不可能对人的情绪有所反应:心理学家放进磁共振成像仪中的鲑鱼恰好是条死鱼。

原文来源: 环球科学•数学篇
作  者: Charles Seife
翻  译: 郭凯声
推荐人: 刘明,《环球科学》新媒体经理/资深编辑