科学研究的统计学陷阱

环球科学·数学篇 2013-12-14 6911

如果你想让全世界的人都相信鱼能感觉到你的情绪，那么说实在的，只用一种统计指标即p值就够了。

p值是一种万金油式的指标，科学家常用它来确定一项实验结果是否具有“统计显著性”。遗憾的是，p值检验并非总像人们所吹嘘的那样给力。结果，即使一项观测结果有时只是一种毫无意义的巧合，研究人员也会给它贴上“有高度显著性”的标签。

假定你已经开展了一项科学实验，对比一种治疗心脏病的新药和一种安慰剂的效果。实验结束时，你比较了两组受试者。瞧，服药组患者的心脏病发作次数少于服用安慰剂的患者。成功啦！这种药真的有效！

且慢，说不定并非如此。即使此药根本无效，它在服药组患者中的效果，也有50%的可能好于安慰剂组（不管怎么说，总有一组的效果要优于另一组，而服药组和安慰剂组占上风的可能性各占一半）。

p值其实就是把随机性用一个数值表示出来。严格来讲，它是指观察到某一实验结果（即使你的假说有错）的概率。在众多科研领域中，长期通行的一个惯例就是，凡p值在0.05以下的结果均被认为具有统计显著性。这是个随意约定的惯例，它常常会出错。每当你把某种无效药物和兴奋剂作对比时，便有1/20的机会得到统计显著性结果。因此平均说来，倘若你在一篇论文中进行了20次这样的对比，就会得到一个统计显著性结果（也就是p值小于0.05），即使该药完全无效。

许多论文要进行数十乃至数百次对比。在这类论文中，研究人员如果不肯调整一下标准的p值阈值（即0.05），那么几乎肯定会出现本来毫无意义的统计，恰巧被当成是具有统计显著性的情况。今年2月，《美国临床营养学杂志》发表的一项研究对数十种物质进行了测试，并得出结论说，蓝莓中含有的某些物质可以降低高血压风险，p值为0.03。不过，这些研究人员检验的物质如此之多，所作的对比也是相当可观（50次以上），因此几乎可以肯定，该论文中有些p值之所以小于0.05纯粹是因为巧合。

无独有偶，一批心理学家对某条鲑鱼所作的研究也是如此。在这项广为人知的研究中，当心理学家让鲑鱼看到人们表达情绪的一组图片时，鲑鱼大脑中的某些部位便活跃起来。此结果是有统计显著性的，p值低于0.001。不过，诚如这些心理学家所言，既然可能存在的模式多如牛毛，以至于几乎肯定会得到一个具有统计显著性的结果，因而这种结果毫无意义。p值高也好低也好，反正那条鱼本来就不可能对人的情绪有所反应：心理学家放进磁共振成像仪中的鲑鱼恰好是条死鱼。

原文来源:	环球科学•数学篇
作者:	Charles Seife
翻译:	郭凯声
推荐人:	刘明，《环球科学》新媒体经理/资深编辑

科学研究的统计学陷阱

热门文章

最新发布