统计学怪圈


不久前,美国犹他大学的研究人员进行了一项调查,他们发现,食客在餐厅里吃东西的多少,与餐叉的大小有关。我没有见过这项调查的细节,不过它倒是让我想起,只须稍稍改变一下定义,人们便可以根据相同的数据得出截然相反的结论。

如果这些互相矛盾的结果是预先做了手脚的个别现象,那倒也罢了,但情况并非如此。我们在处理弱相关的量时,常常会巧妙地设定我们使用的类别的大小。在近来对暴力犯罪所作的调查中,我们就可以看到这种手法,其目的是想证明,若干类别的犯罪正朝着期望的方向变化。本文中,我也打算通过一个类似的例子来阐明问题的关键所在。

这里,我们只用关于餐厅的调查作为启示,来看看稍微改变一下定义为何会起到如此之大的作用。假定饭店里有10位食客,而我们要考虑的是餐盘大小会对食客吃多少东西有什么影响。3位食客面前摆的是人们眼中的小餐盘(比如说直径小于20厘米),他们分别吃了250克、300克和275克的东西,平均吃了275克。现在又假定,4位食客面前摆的是中等大小的盘子(直径在20~28厘米之间),而他们分别吃了500克、200克、400克和100克的东西,平均吃了300克。

最后我们假定,剩下的3位食客用的是大盘子(比如说直径大于28厘米),分别吃了350克、310克和330克,平均330克。

看出规律了吧?当盘子的尺寸由小增至中再增至大时,食客的平均食量由275克增至300克再增至330克。嗯,这结果挺不错的!

且慢高兴。如果我们把中等大小盘子的定义稍稍改一下,规定直径21~27厘米为中等,且小盘子与大盘子的定义也作相应改动,那结果又将如何?如果重新定义之后,导致两位食客分类错位,那又会怎么样呢?吃了500克东西的那位食客其实用的是小盘(比如说直径为20.5厘米),而只吃了100克的那位食客其实用的是大盘(比如说直径为27.5厘米)。

现在,根据这一假设再来计算一次。4位(而非3位)食客用的小盘子,分别吃了250克、300克、270克和500克的东西,平均330克。两位(而非4位)食客用的是中等大小盘子,分别吃了200克与400克,平均300克。4位(而非2位)食客用的大盘子,分别吃了100克、350克、300克与330克,平均270克。

又看出规律了吗?随着盘子的尺寸由小增至中再增至大,食客的平均食量由330克减至300克再减至270克。啊哈,也是个很妙的结果!

而且,在这里,样本过小并非关键问题。其实,对于大量的数据点,这种手法玩起来恐怕会更加得心应手,因为对类别做手脚的机会更大。有谁想玩玩太阳黑子强度或美国橄榄球超级杯大赛的结果吗?

本文作者:John Allen Paulos

编者后记:

本文作者John Allen Paulos是天普大学数学系教授,也是出名的数学科普作家。他是畅销书《Innumeracy: Mathematical Illiteracy and its Consequences》的作者。其他还有《Mathematics & Humor: A Study of the Logic of Humor》,《I Think Therefore I Laugh: The Flip Side of Philosophy》,《A Mathematician Reads the Newspaper》,《A Mathematician Plays the Stock Market》等。

原文来源: 环球科学•数学篇
作  者: John Allen Paulos,美国天普大学数学系教授
翻  译: 郭凯声
推荐人: 刘明,《环球科学》新媒体经理/资深编辑