统计学怪圈

环球科学·数学篇 2012-11-27 2462

不久前，美国犹他大学的研究人员进行了一项调查，他们发现，食客在餐厅里吃东西的多少，与餐叉的大小有关。我没有见过这项调查的细节，不过它倒是让我想起，只须稍稍改变一下定义，人们便可以根据相同的数据得出截然相反的结论。

如果这些互相矛盾的结果是预先做了手脚的个别现象，那倒也罢了，但情况并非如此。我们在处理弱相关的量时，常常会巧妙地设定我们使用的类别的大小。在近来对暴力犯罪所作的调查中，我们就可以看到这种手法，其目的是想证明，若干类别的犯罪正朝着期望的方向变化。本文中，我也打算通过一个类似的例子来阐明问题的关键所在。

这里，我们只用关于餐厅的调查作为启示，来看看稍微改变一下定义为何会起到如此之大的作用。假定饭店里有10位食客，而我们要考虑的是餐盘大小会对食客吃多少东西有什么影响。3位食客面前摆的是人们眼中的小餐盘（比如说直径小于20厘米），他们分别吃了250克、300克和275克的东西，平均吃了275克。现在又假定，4位食客面前摆的是中等大小的盘子（直径在20～28厘米之间），而他们分别吃了500克、200克、400克和100克的东西，平均吃了300克。

最后我们假定，剩下的3位食客用的是大盘子（比如说直径大于28厘米），分别吃了350克、310克和330克，平均330克。

看出规律了吧？当盘子的尺寸由小增至中再增至大时，食客的平均食量由275克增至300克再增至330克。嗯，这结果挺不错的！

且慢高兴。如果我们把中等大小盘子的定义稍稍改一下，规定直径21～27厘米为中等，且小盘子与大盘子的定义也作相应改动，那结果又将如何？如果重新定义之后，导致两位食客分类错位，那又会怎么样呢？吃了500克东西的那位食客其实用的是小盘（比如说直径为20.5厘米），而只吃了100克的那位食客其实用的是大盘（比如说直径为27.5厘米）。

现在，根据这一假设再来计算一次。4位（而非3位）食客用的小盘子，分别吃了250克、300克、270克和500克的东西，平均330克。两位（而非4位）食客用的是中等大小盘子，分别吃了200克与400克，平均300克。4位（而非2位）食客用的大盘子，分别吃了100克、350克、300克与330克，平均270克。

又看出规律了吗？随着盘子的尺寸由小增至中再增至大，食客的平均食量由330克减至300克再减至270克。啊哈，也是个很妙的结果！

而且，在这里，样本过小并非关键问题。其实，对于大量的数据点，这种手法玩起来恐怕会更加得心应手，因为对类别做手脚的机会更大。有谁想玩玩太阳黑子强度或美国橄榄球超级杯大赛的结果吗？

本文作者：John Allen Paulos

编者后记：

本文作者John Allen Paulos是天普大学数学系教授，也是出名的数学科普作家。他是畅销书《Innumeracy: Mathematical Illiteracy and its Consequences》的作者。其他还有《Mathematics & Humor: A Study of the Logic of Humor》，《I Think Therefore I Laugh: The Flip Side of Philosophy》，《A Mathematician Reads the Newspaper》，《A Mathematician Plays the Stock Market》等。

原文来源:	环球科学•数学篇
作者:	John Allen Paulos，美国天普大学数学系教授
翻译:	郭凯声
推荐人:	刘明，《环球科学》新媒体经理/资深编辑

统计学怪圈

热门文章

最新发布