贝叶斯法则及其应用


美国科学史家莎伦·麦格瑞恩在《不会死掉的理论》一书讨论了统计学家之间的分歧的哲学和历史基础,提到了贝叶斯法则在军事上的应用、它涉及的现代认识论的起源和现代数学的神学基础等问题。

第二次世界大战期间,阿兰·图灵发展贝叶斯法则,破解了德国海军的密码

从贝叶斯到拉普拉斯

18世纪英国业余数学家托马斯·贝叶斯(1702~1761)提出过一种看上去很显而易见的观点贝叶斯法则,它因为简单而显得平淡乏味:“用客观的新信息更新我们最初关于某个事物的信念后,我们就会得到一个新的、改进了的信念。”

贝叶斯法则诞生于1740年左右英国的宗教纷争:人能不能根据周围的世界的证据,对上帝做出理性的结论?1748年休谟发表了一篇论文,攻击基督教的一些基本教义。因为上帝被认为是第一因,休谟对因果关系的怀疑论尤其令人不安,而很多数学家相信自然法能够证明第一因和上帝的存在。为了研究因果关系,贝叶斯设计了一个思想实验,他背对一张桌子坐着,一位助手往方桌上扔一个母球,因为背对着方桌,他不知母球落在何处。接着他让助手再往桌上扔一个球,并报告它落在了母球的左边还是右边。如果是左边,贝叶斯就知道母球很有可能落在了桌子的右侧。贝叶斯的助手继续扔球并报告它落在母球的左边还是右边,如果是右边,贝叶斯知道母球不会在桌子特别靠右的位置。赌徒和数学家已经知道,丢硬币的次数越多,结论越可信。贝叶斯发现,随着扔出的球越来越多,每一条新的信息使他想象着的母球在一个越来越小的区域跳来跳去。这种方法不会得出一个准确的答案,贝叶斯永远也不能知道母球的准确位置,但他可以越来越自信地说出它最有可能在某个确定的范围内。他这个方法从对世界的观察追溯到了它们可能的来历或起因。

麦格瑞恩说:“贝叶斯法则实际上应该以另外一个人的名字命名:法国数学家皮埃尔-西蒙·拉普拉斯。”他在1774年终处理大量数据时,独立发现了这一法则,又在接下来的40年间,把它发展成了今天的形式。他发现,每次得到新数据后重新计算方程,能辨别出可能性较高的假设。

他的一个应用解释了为什么1700至1710年在巴黎出生的男孩比女孩多。在收集了全世界30年的人口统计数据后,他得出结论说,男孩女孩的出生比例在全世界是共通的,是由生物学决定的。对于那些对大量数字感兴趣的人来说,婴儿是理想的研究对象。首先,他们的出生是二进制的,不是男孩就是女孩,18世纪的数学家已经知道了如何处理二进制。其次,新生儿数量众多,这对从大量数字中寻找细微差异的精细的研究来说是必需的。拉普拉斯用客观数据改进他的直觉,在为科学思考构建数学模型时,他提出假说,然后用新的知识不停地对假设加以重估,拉普拉斯成了第一个现代的贝叶斯主义者。他的体系对新信息特别敏感,每一个新增的出生记录都会减小不确定性的范围。拉普拉斯对婴儿的出生情况加以归纳,不仅发现了决定某一个事件的概率,如某一个孩子的出生,而且找到了确定未来复合事件的概率的方式,如一整年里的出生情况,哪怕单一事件的概率是不确定的。1786年,他考察过去的事件对未来影响的概率,思考他的新生儿样本需要多大。到那时,他看出,概率是克服不确定性的主要方式。

拉普拉斯去世后,研究者和学术界致力于寻找这一法则精确、客观的解释。但同时,它已经在现实世界中被运用。第二次世界大战期间,阿兰·图灵发展贝叶斯法则,破解了德国海军的密码。当理论家们把贝叶斯法则视作禁忌时,它把贝尔电话系统从1907年的金融恐慌中拯救了出来,保险精算师用它确定赔率;它指引联军的炮火,找到德国人的潜艇;它确定地震的震中,英国地球物理学家哈罗德·杰弗里斯用它推测出地核是液态的也许是熔化的铁,或者混合了少量镍。“冷战”期间,贝叶斯法则帮助预测了“挑战者号”的悲剧,证明抽烟会致癌、高胆固醇会引发心脏病等等。今天,贝叶斯法则把色情图片过滤到我们电脑的回收站中。当船沉的时候,海岸警卫队用它寻找也许会在海上漂浮数周的幸存者。科学家发现了基因是如何被控制的。在网上,贝叶斯法则在网上爬梳,售出歌曲和电影。它渗透到了计算机科学、人工智能、机器的学习、华尔街、天文学和物理学、国土安全部、微软和谷歌。它帮助电脑把一种语言翻译成另一种语言。它成了我们的大脑如何学习和运转的一个比喻。杰出的贝叶斯论者甚至给政府部门就教育、能源和科研提出建议。

贝叶斯法则不只是一个被抛弃了的隐晦的科学争议,它是对处于绝对真理和完全不确定之间的灰色地带的广泛生活进行推理的逻辑。我们经常只对我们思考的问题的一小部分拥有信息,但我们都想以自己过去的经验为基础做出预测,我们在得到新的信息时改变我们的信念。

莎伦·麦格瑞恩(上图)和她的作品《不会死掉的理论》

现实比理论有着更大的张力

从一个有些根据的信念(直觉、猜想)出发,贝叶斯和他的后继者设计了一种方法,测算新增信息是增加还是减少了一个人最初的信念正确的概率。但反对者说它太主观,所以直到21世纪初,它仍是一个争论不休的问题。

关于贝叶斯法则的争议涉及不同的认识论之间的竞争,贝叶斯的理论或认识论上的敌手是频率论。对频率论者来说,信念毫无意义,客观性和有效性只能得自重复地观察到一个可复制的现象,直到为一个有意义的样本积累了足够多的数据。频率论者的理论结构假定,过去没有发生过的事情将来也永远不会发生。这扭曲了现实。如麦克雷尼所说,在频率论者看来,从统计的角度说,飞机不会在半空相撞。直到它们相撞的时候它们才撞上了,但那时再去计算犯错的可能性和确定精算表时已经晚了。

麦格瑞恩说,贝叶斯法则之争涉及一个更广泛、更基本的问题:我们如何分析证据,在得到新信息时改变主意,面对不确定性做出理性的决定。贝叶斯法则与现代科学所要求的客观性和准确性背道而驰,它衡量的是信念。它认为,我们可以从遗失的、不充分的数据、从近似性和无知中学到东西。

贝叶斯法则诞生以来,在保守的数学界激起了强烈反响。麦克雷尼详细叙述了这场论战,但他的重心是这条法则在历史和现实中的实际应用。阿尔弗雷德·德雷弗斯的辩护人用它证明他的无辜(1894年,法国犹太军官德雷弗斯被错误地指控是德国人的间谍,几乎唯一的证据是他卖给了德国人一封信。刑事犯罪学家阿尔封斯·贝蒂荣作证时说,根据概率论,基本可以肯定是德雷弗斯写了那封信。1899年审判时,他的辩护律师邀请法国著名数学家庞加莱出庭作证。庞加莱相信的是以频率为基础的统计学,但被问到文件是不是德雷弗斯所写时,他援引了贝叶斯法则,他认为,法庭唯一合理的做法是用新的证据更新最初的假设)。

再比如垃圾邮件的过滤,从某一个账户发出的邮件的主题里有“伟哥”这个词,并不见得它就是垃圾邮件。贝叶斯派拦截垃圾邮件的方法是用信息中的词和句子来确定该信息是垃圾的可能性。这是一种高度发达的方法,使用了背景线索,每当一个垃圾邮件抵达拒收文件夹,算法就有更多的理由相信它之前的直觉。

现在,贝叶斯法则正在革新机器人设计。贝叶斯法则用概率分布来表达所有的信息,可以从稀少和不确定的证据中产生可靠的估计。谷歌的无人驾驶汽车接收车顶传感器搜集到的路况和交通数据,更新从地图上获得的信息。

美国城市大学研究员迈克尔·沃什伯恩评论说:“贝叶斯的实用主义使它在军事行动、商业和克服个人遇到的障碍而非纯粹研究上非常成功。它没有激发出创新,但它能解决问题。随着我们的世界变得日益复杂,科学家们向自己提供了一个躲避不确定性的避难所。但是在大学里,纯粹研究不在乎它,仅仅一个事例对研究者来说没多大意义,结果我们生活的世界和被研究的世界之间发生了断裂。”理论因为抽象、纯粹,所以不同理论之间的对立和分歧会显得很尖锐,但现实比理论有着更大的张力,同时容得下贝叶斯法则和频率论。

原文链接: http://book.hexun.com/2011-07-05/131168202.html
作  者: 薛巍
来  源: 三联生活周刊