本篇文章4202字,读完约11分钟

对大多数朋友来说,贝叶斯统计就像魔法甚至巫术,而其他人则认为这是完全主观的胡说八道。在贝叶斯方法家族中,马尔可夫链蒙特卡罗方法尤为神秘。虽然它确实涉及大量的数学知识,需要昂贵的计算资源,像数据科学领域的许多其他方法一样,基本的推理过程也可以用非常直观的方式进行总结。这是本文的核心主题。

那么,什么是马尔可夫链蒙特卡罗?简而言之:

Mcmc。方法用于通过概率空.中的随机抽样来近似感兴趣参数的后验分布

在本文中,我将深入分析这个简单的答案,不要担心,它不涉及任何数学知识。

首先,我们需要解释一些术语。其中,提到的有趣参数是用来总结我们所关心的一些现象的相关数字。一般来说,我们将使用统计方法来估计这些参数。例如,如果我们想知道成年人的身高水平,感兴趣的参数可能是以英寸为单位的平均身高数。该分布表示参数的每个可能值的数学表达式,以及我们观察每个值的特定概率。最著名的是贝尔曲线:

无需数学知识:快速了解马尔可夫链蒙特卡洛方法

在贝叶斯统计方法中,分布的概念有另外一种解释。贝叶斯不仅表示参数的数值,还表示每个参数的真实值。更具体地说,贝叶斯可以理解为我们对某个参数的确定性。因此,上面的贝尔曲线表明,我们基本上可以确定参数的实际值非常接近于零,但是我们认为实际值高于或低于这个值的可能性是相等的。

事实上,人体的高度确实遵循一条正常的曲线,所以让我们假设人体平均高度的真实值遵循以下贝尔曲线:

显然,上图所示的结果只能来自庞大的人口,因为可以看出大多数成年人平均身高为6英尺2英寸(尽管他们对结果不太确定)。

让我们假设统计学家已经收集了一批新的数据,其中有一些成人身高在5英尺到6英尺之间。我们可以用下面的数据来表达这种情况,而法线曲线可以最好地解释这种平均高度数据:

在贝叶斯统计中,参数的确定性分布被称为先验分布,因为它将在获得任何实际数据之前首先捕获我们的确定性水平。似然分布概括了观测数据所提供的结论,即通过将参数取值范围与单个参数相结合,可以解释目前观测数据的概率。最大化似然分布的参数值可以回答这样一个问题:哪些参数值决定了我们观察当前数据的概率。如果没有这种先验概率,我们将无法进行进一步的分析。

无需数学知识:快速了解马尔可夫链蒙特卡洛方法

然而,贝叶斯分析的核心是结合先验分布和似然分布来确定后验分布。结合先验概率,后验分布可以告诉我们哪些参数值可以最大化观察特定数据的概率。在我们的示例中,后验分布结果如下:

如上图所示,红色曲线代表后验分布。你可以把它想象成先验和可能性的分布平均值。因为先验分布更短、更分散,所以它代表了对人类平均身高真实值的不确定预测。同时,概率将被总结在一个相对较窄的范围内,因此它代表了对真实参数值的更明确的猜测。

当包含先验概率时,数据(以概率表示)成为弱先验分布结论的主体,即个体在巨大的群体中增长。尽管统计学家仍然认为人类的平均身高略高于实际数据,但他们仍然相信实际数据所表达的结果。

有了两条贝尔曲线,我们可以很容易地求解后验分布,并使用一个简单的方程很容易地将它们结合起来。但是如果我们的先验分布和概率分布结果不理想呢?有时,使用不规则分布来建模数据或先验概率可以带来更准确的结果。如果我们需要用一个有两个峰值的分布来准确地表达我们的概率结果,并且由于某种原因我们需要解释一些非常奇怪的先验分布结论,我们该怎么办?接下来,我用手画了一条粗略的先验分布曲线:

无需数学知识:快速了解马尔可夫链蒙特卡洛方法

如前所述,有一些后验分布可以给出每个参数值的具体概率。然而,我们很难从纯图形的角度理解其具体表达的含义,这种情况不能通过分析来解决。此时,我们需要使用mcmc方法。

Mcmc方法允许我们估计后验分布的形状,从而解决这种不能直接计算的问题。同样,mcmc的全称是马尔可夫链蒙特卡罗方法。为了理解其工作原理,我将首先介绍蒙特卡罗模拟,然后讨论马尔可夫链的概念。

蒙特卡罗模拟是指通过反复生成随机数来估计固定参数的方法。通过生成随机数并进行计算,蒙特卡罗模拟可以为无法直接计算的参数提供近似值(或者直接计算的成本太高)。

假设我们需要估计下图中圆圈的面积:

因为圆位于边长为10英寸的正方形内,所以很容易计算出它的面积为78.5平方英寸。但是这里我们不使用简单的面积公式,而是随机选择正方形中的20个点,然后计算圆中的点的比例,再乘以正方形的面积。这样得到的数字是一个近似值,非常接近圆形区域。

由于20个点中有15个在圆内,圆的面积大约为75平方英寸。虽然结果仍有误差,但考虑到只使用了20个随机点,我们可以看出蒙特卡罗模拟的效果确实值得认可。

现在,让我们假设我们需要计算蝙蝠侠标志的面积:

对于这样的形状,显然没有现成的公式来计算面积!然而,我们可以在矩形区域中随机取点,并通过蒙特卡罗模拟容易地获得标记区域的近似值。

蒙特卡罗模拟不仅适用于计算各种异形面积。事实上,通过生成大量的随机数,它还可以用来模拟其他非常复杂的过程,如实际天气预报或候选人赢得选举的可能性。

理解mcmc方法的第二个关键在于马尔可夫链。它表示相关事件概率的序列。每个事件都来自一组结果,每个结果都由最后一组结果以固定的概率确定。

马尔可夫链的一个重要特征是它的无记忆性:在预测下一个事件时,我们只需要考虑当前状态,而以前的历史状态与它无关。虽然现实世界中很少有运行模式如此规则的场景,但马尔可夫链仍然是我们理解各种实际问题的有力手段。

在19世纪,钟形曲线被认为是一个常规模型(例如,我们已经注意到人类的身高分布遵循钟形曲线)。高尔顿钉板通过在带有木质隔板的平面上散布大理石球来模拟重复随机事件的平均值,旨在再现大理石球分布的正态曲线:

俄罗斯数学家和神学家帕维尔·涅克拉索夫(Pavel nekrasov)认为,贝尔曲线(Bell Curve)和更为传统的大数定律只是儿童游戏和琐碎谜题的产物,事实上每个事件都以完全独立的形式存在。在他看来,现实世界中相互依赖的事物,如人类行为,并不完全符合数学模型或分布。

然而,作为马尔可夫链的命名源,安德烈马尔科夫试图证明相关事件也可能符合这种模式。他提出的最著名的例子是从一首俄罗斯诗中提出了数以千计的双字符对。利用这些字符对,他计算了每个字符的条件概率。具体来说,给定前一个字母或空大小写,可以判断下一个字符是a、t或空大小写的概率。利用这些概率,马尔可夫可以模拟任意长度的字符序列。这是一个马尔可夫链。尽管前几个字母在很大程度上取决于初始字符的选择,但研究结果表明,字符分布在长期也遵循一种模式。因此,即使存在相互关联的事件,如果它们受到固定概率的影响,它们仍然具有一致的平均性能。

无需数学知识:快速了解马尔可夫链蒙特卡洛方法

让我们举一个更贴近生活的例子。假设你住在一个有五个房间的房子里,这五个房间是卧室、浴室、客厅、餐厅和厨房。我们将收集一些数据,并试图判断当我们在一个房间的任何时候进入另一个特定房间的概率。如果你在厨房,你可能有30%的概率呆在厨房,30%的概率进入餐厅,20%的概率进入客厅,10%的概率进入浴室,最后10%的概率进入卧室。利用这组概率数据,我们可以建立一个马尔可夫链来预测下一个目的地。

无需数学知识:快速了解马尔可夫链蒙特卡洛方法

然而,这种方法可能只适用于预测少数特殊情况。更具体地说,因为我们的预测结论仅仅基于单个物体在家中的活动,结果可能不足以反映真实情况。例如,如果有人从卧室去卫生间,那么他们可能会直接回到卧室,而不是去我们预设的开始位置,厨房。正因为如此,马尔可夫链往往不适合真实场景。

然而,如果马氏链被迭代数千次,就有可能从长期的角度预测角色对象的活动趋势。更重要的是,这种预测不会受到具体起始房间的影响!更直观地说,这一点非常重要:在某个时间点某人在家的位置并不重要,但更重要的是模拟和描述他的长期或一般住所。因此,只要我们能理解控制其特定行为的概率,我们就能把马氏链从一种在短时间内模拟随机变量的非理性方法转变为一种计算变量长期趋势的有效手段。

无需数学知识:快速了解马尔可夫链蒙特卡洛方法

有了以上的蒙特卡洛模拟和马尔可夫链的知识,我相信每个人都能更直观地理解下面的mcmc方法的数学解释。

如您所知,我们的目标是估计感兴趣参数的后验分布,即每人的身高:

我不是可视化方面的专家,这里作为例子使用的数据并没有刻意追求真实性:我的后验分布例子显然严重高估了人类的平均身高。

众所周知,后验分布存在于我们的先验分布范围和似然分布范围内。但是无论如何,我们不能直接计算结果。利用mcmc方法,我们可以有效地从后验分布中提取样本,然后计算这些样本的平均值。

首先,mcmc方法选择一个随机参数值作为起点。模拟过程将继续生成随机值(即蒙特卡罗模拟),并根据相关规则确定更准确的参数值。诀窍在于,对于两个参数值,我们可以在解释数据时计算每个值的具体概率,以便计算哪个参数值更准确。如果随机生成的参数值比前一个参数值更准确,则将其添加到参数值链中,并以一定的概率确定其改进程度(马尔可夫链方法)。

无需数学知识:快速了解马尔可夫链蒙特卡洛方法

为了直观地解释,我们在这里再次强调,某个值的分布高度代表观察该值的概率。因此,我们可以想象我们的参数值(X轴)将在Y轴上显示高概率区和低概率区。对于单个参数,mcmc方法沿x轴随机采样:

图:红点代表随机参数样本

因为随机样本受固定概率的影响,所以预计它将在一段时间后收敛到具有最高概率的感兴趣参数的区域:

图:蓝点代表任意时间点后的随机样本,此时预计开始收敛。请注意:为了便于理解,这里我简单地将这些点垂直堆叠。

收敛后,mcmc将从后验分布中提取一组样本点。围绕这些点绘制直方图,并使用它们来计算您感兴趣的任何统计数据:

由mcmc模拟生成的样本集计算的统计结果是我们对真实后验分布统计结果的最佳猜测。

Mcmc方法也可以用来估计多维参数(如身高和体重)的后验分布。对于n个参数,在n维空中存在一个高概率区域,一些参数值集可以更好地解释观测数据。因此,我认为mcmc方法实际上是在概率空范围内随机抽样,得到后验分布的近似值。

在文章的最后,我想再次帮助你简要回顾一下什么是马尔可夫链蒙特卡罗方法。

mcmc方法用于通过概率空.范围内的随机抽样来近似感兴趣参数的后验分布

我希望以上简短的回答能帮助你理解mcmc方法,为什么它被使用以及它是如何工作的。这篇文章的灵感来自我在华盛顿特区全体会议上参加的沉浸式数据科学课程..本课程的目的是向没有技术背景的观众解释马尔可夫链蒙特卡罗方法,本文的意义也在这里。

[资料来源:发展科学;;编译:技术行者]

来源:搜狐微门户

标题:无需数学知识:快速了解马尔可夫链蒙特卡洛方法

地址:http://www.shwmhw.com/shxw/40298.html