Maximum Likelihood Estimation(MLE) 极大似然估计
(给算法爱好者加星标,修炼编程内功)
来源:程序员 Aaron Zhu
Maximum Likelihood Estimation(MLE) 极大似然估计,又被称作最大似然估计。其可在给定概率分布模型的条件下用于模型参数的估计,即所谓的参数估计
基本原理
在此之前,我们先来了解下 P(x;θ),其中 x 就是概率中常见的随机变量,而θ则是该概率分布模型的模型参数。在不同概率分布模型中有各自不同的模型参数,比如二项分布的р,正态分布的μ、σ。一般情况下我们见到更多的是,概率分布的模型参数θ是已知的、确定的,则此时 P(x;θ) 就是我们常见的在确定的分布模型下随机变量 x 的概率;而如果反过来,随机变量 x 是已知的,则此时 P(x;θ) 表示的就是在不同的模型参数θ条件下出现给定样本 x 的概率。这就是对于 P(x;θ) 理解的一体两面。显然在参数估计过程中,对 P(x;θ) 取后一种理解
所谓参数估计,就是估计出概率分布中的模型参数θ。为此我们会首先进行 n 次抽样实验,记抽样结果为 。那仅仅根据这 n 个抽样结果,该如何估计出此概率分布的模型参数呢?这就引入了我们的今天的主题了——MLE 极大似然估计。其依据的思想也很简单,即概率越大越有可能发生 (最大似然可以理解为最为相似,即最大的可能性)。即 使得当前抽样结果发生概率 L(θ) 最大的模型参数θ,就是我们所需的参数估计值。即
其中 L(θ) 被称为样本的似然函数。大多数情况下,n 次抽样实验相互之间满足独立同分布 (i.i.d),则有
在了解了 MLE 的基本原理后,让我们总结下 MLE 极大似然估计在参数估计过程中的基本步骤:
-
建立似然函数 L(θ)
-
对 L(θ) 取对数,得对数似然函数 lnL(θ)
-
lnL(θ) 对θ求导并令其为 0,计算极值点
-
模型参数θ得解
上述流程相信大家都能看懂,唯一可能让人感到疑惑的地方在于第 2 点,为啥要取对数呢?这是由于一方面 ln 对数单调递增的特性使得其不会改变极值点;而更重要的原因在于取对数后方便我们后续的求导工作,这一点将会在下面的例子中体现的更加明显。事实上,取对数也是大家日常工作开发中经常会使用到的一项数据处理技巧
离散型概率分布
说了这么多,我们通过一个实际例子来展示如何具体的通过 MLE 来进行参数估计。这里我们以离散型概率分布中的二项分布为例
有一个不透明的袋子,里面装了黑、白两种颜色的球。记从袋子中摸到黑球、白球的概率分别为 p、1-p。假设某人进行了 10 次随机抽样,每次都是有放回的从袋子中摸出一个球,其抽样结果为 7 次黑球、3 次白球。试估计出概率 p 的值
如果我们希望利用 MLE 估计该模型参数 p 的值,则首先第一步需要建立似然函数 L(p)。显然该概率分布为二项分布,则有
对其取对数
然后对 p 求导并令其为 0,有
最后,求解上式可得 p = 0.7
连续型概率分布
在连续型概率分布中,其不存在分布律,取而代之的是概率密度函数 f。则对于 n 个样本而言,其概率可近似地为
但由于因子 并不随θ变化,故在连续型概率分布下其似然函数为
这里,我们选用典型的正态分布作为实例,来展示如何通过 MLE 对正态分布的模型参数进行估计。根据上文可知,我们可直接通过概率密度函数来构建似然函数
对其取对数
然后分别对模型参数求偏导并令其为 0,有
最后,求解上式,可得正态分布的模型参数在 MLE 下的估计值
可以看到对于正态分布而言,其均值的极大似然估计量即是样本的均值;而其方差的极大似然估计量却是样本数据的总体方差值 (即分母为 n) ,而不是样本数据的样本方差值 (即分母为 n-1) ,故正态分布方差的极大似然估计量是有偏的
参考文献
-
程序员的数学 2·概率统计 平冈和幸、堀玄著
-
现代心理与教育统计学 张厚粲、徐建平著
来源链接:mp.weixin.qq.com
来源:算法爱好者
- 免责声明
- 世链财经作为开放的信息发布平台,所有资讯仅代表作者个人观点,与世链财经无关。如文章、图片、音频或视频出现侵权、违规及其他不当言论,请提供相关材料,发送到:2785592653@qq.com。
- 风险提示:本站所提供的资讯不代表任何投资暗示。投资有风险,入市须谨慎。
- 世链粉丝群:提供最新热点新闻,空投糖果、红包等福利,微信:juu3644。