常態分佈的最大概似估計 (maximum likelihood estimator)與無偏估性



最大概似估計 (maximum likelihood estimator, MLE)是統計推論上目前最廣泛使用的估計式,它的概念容易理解,具有一些理想的統計性質,使用上非常方便。不過並非所有的MLE都會是無偏估值 (unbiased estimator),常態分佈 (normal distribution)的參數$ \sigma^2 $之MLE即是一有偏估值 (biased estimator)。以下我們可透過實際演練來簡單證明此一例子。
Maximum Likelihood Estimator of $\mu $ & $ \sigma^2 $
顧名思義,最大概似估計即是從給定的樣本當中去找出能夠最大化概似函數 (likelihood function)的參數估計。今假設有一樣本數$n$的樣本$X$服從常態分佈$N(\mu,\sigma^2)$,即$ X_1,X_2,...,X_n \stackrel{\text{i.i.d}}{\sim} N(\mu, \sigma^2) $ 表示,則此樣本的概似函數:
$ L(\mu, \sigma^2|x_1,...,x_n) =  f(x_1,...,x_n | \mu, \sigma^2) $

上式中的$f(x)$即是我們分布的機率密度函數 (pdf, probability density function),而我們知道$X_1,...,X_n$彼此之間獨立地 (iid, independently and identically distributed)來自同一個分布,因此我們可將最大概似函數寫成各自pdf的連乘積:
$L(\mu, \sigma^2|x_1,...,x_n) = \displaystyle\prod^{n}_{i=1} f(x_i | \mu, \sigma^2) $

常態分佈$N(\mu,\sigma^2)$的pdf為:
$ f(x|\mu,\sigma^2)=(2\pi\sigma^2)^{\frac{-1}{2}}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) $

將常態分佈的pdf代回去最大概似函數後,我們可進一步表示為:
$L(\mu, \sigma^2|x_1,\dots,x_n) = \displaystyle\prod^{n}_{i=1}(2\pi\sigma^2)^{\frac{-1}{2}}\exp(-\frac{(x_i-\mu)^2}{2\sigma^2}) = (2\pi\sigma^2)^{\frac{-n}{2}}\exp(-\frac{\sum^{n}_{i=1}(x_i-\mu)^2}{2\sigma^2}) $

至此我們已經有了完整的最大概似函數了,接著就可以對我們想要估計的參數進行微分求極值。不過一般在運算上我們會先對函數取log,如此在微分的計算上會簡便許多:
$l(\mu, \sigma^2|x_1,...,x_n) = -\frac{n}{2}\log(2\pi\sigma^2) - \frac {\sum^{n}_{i=1}(x_i-\mu)^2} {2\sigma^2} $
  •     $\mu$的MLE

將log概似函數對上我們想估計的參數微分並且設為0,求出解後即是此參數的最大概似估計值。以下我們針對$\mu$偏微分:
$ \frac{\partial l}{\partial \mu} =-\frac{1}{2\sigma^2} \cdot 2 \cdot \displaystyle\sum^{n}_{i=1} (x_i - \mu) \cdot (-1) = 0 $
$ \displaystyle\sum^{n}_{i=1} x_i - n\mu = 0 $
$\hat{\mu} = \frac{1}{n} \displaystyle\sum^{n}_{i=1}x_i = \bar{X} $

求出的MLE即是我們在統計學課本上常見的樣本平均數$\bar{X}$,我們也可證明其確實為$\mu$的無偏估值:
$ E[\bar{X}] = \frac{1}{n}\displaystyle\sum^{n}_{i=1} E[X] = \frac{1}{n} \times n\mu = \mu $
$ (\because E[X] = \mu) $

  •     $\sigma^2$的MLE

我們將已經求出的$\bar{X}$替代log概似函數內的$\mu$,對上$\sigma^2$偏微分並設為0求極值解:
$\frac{\partial}{\partial\sigma^2}l(\bar{X},\sigma^2)=-\frac{n}{2} \cdot \frac{2\pi}{2\pi\sigma^2} - \frac{1}{2\sigma^4} \cdot (-1) \cdot \displaystyle\sum^{n}_{i=1} (x_i - \bar{X})^2 = 0 $
$ \frac{n}{2\sigma^2} = \frac{1}{2\sigma^4} \displaystyle\sum^{n}_{i=1} (x_i - \bar{X})^2 $
$ \hat{\sigma^2} = \frac{1}{n} \displaystyle\sum^{n}_{i=1} (x_i - \bar{X})^2 $

還記得樣本變異數$ S^2 = \frac{1}{n-1} \sum^{n}_{i=1} (x_i - \bar{X})^2$嗎?從教科書上我們得知,樣本變異數$S^2$才會是$\sigma^2$的無偏估值,但在此我們先不列出詳細證明。而在有了樣本變異數$S^2$後,我們可以很輕易的從上式看到$\sigma^2$的MLE並不等同於樣本變異數$S^2$,因此我們也可以看出$\sigma^2$的MLE並非無偏估值:
$ E[ \frac{1}{n} \displaystyle\sum^{n}_{i=1} (x_i - \bar{X})^2] = E[\frac{n-1}{n}S^2] = \frac{n-1}{n} E[S^2] = \frac{n-1}{n}\sigma^2 $

$\sigma^2$的MLE雖然並非無偏估值,但他具有數理統計上估計式consistency的特性。

留言

這個網誌中的熱門文章

解析古典統計 (Frequentist)與貝氏統計 (Bayesian)之爭

關於p-value的二三事:隨機變數