常態分佈的最大概似估計 (maximum likelihood estimator)與無偏估性



最大概似估計 (maximum likelihood estimator, MLE)是統計推論上目前最廣泛使用的估計式,它的概念容易理解,具有一些理想的統計性質,使用上非常方便。不過並非所有的MLE都會是無偏估值 (unbiased estimator),常態分佈 (normal distribution)的參數σ2之MLE即是一有偏估值 (biased estimator)。以下我們可透過實際演練來簡單證明此一例子。
Maximum Likelihood Estimator of μ & σ2
顧名思義,最大概似估計即是從給定的樣本當中去找出能夠最大化概似函數 (likelihood function)的參數估計。今假設有一樣本數n的樣本X服從常態分佈N(μ,σ2),即X1,X2,...,Xni.i.dN(μ,σ2) 表示,則此樣本的概似函數:
L(μ,σ2|x1,...,xn)=f(x1,...,xn|μ,σ2)

上式中的f(x)即是我們分布的機率密度函數 (pdf, probability density function),而我們知道X1,...,Xn彼此之間獨立地 (iid, independently and identically distributed)來自同一個分布,因此我們可將最大概似函數寫成各自pdf的連乘積:
L(μ,σ2|x1,...,xn)=ni=1f(xi|μ,σ2)

常態分佈N(μ,σ2)的pdf為:
f(x|μ,σ2)=(2πσ2)12exp((xμ)22σ2)

將常態分佈的pdf代回去最大概似函數後,我們可進一步表示為:
L(μ,σ2|x1,,xn)=ni=1(2πσ2)12exp((xiμ)22σ2)=(2πσ2)n2exp(ni=1(xiμ)22σ2)

至此我們已經有了完整的最大概似函數了,接著就可以對我們想要估計的參數進行微分求極值。不過一般在運算上我們會先對函數取log,如此在微分的計算上會簡便許多:
l(μ,σ2|x1,...,xn)=n2log(2πσ2)ni=1(xiμ)22σ2
  •     μ的MLE

將log概似函數對上我們想估計的參數微分並且設為0,求出解後即是此參數的最大概似估計值。以下我們針對μ偏微分:
lμ=12σ22ni=1(xiμ)(1)=0
ni=1xinμ=0
ˆμ=1nni=1xi=ˉX

求出的MLE即是我們在統計學課本上常見的樣本平均數ˉX,我們也可證明其確實為μ的無偏估值:
E[ˉX]=1nni=1E[X]=1n×nμ=μ
(E[X]=μ)

  •     σ2的MLE

我們將已經求出的ˉX替代log概似函數內的μ,對上σ2偏微分並設為0求極值解:
σ2l(ˉX,σ2)=n22π2πσ212σ4(1)ni=1(xiˉX)2=0
n2σ2=12σ4ni=1(xiˉX)2
^σ2=1nni=1(xiˉX)2

還記得樣本變異數S2=1n1ni=1(xiˉX)2嗎?從教科書上我們得知,樣本變異數S2才會是σ2的無偏估值,但在此我們先不列出詳細證明。而在有了樣本變異數S2後,我們可以很輕易的從上式看到σ2的MLE並不等同於樣本變異數S2,因此我們也可以看出σ2的MLE並非無偏估值:
E[1nni=1(xiˉX)2]=E[n1nS2]=n1nE[S2]=n1nσ2

σ2的MLE雖然並非無偏估值,但他具有數理統計上估計式consistency的特性。

留言

這個網誌中的熱門文章

解析古典統計 (Frequentist)與貝氏統計 (Bayesian)之爭

關於p-value的二三事:隨機變數