常態分佈的最大概似估計 (maximum likelihood estimator)與無偏估性
最大概似估計 (maximum likelihood estimator, MLE)是統計推論上目前最廣泛使用的估計式,它的概念容易理解,具有一些理想的統計性質,使用上非常方便。不過並非所有的MLE都會是無偏估值 (unbiased estimator),常態分佈 (normal distribution)的參數σ2之MLE即是一有偏估值 (biased estimator)。以下我們可透過實際演練來簡單證明此一例子。
Maximum Likelihood Estimator of μ & σ2
顧名思義,最大概似估計即是從給定的樣本當中去找出能夠最大化概似函數 (likelihood function)的參數估計。今假設有一樣本數n的樣本X服從常態分佈N(μ,σ2),即X1,X2,...,Xni.i.d∼N(μ,σ2) 表示,則此樣本的概似函數:
L(μ,σ2|x1,...,xn)=f(x1,...,xn|μ,σ2)
上式中的f(x)即是我們分布的機率密度函數 (pdf, probability density function),而我們知道X1,...,Xn彼此之間獨立地 (iid, independently and identically distributed)來自同一個分布,因此我們可將最大概似函數寫成各自pdf的連乘積:
L(μ,σ2|x1,...,xn)=n∏i=1f(xi|μ,σ2)
常態分佈N(μ,σ2)的pdf為:
f(x|μ,σ2)=(2πσ2)−12exp(−(x−μ)22σ2)
將常態分佈的pdf代回去最大概似函數後,我們可進一步表示為:
L(μ,σ2|x1,…,xn)=n∏i=1(2πσ2)−12exp(−(xi−μ)22σ2)=(2πσ2)−n2exp(−∑ni=1(xi−μ)22σ2)
至此我們已經有了完整的最大概似函數了,接著就可以對我們想要估計的參數進行微分求極值。不過一般在運算上我們會先對函數取log,如此在微分的計算上會簡便許多:
l(μ,σ2|x1,...,xn)=−n2log(2πσ2)−∑ni=1(xi−μ)22σ2
μ的MLE
將log概似函數對上我們想估計的參數微分並且設為0,求出解後即是此參數的最大概似估計值。以下我們針對μ偏微分:
∂l∂μ=−12σ2⋅2⋅n∑i=1(xi−μ)⋅(−1)=0
n∑i=1xi−nμ=0
ˆμ=1nn∑i=1xi=ˉX
求出的MLE即是我們在統計學課本上常見的樣本平均數ˉX,我們也可證明其確實為μ的無偏估值:
E[ˉX]=1nn∑i=1E[X]=1n×nμ=μ
(∵E[X]=μ)
σ2的MLE
∂∂σ2l(ˉX,σ2)=−n2⋅2π2πσ2−12σ4⋅(−1)⋅n∑i=1(xi−ˉX)2=0
n2σ2=12σ4n∑i=1(xi−ˉX)2
^σ2=1nn∑i=1(xi−ˉX)2
還記得樣本變異數S2=1n−1∑ni=1(xi−ˉX)2嗎?從教科書上我們得知,樣本變異數S2才會是σ2的無偏估值,但在此我們先不列出詳細證明。而在有了樣本變異數S2後,我們可以很輕易的從上式看到σ2的MLE並不等同於樣本變異數S2,因此我們也可以看出σ2的MLE並非無偏估值:
E[1nn∑i=1(xi−ˉX)2]=E[n−1nS2]=n−1nE[S2]=n−1nσ2
σ2的MLE雖然並非無偏估值,但他具有數理統計上估計式consistency的特性。
留言
張貼留言