關於p-value的二三事:隨機變數

p-value,一直以來是人們在執行決策時相當倚賴的統計工具之一。使用它的人眾多,但是真正熟悉它面貌的人甚少。人們總記得「p-value小於0.05,拒絕虛無假說 ($H_0$)」的原則,但卻不完全理解背後的緣由,進而時常導致對於p-value的誤解甚至濫用。

那麼p-value真正的意義是甚麼呢?我們先指定幾個符號:虛無假說為$H_0$,對立假說為$H_a$,檢定統計量為$T$。p-value實際上是:

在假定真實情況為$H_0$成立的情況下,檢定統計量$T$會比起我們所觀察到的樣本所建立出的統計量$t_{obs}$更為極端的機率 $-$ Moore, D. S. (2007), The Basic Practice of Statistics

白話的敘述以數學符號表示的話,p-value即是$p=P(T>=t_{obs}|H_0)$。從以上,我們可以很簡單的解讀,當今天你的p-value越來越小時,代表能夠找到比你的資料所產生出的檢定統計量更極端的機會更小,也就代表你的資料更加的極端,更加地偏離$H_0$。當這個機率小於我們所們能夠接受的犯型一錯誤機率時 (Type I error rate, 一般寫作$\alpha$),我們拒絕虛無假說。而這個能夠讓人們接受的型一錯誤率,在學界與業界廣泛定於0.05,但這0.05本身並無特殊來由,純粹是長久以來的方便與習慣使其沿用至今。

我們再回顧剛剛p-value的數學式$p=P(T>=t_{obs}|H_0)$,稍作轉換可進一步寫成$p=1-F(t_{obs})$,其中$F(\cdot)$是$T$在虛無假設下的cumulative density function (CDF),可看出p-value即是統計檢定量的轉換,p-value也會是個隨機變數。事實上,在虛無假說$H_0$成立之下,p-value會服從於均一分布$Uniform(0,1)$:
$P(P<p)=P(1-F(T)<p)=P(F(T)>1-p)$
$\hspace{45mm}=1-P(F(T)<1-p)=1-P(T<F^{-1}(1-p))$
$\hspace{23mm}=1-F(F^{-1}(1-p))=1-(1-p)=p$

$P$在虛無假說下的CDF為$F(p)=p$,此為均一分布$Uniform(0,1)$,p-value在虛無假說下服從$Uniform(0,1)$得證。

當許多人在進行假說檢定時,大多數不會意識到p-value的隨機性,如果我們執行重複試驗,從同一批族群抽出定量的樣本來執行假說檢定,每次得到的p-value都會有些許的不同。前面的部份我們證明了在虛無假說$H_0$為真實的情況之下,p-value會是均一分布。而當真實情況越偏向於對立假說$H_a$時,p-value的分布會逐漸靠近試驗所設定的顯著水準$\alpha$,而成為一個右尾分布。

設計一個簡單的模擬 (simulation)來簡單觀察此一性質。我們檢定執行一萬次的假說檢定,每次都從真實族群$N(\mu=0,\sigma^2=1)$抽出樣本數10的樣本,分別執行三種t-test來檢定族群平均數$\mu$,顯著水準為$\alpha=0.05$。



左圖是t-test檢定$\mu=0$,而我們抽樣的真實族群也確實是$\mu=0$,故左圖的情形是虛無假說$H_0$為真,可看到p-value的分布基本上是均一分布。而當右邊二圖隨著檢定的族群平均數越偏離真實情況,可看到p-value的分布基本上越往顯著水準$\alpha$所靠近。

p-value固然是我們在執行決策時的一個好工具,但它的解讀也往往藏著一些陷阱。當你得到$p=0.04<\alpha=0.05$時,可以非常確定你的真實情況是$H_a$的情形 (如上邊綠圖),又或是$H_0$ (上邊紅圖)呢?那如果你得到$p=0.06>\alpha=0.05$,就一定是虛無假說為真,以至於無法拒絕嗎?我想p-value的隨機性是決策者在執行時必須意識到的一點,建議可以使用其他工具如區間估計來加強決策的依據。

留言

這個網誌中的熱門文章

解析古典統計 (Frequentist)與貝氏統計 (Bayesian)之爭

常態分佈的最大概似估計 (maximum likelihood estimator)與無偏估性