關於p-value的二三事:隨機變數
p-value,一直以來是人們在執行決策時相當倚賴的統計工具之一。使用它的人眾多,但是真正熟悉它面貌的人甚少。人們總記得「p-value小於0.05,拒絕虛無假說 (H0)」的原則,但卻不完全理解背後的緣由,進而時常導致對於p-value的誤解甚至濫用。
白話的敘述以數學符號表示的話,p-value即是p=P(T>=tobs|H0)。從以上,我們可以很簡單的解讀,當今天你的p-value越來越小時,代表能夠找到比你的資料所產生出的檢定統計量更極端的機會更小,也就代表你的資料更加的極端,更加地偏離H0。當這個機率小於我們所們能夠接受的犯型一錯誤機率時 (Type I error rate, 一般寫作α),我們拒絕虛無假說。而這個能夠讓人們接受的型一錯誤率,在學界與業界廣泛定於0.05,但這0.05本身並無特殊來由,純粹是長久以來的方便與習慣使其沿用至今。
那麼p-value真正的意義是甚麼呢?我們先指定幾個符號:虛無假說為H0,對立假說為Ha,檢定統計量為T。p-value實際上是:
在假定真實情況為H0成立的情況下,檢定統計量T會比起我們所觀察到的樣本所建立出的統計量tobs更為極端的機率 − Moore, D. S. (2007), The Basic Practice of Statistics
白話的敘述以數學符號表示的話,p-value即是p=P(T>=tobs|H0)。從以上,我們可以很簡單的解讀,當今天你的p-value越來越小時,代表能夠找到比你的資料所產生出的檢定統計量更極端的機會更小,也就代表你的資料更加的極端,更加地偏離H0。當這個機率小於我們所們能夠接受的犯型一錯誤機率時 (Type I error rate, 一般寫作α),我們拒絕虛無假說。而這個能夠讓人們接受的型一錯誤率,在學界與業界廣泛定於0.05,但這0.05本身並無特殊來由,純粹是長久以來的方便與習慣使其沿用至今。
我們再回顧剛剛p-value的數學式p=P(T>=tobs|H0),稍作轉換可進一步寫成p=1−F(tobs),其中F(⋅)是T在虛無假設下的cumulative density function (CDF),可看出p-value即是統計檢定量的轉換,p-value也會是個隨機變數。事實上,在虛無假說H0成立之下,p-value會服從於均一分布Uniform(0,1):
P在虛無假說下的CDF為F(p)=p,此為均一分布Uniform(0,1),p-value在虛無假說下服從Uniform(0,1)得證。
當許多人在進行假說檢定時,大多數不會意識到p-value的隨機性,如果我們執行重複試驗,從同一批族群抽出定量的樣本來執行假說檢定,每次得到的p-value都會有些許的不同。前面的部份我們證明了在虛無假說H0為真實的情況之下,p-value會是均一分布。而當真實情況越偏向於對立假說Ha時,p-value的分布會逐漸靠近試驗所設定的顯著水準α,而成為一個右尾分布。
左圖是t-test檢定μ=0,而我們抽樣的真實族群也確實是μ=0,故左圖的情形是虛無假說H0為真,可看到p-value的分布基本上是均一分布。而當右邊二圖隨著檢定的族群平均數越偏離真實情況,可看到p-value的分布基本上越往顯著水準α所靠近。
p-value固然是我們在執行決策時的一個好工具,但它的解讀也往往藏著一些陷阱。當你得到p=0.04<α=0.05時,可以非常確定你的真實情況是Ha的情形 (如上邊綠圖),又或是H0 (上邊紅圖)呢?那如果你得到p=0.06>α=0.05,就一定是虛無假說為真,以至於無法拒絕嗎?我想p-value的隨機性是決策者在執行時必須意識到的一點,建議可以使用其他工具如區間估計來加強決策的依據。
P(P<p)=P(1−F(T)<p)=P(F(T)>1−p)
=1−P(F(T)<1−p)=1−P(T<F−1(1−p))
=1−F(F−1(1−p))=1−(1−p)=p
P在虛無假說下的CDF為F(p)=p,此為均一分布Uniform(0,1),p-value在虛無假說下服從Uniform(0,1)得證。
當許多人在進行假說檢定時,大多數不會意識到p-value的隨機性,如果我們執行重複試驗,從同一批族群抽出定量的樣本來執行假說檢定,每次得到的p-value都會有些許的不同。前面的部份我們證明了在虛無假說H0為真實的情況之下,p-value會是均一分布。而當真實情況越偏向於對立假說Ha時,p-value的分布會逐漸靠近試驗所設定的顯著水準α,而成為一個右尾分布。
設計一個簡單的模擬 (simulation)來簡單觀察此一性質。我們檢定執行一萬次的假說檢定,每次都從真實族群N(μ=0,σ2=1)抽出樣本數10的樣本,分別執行三種t-test來檢定族群平均數μ,顯著水準為α=0.05。
p-value固然是我們在執行決策時的一個好工具,但它的解讀也往往藏著一些陷阱。當你得到p=0.04<α=0.05時,可以非常確定你的真實情況是Ha的情形 (如上邊綠圖),又或是H0 (上邊紅圖)呢?那如果你得到p=0.06>α=0.05,就一定是虛無假說為真,以至於無法拒絕嗎?我想p-value的隨機性是決策者在執行時必須意識到的一點,建議可以使用其他工具如區間估計來加強決策的依據。
留言
張貼留言