發表文章

解析古典統計 (Frequentist)與貝氏統計 (Bayesian)之爭

圖片
古典統計 ( Frequentist ,又稱頻率統計)與 貝氏統計 ( Bayesian )之戰在學界延續了數十年,而一直以來,古典統計的理論與應用主宰著世界。我們在學校所學到的統計課程,以及實際在產業界的統計應用,大多都依循著古典統計的框架而走。在過去的年代,因為古典統計太過強勢,甚至讓許多使用貝氏的學者不敢承認自己信仰貝氏。鄉野傳說在1960年的美國總統大選時,統計學家John Tukey和他的團隊成功以貝氏統計的方法,搶先預測出John F. Kennedy能夠勝選成為總統,但Tukey本人抵死不認自己是貝氏學者,而他的團隊也絕口不提當年預測的細節。 基礎的不同 那麼古典統計和貝氏統計究竟是差在哪裡呢?一般貝氏統計的根基—貝氏定理,都會在高等統計學或是機率論的課程中提到,但兩個系統的箇中差異,即便是統計系出生的學生,也不見得全部知道。其實,古典統計和貝氏統計在爭的,就是兩者對於「 機率 」 ( probability )的運用上,有著最直接的不同: 對古典統計來說,族群 母數 ( parameter ,又稱參數)雖然未知,但是是一個定值。我們無法直接得知該母數的真實值,但可以透過對族群「 抽樣 」 ( sampling ),用以「 估計 」 ( estimate )該母數與「 推論 」 ( inference )該族群。對於古典統計而言,機率只會在抽樣的動作下才會有所意義。 對貝氏統計來說,任何未知的數值都可以用機率分布的概念去配飾之,而這個未知的數值,當然也可以包含未知的族群母數。相較之下,古典統計認為母數是一定值,自然也不會運用機率的概念去描述該母數。 還是有些霧煞煞?沒關係,直接用例子來作演繹: 假設我們今天想要知道某所大學內所有男學生的平均身高,姑且稱之為$\theta$。第一步我們假設男學生的身高服從常態分佈。再來,我們假設該常態分佈的族群變異數$\sigma^2$已知,所以我們僅需要關注平均數就好。 古典統計學家的回答 針對這樣的問題,古典統計學家會這樣回答: 我雖然無法得知該所大學男學生平均身高的真實數值,但我能夠確定的是他是一個定值。我可以作的事情,是透過對男學生抽樣,算出樣本的平均數$\hat{\theta}$來估計該大學男學生的平均身高。我可以利用機率描述$\hat{\theta}$,但我無法利用機率來

資料科學金字塔階級:淺談業界的職務與職稱差異

圖片
近日在YouTube看到一部影片「 What REALLY is Data Science? Told by a Data Scientist 」,針對目前資料科學在業界廣泛的職務與職稱所帶來的混淆作解釋,雖然裡頭講解的模式可能會隨著不同產業有些許差異,但大抵上的原則與概念是通用的。影片的作者 Joma Tech 本身是BuzzFeed的Data Scientist,他的頻道也有許多與資料科學相關的Vlog,兼具娛樂性與知識性,很適合對於資料科學有初步認識的人收看。這篇文章,希望能夠透過Joma的解釋,來釐清目前對於資料科學的一些疑惑與誤解。 資料科學 (Data Science)是甚麼? 近年來大數據、資料科學、深度學習等等話題持續走紅,尤其人工智慧、機器學習等相關學問更是人人趨之若鶩。但如果以為這就是資料科學的全貌,那可就大錯特錯了!資料科學並不是只有建立出百分百的預測模型,畫出非常炫麗的視覺化圖型、又或是不停地的寫程式而已。資料科學的定義,是從資料中挖掘任何可用訊息,進一步地用以提升或改善企業營運上的指標。不論是統計學、機器學習、人工智慧等等,都是在這樣的框架下被運用的工具。對於企業而言,只要能夠從資料改善運作來改善公司運作或提升營利,選用何種工具而言本身並非商業上最要緊的議題。在現今鎂光燈都聚焦在人工智慧與深度學習的時代,這樣的概念講來雖然並不新穎,但卻時常被忽視。 資料科學階級金字塔 (The Hierarchy of Needs) (來源: The AI Hierarchy of Needs - Monica Rogati ) 上圖的金字塔所呈現的,是資料科學中各項職務的階級 (hierarchy)。就像是蓋金字塔需要從底層往上慢慢蓋一樣,當人工智慧一窩蜂地吸引人們爭相效尤時,人們也必須意識到在那之前需要有良好的基礎才能達成。雖然,資料分析在各個領域與產業的形式會有些微差異,但大抵上不脫基本的處理進程: Collect :資料從何而來?有哪些型式?有哪些來源?針對資料收集的各種制定,是資料分析最前端的任務。 Move/Store :這階段會處理資料的儲存與移動,包括結構化與半結構化的資料儲存、資料從前端匯入到後端的pipeline建立等等。 Explore/Transform :資料的探索與轉換,如遺失值與極端值的處置等。這

關於p-value的二三事:隨機變數

圖片
p-value,一直以來是人們在執行決策時相當倚賴的統計工具之一。使用它的人眾多,但是真正熟悉它面貌的人甚少。人們總記得「p-value小於0.05,拒絕虛無假說 ($H_0$)」的原則,但卻不完全理解背後的緣由,進而時常導致對於p-value的誤解甚至濫用。 那麼p-value真正的意義是甚麼呢?我們先指定幾個符號:虛無假說為$H_0$,對立假說為$H_a$,檢定統計量為$T$。p-value實際上是: 在假定真實情況為$H_0$成立的情況下,檢定統計量$T$會比起我們所觀察到的樣本所建立出的統計量$t_{obs}$更為極端的機率 $-$ Moore, D. S. (2007), The Basic Practice of Statistics 白話的敘述以數學符號表示的話,p-value即是$p=P(T>=t_{obs}|H_0)$。從以上,我們可以很簡單的解讀,當今天你的p-value越來越小時,代表能夠找到比你的資料所產生出的檢定統計量更極端的機會更小,也就代表你的資料更加的極端,更加地偏離$H_0$。當這個機率小於我們所們能夠接受的犯型一錯誤機率時 (Type I error rate, 一般寫作$\alpha$),我們拒絕虛無假說。而這個能夠讓人們接受的型一錯誤率,在學界與業界廣泛定於0.05,但這0.05本身並無特殊來由,純粹是長久以來的方便與習慣使其沿用至今。 我們再回顧剛剛p-value的數學式$p=P(T>=t_{obs}|H_0)$,稍作轉換可進一步寫成$p=1-F(t_{obs})$,其中$F(\cdot)$是$T$在虛無假設下的cumulative density function (CDF),可看出p-value即是統計檢定量的轉換,p-value也會是個隨機變數。事實上,在虛無假說$H_0$成立之下,p-value會服從於均一分布$Uniform(0,1)$: $P(P<p)=P(1-F(T)<p)=P(F(T)>1-p)$ $\hspace{45mm}=1-P(F(T)<1-p)=1-P(T<F^{-1}(1-p))$ $\hspace{23mm}=1-F(F^{-1}(1-p))=1-(1-p)=p$ $P$在虛無假說下的CDF為$F(p)=p$

常態分佈的最大概似估計 (maximum likelihood estimator)與無偏估性

最大概似估計 (maximum likelihood estimator, MLE)是統計推論上目前最廣泛使用的估計式,它的概念容易理解,具有一些理想的統計性質,使用上非常方便。不過並非所有的MLE都會是無偏估值 (unbiased estimator),常態分佈 (normal distribution)的參數$ \sigma^2 $之MLE即是一有偏估值 (biased estimator)。以下我們可透過實際演練來簡單證明此一例子。 Maximum Likelihood Estimator of $\mu $ & $ \sigma^2 $ 顧名思義,最大概似估計即是從給定的樣本當中去找出能夠最大化概似函數 (likelihood function)的參數估計。今假設有一樣本數$n$的樣本$X$服從常態分佈$N(\mu,\sigma^2)$,即$ X_1,X_2,...,X_n \stackrel{\text{i.i.d}}{\sim} N(\mu, \sigma^2) $ 表示,則此樣本的概似函數: $ L(\mu, \sigma^2|x_1,...,x_n) =  f(x_1,...,x_n | \mu, \sigma^2) $ 上式中的$f(x)$即是我們分布的機率密度函數 (pdf, probability density function),而我們知道$X_1,...,X_n$彼此之間獨立地 (iid, independently and identically distributed)來自同一個分布,因此我們可將最大概似函數寫成各自pdf的連乘積: $L(\mu, \sigma^2|x_1,...,x_n) = \displaystyle\prod^{n}_{i=1} f(x_i | \mu, \sigma^2) $ 常態分佈$N(\mu,\sigma^2)$的pdf為: $ f(x|\mu,\sigma^2)=(2\pi\sigma^2)^{\frac{-1}{2}}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) $ 將常態分佈的pdf代回去最大概似函數後,我們可進一步表示為: $L(\mu, \sigma^2|x_1,\dots,x_n) = \displaystyle\pro