資料科學金字塔階級：淺談業界的職務與職稱差異

- 7月 21, 2018

近日在YouTube看到一部影片「What REALLY is Data Science? Told by a Data Scientist」，針對目前資料科學在業界廣泛的職務與職稱所帶來的混淆作解釋，雖然裡頭講解的模式可能會隨著不同產業有些許差異，但大抵上的原則與概念是通用的。影片的作者Joma Tech本身是BuzzFeed的Data Scientist，他的頻道也有許多與資料科學相關的Vlog，兼具娛樂性與知識性，很適合對於資料科學有初步認識的人收看。這篇文章，希望能夠透過Joma的解釋，來釐清目前對於資料科學的一些疑惑與誤解。

資料科學 (Data Science)是甚麼？

近年來大數據、資料科學、深度學習等等話題持續走紅，尤其人工智慧、機器學習等相關學問更是人人趨之若鶩。但如果以為這就是資料科學的全貌，那可就大錯特錯了！資料科學並不是只有建立出百分百的預測模型，畫出非常炫麗的視覺化圖型、又或是不停地的寫程式而已。資料科學的定義，是從資料中挖掘任何可用訊息，進一步地用以提升或改善企業營運上的指標。不論是統計學、機器學習、人工智慧等等，都是在這樣的框架下被運用的工具。對於企業而言，只要能夠從資料改善運作來改善公司運作或提升營利，選用何種工具而言本身並非商業上最要緊的議題。在現今鎂光燈都聚焦在人工智慧與深度學習的時代，這樣的概念講來雖然並不新穎，但卻時常被忽視。

資料科學階級金字塔 (The Hierarchy of Needs)

(來源：The AI Hierarchy of Needs - Monica Rogati)

上圖的金字塔所呈現的，是資料科學中各項職務的階級 (hierarchy)。就像是蓋金字塔需要從底層往上慢慢蓋一樣，當人工智慧一窩蜂地吸引人們爭相效尤時，人們也必須意識到在那之前需要有良好的基礎才能達成。雖然，資料分析在各個領域與產業的形式會有些微差異，但大抵上不脫基本的處理進程：

Collect：資料從何而來？有哪些型式？有哪些來源？針對資料收集的各種制定，是資料分析最前端的任務。
Move/Store：這階段會處理資料的儲存與移動，包括結構化與半結構化的資料儲存、資料從前端匯入到後端的pipeline建立等等。
Explore/Transform：資料的探索與轉換，如遺失值與極端值的處置等。這階段需要將資料清理與轉換至一個可靠的分析形式，如此爾後的分析才會有好的可信度。
Aggregate/Label：這階段會制定出衡量分析的指標 (metrics)、分析方法 (analytics) 等等。傳統上稱呼的商業智慧 (Business intelligence, BI)，其實也就是以這樣的形式存在於資料科學的框架之中。
Learn/Optimize：針對企業營運或是產品的規劃，在這階段會運用一些常見的分析工具包含A/B test、機器學習等，訓練模型與優化演算法來提升指標，輔以企業的決策。
AI/Deep Learning：金字塔的頂端即是近年最火紅的人工智慧與深度學習。但在此之前的金字塔底部，每個階級的運作都必須維持優異，才能夠同樣確保這階段的運作是優異的。

以金字塔的框架來檢視資料科學目前的生態，Joma提到了在「Aggregate/Label」階段的Analytics與Metrics，是對於企業來說相對重要的一塊，但這部分卻因為近年來話題聚焦於AI與深度學習，而常被人們所忽視。人工智慧的議題並非不重要，但對於企業本身，追逐盈利的目標是亙古不變。如果企業能夠透過較為傳統的工具如A/B test、機器學習等等，就能達成這樣的目標的話，則人工智慧與深度學習不見得是該企業的當務之急。如何透過自我能力去為公司創造更多的營利，我想是資料科學從業人員，乃至於所有企業員工，都必須要有的自覺才是。

資料科學職務的差別

資料科學相關職務與職稱的差異，恐怕是目前讓學習者很常混淆的問題。舉例而言，同樣都叫作Data Scientist，為什麼不同公司之間的職務差異可以相差甚大。針對這個現象，Joma透過上圖的金字塔階級作了很好的解釋。

對於新創公司而言，因為處於起步階段並未有太多人力，原則上從資料的前端到後端，都得要由Data Scientist一手包辦。而當公司擴展至一定的規模，有了較多的資源聘請新的人力後，一般常見會由Software Engineer (Collect)和Data Engineer (Move/Store, Explore/Transform)負責資料前端的架設與處置，而後端的分析、A/B test、機器學習等等會由Data Scientist負責。最後，如果公司成長至大公司等級，有了更豐富的資源將職位劃分的更加專一的話，則後端分析的職責會在更進一步細分成Data Scientist (Analytics)、Research Scientist、Machine Learning Scientist等等。將這樣的敘述畫成表格，可更為清楚：

	Collect	Move/Store	Explore/Transform	Aggregate/Label	Learn/Optimize	AI/Deep Learning
新創公司	Data Scientist
中型公司	Software Engineer	Data Engineer		Data Scientist
大型企業	Software Engineer	Data Engineer		Data Scientist (Analytics)	Research Scientist, Data Scientist (Core), ML Engineer

當然，並非所有企業的資料科學團隊都會適用這個分類，但如果學習者觀察相關網站或是求職網站時，這樣的分類搭配階級金字塔的使用，在大多數的時候已相當適用。當學習者能透過這樣的分類，對於資料科學建立全面的概念與脈絡後，也比較可以清楚自己未來發展的方向。畢竟，資料科學是很多門專業所聚集的學問，如果學習者只是各處都學習一點皮毛而無法針對某處專精，會容易迷失在這門科學上。找到自己可以發揮的定位，該是深入資料科學前必須釐清的課題才對。

搜尋此網誌

Sam's Stats Inn