資料科學金字塔階級:淺談業界的職務與職稱差異

近日在YouTube看到一部影片「What REALLY is Data Science? Told by a Data Scientist」,針對目前資料科學在業界廣泛的職務與職稱所帶來的混淆作解釋,雖然裡頭講解的模式可能會隨著不同產業有些許差異,但大抵上的原則與概念是通用的。影片的作者Joma Tech本身是BuzzFeed的Data Scientist,他的頻道也有許多與資料科學相關的Vlog,兼具娛樂性與知識性,很適合對於資料科學有初步認識的人收看。這篇文章,希望能夠透過Joma的解釋,來釐清目前對於資料科學的一些疑惑與誤解。

資料科學 (Data Science)是甚麼?

近年來大數據、資料科學、深度學習等等話題持續走紅,尤其人工智慧、機器學習等相關學問更是人人趨之若鶩。但如果以為這就是資料科學的全貌,那可就大錯特錯了!資料科學並不是只有建立出百分百的預測模型,畫出非常炫麗的視覺化圖型、又或是不停地的寫程式而已。資料科學的定義,是從資料中挖掘任何可用訊息,進一步地用以提升或改善企業營運上的指標。不論是統計學、機器學習、人工智慧等等,都是在這樣的框架下被運用的工具。對於企業而言,只要能夠從資料改善運作來改善公司運作或提升營利,選用何種工具而言本身並非商業上最要緊的議題。在現今鎂光燈都聚焦在人工智慧與深度學習的時代,這樣的概念講來雖然並不新穎,但卻時常被忽視。

資料科學階級金字塔 (The Hierarchy of Needs)


(來源:The AI Hierarchy of Needs - Monica Rogati)

上圖的金字塔所呈現的,是資料科學中各項職務的階級 (hierarchy)。就像是蓋金字塔需要從底層往上慢慢蓋一樣,當人工智慧一窩蜂地吸引人們爭相效尤時,人們也必須意識到在那之前需要有良好的基礎才能達成。雖然,資料分析在各個領域與產業的形式會有些微差異,但大抵上不脫基本的處理進程:
  1. Collect:資料從何而來?有哪些型式?有哪些來源?針對資料收集的各種制定,是資料分析最前端的任務。
  2. Move/Store:這階段會處理資料的儲存與移動,包括結構化與半結構化的資料儲存、資料從前端匯入到後端的pipeline建立等等。
  3. Explore/Transform:資料的探索與轉換,如遺失值與極端值的處置等。這階段需要將資料清理與轉換至一個可靠的分析形式,如此爾後的分析才會有好的可信度。
  4. Aggregate/Label:這階段會制定出衡量分析的指標 (metrics)、分析方法 (analytics) 等等。傳統上稱呼的商業智慧 (Business intelligence, BI),其實也就是以這樣的形式存在於資料科學的框架之中。
  5. Learn/Optimize:針對企業營運或是產品的規劃,在這階段會運用一些常見的分析工具包含A/B test、機器學習等,訓練模型與優化演算法來提升指標,輔以企業的決策。
  6. AI/Deep Learning:金字塔的頂端即是近年最火紅的人工智慧與深度學習。但在此之前的金字塔底部,每個階級的運作都必須維持優異,才能夠同樣確保這階段的運作是優異的。
以金字塔的框架來檢視資料科學目前的生態,Joma提到了在「Aggregate/Label」階段的Analytics與Metrics,是對於企業來說相對重要的一塊,但這部分卻因為近年來話題聚焦於AI與深度學習,而常被人們所忽視。人工智慧的議題並非不重要,但對於企業本身,追逐盈利的目標是亙古不變。如果企業能夠透過較為傳統的工具如A/B test、機器學習等等,就能達成這樣的目標的話,則人工智慧與深度學習不見得是該企業的當務之急。如何透過自我能力去為公司創造更多的營利,我想是資料科學從業人員,乃至於所有企業員工,都必須要有的自覺才是。

資料科學職務的差別

資料科學相關職務與職稱的差異,恐怕是目前讓學習者很常混淆的問題。舉例而言,同樣都叫作Data Scientist,為什麼不同公司之間的職務差異可以相差甚大。針對這個現象,Joma透過上圖的金字塔階級作了很好的解釋。

對於新創公司而言,因為處於起步階段並未有太多人力,原則上從資料的前端到後端,都得要由Data Scientist一手包辦。而當公司擴展至一定的規模,有了較多的資源聘請新的人力後,一般常見會由Software Engineer (Collect)和Data Engineer (Move/Store, Explore/Transform)負責資料前端的架設與處置,而後端的分析、A/B test、機器學習等等會由Data Scientist負責。最後,如果公司成長至大公司等級,有了更豐富的資源將職位劃分的更加專一的話,則後端分析的職責會在更進一步細分成Data Scientist (Analytics)、Research Scientist、Machine Learning Scientist等等。將這樣的敘述畫成表格,可更為清楚:



CollectMove/StoreExplore/TransformAggregate/LabelLearn/OptimizeAI/Deep Learning
新創公司Data Scientist
中型公司Software EngineerData EngineerData Scientist
大型企業Software EngineerData EngineerData Scientist
(Analytics)
Research Scientist,
Data Scientist (Core),
ML Engineer

當然,並非所有企業的資料科學團隊都會適用這個分類,但如果學習者觀察相關網站或是求職網站時,這樣的分類搭配階級金字塔的使用,在大多數的時候已相當適用。當學習者能透過這樣的分類,對於資料科學建立全面的概念與脈絡後,也比較可以清楚自己未來發展的方向 。畢竟,資料科學是很多門專業所聚集的學問,如果學習者只是各處都學習一點皮毛而無法針對某處專精,會容易迷失在這門科學上。找到自己可以發揮的定位,該是深入資料科學前必須釐清的課題才對。

留言

這個網誌中的熱門文章

解析古典統計 (Frequentist)與貝氏統計 (Bayesian)之爭

常態分佈的最大概似估計 (maximum likelihood estimator)與無偏估性

關於p-value的二三事:隨機變數