Introduction

根據維基百科的描述:「資料科學(英語:data science)是一門利用資料學習知識的學科,其目標是通過從資料中提取出有價值的部分來生產資料產品。 它結合了諸多領域中的理論和技術,包括應用數學、統計、圖型識別、機器學習、資料視覺化、資料倉儲以及高效能計算。 資料科學通過運用各種相關的資料來幫助非專業人士理解問題。」

簡單來說,資料科學是從數據中找出價值,然後去生產數據產品的一種方法論。

資料科學家的工作樣貌

資料科學家的工作是負責從取得資料到產生結果。具體可以分為五個步驟:

資料收集 => 資料前處理 => 訓練模型 => 模型驗證 => 改進及應用

(圖片來源:freecodecamp)

資料科學團隊的專案分工

我們可以很粗淺地把資料專案中的角色分成「資料科學家」、「資料分析師」及「資料工程師」三種角色,而他們彼此的技能可能部份重疊。因此資料科學的技能樹不是單一路徑,從數學、程式到應用,其涵蓋很大,任何人都能從中找到適合的位置。

1. 資料科學家

資料科學家是一個資料團隊中的核心,需要綜合統籌的能力,從觀察資料、發現問題到組織整個資料團隊。可以視為是資料應用專案中的小組長,擁有相關領域的各種技能,哪個需要就往那裡搬,能獨立承擔從數據處理,分析探索到實踐應用直到最終產生價值。簡單來說,資料科學家就是「用資料解決真實問題的人」。

2. 資料分析師

資料分析師通常是指根據資料進行解釋的工作者,一般會通過「蒐集->整理->分析->結果」的步驟。最常見的技能是利用常見的商業統計軟體(例如: SQL,R,SAS,Excel)產出統計報告且進行解釋。資料分析師所做的一切都是為了回答問題,通常被稱為是問題驅動(Problem Driven)。資料分析師在資料工程師提供的資料基礎之上進行探索性分析,目的是找到問題的正確答案。主要工作通常這個這個職位是有例行性任務的,定期出一個報告來分析季度數據,提供管理層決策參考。需要具有操作統計軟體的基本技能,往往對數字及資料有一定的敏感度。

3. 資料工程師

資料工程師主要的角色,是進行資料的架構設計,專注於環境與平台的架設。其所做的一切都為了讓資料可以容易地被使用,負責建立和維持公司資料儲存的技術基準,策劃硬體和軟體的結構,確保資料儲存系統可以支持未來的資料量和分析需求。最終目標是把資料整理好,能夠達成儲存成本低,查詢效率高的結果。隨著巨量資料的需求,現在的資料通常會存在很多的雜訊及乾擾,需要花更多的精力在資料清理。主要工作收集資料,管理資料,設計一個好的架構提供資料存取,針對需求設計產出的資料集。所需資料爬蟲,資料庫架構,資料前處理(資料清理、轉換),資料建模,分散式系統等等技能。


License


本著作由 Chang, Wei-Yaun (v123582) 製作,
創用CC 姓名標示-相同方式分享 3.0 Unported授權條款釋出。