Introduction

在資料科學的領域中, R 與 Python 是單機上分析最常被提及到的兩個語言,原因不外乎是好上手、擁有豐富的函式庫、社群完整等等的因素,所以這篇文章的將介紹如何使用基於 Python 的實用工具,在修煉成為資料科學家的路上不寂寞!

Step 1 Python language

Python 是一個簡單好上手的語言,但怎樣才能用得好、用得巧還是需要花時間去實作及練習。以後面的工具來說,主要需要基本的使用及環境的建置即可。python已使用上來說,特別有兩個重點是很重要的,基本容器及正規表示式的使用。

  • 基本容器:List, Set, Dict, Tuple
  • 正規表示式(Regular Expressions)

Step 2 Scientific Computing

如同前面所說, Python 之所以熱門就是因為擁有強大的社群及完整的函式庫,這一段將簡單介紹資料科學在 Python 常見的幾個函式庫。NumPy(Numerical Python)是 Python 的一個擴充程式庫。 它提供了功能強大的 N-dimensional array object 的資料結構,並支援高階大量的維度陣列與矩陣運算。Pandas 主要是基於 NumPy 再增加了 Series 和 DataFrame 兩種資料結構。Ndarray 用來表示多維度、同質並且固定大小的陣列物件。而由一個與此陣列相關聯的資料型態物件來描述其陣列元素的資料格式。 SciPy 提供進行科學計算的工具。

  • NumPy
  • Pandas
  • SciPy

Step 3 Data Visualization

matplotlib 是最基礎的視覺的工具,但使用上比較複雜且麻煩。 Seaborn 及 ggplot 是基於 matplotlib 的繪圖函式庫,使用上比較方便,

  • Matplotlib
  • Seaborn
  • ggplot

Step 4 Machine Learning

最後,對於資料科學的工作上來,畫畫圖,算算數字都只是基本功而已,真正重要的還是希望能夠從資料上探勘出什麼?學習出什麼規則?因此機器學習是一個重要的技術,在 python 提到 Machine Learning ,首推的就是 Scikit-learn。完整的處理資料處理流程一應俱全:Preprocessing -> Dimensionality reduction -> Model selection -> Mining/Learning -> Experiment。

  • Scikit-learn

Reference

[1] Comprehensive learning path – Data Science in Python
[2] 数据科学之5个最佳Python库,为初学者定制的教程
[3] python可视化工具概述
[4] 你用 Python 做过什么有趣的数据挖掘/分析项目?


License


本著作由 Chang, Wei-Yaun (v123582) 製作,
創用CC 姓名標示-相同方式分享 3.0 Unported授權條款釋出。