關於 Machine Learning 與 Statistical Modeling 的那些事

機器學習與統計模型

在資料科學的討論中，這樣的問題是很多人想知道，也是一個難以三言兩語回答的問題：

機器學習與統計模型有什麼不同？

一般來說，這兩個項目所研究的目標相近，不同的是使用的背景不同。機器學習是資工領域發展的議題；統計模型是統計學所探討的領域。這是一張有趣的圖來說明資料科學中之間錯綜複雜的交織關係：

SAS institute: the universe of data science

首先，不管是機器學習或是統計模型都有一個共同的目標－ Learning from Data. 這兩種方法的目的都是透過一些處理資料的過程中，對資料更進一步的瞭解與認識。

來看看這兩者在科學上的簡單定義：

Machine Learning: an algorithm that can learn from data without relying on rules-based programming.
Statistical Modelling: formalization of relationships between variables in the form of mathematical equations.

換個角度，看看實際上使用上有什麼差異。這是一張 McKinsey 用於客戶風險預測問題的結果，有 A 、 B 兩個變數。綠色線是統計方法得出的規則；等曲線是機器學習方法發現的，兩者皆能夠指出風險較高的趨勢。

McKinsey: Understand the risk level of customers churn over a period of time for a Telecom company

統計方法用一個方程式去描述分類問題，將資料找出一個分割線將結果分成兩類。然而，從機器學習的方法找出來的是一圈一圈的等曲線，看起來似乎可以得到更廣泛的結果，而不只是簡單的分類問題。

機器學習是從資工及人工智慧中發展而來的領域，透過非規則的方法去學習資料分布的關係。統計模型是統計學中利用這種變量去描述與結果的關係。統計模型是基於與說嚴格的限制下去進行的，稱為假設檢定，這也是與機器學習方法上的不同。

基於假設檢定下的發展，使得統計模型能找出更貼近「現有資料」的趨勢。然而，預測的目的是為了找出「未來資料」或所有資料，但假設會使得資料太貼近現有資料（機器學習中稱為過擬和的一種問題）。嚴格的假設也成了統計學習的一種雙面刃，有一句資料科學中流傳的名言是這樣講的：the lesser assumptions in a predictive model, higher will be the predictive power.

算式與定義

機器學習

一種不依賴於規則設計的數據學習算法；計算機科學和人工智慧的一個分支，通過數據學習構建分析系統，不依賴明確的構建規則。

$$ Output Y = f(Input X): X \rightarrow Y $$

統計模型

以數學方程形式表現變量之間關係的程式化表達；數學的分支用以發現變量之間相關關係從而預測輸出。

$$ Dependent Variable Y = f( Independent Variable X ) + error function $$

後記

不管是統計專家或機器學習專家，甚至是太空物理學家，基本上都是想要建立模型來詮釋這世界的種種現象，但主要的差別在於，統計模型有考慮了隨機誤差，並且對隨機誤差有一整套嚴密的解釋體系，但其他領域的專家所建立的模型未必有考量到隨機誤差。如果自然界與人類社會的種種現象沒有這個隨機誤差的存在，整個統計領域可以完全消失也無所謂。

接觸過機器學習、資料探勘的人大概都知道，如果沒有整個母體的模型假設加上隨機誤差模型的搭配，很多號稱「表現很好」的模型，其實過一陣子就都會完蛋，也因此經常需要持續不斷的微調參數。

Reference

[1] Difference between Machine Learning & Statistical Modeling
[2] 【陳景祥專欄】當統計專家遇上機器學習專家

License

本著作由 Chang, Wei-Yaun (v123582) 製作，
以創用CC 姓名標示-相同方式分享 3.0 Unported授權條款釋出。

關於 Machine Learning 與 Statistical Modeling 的那些事

關於 Machine Learning 與 Statistical Modeling 的那些事

機器學習 與 統計模型

算式與定義

機器學習

統計模型

後記

Reference

License

機器學習與統計模型