機器學習 與 統計模型

在資料科學的討論中,這樣的問題是很多人想知道,也是一個難以三言兩語回答的問題:

機器學習與統計模型有什麼不同?

一般來說,這兩個項目所研究的目標相近,不同的是使用的背景不同。機器學習是資工領域發展的議題;統計模型是統計學所探討的領域。這是一張有趣的圖來說明資料科學中之間錯綜複雜的交織關係:

SAS institute: the universe of data science

首先,不管是機器學習或是統計模型都有一個共同的目標 - Learning from Data. 這兩種方法的目的都是透過一些處理資料的過程中,對資料更進一步的瞭解與認識。

來看看這兩者在科學上的簡單定義:

  • Machine Learning: an algorithm that can learn from data without relying on rules-based programming.
  • Statistical Modelling: formalization of relationships between variables in the form of mathematical equations.

換個角度,看看實際上使用上有什麼差異。這是一張 McKinsey 用於客戶風險預測問題的結果,有 A 、 B 兩個變數。綠色線是統計方法得出的規則;等曲線是機器學習方法發現的,兩者皆能夠指出風險較高的趨勢。

McKinsey: Understand the risk level of customers churn over a period of time for a Telecom company

統計方法用一個方程式去描述分類問題,將資料找出一個分割線將結果分成兩類。然而,從機器學習的方法找出來的是一圈一圈的等曲線,看起來似乎可以得到更廣泛的結果,而不只是簡單的分類問題。

機器學習是從資工及人工智慧中發展而來的領域,透過非規則的方法去學習資料分布的關係。統計模型是統計學中利用這種變量去描述與結果的關係。統計模型是基於與說嚴格的限制下去進行的,稱為假設檢定,這也是與機器學習方法上的不同。

基於假設檢定下的發展,使得統計模型能找出更貼近「現有資料」的趨勢。然而,預測的目的是為了找出「未來資料」或所有資料,但假設會使得資料太貼近現有資料(機器學習中稱為 過擬和的一種問題)。嚴格的假設也成了統計學習的一種雙面刃,有一句資料科學中流傳的名言是這樣講的:the lesser assumptions in a predictive model, higher will be the predictive power.

算式與定義

機器學習

一種不依賴於規則設計的數據學習算法;計算機科學和人工智慧的一個分支,通過數據學習構建分析系統,不依賴明確的構建規則。

$$ Output Y = f(Input X): X \rightarrow Y $$

統計模型

以數學方程形式表現變量之間關係的程式化表達;數學的分支用以發現變量之間相關關係從而預測輸出。

$$ Dependent Variable Y = f( Independent Variable X ) + error function $$

後記

不管是統計專家或機器學習專家,甚至是太空物理學家,基本上都是想要建立模型來詮釋這世界的種種現象,但主要的差別在於,統計模型有考慮了隨機誤差,並且對隨機誤差有一整套嚴密的解釋體系,但其他領域的專家所建立的模型未必有考量到隨機誤差。如果自然界與人類社會的種種現象沒有這個隨機誤差的存在,整個統計領域可以完全消失也無所謂。

接觸過機器學習、資料探勘的人大概都知道,如果沒有整個母體的模型假設加上隨機誤差模型的搭配,很多號稱「表現很好」的模型,其實過一陣子就都會完蛋,也因此經常需要持續不斷的微調參數。

Reference

[1] Difference between Machine Learning & Statistical Modeling
[2] 【陳景祥專欄】當統計專家遇上機器學習專家


License


本著作由 Chang, Wei-Yaun (v123582) 製作,
創用CC 姓名標示-相同方式分享 3.0 Unported授權條款釋出。