統計學本質和架構筆記-102統計兩大板塊的關係

AI新知力系列

統計學本質和架構筆記 - 102統計兩大板塊的關係

上篇文章分享《認識統計學的兩大板塊》後,接下來就需要了解兩板塊的關係。母體和樣本的關係除了我用柏拉圖師徒的哲學觀做一對比外,兩者的關係可以從我們學數學的年齡、貫通兩者的數學,還有兩者的差異。

  1. 學機率和統計的年齡不同

高中的數學正式介紹機率觀念,從機率空間和樣本空間的元素到組出事件,再到機率計算。你如同全知全能的神要能將所有元素找出來,還能將元素做各種可能組合,產生事件。再由事件計算出機率值。

你會覺得學習機率很困難就在於你得先知道所有元素和元素所有可能組合。高中的機率學習不能說是完整的機率論,但也是開啟了機率的學習。

統計學則是從大學開始接觸學習。這銜接高中數學的機率觀念上來,完整機率觀念,從事件跨入隨機變數,從符號跨到數字體系內。

如果就數學的學習上,相當於是從符號間斷型的數學,轉為數字連續型的數學。

這裡有個很重要的人工智慧觀念! 符號到數字的里程看似近在咫尺,卻遠在天邊。那一個天塹卡住跨不過去就到極限。這怎麼說呢?

以目前的人工智慧來說都是基於文字、符號所產生的分類法基礎發展出來,在分類、排序、篩選、拆分、組合等方法上走到極限。所以為什麼人工智慧要的是機率就是這個原因。多數人工智慧的知識和技術都以此為主,例如,chatGPT就是集此大成。

但統計學的機率或者可以說大學所學的機率是數字體系的機率,而不是分類下的機率。它要將事件轉為變數,創造出變數和機率的關係,從而用一個數學函數就能全知全能地知道這個事件特徵下的所有可能。

  1. 貫通母體和樣本的數學

繼續第一點的最後,機率和統計最終要離開間斷符號性質的事件,轉為連續數字性質的變數。此時數學才派上用場。

在母體上的表現稱為機率分配,也就是事件轉為變數,再和機率形成的對應關係。此處的變數就是上圖做為橋樑的隨機變數。

而樣本上的數學表現就是抽樣分配。因為我們不知道母體的情況下,既然有樣本,就會認為這些樣本會從某個母體而來,自然會顯現母體特徵。

於是,我們就開始組裝起樣本,來給它們一場四則運算或各種轉換的舒服SPA。這如同你看到股價上還要有移動平均值,新冠肺炎的每日確診人數也要來個7日平均值的意思一樣。

專家學者們將這些個將樣本的運算和轉換,稱為統計量,可以對應到母體特徵。這統計量也是個隨機變數喔!所以會有各種可能的數字,並對應其機率,形成抽樣分配(見下圖)。

  1. 兩者的差異

統計就是因為母體的特徵(指母體參數)未知,才要用科學的方法去找尋。

如上圖下方所寫的重點,母體對應機率,參數是已知的 (全知全能)。樣本對應統計,參數是未知的。所謂的參數就是指母體特徵。

這點很多人不知道,而認為機率是由大看小,統計是由小看大。若真如他們這些受過最高學歷的教育洗禮後仍如此認為,那麼可想而知,今日創造出MathAI的就該是來自他們的觀點和理論,而非我和團隊的觀點和理論:真正的機率和統計的分析用法就來自母體參數已知和是未知而決定(見下圖)。

結語

我分享「AI新知力系列 - 統計學本質和架構筆記」,幫助你建立大數據分析和人工智慧需要的統計學理論基礎。這是從不同於教科書和網路上所提及的統計學知識分享。

本篇文章分享母體和樣本的關係,從三點角度切入。如果你的孩子正在讀高中,或者國三,都能藉這篇文章對機率觀念學習到大學時學統計和相關內容時可以銜接上。

對於已經學過機率和統計的朋友們,希望這樣分享的觀點和內容,有助於你們對機率和統計的關連與理解。這樣的知識和思維正是我們突破現有大數據分析和人工智慧,直指其核心問題並提出解決之法的根本。

希望你會喜歡這系列的分享

關注追蹤、點讚和分享我的文章