AI新知力系列

統計學本質和架構筆記 - 103機率分配參數代表母體特性

在分享過《認識統計學的兩大板塊》、《了解統計學兩大板塊關係》後，我們就會知道是先有母體才有樣本，而樣本來自母體。在母體未知時，只能用樣本去看母體。在看的時候，是要看今天分享的母體特性，而不是整個母體。如果你能在樣本分析時就知道母體特性，那麼你仍處在機率的世界，反之你就得走統計學的分析方法。

我在分享的統計學本質和架構筆記內容上會和大多數的老師、教授、專家、網文內容都非常不同，角度也不同。那是因為當我和團隊超過10年的研究和發展成果，從數字根源驗證數學和統計，再回到數學和統計上看。這才能做出全球獨一無二的MathAI，以及看待目前的(大)數據、(大)數據分析、人工智慧上會有全然不同的思維。

和我同門且在業界工作的朋友們，如果有看到這系列的分享，也期待您的指導，因為我當時沒有上機率論，是後來陸陸續續補課補出來的。我也將這樣的筆記當做是「補課機」。在分享的同時也學習，也複習。

致勝關鍵 - 機率分配

想要找個能代表母體的方式並不容易，我的老師喜歡畫個圓代表。講到這，同門的你有沒有覺得好熟悉啊(笑)。因為要用數學表示，所以代表整個母體的就是「機率分配」。

什麼是機率分配

機率分配如上圖表示。當我們從事件轉出隨機變數後，進入了數字的世界，同時對應的機率也是數字，就能為這兩組數字建立數學模型。這個數學模型就稱為機率分配。

🔵隨機變數：數字

🔵機率：數字

這個機率分配基本上沒有1對1且映成關係，但是機率分配的機率值可以做累加，所以產生累積機率分配，這樣的隨機變數值和機率就有一對一且映成關係。什麼叫做一對一且映成關係呢？最簡單的概念就是下圖這樣的情況，水平軸和垂直軸的數字一對一，不跑票。

認識機率分配的參數

在知道什麼是機率分配後，這個機率分配的數學模型就會有「參數」，參數會有其特性，例如控制水平平移(高中數學有教)，或是控制高度(通常會有峰或凹谷，峰要多高，凹谷要多凹，全靠參數值改變)。

一個簡單的例子，高中數學高一下冊最愛的擲骰子為例，假設只要你能擲出5點(含)以上，就表示成功，其他數字出現就是失敗。你只能擲一次就停止。這個例子在統計學的機率分配內容中是最簡單的，稱為伯努力分配(Bernoulli distribution)。它的控制參數就是出現成功的機率。在這個例子，成功機率 = 2/6。

然後將成功和失敗換成數字，分別是1和0，對應機率值為 1/3和2/3。機率分配的數學模型就是建立這變數和機率的關係(見下圖，看不懂可以略過😂不影響概念)。

伯努力分配的參數是成功的機率(p)，也是我們給定隨機變數值後會得到的機率值。這是個特例，因為只做一次試驗。那麼問題來了，你還可以改變這個伯努力分配，不要只做一次，可以做很多次啊。是的！這就是伯努力分配的下一個分配，叫做二項式分配，參數變成次數(n)和成功機率(p)。

從這就能看出不同的母體機率分配就會有不同的參數，而機率分配的產生就來自於我們對母體的定義。就像你可以定義母體為台灣2400萬人，也可以定義母體為台灣首次就診檢查出罹患肝癌的人。於是你所找出來的機率分配就會不同。

機率分配的參數就是母體特性

上圖的成功定義能改變成不同的情況。例如，你可以說只有擲出6才是成功，也可以說擲出4或5或6才是成功。這就像請人填寫滿意度調查表，請鼓勵填寫大於5的數字，最好接近8和9的數字，小姐姐和小哥哥們的服務績效才不會被拉低。

這種改變成功定義，就會改變成功機率，帶來不同的結果。所以身為參數的成功機率就代表這個母體的特性。

結語

讓我總結上面分享的描述，讓你可以更快速的吸收吧。

跨度：從事件和事件機率轉換成隨機變數和事件機率
建模：為隨機變數和事件機率建立數學模型 (稱為機率分配)
參數：每個機率分配對應不同母體，機率分配的參數代表母體特性