AI新知力系列
統計學本質和架構筆記 - 103機率分配參數代表母體特性
在分享過《認識統計學的兩大板塊》、《了解統計學兩大板塊關係》後,我們就會知道是先有母體才有樣本,而樣本來自母體。在母體未知時,只能用樣本去看母體。在看的時候,是要看今天分享的母體特性,而不是整個母體。如果你能在樣本分析時就知道母體特性,那麼你仍處在機率的世界,反之你就得走統計學的分析方法。
我在分享的統計學本質和架構筆記內容上會和大多數的老師、教授、專家、網文內容都非常不同,角度也不同。那是因為當我和團隊超過10年的研究和發展成果,從數字根源驗證數學和統計,再回到數學和統計上看。這才能做出全球獨一無二的MathAI,以及看待目前的(大)數據、(大)數據分析、人工智慧上會有全然不同的思維。
和我同門且在業界工作的朋友們,如果有看到這系列的分享,也期待您的指導,因為我當時沒有上機率論,是後來陸陸續續補課補出來的。我也將這樣的筆記當做是「補課機」。在分享的同時也學習,也複習。
致勝關鍵 - 機率分配
想要找個能代表母體的方式並不容易,我的老師喜歡畫個圓代表。講到這,同門的你有沒有覺得好熟悉啊(笑)。因為要用數學表示,所以代表整個母體的就是「機率分配」。
什麼是機率分配
機率分配如上圖表示。當我們從事件轉出隨機變數後,進入了數字的世界,同時對應的機率也是數字,就能為這兩組數字建立數學模型。這個數學模型就稱為機率分配。
🔵隨機變數:數字
🔵機率:數字
這個機率分配基本上沒有1對1且映成關係,但是機率分配的機率值可以做累加,所以產生累積機率分配,這樣的隨機變數值和機率就有一對一且映成關係。什麼叫做一對一且映成關係呢?最簡單的概念就是下圖這樣的情況,水平軸和垂直軸的數字一對一,不跑票。
認識機率分配的參數
在知道什麼是機率分配後,這個機率分配的數學模型就會有「參數」,參數會有其特性,例如控制水平平移(高中數學有教),或是控制高度(通常會有峰或凹谷,峰要多高,凹谷要多凹,全靠參數值改變)。
一個簡單的例子,高中數學高一下冊最愛的擲骰子為例,假設只要你能擲出5點(含)以上,就表示成功,其他數字出現就是失敗。你只能擲一次就停止。這個例子在統計學的機率分配內容中是最簡單的,稱為伯努力分配(Bernoulli distribution)。它的控制參數就是出現成功的機率。在這個例子,成功機率 = 2/6。
然後將成功和失敗換成數字,分別是1和0,對應機率值為 1/3和2/3。機率分配的數學模型就是建立這變數和機率的關係(見下圖,看不懂可以略過😂不影響概念)。
伯努力分配的參數是成功的機率(p),也是我們給定隨機變數值後會得到的機率值。這是個特例,因為只做一次試驗。那麼問題來了,你還可以改變這個伯努力分配,不要只做一次,可以做很多次啊。是的!這就是伯努力分配的下一個分配,叫做二項式分配,參數變成次數(n)和成功機率(p)。
從這就能看出不同的母體機率分配就會有不同的參數,而機率分配的產生就來自於我們對母體的定義。就像你可以定義母體為台灣2400萬人,也可以定義母體為台灣首次就診檢查出罹患肝癌的人。於是你所找出來的機率分配就會不同。
機率分配的參數就是母體特性
上圖的成功定義能改變成不同的情況。例如,你可以說只有擲出6才是成功,也可以說擲出4或5或6才是成功。這就像請人填寫滿意度調查表,請鼓勵填寫大於5的數字,最好接近8和9的數字,小姐姐和小哥哥們的服務績效才不會被拉低。
這種改變成功定義,就會改變成功機率,帶來不同的結果。所以身為參數的成功機率就代表這個母體的特性。
結語
讓我總結上面分享的描述,讓你可以更快速的吸收吧。
-
跨度:從事件和事件機率轉換成隨機變數和事件機率
-
建模:為隨機變數和事件機率建立數學模型 (稱為機率分配)
-
參數:每個機率分配對應不同母體,機率分配的參數代表母體特性