中央極限定理是統計學的重要定理。區間估計、假設檢定、迴歸分析等皆由此為基礎。在統計學的教科書上千篇一律皆寫「樣本數超過30,有中央極限定理特性」,使用者僅需將統計量的期望值和變異數找出後,套用Z Score的公式就能使用其趨近標準常態分配特性,完成臨界值的對應會是機率值的轉換。 然而,真的樣本數超過30,就能應用中央極限定理嗎?而且適用所有的分配?
為什麼我們要提到所有的分配?
因為在數據分析時,沒有人知道特定欄位的數據是來自哪種分配,你假設常態分配是個假的設定。當你使用假設數據來自常態分配,並且沒有驗證過,就變成是你的自我認定。由於你不是在做理論推導,而是實證的數據分析,一個錯誤的假設只會得到錯誤的結果,再被決策者視為判斷的依據,做出錯誤的決策。日積月累下,小錯誤積累出大問題,最終不是組織自行吸收,選擇破產或倒閉,不然就成為社會的「外部性」成本,一國國民、一國未來後代、全球各國買單。很多人會認為這好像沒什麼,即使走錯路也能走回正確的道路上。同樣地,你不知道研究或應用的基礎錯誤後,真如同地球是圓的一樣,還會繞回原點。 或者另一種思考的可能來自他們認為「能夠找出結果,總比無法分析還得來好」。這導致他們寧可持續使用錯誤的假設得到錯誤的結果,再由過去的經驗去調整,提高得到正確結果的可能。但在創新的時代與技術進步的發展過程中,你是要創造出新的事物,縱然保有部分舊的狀態,你就是無法衡量新的事物所延伸出來的未來成功或失敗的道路在哪。因為經驗告訴你,不能做創新。經驗無法衡量創新。 所以,從利美弗提出使用常態分配去估計多次擲硬幣得到正面次數的分配開始,他們的前提很清楚,是對稱分配形式,並且樣本個數是趨近無窮大。而無窮大的符號卻無法告知所有人多少才能產生趨近效果。
時至今日,我們進入到大數據和人工智慧時代,背後依靠的是大量的數據運算,而數據想要應用上中央極限定理前,需要檢驗數據來自何種分配,而後該分配需要多少樣本才能出現趨近中央極限定理的標準常態分配特性。這些都是大數據和人工智慧需要先行做好的前沿研究。然而,觀察到今時,所有的研究已經將中央極限定理視為理所當然,並且還認為是大數據已經足夠大,所以套用即可。但為何套用,以及是否會有需要調整等問題卻付之闕如。 這也就是這篇文章做為開篇章,對後面28個機率分配案例的中央極限定理驗證做一個鋪陳。
目的問題
在驗證過程中,我們希望能夠回答以下的問題:
- 樣本數30是否能夠讓特定機率分配的隨機樣本產生中央極限定理特性?
- 如果需要超過30個樣本,那要多少個樣本才能出現趨近中央極限定理特性?
- 在樣本數增加的過程中,隨機樣本相加後的新隨機變數的分配特徵如何? – 過程中新的隨機變數的分配變化如何?
中央極限定理的介紹
假設有 $n$ 個隨機樣本 $X_{1}, X_{2}, …, X_{n}$ 來自特定分配( $f_{X}(x)$ )。隨機樣本計算得到樣本平均數= $\overline{X} = \frac{\sum_{i=1}^{n} X_{i}}{n}$ ,並且樣本平均數的期望值為母體機率分配的平均數, $E(\overline{X})=\frac{\sum_{i=1}^{n} E(X_{i})}{n}=E(X)=\mu$ 。 樣本變異數 $=VAR(\overline{X})=\frac{\sum_{i=1}^{n} Var(X_{i})}{n^2}=\frac{Var(X)}{n}=\frac{\sigma^{2}}{n}$ 。
改寫Z score的 $\overline{X}$ 為
\[\frac{\overline{X}-E(\overline{X})}{\sqrt{Var(\overline{X})}}=\frac{\overline{X}-\mu}{\sigma / \sqrt{n}}=\frac{\sqrt{n}\left ( \overline{X}-\mu \right )}{\sigma}=\frac{\left ( X_{1}+X_{2}+\cdots +X_{n} \right )-nE(X)}{\sqrt{n} \times \sigma}\]$X_{1}+X_{2}+\cdots +X_{n}$ 趨近於常態分配,所以, $X_{1}+X_{2}+\cdots +X_{n}$ 的抽樣分配為常態分配, $Normal\bigg ( E(X_{1}+X_{2}+\cdots +X_{n})=nE(X), nVar(X) \bigg )$ ,得到 $\frac{\left(X_{1}+X_{2}+\cdots +X_{n} \right)-nE(X)}{\sqrt{n Var(X))}} \sim Normal(0,1)$ 。
當樣本數足夠大時,Z score的樣本平均將趨近標準常態分配,中央極限定理即為
\[\frac{\sqrt{n} \left(\overline{X}-\mu \right)}{\sigma} \underset{n \rightarrow \infty }{\longrightarrow} Z \sim Normal(0,1)\]在應用中央極限定理時,樣本數超過30,即可使用中央極限定理。但此條件未必為真,若偏態係數不為0且峰態係數很大,形成中央極限定理特性所需的樣本個數需要非常多。至於要多少樣本個數,請在之後關注我們的研究,提供大家相關資訊。
影響隨機樣本中央極限特性的因子
以下提到的因子是影響中央極限定理所需樣本個數的因素
- 偏態係數
當偏態係數不為0時,需要比分配的偏態係數為0時更多的樣本數才能讓抽樣分配從偏態移為對稱。
- 峰態係數
當峰態係數不等於3時,需要比峰態係數=3的分配還要更多的樣本數才能讓抽樣分配壓到或拉至峰態係數=3的樣子。
我們不能保證偏態係數或峰態係數為常數,通常偏態係數或峰態係數為機率分配參數的函數,因此,參數不同改變偏態係數或峰態係數,進一步改變累加的隨機樣本抽樣分配之中央極限定理所需樣本個數。
研究方法
隨機變數轉換
來自特定母體機率分配的隨機樣本運算有時未必能夠使用「微積分」的計算方法得到結果,常常都是「無解」。教科書上的內容通常都是設計好的,實際數據的機率分配或變數變換技術都很難找出解答。即使是數值分析方法,也得先知道數據的函數形式才能開始數值分析。所以絕大多數的研究都是「假設」下進襲型的。 為了解決前述的問題,「機率分配模擬器」會是較好的研究方法。它可忽略事前需要先指定特定機率分配的問題,透過隨機數字的模擬技術,直接執行變數轉換。有關機率分配模擬器研究方法的知識、技術和實作可參考在美國亞馬遜上架的電子書,「Excel calculating the probablity distribtuion simulated data」。
五個研究方法或程序
在驗證過程中,我們採用五種方式或程序驗證來自特定機率分配的隨機樣本能夠有中央極限定理特性。
- 比對來自特定機率分配的隨機樣本 Z score後的分配型態。
- 建構特定樣本個數下,來自某特定機率分配經Z score相加後的一階、二階、三階和四階動差走勢圖。此方法先建立1億筆隨機樣本數據,再根據設定之樣本個數計算母體的動差值。
- 建構每額外增加一個隨機樣本和前面既有的隨機樣本加總後新變數的聯合機率分配。再求得所有隨機樣本相加之分配及對應之係數表。這方法有助於了解當樣本數足夠大時,前面既有的隨機樣本加總後的機率分配、額外增加一個樣本的機率分配、所有隨機樣本相加後的機率分配差異,得到中央極限定理在樣本增加時發生的成因。
- 分類隨機樣本為兩群,形成二個新的隨機變數。此過程如同增加新的隨機樣本,以了解中央極限定理特性。此時我們可得到兩新變數的聯合機率分配,以及個別的機率分配。其中個別的機率分配代表隨機變數相加後的分配。
- 比對Z score的樣本平均分配和Z分配,得到能夠趨近中央極限定理特性的最小樣本數。
總結
透過上述的研究方法與工具可了解中央極限定理產生的過程變化,以及來自不同機率分配的隨機樣本相加後需要多少樣本個數才能達到中央極限定理特性。