中央極限定理的謬誤

中央極限定理

中央極限定理(central limit theorem, CLT)是機率論和統計學的關鍵概念,讓各種母體分配的隨機樣本能夠標準化後趨近常態分配(Normal distribution)。目前統計學教科書上寫著,中央極限定理只要存在期望值和變異數,序列相互獨立,樣本數等於或超過30即可套用中央極限定理。這樣的原理概念很簡單,所以應用性也非常廣泛。

然而也因為如此簡單的結果,其中很多因素並沒有辦法用數學表現。而定理的推翻不是只有數學證明而已,只要能提出一個反例,就能推翻。特別是統計學教科書中寫到的樣本數大於或等於30即可套用中央極限定理。

至於如何產出反例或驗證,我們可以從中央極限定理的數字例中,由電腦生成出特定母體分配的隨機值,產生樣本平均數的抽樣分配,即可了解在不同樣本數($n$)的情況下,樣本平均數的抽樣分配是否維常態分配。

此外,我們還能使用電腦生成樣本平均數的抽樣分配過程中,發現多少樣本數下,就能趨近標準常態分配。

因此,目前現行的中央極限定理,並非定理。統計學教科書所寫的樣本數大於或等於30就能套用中央極限定理也是有誤。如此一來,各種的統計學測驗或考試內所使用的數字例都是有問題。更有意思的是,若是強行對考題中的數字加上符合中央極限定理的條件,那也只是人為認定,其計算出的結果實則有疑慮。

接下來,我將描述兩個有關中央極限定理的內容,並從中歸納出中央極限定理的要求後,找出遺漏的部分。

兩個有關中央極限定理的描述

在林德柏格-萊維的表述中,可以歸納三個重要條件:

  1. 數字集為隨機變數的序列
  2. 期望值存在
  3. 變異數存在

在這三個條件成立後,只要數字集的數字個數(以 $n$ 表示)接近無窮大,隨機變數($\bar{X}$)減掉期望值後,乘以開根號的樣本數,就會收斂到以平均數為0且變異數為 $\sigma^{2}$的常態分配。

假設序列 ${X_{1},X_{2},\dots, X_{n}}$ 來自特定隨機變數 $X$ 的序列,其中,$E(X_{i})=\mu, Var(X_{i})=\sigma^{2}$。只要 $n$ 接近無窮大,則

\[\sqrt{n}(\bar{X}_{n} - E(X_{i})) \longrightarrow N(0, \sigma^{2})\]

同樣是中央極限定理,里亞普諾夫則提出隨機變數 $X$ 內的序列($X_{i}$)必須獨立,但未必要來自同一母體分配。另外,他還發現隨機序列的$2-\delta$階動差在樣本數足夠大時會有趨近於0的限制。如此才能發生中央極限定理。

假設序列 ${X_{1},X_{2},\dots, X_{n}}$ 是一系列的獨立隨機變數,其中,每個隨機變數都有 $E(X_{i})=\mu_{i}, Var(X_{i})=\sigma_{i}^{2}$。

定義 $s_{n}^{2}=\sum_{i=1}^{n} \sigma_{i}^{2}$

對於某些 $\delta > 0$,滿足

$\lim \limits_{n \to \infty} \frac{1}{s_{n}^{2+\delta}} \times \sum_{i=1}^{n} E \left[\lvert X_{i} -\mu_{i}\rvert ^{2+\delta} \right] = 0$

\[\frac{1}{s_{n}} \ \sum_{i=1}^{n} (X_{i} -\mu_{i}) \ \overset{d}{\rightarrow} \ N(0, 1)\]

觀察上方的兩個中央極限定理不難發現,隨機序列必須存在期望值和變異數,再加上不同人發現的一些限制後,就能讓序列趨近常態分配。

問題

1. 多少樣本數才能讓樣本平均數的抽樣分配幾乎接近常態分配?

我們從這兩個有關中央極限定理的定義中可以發現對樣本數的要求是「無窮大」。問題是「無窮大」是多少樣本呢?

在實務應用上,沒有樣本數的告知就無法被使用。所以中央極限定理看似非常有力且被廣泛使用,但在這樣本數所需的最少量上並沒有被定義下來。因為這是數學推導,所以使用一個無窮大符號就能代表一切。

至於統計學教科書上則明確指出樣本數 $\geq$ 30,即可使用中央極限定理。但這個30個樣本數卻未必適用各種母體分配下的隨機值。

2. 多數分配都能適用中央極限定理

上述兩個定理中並沒有限制特定分配,只是要求三個條件要符合。這代表中央極限定理可以適用多數的分配。這看似很美好,卻需要和第一個問題相結合在一起。因為各種的母體分配有其特徵,所以隨機樣本的樣本平均數抽樣分配要趨近常態分配也會受到母體特徵影響。

所以從上述的兩個問題中,我們可以發現,當隨機序列來自不同母體分配,其產生中央極限定理所需要的最少樣本數不盡相同。而今這個問題沒有解答。換句話說,但凡各種研究使用到以中央極限定理為基礎的定理、觀點或結論都需要重新被驗證。

3. 有沒有測定序列的母體分配呢?

從第二個問題到第三個問題,我們可以用反例說明。柯西分配只有中位數,不滿足中央極限定理的條件,自然不能使用中央極限定理了。

那麼是否所有的專家學者們對研究的序列都有檢測過來自哪種母體分配呢?

這問題顯然是沒有在專家學者們的研究過程中發生。但凡經過大學以上教育者都知道嚴謹的研究可以大膽假設,但每一步的推導或驗證都要非常小心。而專家學者們卻將此重要的步驟省略,甚至沒有將這類的母體分配放入做檢測,這是否可以說明,為何人類的經濟或商業環境總是有本來是已知的風險,但因為專家學者們的研究被拿來當作結果,而產生「恐怖的未知風險」!?

中央極限定理的成立與否以及適用哪些序列,都需要更加嚴謹地檢測。過去的研究都以數學符號推導,並當作定理使用,成為其他應用或延伸的定理根基。對數學定理來說,只要能提出一個反例推翻定理,那麼這個定理就不能再做為定理。

解決辦法

王冠先和李玫郁在2019年的《統計學不能做為大數據分析的工具》,以及Wang等人在2021年出版的《Excel calculating the probability distribution simulated data》都有機率分配生成模擬的功能,從中可以發現隨著樣本數 $n$ 增加,特定母體分配抽樣出來的樣本平均數之抽樣分配變化情況。

如此一來就能發現

  1. 中央極限定理成立所需的最少樣本數在不同母體分配下是不同的。
  2. 中央極限定理成立的條件不只需要前述的期望值和變異數存在,還需要考慮偏態係數和峰態係數。其中的峰態係數更是樣本平均數抽樣分配的變異數成分之一。
  3. 任何基於中央極限定理所發展的應用,都需要重新修正。檢測序列來源分配為何,以及重新獲得正確的檢定用臨界值。

當世界愈發依賴數據驅動的科技時,我們對數據所用的理論、定理都需要特別謹慎使用,甚至還需要重新檢驗其適用範圍。同時科技進步反饋到過去使用數學符號推導的各種理論和定理,變成可以使用數字例去做驗證,看是否產出反例,或何時會發生反例等。

身為專家學者,在從事研究過程中,已經無法像過去一般。任何的假設或推導過程,在數據驅動的科技下,都將被重新檢視。新科技帶來新知識,同時也檢驗著舊有的知識。專家學者們本職在創新與研究上,相對一般人理當更少的僵固想法。若試圖以過去的研究內容或成果套用在數據驅動的科技,甚至認為是數據驅動科技下也能成立,這可謂是緣木求魚之舉,也對新科技的發展並無益處。

新科技時代下,萬法齊放,同時也被檢驗著!