統計分析的局限性

統計分析,在現在來說,已經泛濫成災。無論任何量化的研究都使用統計分析,甚至是熱門的大數據分析,以及代表大數據分析的視覺化分析,都是以統計分析做為研究分析的基礎。

然而,統計分析真的是如此強大嗎?

事實上,統計分析有其限制在!而且這些限制全部寫在統計學的原文教科書當中!回憶一下,統計學的原文教科書,從機率、隨機變數到機率分配,前面的章節都在說母體(population),即使沒有統計系教得深入,但基礎的母體概念都會教到,然後才開始說母體難以得到,所以開始從樣本來看母體。在討論過程中,仍是以母體概念瞭解樣本如何去符合母體特性。接著再從樣本的數學組合,如何找到抽樣分配與如何找到樣本之間的關聯進行模式設計。換句話說,統計分析就是在討論小樣本下,如何尋找最適宜的母體,以及期待能夠找到樣本之間的關係,進而代表母體之間的關係。

特別的是,在樣本的抽樣分配那一章節內,有提到中央極限定理(Central limit theorem),說明樣本個數愈多可以讓統計量在標準化後,趨近標準常態分配!!此時,如果中央極限定理真的存在,那麼,我們就可以從標準常態分配倒回去找到最接近母體參數的統計量值。所以,中央極限定理存在就是方便我們可以從樣本直返母體特性。

而這個樣本個數,所有的教科書都寫著大於或等於30。雖然很多人早已不相信樣本個數大於或等於30,即可趨近標準常態分配,但仍然使用它!原因很簡單,因為沒有控制誤差,只是用看的,看著近似即可。

這就引發另一個問題,統計學的統計分析,可以用看的嗎??就像Q-Q plot,也是用眼睛去判斷殘差是否為常態分配是一樣的道理(其他可參考1) 1

♔♔♔♔♔♔ 統計分析是小樣本的討論方法,目的在於使其反應母體特徵與關聯。 ♔♔♔♔♔♔

統計分析既然是以小瞭解大,那麼,如果只用敘述統計就可以嗎?

如果可以,那麼後面的點估計、區間估計、假設檢定就不需要了!同樣都是單點看世界,為什麼不是用敘述統計而是用估計與假設檢定呢?這就是因為用樣本來看母體,去了解母體,所以誰能保證一定等於母體?當然不行,所以對於單點數字的認可,我們會選擇使用估計或假設檢定的方式來代表母體平均數或母體變異數,而不是敘述統計的結果。那只是參考而已。但是,有趣的是,我們也只有對母體平均數與母體變異數使用估計與假設檢定,其他的高階動差的估計與假設檢定,你有看過嗎?可是這些高階動差重不重要?當然重要!!

想知道母體分配的特性絕不是母體平均數與變異數可以代表,不然為何還要計算動差母函數,對吧!所以,統計分析對於統計量的討論就非常深入,特別是估計與假設檢定。只是仍僅侷限在平均數的統計量與變異數的統計量!

從這邊讓我們更進一步來看,大數據分析是要從資料當中找到規則,可以用估計或假設檢定嗎?

當然不行!因為估計與假設檢定都是單點檢測,是檢測工具而不是找規則的工具! 所以同樣的敘述統計也不能用來當作是大數據分析的結果!

想找資料的規則,那就是將所有模型都測試一遍,能夠最精準的,誤差最小的,那就是了! 所以,你得將所有模型都測試一次,注意!是所有模型!不僅僅是線性模型,還需要包含所有非線性模型!不是只是找關聯,而是要找到Fit最棒的那個模型!

所以,問題在於你的模型有多少個?只是增減變數個數是不算的!那是另一個問題了! 好吧,你需要眾多的數學模型,這需要數學與最小平方法來估算,但是純粹從數學計算卻無法算出來,這得依賴數字運算了!

我們在資料量大的時候,更是要求的就是,要估得準,要預測得準。甚至連在小樣本也應該是求!當你為了追求模式估算與預測的精準時,係數是否顯著就不是我們關注的重點了!

最後,當我們在配適模型時,就只是配適模型嗎?當然不是,估計與假設檢定都會使用,做為估算數字時的數字信任,如果沒有估計與假設檢定,那麼,估算過程就無法估量樣本的代表性多高。

最後,當我們想對資料進行分析時,應該先思考是否適合使用統計分析,而非直接使用統計分析,有時候根本就是應該使用機率、數學分析或者是數字分析才是2

  1. 其後檢測殘差是否為常態分配的統計量有Kolmogorov-Smirnov統計量或Shapiro-Wilk統計量。 

  2. 最小平方法就是數學方法,可以沒有分配假設,就能使用。