為什麼大數據和人工智慧無法做到模型比對

1. 前言

本文歸納無法比對數據模型的兩大原因,第一個原因是,數據分析後該出現的數據模型方程式無法被找出,只能用圖形和一些指標顯示使用的演算法有多準確預測。第二個原因是,大數法則無法被實際使用。這是一個被視為理論專用物,迄今無法被實用的理論。

2. 第一個原因

第一個原因是數據分析後並沒有顯示數據的數學模型方程式。

2.1. 沒法找到機率分配含參數

數據分析流程的其中一個步驟需要測定數據的來源,亦即機率分配。決定機率分配的重要因素為機率分配的參數。統計分析的目的在於確定機率分配的參數為何,而機率分配檢定除檢定數據來自何種機率分配外,亦該連同參數一同被設定為虛無假設,進行假設檢定。然而,實際情況卻是某軟體跑出21種機率分配的檢定,被貼在網上的outcome僅出現「機率分配」。這代表現行軟體並沒有同時測定參數。

那他們怎麼去尋找參數呢?是的,另外使用統計分析,或根本不去尋找,直接應用其他的分析法或計算方法趕緊得到「預測值」。

數據的機率分配及其正確的參數值形成數據的機率模型(probability model)。但多數軟體或程式的機率分配檢定不考慮參數值就做檢定,造成不完整的檢定結果,也無法建立機率模型。

在參數的尋找上,後續應用的統計分析是基於常態分配,很多人不管不問理論或模型的前提假設是否正確,直接套用後,使用那些結果做決策、當真相。專家學者們或分析人員遺忘邏輯真值表說明「假前提不會得到真結果」的邏輯。因此,數據的機率模型無法被真實地測定得到。

2.2. 沒被顯示出來的數據的數學模型方程式

多數人都認為數據的數學模型方程式存在於電腦運算中,只要用圖形顯示即可,但真正的情況是否是如此,並不清楚。例如,機器學習或任何由演算法跑出來的結果,都不會顯示數據模型的數學方程式。不知道是被隱藏起來,還是來自黑盒子運作?

有圖就該有對應的數學方程式,應該是被顯示出來的。如果圖形僅是由演算法得到結果多次後形成的資料庫型態,那麼仍然不是數學模型方程式,這自然無法為我們進行比對數據模型用。

另外,論文中很多的數據模型結果圖看起來像是參數對應的均衡解集,不像在找數據規律的數學模型方程式。通常這樣的做法還需要輔助機率,走最大機率值的路徑(path)。只是這樣的最大機率仍可建構一個母體比例的機率分配,目前仍未有見。

兩種儲存數據模型結果,一種是結果全存在資料庫且沒有數學方程式,一種用數學方程式代表結果。後者的方式節省儲存空間和可加快程式編碼後的運算速度。我在這認為只要無法顯示出數據的數學模型方程式皆屬於第一種。而比對數據模型當然是依靠第二種方法更為穩健且更能精確(accuracy and precision)。

2.3. 分類型數據的模型一樣可以被建造

在特定的數據集內,分類型數據在與原型比對的準確度(accuracy)可以做為機率分配的成功機率(其實是樣本比例)。每次的比對為一個變數值,來自伯努利分配,特定數據集完成比對計算得到準確度,視為一個變數來自二項式分配。

既然準確度是機率值,也是成功機率,那麼就可以建立機率分配。但目前還沒有看到為準確度建構成機率分配,並做評估模型使用。

這種一個母體比例的機率分配還可做到貝氏機率,也就是你可以回測成功發生在哪些分類型數據。這部分有些專家學者想做,正在做。如果你有機率分配模擬器生成出模擬數據,再用「意向大數據分析」軟體即可找到所有的事件的邊際機率、聯合機率、條件機率和貝氏機率。此時你將得到完整的機率模型。

3. 第二個原因

強大數法則1或弱大數法則2是比對數據模型的方法最佳解。可是為什麼我們看到的軟體或程式都沒有使用這樣的方法呢?而且強大數法則和弱大數法則都是機率論的學習內容,難道只是「理論」,無法實用?

其實不是強大數法則或弱大數法則不能被使用,也不是僅能用在研究上,這要歸因於很多的連結點沒有被處理,也沒有被研究,造就了強大數法則或弱大數法則此類理論被束之高閣,視為理論專用物。

那麼大數法則到底能不能實際使用呢?當然可以。使用機率分配模擬器得到的模擬值,可以與我們理想型的分配模擬值,依照強大數法則或弱大數法則,在給定的誤差值下,計算機率值。

強大數法則(上圖的上半almost surely)的機率值為1代表通過該誤差設定的趨近。上圖通過誤差=0.1的趨近,但其他的誤差設定下都沒有通過。

弱大數法則(上圖的下半)的機率值為0代表通過該誤差設定的趨近。上圖通過誤差=0.1的趨近,但其他的誤差設定下都沒有通過。

我們如何判斷兩個分配的數值是趨近呢?經驗上的判斷是以誤差=0.005為判斷標準。如果數值可通過誤差=0.005設定,得到強大數法則的機率值=1或弱大數法則的機率值=0,即可說該分配趨近原型分配。以上圖的符號來講就是Z3會趨近Z0。

不過使用強大數法則或弱大數法則前,你得先

  • 找出數據的分配(機率模型)或
  • 找出精確(accuracy and precision)的統計模型3後,生成應變數的模擬值,再找出應變數模擬值的機率模型。

接著根據強(或弱)大數法則的公式,開始模擬並計算機率值。這些步驟和運算都只能依靠電腦完成,人力無法做到。

小結

為什麼比對模型那麼困難,為什麼比對模型方法那麼多樣,究其原因在於

  • 數據分析流程無法完整
  • 機率分配檢定無法完整
  • 統計模型尋找無法完整
  • 現行的模擬技術無法模擬各種的機率分配
  • 現行的迴歸分析無法建立最小誤差下數據的數學模型方程式

遭遇那麼多困難點需要克服時,就只能繞路而行,使得強(或弱)大數法則的公式無法被應用。

因此,要解決那些困難點並將強(或弱)大數法則的公式應用在實務上,前提要有機率分配模擬器</font>,幫分析人員生成出各種的機率分配。機率分配不只是大數據和人工智慧的基礎模板,也是強(或弱)大數法則的公式需要的基礎模板(Z0)。

參考資料