人工智慧(Artificial Intelligence, AI)從1950年代就開始的概念與有其持續追求的目標1。這數十年來,為了達到人工智慧,從資料探勘、大數據、人工智能到人工智慧,其目的都在尋找資料的規律性。
若能尋找出資料的規則,將之寫成代碼,形成程式,就能夠讓電腦產生運算,並自我判定。然而,所有的資料均需要被定序,然後再開始檢測,尋找出規則,產生數學模式,寫成代碼。這樣的步驟,最方便的方式不是產生數學模式,而是產生資料庫,讓電腦運用比對方式,找到最近似的模式,以此為『最適模式』進行分析。換句話說,這是兩個階段性的問題。
- 第一個階段是電腦能夠運算數據的數字規則,
- 第二個階段是電腦能夠自我判定何者最佳。
第二個階段比較好回答。『何者最佳』等於均方差(Mean-square-errors, MSE)最小。因為誤差最小,所以精準度就高,模式就會是最好的。
第一個階段雖說是演算法計算數字規則,但卻需要能夠建構數字規則的模式,同樣也得可以解構數字規則模式,如此才能自我驗證。
計量大數據分析意義
這次計量大數據分析主要是學習如何將已經取得的數據進行建構數字規則,以及解構數字規則模式。過去,計量經濟學是根據統計學基礎,加上迴歸分析,特別針對迴歸係數估計方法,並且必須滿足二維常態分配(同時討論$X$與$Y$),或條件常態分配(給定$X$,討論$Y$)的假設下進行討論。然後延伸到當誤差具有異質性,以及誤差具有序列相關的解決方法。另外,也有討論到大樣本趨近的漸進分配(Asymptotic distribution),試圖讓數據滿足中央極限定理(Central limit theorem)。
然而,在計量經濟學當中有兩個最大的問題點,第一點是討論的漸進分配僅是理論,無法實務操作(參考大數據分析基礎 – 大數法則 (中央極限定理))。第二點就是沒有人敢保證數據符合常態分配!沒錯,「常態分配+常態分配還是常態分配」,資料分析者需要保證成對樣本均來自常態分配。此外,多數的數據常發生『常態分配+非常態分配』或是兩個非常態分配的加減乘除。
沒有人知道這兩個問題的解答!更有趣的是:
成對樣本的結果會等於條件樣本的結果嗎?光從聯合機率與條件機率來看就知道不可能的事情,而計量經濟學教科書卻都轉為用條件來討論迴歸分析。
迴歸分析一定要常態分配假設嗎?即使我沒設定誤差服從常態分配,僅使用高中數學所學的最小平方法就可以推導出直線型迴歸分析的截距項與斜率數學式。那麼假設誤差的意義倒底在哪?這應該要說明清楚吧!?
迴歸分析一定是直線嗎?綜觀所有教科書或是論文,無論架構在違反哪種誤差假設,都是從『直線』開始,最終還是直線!即使在討論相乘模式,整體架構與思維還是在直線模式。這是主觀認定的數字規則模式,不是數字自己反映的模式!
這時候,我們反而要返璞歸真,從最根本來進行思考。
當我們取得成對樣本 $(X, Y)$ 時,兩者的線性模式可以是最簡單的 $Y = \beta_{0}+\beta_{1} \times X + ε$,$\beta_{1}=0$。當然,也可以是 $\beta_{0}$ 與 $\beta_{1}$ 不等於0。
ε可以是0,所以,線性模式完全吻合。但受到$X$與$Y$成對樣本的數字規則影響,或是受到外部干擾產生偏誤(ε)的存在,我們可以透過檢測ε來自哪種分配,$X$來自哪種分配,以及真實$Y$來自哪種分配獲得數據特性,並進行線性組合(當 $\beta_{0}$ 與 $\beta_{1}$ 已知。記得:最小平方法就可以算出截距與斜率值)。
ε的特色除了受到$X$與$Y$的本身是機率分配影響,以及受外部干擾影響,還可能來自於模式設定錯誤導致所有影響因子都存放在ε,所以,ε就有強烈的分配特性或無法解釋的特性。
計量大數據分析概念
想開始做計量大數據分析,就需要從『數字模式』來思考,而不是從統計學的推估角度思考。同時需要解決前述的幾個問題點才能進行分析。
1. 數據量
我們檢測過如何區分大樣本與小樣本。這是使用極端的機率分配進行檢測是否能夠趨近常態分配後才發現數據量以10,000筆區分大小樣本。所以一開始需要對數據個數分成兩類,第一類是低於10,000個的小樣本;第二類則是10,000個(含)以上的大樣本。(參考大資料庫(大數據)的公式 – 適用各種母體分配)
如果是第一類的小樣本,可以採取適合度檢定,檢定45種機率分配。若真不是來自於45種常用機率分配,那麼就需要使用Curve fitting直接使用微積分的黎曼和概念,找到機率分配的數學模式。至於第二類的大樣本,因為樣本足夠大,所以可以使用中央極限概念,具有趨近常態分配特性。
2. 模式選擇與原則
無論樣本大小皆可以進行下面的模式選擇分析流程。我們最快速的方式就是檢測是否為直線模式,然後再檢測非線性模式(共37種數學式)。模式選擇最重要的就是判定原則。
在推論統計學當中,一個點估計量產生後,我們得進行『充分』、『不偏』、『效率』、『一致』的檢查。如果點估計量具有效率,那必然存在充分與不偏。但如果僅有充分與不偏,未必具有效率性。
為此,我們認為模式選擇就是回到最上方所言人工智慧的第二個階段:MSE最小原則。因為當MSE最小,代表模式就是最精準的(precisely)。也就是模式很準,未必具備精;模式很精就會具備準的特性。
3. 模式建構與解構思維
數字模式的建構與解構是一體兩面的。在計量經濟學當中,總是在說『建構』,也就是都在找模式。這就是『資料探勘』。但卻無法做到模式解構的模式自我驗證。
所以,為了瞭解數字規則的解構特性,就需要跳脫統計學與計量經濟學的迴歸分析估計方法,直接從數字規則下手。我們可以透過數據生成的規則,反推到數據來自哪種分配,以及驗證成對樣本的關係是否如同設計一般。
這個解構思維建立在第一點(1. 數據量)。因為我們已經知道$X$、$Y$與誤差的機率分配,就可以根據機率分配生成數據,再根據最小平方法計算得到的係數帶入形成新的$Y$的機率分配,生成數據量。真實與生成的$Y$的數據量可以進行比對。
更重要的是從母體分配生成出來的數字皆可與原本的X、Y與誤差值進行比對(Z檢定或T檢定,甚至是強大數法則檢測),如此自我驗證方式可以確定模式選擇的正確性與可靠性。
總結
透過自己生成的數據來驗證模式與自我驗證數據的分配,甚至$X$與$Y$、$X$與誤差,和$Y$與誤差關係(聯合機率密度函數)都可以計算得到,對人工智慧的分析基礎來說,這樣的計量大數據分析方法是非常必要的。這不是單純的『資料探勘』,也不是單純的『大數據分析』,而是可以建構數字模型,同時還可以知道數字與數字關係,以及數字模型的數學函數。數字的數學函數存在可以取代經驗所產生的資料庫,對於電腦的運算上更為不吃力。
當然最重要的是學習計量大數據分析可以讓人了解到數字的規則是可以被找到的,而且是使用非常標準的迴歸分析方法就能尋找出數字規則的數學模式。同樣的也可以反過來將數字規則進行自我驗證與反覆驗證。這對於從事分析者來說是非常重要的知識與技能。
參考資料
-
維基百科:artificial intelligence ↩