1. 什麼是人工智慧
讓我先定義一下什麼是人工智慧吧。傳統人工智慧的目標是能夠做到推理、知識識別、規劃、學習、自然語言處理、感知、移動和操作物體的功能,最終達到解決任意問題的通用智能能力。人工智慧的研究人員採用搜索、數學優化、形式邏輯、人工神經網絡,以及基於統計、機率和經濟學的方法,利用了計算機科學、心理學、語言學、哲學和許多其他領域,嘗試整合上述的方法和領域,試圖解決並突破人工智慧問題1。歸納一下可得到人工智慧的底層邏輯是運用「數據」建模,在變量的規律上,以及變量間的關係,完成通用智能能力。
2. 人工智慧基礎是數據,數據要找來源,需要機率分配
既然是數據為王,人工智慧想要能具備判斷能力就需要從數據中訓練判斷力。想要判斷就要有判斷的標準,這個標準就是數據來源 – 機率分配。常見的機率分配不是常態分配系列就是指數系列,當然還有其他分配。
機率分配很特別只能用模擬得到模擬值,才能跟實際數據比對,產生建模和人工智慧要的判斷,「判斷」可以產生一個母體比例機率分配(目前沒有做,只是用一個樣本比例代表)。而這些機率分配的隨機樣本則得靠模擬方式得到,稱為「模擬值」。
3. 要產生「各種」機率分配,機率分配 = 模板
人工智慧要很多機率分配,才能和數據做匹配,不會產生硬套機率分配產生機率的錯誤。演算法或許可以儘可能降低這種錯誤的占比,但沒有數學模型方程式的結果就是錯誤發生在哪也不知道,隨著時間流逝,就像2008金融海嘯一樣,一個連動債最後產生金融海嘯。人工智慧的小小錯誤,透過演算法降低誤差占比,但也永遠別想找出問題所在。時間流逝後,bug愈來愈明顯,終將變成人工智慧危機或海嘯。那為什麼不一開始就走正確的方向。
機率論一直是研究分析人員的短版,40多年來並沒有太大的進步。人工智慧需要用到機率,相關人員也得學機率論。機率論的表現方式之一就是機率分配,機率分配的數值產生要靠模擬,那麼機率分配模擬器就是人工智慧的基礎模板!
可我們卻看到統計軟體或程式內建機率分配,但種類不多,有的分配還被限制參數。功能多侷限在臨界值或抽取出隨機樣本而已。想要讓模擬出來的隨機樣本進行函數轉換或數學組合,或是轉換後或組合後的數據想找機率分配都是無法做到的。
你說為什麼要做到那些功能?現實的數據特徵找不到,通常也不會單純來自特定機率分配,很可能都是轉換或組合後的新變數產生的機率分配。那如何才能弄出「各種」機率分配型態,我們就是靠著單一的機率分配進行轉換或組合,如此變化出千千萬萬的機率分配。你可以隨機樣本的指數的指述的指數的指數轉換。你可以隨機樣本的指數的根號的sin函數的指數轉換。這些都是隨你需要創造的新隨機變數機率分配。
當你的人工智慧基礎模板足夠多,數據匹配機率分配就更加正確,判斷力自然上升。因為匹配數種機率分配造成的匹配錯誤可能性隨之下降。
3.1. 機率分配模擬器是人工智慧的基礎模板
人工智慧擁有愈多的機率分配種類就能夠為數據集匹配出正確的數據來源和特徵。這就是為何稱「機率分配模擬器」是人工智慧的基礎模板!就像學習程式、html網頁語法都會有模板。我們從模板中了解那些語法如何表現出前端畫面。同樣地,人工智慧的判斷也需要對「數據」產生匹配,而匹配的原型(機率模型)得要多,才能精準地對照數據機率分配,繼續演算法的下一步運算。
這裡為什麼是模擬呢?既然是數據的基礎模板,機率分配需要被模擬來自特定機率分配的「模擬值」,再與數據集進行比對,確認是該數據來源或「極限分配」。原本這些都是數學、機率、統計的理論,現在全面可以使用機率分配模擬器得到。這很像實驗室的實驗組(模擬數據)和對照組(真實數據)。
以圖像辨識為例,一個圖像可以三秒產生150張連拍,代表有150個樣本。根據圖像辨識的技術進行比對,符合=1,不符合=0。如此就可產生成功機率($p$)。一天可以對1000個圖像做辨識,就會有1000個成功機率,形成一個母體比例的抽樣分配,也就是機率模型。
之後我們可以就這個機率模型進行反覆模擬,了解這個圖像辨識技術的問題會發生在哪,或是這樣的圖像辨識方法已經成功了。
4. 誰說機率分配模擬屬於高端技術,告訴你會Excel就可以
然而,那麼重要的人工智慧基本模板卻不容易被學習,通常要到研究所甚至博士後才能學習。也有可能終其一生都學不到,只能自己摸索數年、數十年才有所小成。對一些非理工科系的研究生而言,他們得自己去修模擬器的課程,完成論文。通常數據模擬課程教的是「蒙地卡羅」模擬法。
蒙地卡羅模擬是基於亂數生成產生特定機率分配的模擬值。蒙地卡羅演算法常用在機器學習的強化學習中,是藉由蒙地卡羅的模擬方法生成參數,使得取得的數據集建立相對模糊的模型趨近符合數據集的模型。
機率分配模擬器也是來自亂數,和蒙地卡羅模擬一般,但讓我引用IBM的說明
如何使用蒙地卡羅方法2
無論您使用何種工具,蒙地卡羅技術都涉及三個基本步驟:
- 設定預測模型、識別要預測的應變數,以及將推動預測的自變數(也名為輸入、風險或預測變數)。
- 指定自變數的機率分配。 使用歷史資料和/或分析師的主觀判斷來定義一系列的可能值,並為每個值指派機率加權。
- 反覆執行模擬以產生自變數的隨機值。 請執行此操作直到收集到足夠的結果為止,如此才能組成接近無限可能組合的代表性樣本。
您可以修改您用來模擬資料的基礎參數,藉此執行無限多的蒙地卡羅模擬。 不過,您可能還想要計算變異數和標準差,這些都是常用的分布度量,藉此計算樣本的變異範圍。 特定變數的變異是指變數與其期望值之間的平方差期望值。 標準差是變異的平方根。 一般來說,差異較小視為較好。
上面的描述中,我們可以發現三個步驟相當黑箱。第一步的預測模型需要從數據中得到,如果是根據迴歸分析的模型,通常是線性迴歸,或者研究人員喜歡的指數、對數等,產生的模型形式錯誤進入殘差3,分也分不清。
即使第一步正確,第二步的設定全憑自由心證,經驗法則。數據不說話,都是人在主導的。因此,進入第三步全靠演算法的參數調整去逼近樣本。如何逼近?能不能最後產出數學模型的方程式?都是問題多多。
那原因出在哪?可想而知,使用蒙地卡羅模擬沒有錯,但機率分配種類不夠多,機率分配參數找不到,等於第二步是主觀認定,而非客觀決定。這對數據分析來說是難以被信賴的。而蒙地卡羅模擬能夠模擬的機率分配在現行軟體或程式中可選的項目或指令並不多,即使是minitab可做21種機率分配檢定,也無法同時將參數找出。當然連人工智慧該有的基本模板 – 可模擬各種機率分配功能 – 也難以達到。
4.1. Excel讓人人都可學機率分配模擬
很難讓人置信,但這卻是真實存在!其實Excel就能夠做到「各種」機率分配的模擬。只要你會使用Excel你就可以學會模擬「各種」機率分配,包含模擬技術的知識。你不需要使用那些統計軟體或程式用指令或功能呼叫,但不知道其模擬原理,也不知道模擬正不正確。
Excel學人工智慧的基礎模板優勢在於
- Excel是高中職就會的文書處理工具,學習機率分配模擬器的知識和實作進入障礙很低
- Excel的工作表可以讓人一目了然知道模擬的每個動作,並由欄位(A欄、B欄、C欄)和列數(=樣本數)清楚知道變量和樣本。
欄 = 變量
列 = 樣本 - 模擬完後的數字和另一個工作表的原始數據進行機率分配比對 (這裡需要先幫原始數據做測定機率分配,才能畫散佈圖比對)
- Excel的欄位可繼續使用,做變數變換,再用插入圖表,畫圖比對
- Excel的工作表保留所有動作,可以清楚知道哪個步驟有問題
想了解更多Excel學機率分配模擬器,可掃上圖的二維碼到美國亞馬遜網路書店看樣書內容。內容可看到第二章工業工程最需要的三參數韋伯分配。
5. 小結
如果你連自己的數據模型都不知道為什麼要調整參數,為什麼參數要這樣調整,僅憑藉著演算法就是這樣寫,我套用即可,那麼人工智慧的技術可能就到頭了,遑論人工智慧的創新研發。人工智慧的基礎模板既然叫做基礎,就代表判斷時需要依賴這樣的模板原型和數據進行比對,產生判斷。但如果你的模板不多,你也不太認識,或侷限在軟體程式給你的選擇,變成自己認定的方法,這樣產生的人工智慧判斷結果,很難知道錯誤發生在哪。時時刻刻調整參數的結果就是:說有數據模型,都是假的!
機率分配模擬器是人工智慧的基礎模板,也是數據分析的基礎模板。這是統計學思思念念希望找到的機率分配和其參數。而人工智慧內的數據不只是分類型數據,亦有數字型數據,無論哪種數據都可以用機率分配去做判斷。
然而機率分配模擬屬於高端技術,通常你得學很多專業且跨領域的理論課程後,才能慢慢整合起來,用亂數為基礎的模擬器,模擬出機率分配。不過也就這樣了。再進一步,微積分無法解決的變數變換或極大極小,甚至是數學組合後的函數可否找出對應之機率分配都是無法用理論、數學、數值分析找出來的。機率分配模擬器能夠成為人工智慧的基礎模板就是能解決數學、統計理論無法解出,或數值分析無法解出的問題。而人工智慧就是一個如此複雜的數據規律系統,需要機率分配模擬器建構最龐大且完整的機率分配模板,方便人工智慧判斷使用。
想學機率分配模擬器也不難,只要你會Excel就可以。想了解更多可以看書籍的樣書內容或是影片介紹。