大數據分析的第一步_讓我告訴你模擬的重要

這是個非常適合商管或非資工管的人學習的工具。

各個專業都有很多重要且需要學習的知識,如果在你大學期間花了大把工夫與時間學了程式,卻仍寫不出個所以然,也無法設計與創造時,很可能你不僅不能跟同專業的人競爭,你還無法跟資工或資管的人競爭。資工與資管的學生四年專注學習寫程式或與程式相關的基礎理論與應用,而商管或非資工管的學生,卻還要放棄學習自己專業知識與應用的時間去學習那些程式,這造成的結果就是別人繼續往前走,但商管類的學生就是在往後走。

商業與管理當中有一項最值得投資的就是【分析能力】與【解讀報表能力】。別以為專家學者很厲害,他們是分析得多,解讀得多,累積出經驗來罷了。甚至他們還得退而求其次,求「有」工具就好。

無論是課程一開始或是現在這個分享給你的免費公開影片,都是為了讓你知道:美國或其他國家都不會輸出大數據分析方法或人工智慧技術!唯有自己開發才有機會。但開發成本太高,而且失敗的可能性也太高,無論是哪個台灣的企業都無法承受。而台灣是搞製造的。

你知道製造中有一項叫做工業4.0,也就是全面的機器化與自動化。為什麼台灣其實不敢說升級到工業4.0,而是說工業3.5嗎?因為在機器化與自動化的前提就是要「精準建模」。我還記得數年前教過的中國學生回到中國後就是做機器人的教育訓練,在沿海省份推動著國小國中的機器人學習。他跟我說了一件事情令我很震驚。因為他工作的公司還輸出機器人到台灣的國立大學。於是我問他,那些機器人的等級是如何的。他回答我,都不是最好的,而是他們很基本款的機器人,有的如果要每天使用,就要每天醒機,然後重新調整參數。

看完以上我詢問的內容後,你有發現為什麼我這麼強調「精準建模」嗎?

因為只有精準建模已經將誤差納入考量,不需要那樣子調整參數。也就是機器會自己微調,這是人工智慧的應用。當然也要場域狀況每天掃描後納入資料庫,讓機器自己去運算。為什麼歐洲車廠在這方面做得很好,也已經達到工業4.0的原因就在於他們將製造流程中的工藝技術轉換成數據,寫入資料庫,反覆的運算後,將機器調整到具有工藝技術的操作能力。

至於各國為什麼不輸出這些高端科技技術呢?因為這關乎國家安全。一旦與國家安全牽扯上關係後,各國都不會輸出。會輸往他國的技術或東西都是該國淘汰下來的技術或東西。這就是為什麼台灣微軟或谷歌說要在台灣發展人工智慧這些新科技的研發是多麼不可信。另一項很重要的原因是人才的培育。如果沒有大數據和人工智慧的人才,而是土法煉鋼,自己人培養自己人,那也是不可行的。

美國或其他國家的大數據和人工智慧人才會回到台灣嗎?在看電視新聞時總會看到那些人回台灣,待在台灣搞大數據和人工智慧。他們會因為愛國心放棄國外的高薪而回台灣嗎?你可以試著想想看,如果你有最新的科技技術(當然包含寫程式),會有哪個企業不要你?美國川普總統當政時就已經確認美國只會將這些人才留在美國,無論用任何方法。這些高端技術人才不會放棄高薪,也不會放棄某些被許以的龐大利益,例如你待在這,養你終生到死。歐洲也一樣。他們的企圖心非常強烈,也要留住那些高端的人才在他們的國家。

你可能想有可能他們取得雙重國籍再回台灣,幫助台灣。在國家安全上,違反國家安全視同叛國。那麼這樣的人才會教台灣大數據和人工智慧的最先進技術嗎?

那你還會想這門課程教的又怎麼可能是大數據和人工智慧的技術。前面有提到想要大數據和人工智慧技術,只能自行開發。這是我們花了超過10年的時間,克服種種的數學理論、統計理論、電腦技術後才做到的。換句話說,從一開始,我們就決定從頭開始,從理論的本質出發,而不是從別人新發展的理論上去架構。現在無論是R、SAS、Python這些常用的程式或軟體都是架構在新發展的理論上,也就是課堂上講的,有些理論本質就是分析小樣本,你硬要用在大樣本,公式肯定錯。而這個概念很多人在讀大學前都還保有,讀大學開始就逐漸遺忘了。特別是寫論文的時候,只要過去有人使用過,就跟著使用。這就像醫學上的數據造假論文醜聞。那醫學論文後續很多人跟著他的內容一直做。

現在還是一樣。光是你們所學的統計學分析方法中就有很多錯誤,但持續被使用。明明電腦已經可以運算並且解決,可教科書不肯更改,甚至在2017年的時空預測圖像演算法-PredRNN,在時間的調整上使用的Durbin-Watson檢定統計量和臨界值表(就是你們統計學教科書後面會附的查表)。那兩個學者礙於當時的技術,無法將檢定統計量的抽樣分配找到,導致判定原則上有灰色空間出現。時至今日還是寫在教科書中。

所以為什麼這個大數據分析的第一步是讓同學們認識機率分配。唯有你們自己先建立好觀念,才能銜接上大數據和人工智慧的未來。這些分配都在英文版的維基百科寫得非常詳細,但那無法讓你看到參數變化對分配的影響,也不能夠讓你知道隨機抽樣出來的數字,如何驗證確實從那個分配而來。換句話說,他們做不到定模,他們做不到精準檢定,同樣他們也找不出數據的機率模型(這要靠後面會教到的如何判別資料來源)。

讓我寫回跟金融有關的部份吧。金管會有條金融沙盒的法案已經通過許久,看似很多金控公司都用金融沙盒在創造新的金融或投資商品。那我要告訴同學們,金融沙盒就是模擬器!!!!!!用模擬器模擬金融數據的變化。可問題來了。他們連金融數據的模型都不清楚,就用模擬器去模擬各種變化,你不覺得好有趣嗎?這就是所謂用經驗法則去驗證的。而經驗法則來自常態分配。即使取了log,變成log常態,還是由常態分配衍生的。換句話說,他們是硬套模型。這也就是為什麼我們一定要去搞投資。因為那裡頭太多的漏洞可以鑽。可惜他們沒有搞成全球,不然很多就可以上演雷曼兄弟的精采事件再現。

這些影片是非常快速帶你了解大數據分析的第一步驟,模擬器可以模擬出的機率分配圖形。至於當中的變化就留給同學們自己去玩軟體囉。

https://youtube.com/playlist?list=PLqdX210O3mhwUMSU4vTAbWqiQfAhmNfQK

對數字模擬有興趣的同學們,可以參考美國亞馬遜的圖書,Excel calculating the probability distribution simulated data,自己使用Excel學習機率分配模擬。