大數據分析方法論(1)
無論中文如何翻譯Big data為大數據或巨量資料,實際上,這些資料的目的就只有一個,那就是找出資料特徵,告訴我們一些規則(Rule)、規律(Regularity)或模式(Pattern)。
時間序列模型分析 - 是否需要定態
數據分析可以成功的原因來自於使用統計學的分析方法,以及電腦軟體的運用。觀察迴歸分析與計量經濟學的基礎皆是從「線性模式」出發,藉由最小平方法的計算,得到估計係數的數學式,此時,一點都不需要分配的假設 - 常態分配。
開放性資料的估計
過去傳統的計量經濟學、迴歸分析或甚至博士班之相關課程都是建構在抽樣分配、假設檢定與配適出適切的模型,因此,延伸出因分析所需的Tobit、Probit模型,而在時間序列上則由AR模型延伸出VAR等系列模型。
為何使用曲線化線性模型
當我們想知道資料特性或規律性時,傳統做法是根據統計學概念,認為資料=樣本,必然帶有母體特性。藉由資料找到母體參數即可確認母體特性,從而知道資料特性或規律性為何。
從巨量資料分析方法找台日韓兌美元匯率機率密度函數
話說台灣是以出口為導向的國家,新台幣匯率的穩定與否與國際情勢深深地影響台灣出口狀況。所以在匯率相關文獻上,例如,王泓仁(2005)使用結構式自我迴歸模型探討央行持有國外資產淨額變動率、銀行隔夜拆款利率、M2變動率、自然對數下之CPI、自然對數下之工業生產指數、新台幣兌美元匯率、外貿比例、貿易條件為內生變數進行匯率與其他變數關係討論,另外使用GARCH討論新台幣匯率成長率之波動。