大數據分析方法論(1)

無論中文如何翻譯Big data為大數據或巨量資料，實際上，這些資料的目的就只有一個，那就是找出資料特徵，告訴我們一些規則(Rule)、規律(Regularity)或模式(Pattern)。

過去的研究方法對於模式的認定上，首先萃取出的即是線性趨勢。受限於線性，偏離線性的部分都歸納在離差(Deviation)上，這產生了變異數(Variance)。於是，線性迴歸模型延伸出ARCH與GARCH模型，這也是事件研究法的根基。

但是，當我們使用這些方法時，對於資料特徵的檢測卻是不足的。例如，研究者有沒有先檢查原始資料的分配為何？還是直接跑完迴歸或實驗設計，再用殘差去檢查誤差分配呢？

如果想要做到資料分析，並從資料當中取得有意義的真實現象，那麼原始資料的分配理當先驗證出來。

讓我們舉一個最直接的例子，那就是股票市場的股價指數，在過去的分析方法發現，全球的股價指數皆是滿足隨機漫步(Random Walk)，也就是誤差的一階自我相關誤差模型的係數為1，也就是完全自我相關，因此，這時使用差分，非常合適，所以誤差模型就會變成白噪音(Whate Noise)。

問題發生在

那是哪個模式的誤差？

答案是線性！

所以，時間序列分析的資料，第一步就是做定態分析。

然而，對所有資料分析人員而言，資料取得後，第一件事情就是要做定序！定序了解資料性質後，再依資料特性進行分析，得到資料告知的變數規則、規律或模式。這些規則、規律或模式對所有人而言可能從來沒有看過。

我們所能得到的模式未必會是線性，而是特殊，可能從未見過的規律或模式。再了解這些資料特性後，才開始討論資料之間的關係，所以，可以從線性關係，轉成非線性的多項式函數關係。是哪種關聯，我們無法知道，而是需要去測試，取得最小的MSE條件的估計函數，才能確定是哪種模式，以及相互之間的影響關係。

所以，若僅使用線性模式，即使是ARCH、GARCH或VAR模型，都是屬於這範疇，那麼，最終資料特性的了解就永遠都是線性模式。

如果真改為多項式函數去尋找資料特性，那麼，股價指數是否真的是隨機漫步嗎？答案可參考連結的股價分析附錄。