Skip to content

三、時間序列資料在數據分析中扮演的角色

我們最先收集的數據會是怎樣的數據呢?讓我從歷史的記錄來談起。

歷史的軌跡

從最原始時代,人類開始有記事時,現在稱為「結繩記事」。只要部落發生一個大事就結一個繩。而大事不會在同一時間發生,而是過段時間發生。所以結繩記事只有記事者才知道發生什麼事情,其他人只知道這是過去某個時間記下的大事。

後來有文字記錄開始,史書依體例又可分為時間為主或個體為主。

個體:

  • 紀傳體(以人物為主軸)
  • 別史體(以國為主軸)
  • 雜史體(以遺文舊事為主軸)
  • 政書體(以典制為主軸)
  • 譜牒體(以宗譜為主軸)

時間:

  • 編年體(以時間為主軸)
  • 紀事本末體(以事件為主軸)
  • 史評體(以史事評論為主軸)
  • 綱目體(以年表為主軸)

如此就能發現人類在記錄事情時不外乎是「特定時間下不同區域/人物的記錄」,或是「隨著時間在特定區域發生的事情記錄」。

時間序列資料

隨著時間記錄下的數據量其實很龐大。人類會因為不同的人、事、物、地,成為分類指標,再各自依照時間記錄。多久記錄一次會受限人、事、物、地的規模與細節等因素影響。

所以時間序列資料可以分為

  • 年度數據/年度資料
  • 季度數據/季度資料
  • 月度數據/月度資料
  • 週數據/週資料
  • 日數據/日資料

當然還有更高頻的數據。所謂高頻數據就是指記錄的時間間距很短,例如一分鐘的數據,或一秒鐘的數據。

不同的時間序列資料記錄因為頻率低於年,就可能產生「季節波動」,又可稱為「週期變動」。這是因為在一年內數據值會有固定月份、週次、日等的特殊高低起伏。

長短期觀念

「長期」與「短期」是我們經常聽到但卻不易定義的兩個概念。那麼,長期究竟是多久?短期又該如何定義呢?

在金融領域,短期一般指一年以下,且長期指一年或以上。在經濟學中,長期通常意味著一個足夠長的時間讓資源皆可變動,而短期指至少一種資源不能變動。在機器學習中的RNN(循環神經網絡),長短期記憶由激勵函數的閾值所控制。

讓我們回到時間序列數據的例子。當橫軸表示時間,向右代表未來,縱軸表示某個指標的數值,數值越大,點越高。

按照金融上的時間分法,年度數據是沒有短期這一說法。但是實際情況中,有些20年的數據仍可分辨出短期趨勢。

視覺化的圖像通常使用平滑折線圖(見圖一)來表示趨勢。許多網站還提供互動功能,讓使用者能將滑鼠移動到特定位置查看具體數字。

圖一

圖一隱含你需要具備一定的想像力,想像趨勢線(見圖二)。如果想像力不夠,那就像是在聽故事。

圖二

然而,依靠分析方法的原則和AI的運算與判斷,進行逐點運算,AI可以產生更加精準的趨勢線,客觀地反映短期趨勢。

作為數據分析師的你,可以利用AI產生的多條趨勢線進行解讀,並比較長短期趨勢。