Skip to content

二、數據乘載量:從數據量與數據轉換談起

在數據分析中,數據的記錄方式和時間、空間的三要素對數據特徵和分析結果有著重要影響。了解這些要素及其對應的可視化圖表,有助於準確解讀數據,避免誤解和錯誤的結論。

數據量與乘載資訊量的關係

在數據分析中,數據量與數據能夠乘載的資訊量之間有著密切的關係。大時間段數據的乘載資訊量少於小時間段數據的乘載資訊量,而大時間段的數據量也少於小時間段的數據量。

例如,在一年內,我們可以獲得1個年數據,2個半年數據,4個季數據,12個月數據,52個週數據,以及360個(或220個)日數據。累積到一定數據量時,年數據的積累最慢,而日數據則最快。過去,由於記錄數據不易,分析方法會根據數據情況變通使用,例如中央極限定理的應用,需要至少30年的數據才能進行統計分析。因此,了解數據量與乘載資訊量的關係,有助於選擇合適的分析方法。

數據記錄的時間和空間要素

數據的記錄方式受到時間和空間這兩個要素的影響。數據記錄的時間要素指的是數據是按照時間段進行記錄的,例如日數據、週數據、月數據等。小時間段的數據波動性較大,因此在進行迴歸分析時,為了解決波動性問題,可以將小時間段進行切割,每個時間段都有各自的迴歸線,從而提高準確性。數據記錄的空間要素指的是數據是在特定空間點進行記錄的,例如不同國家或地區的數據。理解時間和空間這兩個要素,有助於更準確地解讀數據特徵。

大多數數據受時間與空間的影響,也就是說,記錄過程中隱含著時間與空間。

  • 某一空間的特定數據是按照時間記錄下來的數據,例如美國的國內生產毛額數字分為每季和每年的記錄值,可以使用折線圖來顯示不同時間段的車流量變化。

  • 某時間點的數據,可以是不同空間點記錄的數據,例如,2021年5月8日G7國家因新冠肺炎死亡的人數。這種數據可以使用氣泡圖來同時展示不同國家的數據。

除了時間與空間,還有「指標項目」。例如經濟數據的指標有GDP、CPI、失業人數、匯率、經理人採購指數等。經濟指標是大分類,還有金融指標、人口指標、衛生指標等大分類。大分類下會有不同的指標。

所以,數據會因為「專業和需要」而建立指標。我們依循指標的條件來記錄數據。這些數據會因為空間不同,在固定時間點上記錄並累積下來。當我們要顯示數據時,就得考慮數據特徵,選擇適合的可視化圖類型。

可視化圖表的選擇與應用

選擇合適的可視化圖表是數據分析中關鍵的一環。不同的數據特徵需要選擇不同的可視化圖表來展示。例如,時間序列數據可以使用折線圖或直條圖來展示,而空間數據可以使用空間圖或氣泡圖來展示。此外,指標設計也是影響數據特徵的重要因素。經濟數據的指標如GDP、CPI、失業人數等,可以根據需要選擇適合的圖表類型來展示。

理解可視化圖表的選擇與應用,能夠幫助我們更準確地解讀數據,避免因選擇錯誤的圖表而導致的解讀錯誤。另外,當我們了解可視化圖未必是符合數據類型,可能帶有櫥窗效果時,在網上或各種場合看數據的可視化圖就能避免被誤導。