Skip to content

五、認識數據才是數據分析的基礎

在數據分析中,認識數據是最重要的步驟,因為數據分析的開始就是「數據」。初學者需要了解數據的基本類型和相應的分析方法,而不是一開始就專注於工具操作。

數據的基本類型及其結構

在數據分析中,了解數據的基本類型是非常重要的。電腦科學將數據結構分為結構化、非結構化和半結構化,其設計目的是能否有效匯入到資料庫(Database)內的單元,並能直接成為變量使用。

而常規教育中的數據類型則包括累加性數字、非累加性數字和非數字,其設計方式源自主流數學教育,所以主要針對數字分析與數學邏輯訓練而生的類型分類。

此外,SPSS軟件將數據類型設計為尺度、序數和名義三種測量尺度。因為SPSS這類的統計套裝軟體是基於常規教育設計出的軟體,所以數據類型分類會跟隨常規教育的數據特徵。這些分類方式幫助我們更好地理解數據的本質,為後續的分析奠定基礎。

來源 分類
CS 結構化 半結構化 非結構化
常規教育 累加性數字 非累加性數字 非數字
SPSS 尺度 序數 名義

數據與分析方法的關聯

不同類型的數據需要不同的分析方法。例如,非數字的數據可以通過計數產生頻率,並建立機率模型。在大數據與人工智慧下非數字的數據則以大型語言模型或自然語言處理等的演算法為主。

累加性數字的分析方法多種多樣,包括迴歸分析、變異數分析、微分方程和最佳化理論等。累加性數字不僅適用於多種分析方法,還可以通過減少信息量轉為分類分組後的計數方法。了解數據與分析方法的關聯,有助於選擇最合適的分析工具和方法。

一般來說分析方法是指你有目的性地使用特定的方法在數據身上,並且數據的分析結果可以被驗證。另外,分析方法可分出兩種:

第一種 - 為數據建立數學模型。這種方式通常是尋找數據的特徵或規律,並特徵或規律會有數學式結果,具有可複製性與可驗證性。

第二種 - 套用數學運算模型。這種方法通常用於尋找數據的特徵,並試圖透過數學運算模型的轉換,再建構數據的規律。通常專家學者認為第二種方法因訓練樣本而未必能有數學式結果,未必具可複製性與可驗證性。

避免常見的錯誤道路

初學者在學習數據分析時,應該避免過度專注於工具操作或美化數據圖。這樣做容易導致解讀分析結果僅僅是經驗談,脫離實質性的數據支持。初學者應該先了解數據的基本類型和分析方法,再進一步學習工具的操作。這樣可以確保數據分析的準確性和有效性,避免走上錯誤的道路。

透過認識數據和分析方法,初學者可以建立起數據分析的基礎,進而進行更準確和有效的數據分析。這不僅有助於提升數據分析的效率,還能確保分析結果具有實質性的意義。