前言
學習一個新的工具或技術時,學習者的學習目標要先確定。學習數據分析也是如此。不過你想要確定學習目標前還需要對數據分析有所基本的了解。
過去與現在的不同
過去數據分析多關注在「分析方法」上,特別是各式各樣的分析模型,例如,迴歸分析、統計分析、灰色理論等。其中又會細分出各種的分析方法。隨著大數據出現後,分析方法的關注轉為工具與技術的重視,所以大數據分析以分析工具使用和技術為主,例如機器學習、深度思考等,或者大型語言模型。另外大數據的分析中也很在意「可視化技術」。後面也延伸出更大範疇的「資料科學」。
對學習者來說,如果過去曾接觸過數據分析,也寫過論文,就會有分裂感。這是在教育過程中最大的知識缺口。對教育體制來說,教授的內容會有根有據,並且能驗證。但到了大數據和AI的數據分析上,「驗證」這件事情不存在。只有使用者看到特定的指標數字後,選擇接受結果或不接受。如果是聊天機器人給出的結果也是見仁見智的去由使用者選擇接不接受結果。
所以客觀而論,過去的數據分析是能夠被驗證,但大數據與AI的技術方法是無法作到這點。
過去的數據分析可以做到分析流程的每個項目 大數據與AI的技術則無法做到建立數學模型、驗證結果
學習數據分析要先了解數據分析的結構
目前數據分析的結構分為
-
最底層(第四層)的數據蒐集。通常數據就儲存於數據庫內,而新增的數據則需要向外取得,例如網路爬蟲或自動匯入等。學習這項結構成分就得學習資料結構、資料庫管理、SQL語法等。
-
第三層是數據處理。數據處理又主要分為兩類。
- 第一種是「數據優化」。這在資料科學中又會產生優化流程。在數據庫中的數據有時候會有缺漏或記錄錯誤,所以得做數據優化處理。
- 第二種是「數據轉換」。數據轉換則是如常見的將數字變成對數,使其在計算比率時能夠有相同的基準。在數字低或數字高的位置也能得到相同的比率。另一種則是將數據轉換成平均數、中位數、變異數或差距等係數。
-
第二層是數據分析。這裡所謂的分析是指分析方法的使用。我們同樣可以分為三類。
- 可產生數學式結果
- 可產生統計分析結果
- 非上述兩類的結果
一般來說,能產生第一種的數學式結果是最優的結果。因為這結果代表可以被複製且驗證。第二種同樣也能被驗證。第三種則是既沒有數學式也沒有統計分析結果,可能是給一個數字或一張圖做代表的分析。
另外,在這過程中,因為要將分析結果進行整理與表達,所以又分為圖表的製作,衍伸出可視化的圖表。
-
第一層就是最高層次,也就是對數據解讀。那麼數據解讀有幾種方式。
-
觀察法
這是最常見的方法。無論大或小的機構組織,他們提供出來的圖或表就是讓使用者觀察,自己發現數據整理後的結果有什麼特殊的資訊。
觀察法非常吃個人的經驗。換句話說,一個人觀看圖表的能力決定了他能從圖表中發現什麼。
-
輔助法
輔助法是數據分析結果幫助使用者客觀地了解數據結果,並從中發現特殊的資訊。這種方式非常考驗個人的專業知識與解讀如數學、統計等的結果。不過這種方法的好處是可以被教授,將方法傳授給別人使用。但礙於每個人對專業知識的理解程度不同或者過去使用輔助法的經驗,會產生解讀上的差異。
-
結語
正想踏入數據分析行列的你,已經了解你想學習的是哪種數據分析嗎?在了解數據分析的架構後,你就能多少了解自己想學的數據分析是哪種了。