三、認清你學習數據分析的目的與目標¶
認清數據分析師的角色與工作範疇¶
在認識數據分析的過程中,首先需要了解數據分析師的角色與工作範疇。數據分析師的工作並不僅僅是從數據庫中撈取關鍵數據並將其可視化,而是需要全面掌握數據的分析、串接和解讀。可視化僅僅是數據分析的一部分,真正的數據分析師還需要將數據與相關事件進行串接,並深入解讀數據結果,提供有價值的見解和決策支持。
- 做圖者:做數據分析圖
- 分析者:使用分析方法分析數據後,產生結果
- 初級解讀者:看圖照樣說故事(有模板)
- 高階解讀者:看圖說一大篇故事 (論文、報告、文章)
掌握數據分析的目的與使用動機¶
在學習數據分析的過程中,認清自己的使用動機至關重要。數據分析的目的是讓數據本身說話,揭示數據隱藏的秘密,而不是通過人為的框架強加特定的解釋。初學者在建立數據分析的目標時,可以選擇以下兩個動機之一:
(A) 讓數據驅動,”自己”真實告訴我們數據隱藏的秘密。
(B) 根據人為框架,”我”來驅動數據揭露未見過的特徵。
選擇A動機意味著讓數據自己告訴我們其特徵和規律,而不事先認定數據變量的影響。這種方式能夠更真實地反映數據的信息,有助於我們做出更準確的決策。同時A動機也是電腦科學教育強調的重點與精神,但是,初學者學習數據分析到一定程度後會產生困惑,因為電腦科學教育強調A動機,而真實做法則偏向B動機。
這種情況十分常見在學術研究上或落實在演算法中,這也是組成目前人工智慧的核心做法。最終,初學者進階到數據分析師時,礙於主流環境與工具限制,也會走向電腦科學教育的做法,落到B動機。
選擇合適的數據分析方法與技術¶
數據分析的方法和技術多種多樣,選擇合適的方法對分析結果至關重要。根據數據分析的目標和動機,可以將分析方法分類為描述性、探索性和驗證性數據分析。描述性數據分析主要是對未經處理的數據進行觀察,而探索性和驗證性數據分析則需要更深入的數據處理和分析。
在選擇具體的方法時,需要根據數據的特性和分析目標來確定,並靈活運用各種技術手段,如迴歸分析、因素分析和路徑分析等。此外,AI技術的引入也為數據分析提供了新的工具和方法,能夠更精確地捕捉數據的趨勢和變化。
你協助讓數據建立數學模型還是你在主導數學的數學模型?¶
電腦科學教育則強調理論與實踐的結合,特別是在數據分析中,數據本身的特性和規律成為了分析的核心。電腦科學的方法論強調從數據出發,讓數據自己說話,揭示數據隱藏的特徵和規律,而不是先入為主地設定理論框架,再用數據來驗證。
所以,是你在建立數據的數學模型還是讓數據自己建立數學模型呢?這是個非常好的問題!直指是「你驅動數據」還是「數據驅動自己」。
傳統的做法是「你驅動數據去建立數學模型」。這點在看文獻時的研究方法就能察覺。我在訓練兩個月看文獻後,就發現是「人」在建立數據的數學模型,然後用數據做驗證,證明這個模型好。
但從數據分析的角度來說,當時我就疑惑我這樣建模是真數據的數學模型嗎?
為什麼不放寬成,我搞出一堆的數學模型通式,讓數據自己挑最符合它規律的一個?這是個「模型選擇」最佳化的問題。當時哪有辦法搞一堆數學通式,光時間與精力就沒個盡頭。哪個人願意這樣耗費時間在這上面,對背負著KPI績效與有可能被要求離職的壓力下,想想:還要測試多少條數學通式才足夠?!這種難關只能放在心裡,得等到硬體與數據足夠成熟,才能實現。
這就是為什麼在硬體發展到一定程度後,科技轉為大數據的發展,最終就是我們目前看到的人工智慧時代。
有時候數據分析不是做不到,而是要等待其他的條件到位後才能做到。而AI數據分析就是在這樣的一個契機下從20212年開始一步步打磨成型,讓人工智慧融入數據分析方法,將「數據自己說話」的理念真正落實,完成數據建模、模擬、驗證的循環流程。
這樣的循環流程,我們首重「驗證」!如果你的分析方法無法將數據自己說話的特徵或規律,後續能「驗證」,那麼這樣的分析方法即使普及了,也從在瑕疵。從目前的發展歷程來看,多數並沒有將模型的選擇權利還給數據。
你喜歡數據分析嗎?¶
在數據分析的過程中,你將會與大量的數據相伴,這是一段專注而深入的旅程。在這個過程中,你可能會感到孤獨,因為你需要獨自蒐集和解讀相關資訊,但這種孤獨是對數據的深刻理解和洞察力的體現。 數據分析不僅僅是一項技術工作,它還需要分析師具備批判性思維和問題解決的能力。
雖然在技術上,你只需要一台筆電、專業的分析軟體和穩定的網路連接,但成功的數據分析還需要對數據有深入的理解、統計學、機率及數學的知識,以及能夠有效溝通和解釋分析結果的技巧。
在這個數字化的時代,數據分析師可以在世界任何角落工作,不受地點或時間的限制。但這並不意味著分析師可以完全獨立工作,與團隊的合作和溝通同樣重要,特別是當涉及到複雜的項目和決策時。
你對數據分析的看法如何?
是否準備好迎接這個充滿挑戰和機會的領域?