一、初學者對數據分析的基礎認識
數據分析的跨學科應用與重要性
數據分析與一般學科的學習方式不同。它不是一門新學科,也不是一個專業的科系,但卻廣泛應用於各個領域。即使你選擇不主動學習,也難以避免在工作或閱讀新聞雜誌時遇到數據的記錄或處理結果。
數據分析貫穿在各種學科之中,從商業到科學研究,從醫療到社會科學,數據無處不在。當大數據與AI以「數據驅動」為核心,就確立了這兩領域都將以數據分析為核心。
這將需要經歷為數據特徵或規律找尋數據的數學模型,用數學模型進行數據模擬,再到原數據與模擬值的比對。之後還有模型的預測與驗證等系列。
許多研究論文或方法說明的第一步就是「建立模型」,為了使數據適應這些模型,它可能需要進行各種轉換。這種做法已經變得非常普遍,
然而,這樣是否符合數據分析的精神 - 讓數據自己說話 - 嗎?即使從無到有的那一刻總是令人驚嘆的。數據分析的重要性在於它能夠揭示隱藏在數據中的模式和趨勢,從而為決策提供依據。
分析方法在數據分析中的核心地位
對於數據分析的過程與步驟來說,作者更傾向於從「分析方法」的角度來學習。基於過去的學習經驗和背景,理論模型一直是多數人主要學習的內容,課本內容或閱讀專家學者的研究論文也有都其邏輯與推演。
數據分析涉及各種方法和技術,這些方法能夠幫助我們從數據中提取有價值的信息。當我們將「數據」做為驅動基礎,「分析方法」不僅是數據分析的核心之一,也是能夠幫助驗證結果真偽的重要要素。通過適當的分析方法,我們能夠將數據轉化為有意義的洞察,這是數據分析的精髓所在。
驗證數據分析結果的必要性
由於數據分析的三要素是 - 數據、分析方法與分析工具,在工具與分析方法之間,作者選擇了「分析方法」作為評估數據分析應用的標準,因為最終我們需要「驗證」!這一步將是我們不可或缺的一部分。數據是現實世界的一面鏡子,只要它在公平、合理且沒有人為干預的情況下記錄下來,根據既定的「遊戲」規則,那麼至少它是可信的,可以代表當時的真實情況。然而,僅有數據本身是不夠的,我們需要通過科學的分析方法來驗證這些數據的真實性和有效性。驗證結果不僅能夠提高數據分析的可靠性,也能夠幫助我們做出更準確的決策。