三、數據分析與數據處理的區別
在人工智慧時代,數據分析與數據處理這兩個術語經常被混用,導致很多人誤解AI在數據分析中的能力和局限性。讓我們一起深入探討,釐清這兩者之間的差異,並了解人工智慧能做什麼。
數據處理 vs 數據分析
數據處理就像是給數據做了一場大變身。你可以用指數函數 ( $e^{\alpha x}$ )、對數函數 ( $ln(x)$ )、正弦函數 ( $sin(\alpha x)$ ) 等對數據進行轉換,甚至也能用更複雜的模型函數來處理數據,這就是我們所說的數學運算或數學計算。想像一下,你有一堆書,數據處理就是把這些書按照類別整理好,放到書架上。
數據分析則進一步,涉及使用這些轉換過後的數據來找到最合適的數學模型,並從中提取有價值的信息。這就像是從書中讀出有用的知識和故事。數據分析需要用很多種數學函數來轉換數據,然後選擇最適合的那一個,甚至讓數據自己找到最佳的參數。
AI的局限性
大家都覺得AI無所不能,但在數據分析方面,它其實還是個小白。現在的AI主要是基於機器學習所延伸的大型語言模型,雖然能處理和整理數據,但在進行複雜計算和深入分析時經常出錯。比如,讓AI計算簡單的數字加減乘除,結果經常錯得離譜。這是因為現有的AI在數據分析上,主要還是依賴於數據處理,無法真正理解數據的內在規律。
人類在大數據和人工智慧的發展過程中,為了瞭解數據特徵和規律,需要在分析方法和工具的幫助下看到數學結果,並使用這些結果進行驗算。即使數據特徵或規律非常複雜,最終的數學模型結果和誤差也需要顯示出來。如果只是用圖表顯示並獲得期刊肯定,就很容易變成黑盒子,讓我們無法真正理解數據的內在規律。
數學AI vs 大型語言模型
端到端技術的AI和數學AI是兩種不同的方法。端到端技術的分析方法,如機器學習,主要是通過大量數據訓練模型。這裡的模型是已經設定好的模型,然後導入數據後,訓練數據,讓數據可以找出最佳化的模型參數。例如2024年3月,馬斯克又一次出手,將自主研發的大型語言模型Grok開放原始碼,並允許商業使用和修改。裡頭有3140億參數混合專家模型Grok-1 的權重和架構。
而「數學AI」則是利用數學模型來理解和分析數據。這聽起來和openAI正在研發的AGI很像,甚至與Star Q將AI加入數學中的意味很像,但「數學AI」不是在推理數學,而是在為數據找出數據特徵或規律的數學模型。這個數學模型沒人知道,得用我們手邊的數據去尋找出來。
所以端到端技術的方法有時候會變成一個黑盒子,我們無法知道它是怎麼得出結果的。而數學AI則能提供透明的數學公式和模型,讓我們能夠清楚地了解數據的內在規律。這也是為什麼在數據分析中,數學AI更有價值。
這樣的觀點,同樣印證回數據分析過程中的一個重要步驟 - 建立數學模型。端到端技術是已經有模型在那,而數學AI則是數據建立它自己的數學模型。兩者同樣會經過模型的數據模擬,然後進行比對。比對的方法上也會大不相同。既然大數據和人工智慧如此依賴機率,那麼理論上比對的方法也要遵循機率論,所以數學AI採用機率論的強大數法則,而端到端技術中以機器學習為例則是準確率(Accurancy)。
總之,數據處理和數據分析是兩個不同的概念,他們都屬於數據分析過程,但分屬不同的步驟。AI在這兩者中能夠運行的方式也不同。數據處理是AI擅長的,但數據分析則需要更高的數學和統計知識。理解這些差異,才能更好地利用AI進行數據分析。希望大家能夠清楚地分辨數據處理和數據分析,並正確看待AI在其中的作用。