前言
大數據和人工智慧是屬於「數據驅動」的科技。因兩者的核心是從數據而來,所以數據類型的分類模式影響大數據和人工智慧的發展。
數據過程
大數據的由來是數據在時空作用下,積累出龐大的數據量,使得其內容雜且亂。所以想為雜且亂的數據建模是極為困難之事。於是專家學者在數據建模上遭遇種種困難後,最終選擇以電腦運算為基礎,屏除過往數學教育的數字體系所發展的數學分析方法,轉為記錄數據的分類法。其過程為:
- 蒐集資料
- 分類資料(分類/合併)
- 篩選與排序資料,以及比對資料
- 反覆上述動作
- 輔以統計學點估計、假設檢定和線性迴歸(嶺迴歸:使迴歸分析的自變數變成無效),全數歸為「隨機誤差」後,運用數值分析法,反覆隨機計算,得到「預測值」 和實際值比較取最小誤差對應之預測值
- 反覆N次後,設定特定之「實際值-誤差值」絕對值小於特定數字,只要落在此範圍,稱為「成功」,計算成功次數後,得到準確率。
此演算過程看似有數學和統計,但缺點有:
- 第二項的分類過程已經將數據的部分特徵給消除
- 第五項的統計分析中,若使用迴歸分析,其目的是將應變數分成常數項和隨機誤差,而隨機誤差可以用電腦抽樣方式取得隨機值
第五項的做法和商管專業對變數關聯的深究是全然不同的。很多商業管理或專業經理人不了解,甚至是資管背景的人也不甚了解其分析過程或方法的限制性和目的,以為這樣的分析可以用在變數關聯討論。其實不然!!!
- 第七項的作法只有準確率提供評估使用
一個準確率只為使用者提供評估和是否可信用,而得到的預測值同樣可以打出圖形。產生使用者感覺預測值很準。但這結果其實沒有意義。原因在於能出圖,就該產出數學式!沒有產出數學式的結果,縱然有準確率也不足以信任。
很遺憾的是,資訊專業的學者和專家主導大數據和人工智慧,而非數學專業主導。在抄近路的投機行為後,目前的大數據分析和人工智慧無法產生數學建模、模擬、驗證。所以你不會看到有驗證的人工智慧!
數據類型
過去教育學習方式上,我們對數據的分類為「數字」、「文字/符號」、「非數字且非文字」。
數字
所謂的數字其實是指累加性數字,可以做四則運算的算術,而後發展到數學分析方法。
文字/符號
人類所用的文字和符號皆屬此類,經過排序可做為表達和傳遞訊息用,此外,還能計數。計數功能代表產生發生的頻率,延伸到機率。
非數字且非文字
此類則是圖片、影片、聲音等。
- 圖片:靜態畫面,內容可以是數字、文字、符號
- 影片:動態畫面,內容可以是數字、文字、符號,同時還能有圖片和聲音。
- 聲音:人類使用聽覺了解文字排序所傳達的訊息
這三種數據分類是人類最常見且歷史悠久的分類模式。然而當數據要用電腦儲存時,以前二者的儲存較為簡單,第三種則比較難。難度發生在「解析」產生關鍵特徵。於是資訊專業的專家和學者們以電腦儲存和容易搜尋篩選為分類原則,將數據分為:
結構性資料
最輕易能夠被電腦儲存成欄位形式,並且最容易使用搜尋和篩選方法得到結果。例如常見的關鍵詞、SEO設定、表格中的特定欄位等。
非結構性資料
以上述第三種的非數字且非文字類別為主。例如將文字轉為圖片模式的pdf檔。
半結構資料
同時有結構性資料和非結構性資料。或者是結構性資料但欄位內儲存的內容不一致。
從資訊專業所分類的數據類型決定了數據只能走「分類法」發展出來的分析方法。這也是目前大數據和人工智慧一直在發展的方向,並由chatGPT集其大成。