論文寫作是套模型還是真的做分析?

我現在是愈來愈不愛看期刊論文了。

很多人仍秉持著多看論文能從中發現解決問題的方法。其實他們所看的除了如何論文格式與寫作技巧外,更多的是主流都用哪些研究方法。像是研究各種金融商品的價格波動,那不外乎VAR模型或各種的檢定。在大數據和人工智慧發展過程中,還多了很多演算法,如(類)神經網絡法、機器學習等。

而我不太愛看期刊論文的原因是,很多論文都已經預設好模型,然後套用模型,做統計分析(以多個不同假設檢定為主軸: 例如因果關係、單根檢定等)。例如前述的價格波動用VAR模型或是問卷調查就用SPSS跑全套。

我們可以理解這些是學術論文或期刊論文的主流分析方法。但若深思他們的行為,就能發現在未能知數據本身特徵時,就接受從過去到現在的套用模型訓練。這樣的模式可以看出:


  1. 「套模型訓練」其實是「填鴨式訓練」

  2. 研究人員到底是否有先了解數據特徵,再進行分析,還是想知道能不能用數據驗證他們的想法

第一點其實很容易看得出來,很多期刊論文都是這樣的形式。

作者想了一個主題,然後找數據,套模型,做分析。套的模型就那些,他們發現數據形式不符合模型,還會將數據做轉換。最常見的轉換就是ln形式,也就是變成比率。

從這就能觀察到高等教育的訓練變成除了各種常見模型的了解與軟體使用外,剩下的訓練就是「怎麼思考」,找各種有趣的主題。換句話說,專業訓練就是在訓練思考和觀察。當然寫作能力也同樣需要訓練。至於其他的,都變成小道了。

如果你受的大學教育或高等教育只有訓練常見模型的認識(包含模型推導)和軟體使用,後面的思考訓練都沒有教,那就是標準的套模型訓練。這種教育模式不會教人思考,自然也無從讓人找到各種主題去研究。

這樣的情況就如同老師在前面講K線分析,然後你回家或自己訓練自己套用K線分析時,總是找不到老師說的進場點或出場點。

第二點則是研究人員對數據特徵熟不熟悉,還是只是為了做數據分析而分析。

很多人不願意面對這點,因為專家學者或權威們都認為他們很了解數據的特徵為何。但真要對數據特徵熟悉就得面對原數據的情況,轉換數據後的情況。例如很多人認為取對數後,仍可以將數據還原,那是需要在1對1且映成關係下才有可能成立。而這通常就是「直線模式」的數學模型。

而原數據本身的特徵還需要做多方的測定,特別是要使用統計分析的專家學者。例如,有沒有對原數據測定來自哪種機率分配?有沒有檢定隨機性?有沒有檢定自我相關(這個還得用正確的臨界值表,而不是統計量推論到大樣本來個趨近分配)?做完這些數據的檢測後,才會進入專家學者們或論文作者希望做的統計分析。

多數我們看到的學術論文或期刊論文,其實對上述的檢測流程並沒有很在意,除非是單根檢定或要使用ARIMA模型要檢定落後期數。有的則是已經在研究方法說明要使用的數學模型,然後對數據做轉換後,進入統計分析。

我個人認為自己對數據特徵並沒有很了解,只有當我測定過數據後才敢說上一兩句,並不愛直接就將數據套上模型,做一系列的分析。因為這樣的分析結果是符合模型,還是數據告訴所有人,它隱含真相呢?

論文作者確實可以從各種角度去解析數據,找尋出他們從數據中發掘出來的真相,但其過程的嚴謹性還是要多加注意和揭露。