《人民日報》的報導經常隱含對時政或人物的褒貶,對於這種帶有強烈情感傾向的文章,我們可以利用文字探勘的技巧預測文章的情感態度。
做情感預測,最簡單的方法是計算情感詞的多寡。情感詞是指帶有情感傾向的字詞,例如: 偉大、正確、正義、為人民服務、奉獻犧牲是正向的情感態度;而邪惡、憤怒、私心自用、特務、壞、則是負面的字詞。因此,累計文章的正向與負向的情感詞,大致可猜出文章的情感傾向。
不過在進行分析以前,我們必須要有完整的情感語料庫。我們蒐集的語料庫正向詞方面,包含歌功頌德、道德上的褒獎、以及正向的情境用語;負面詞方面包括不當的行為、道德批評、或政治鬥爭的攻擊性用語。如果情感語料庫蒐錄齊全,判斷上就較能準確。不過累計情感詞的數目,只是計算詞頻,並無考慮到文本中文法、句式或修辭等的問題,實際的情況,作者可能用否定詞來反轉語意,或是反諷,明褒暗貶,都會影響判斷的準確度。
另一種方法是計算與標的文本的相似性。首先,我們得選取具有代表性的標的文本,正向與負向若干篇,接著計算文章與標的文本的相似性,由相似性的高低判斷正負傾向。此方法以文章與標的文本的相似性,取代情感詞多寡的計算。
最後一種做法是以機械學習的方式進行文章分類,文章分為兩類,一類是正向,一類是負向,當然增加第三類,中性,亦可。首先我們必須要先蒐集正向的文章與負向的文章若干篇,當然愈多愈好,分為訓練組與測試組。然後經由演算法找到判斷正負的規則,此即所謂的建立模型。因為有測試組我們可以用統計的方法判斷模型的準確度。如果模型的準確度合於標準,接著再用這個模型去預測其他文章的正負傾向。
以上三種方法,本章的學習包都會使用。我們會以台灣歷屆領導人的報導為例,瞭解《人民日報》對台灣政治人物的情感態度,並比較不同領導者間的差異。
現在請大家打開學習包: