文章有許多不同的主題與類型,當我們想比較文章間的差異時,例如:比較不同時期、來源和主題的文章差異,是本章關心的焦點。
比不同類型的文本,最基本的方法是繪製文字雲(word cloud)。文字雲是將文本中各字詞依頻率高低排序,以字型大小呈現出現的頻率,最常出現的字詞的字型放大。其優點是可以方便快速檢視文本常使用的字詞,研究者可以針對不同的文本,獲得初步的整體印象。
文字散布圖(scattertext)則是較精確的一種做法。文字散布圖的橫軸和縱軸分別代表兩種不同類型的文本。圖中臚列所有的字詞,字詞位置代表與不同文本間的關係。如此能約略將散布圖劃分成四個區域,出現於散布圖的右上角的字詞,代表在兩個類型的文本中都經常出現,左下角的字詞表示都不常出現;最值得觀察的是出現在左上角和右下角的字詞,這代表在某個類型的文本中常出現,在另一個類型的文本不常出現,凸顯不同類型文本使用字詞的差異。
scattertext模組提供許多便利的功能,首先它能分別列出不同類型文本的代表性字詞,;「字詞檢索」功能只要輸入字詞會告訴我們該字詞在散佈圖中的確切位置,及其出現的頻率,同時也可以列出包含該字詞的所有文本,便於研究者比對。
文字散布圖的種類,除了基礎的散佈圖(scattertext_basic)之外,尚有其他變型,常用者如下:
一、上下區隔字詞位置(Custom term positions):
將先計算字詞詞頻,進行標準化與羅吉斯迴歸分析,將不同類型的文本分列於上下兩個區塊,是更易於比較不同類型的文本的用詞差異。
二、文章的散佈圖(Document-Based Scatterplots):
以文章為基本單位,顯示各篇文章在兩個類別中的相對位置。
三、自訂主題顯示其空間位置(Visualizing Topic Models):
依據研究者自定義的主題詞組,可以顯示各主題在兩個類文本中的相對位置。
四、自動萃取主題顯示其空間位置(Using Scikit-Learn for Topic Modeling):
套用機器學習模組Scikit-Learn的功能,進行文本字詞TF-IDF加權與非負矩陣分解法(non-negative matrix factorization,NMF),由程式來萃取出主題,並顯示各主題在不同類型文本中的相對位置。
本章中將透由文字雲圖和文字散布圖,比較毛澤東和習近平的報導。習近平自上任以來,逐步取得黨內的「核心」地位,也廣泛運用社會鬥爭肅清政敵,利用社會運動樹立權威,在論述上也活用毛澤東時期的政治語彙,具備了與毛相似的意識形態,這是一般的印象,但真的是這樣嗎?本學習包除了繪製文字雲圖外,透過文字散佈圖,比較人民日報在報導毛、習時的用詞差異。
現在請大家打開學習包: