本章將討論文本的分群,亦即將類似的文章歸為一群。分群具有他性的,同一篇文章不同分屬兩個不同的類別。 分群與主題分析相同,文本要經過「自然語言處理」,亦即文章與字詞量都是tfidf 處理過的高維度的向量。轉換成向量之後,計算向量與向量間的相似程度就不困難了。文本分群就是透過相似度計算,將比較接近的文本歸納為同一群,而研究者要先決定總共要分成幾群。
文本分群經常會與主題分析混淆,其實兩者有很大的不同。主題分析,是依據各文章在主題軸上的投影,決定文章的主題屬性,因為文章在各軸上都有投影,所以同時包含不同的主題很正常,文本分群則是將相同的文章歸納於同一類,同一篇文章不可能分屬兩類。
本章學習包主要是運用K-means 演算法將《人民日報》的文章分群。首先要設定分為幾群分群之後,同一群的文章有一定的共通性,我們可以依其文容給它命名,或以文字雲圖顯示其特徵。如果有時間屬性,可以比較不同時期的分群狀況,繪製時間趨勢圖,顯示不同時期報導的重點。
本章學習包我們以《人民日報》有關台灣的報導為例,為了加快運算速度,擷取 tfidf 欄位,進行文本分群,並製時間趨勢折線圖。
現在請大家打開學習包: