「共現性」(co-occurrence)指某些字詞經常會共同出現,它可能是表示語意之間的相似性,例如:民主與自由;或是某種特殊的屬性,例如:偉大的領袖與毛澤東;抑或是對語意的補充,例如:中國與現代化等。這些字詞共同出現的頻率很高,代表可能具有某種「特殊的關係」。本章將探討字詞的共現性的問題,以及其在《人民日報》文字探勘上可能的應用。
探討共現性最常用的方法是「詞對分析」。詞對是將兩個字詞並列,如前述的「民主」與「自由」。詞對的搜尋方式,可以單一字詞為核心進行查找,例如:鎖定目標詞「中國」,在一定的範圍內(例如 10個字) 觀察哪些字詞與目標詞共同出現的次數。我們可以計算詞對出現的頻率,例如「中國」與「人民」共同出現的次數最多。我們也可以不設定目標詞,由電腦地毯式的蒐尋,列出所有的詞對,並計算其頻率。除了計算頻率之外,也可以進行檢定,計算卡方值,瞭解詞對共現的程度是否顯著,卡方值愈大則表示共現的程度愈高。
詞對分析通常會配合「語料庫」應用。語料庫是研究者主觀選取的關鍵字組合,視研目的可搭配適當的語料庫。例如:我們以中共領導者,鄧小平、劉少奇、周恩來做為目標詞進行詞對搜索,搭配的字對僅保留情感詞,此時透過情感詞,即可看出《人民日報》對這些政治人物情感態度了!
此外,詞對關係也可以用「社會網絡」(social network)來視覺化呈現字詞間的關係。此時每個字詞即為一個節點,字詞與字詞之間的關係則是連結,先前計算的頻率 (或卡方值)代表字詞之間的連結,此即文字網絡圖。本章學習包的範例以 NodeXL繪製社會網絡圖,當然有許多社會網絡工具可完成同樣的工作。
《人民日報》的資料豐富,有許多議題可用詞對分析進行探討,如儒家、人民、群眾、民主等這些《人民日報》常見的字詞。透過詞對的共現分析,我們可以思考這些字詞與我們一般的理解有什麼差異?詞對分析探討字詞的關聯性,共同出現代表具有某種意義,稱之為「潛在語意」。《人民日報》的時間跨度很長,比較不同時期最常出現的詞對也很有意義。例如:儒家從文革時期的被打壓,到今日的復興,其詞對關係,必然有戲劇式的轉變,這是個值得探討的議題。
本章學習包的個案研究,以「法輪功」為例,篩選1999年的《人民日報》相關報導,進行詞對分析,繪製社會網絡圖。法輪功是源自中國的一種氣功修練方法,1992年李洪志首創於中國吉林,以「真、善、忍」作為功法理念,而《轉法輪》是其經典書籍,在九○年代有接近千萬的修練者。隨著中國政府的政策轉向,氣功修練開始受到質疑。1996年6月17日,《光明日報》一篇以「辛平」署名的文章,批評《轉法輪》一書宣傳封建迷信,直言法輪功是偽科學。環境及氛圍逐漸轉變對氣功修練不利,官媒對氣功修練大加撻伐。1999年成為法輪功於中國發展的轉折點,該年10月中共總書記江澤民指法輪功是邪教,開始全面禁止法輪功。學習包以2個字詞為範圍,蒐共現次數最高的詞對,計算詞頻,和進行統計檢定。將得出的結果繪製成社會網絡圖。
現在請大家打開學習包: