本章介紹 Regular expression 的應用。 Regular expression擴充Python內字串(string) 的功能,在進行字串編修、字串擷取上特別有幫助。本章學習包將說明Regular expression於文字探勘研究的應用。
一、擷取毛澤東的引文
在文化大革命時期,《毛主席語錄》被奉為聖經,幾乎人手一冊,《人民日報》到處都是引用毛澤東的語句,個人崇拜達到顛峰。既然該時期《人民日報》有許多的毛澤東談話,這些引文我們希望能從文本萃取出來。引文的類型可以分為「直接引文」與「間接引文」,前者有加引號,例如:毛主席說:“…… “,這相較容易識別,不過要注意,句子的主詞有時會替換,有時是毛主席、毛澤東或偉大的領袖,但這都指向同一個人,標點符號的使用,則要注意冒號使用的有無。間接的引文,其呈現型態未加引號,這造成識別難度的提升,但從語意仍然可看出是否引自毛澤東說的話。
二、擷取特定的術語
每個知識領域都有某些獨特的術語,本罪章我們想知道《人民日報》如何看待儒家思想。中國建政以來,儒家的命運坎坷,文化大革命時期,「批林批孔運動」儒家成為打擊林彪的犧牲品。然而近年儒學復興,儒家又成為政治御用的工具。我們想知道,中共眼中的儒家是怎樣的「儒家」?第一步是萃取與但儒家有關的資訊。透過Regular expression,能篩選出人民日報中出現的儒家語彙,由這些術語,搭配時間趨勢,可看出中共官方的態度。此時,我們先建置一個代表「儒學」的語料庫,然後比較人民日報中的文章,擷取文本中出現的儒學語彙。。
三、前綴與後綴詞的技巧
前綴詞和後綴詞常用於形容或表示主詞目前的狀態,例如:我們想瞭解《人民日報》是如何談論中共領導人習近平的,即可以「習近平」做為標的詞,找尋「習近平」前後所出現的字詞,在前出現的字詞為前綴詞,在後出現的詞稱為後綴詞,透過前、後綴詞的觀察,即可得知《人民日報》對該人物的稍謂或描述。想知道《人民日報》在「美國」前面,會加什麼形容詞,就要擷取「美國」的前綴詞了,或者欲瞭解《人民日報》對台灣總統(領導者)的稱呼,就要找出台灣歷任總統的前綴詞,本章學習包會操作上述的例子。
四、記錄中共的對外關係
各國重要人士到中國訪問,《人民日報》都會有詳細的記載。這些描述直接反映中共與他國外交關係的狀態,例如:從國家、訪問時間點的變化或是重要人士的職位高低等,皆會顯示其中的緊密與疏離關係,透過這些資料整理,可以統計曾經來自的國家、來訪者的職級、次數等,《人民日報》為我們做了基礎的資料整理。
現在請大家打開學習包: