ch7 字詞檢索與萃取

< 1 min read

本章介紹 Regular expression 的應用。 Regular expression擴充Python內字串(string) 的功能，在進行字串編修、字串擷取上特別有幫助。本章學習包將說明Regular expression於文字探勘研究的應用。

一、擷取毛澤東的引文

在文化大革命時期，《毛主席語錄》被奉為聖經，幾乎人手一冊，《人民日報》到處都是引用毛澤東的語句，個人崇拜達到顛峰。既然該時期《人民日報》有許多的毛澤東談話，這些引文我們希望能從文本萃取出來。引文的類型可以分為「直接引文」與「間接引文」，前者有加引號，例如：毛主席說：“…… “，這相較容易識別，不過要注意，句子的主詞有時會替換，有時是毛主席、毛澤東或偉大的領袖，但這都指向同一個人，標點符號的使用，則要注意冒號使用的有無。間接的引文，其呈現型態未加引號，這造成識別難度的提升，但從語意仍然可看出是否引自毛澤東說的話。

二、擷取特定的術語

每個知識領域都有某些獨特的術語，本罪章我們想知道《人民日報》如何看待儒家思想。中國建政以來，儒家的命運坎坷，文化大革命時期，「批林批孔運動」儒家成為打擊林彪的犧牲品。然而近年儒學復興，儒家又成為政治御用的工具。我們想知道，中共眼中的儒家是怎樣的「儒家」？第一步是萃取與但儒家有關的資訊。透過Regular expression，能篩選出人民日報中出現的儒家語彙，由這些術語，搭配時間趨勢，可看出中共官方的態度。此時，我們先建置一個代表「儒學」的語料庫，然後比較人民日報中的文章，擷取文本中出現的儒學語彙。。

三、前綴與後綴詞的技巧

前綴詞和後綴詞常用於形容或表示主詞目前的狀態，例如：我們想瞭解《人民日報》是如何談論中共領導人習近平的，即可以「習近平」做為標的詞，找尋「習近平」前後所出現的字詞，在前出現的字詞為前綴詞，在後出現的詞稱為後綴詞，透過前、後綴詞的觀察，即可得知《人民日報》對該人物的稍謂或描述。想知道《人民日報》在「美國」前面，會加什麼形容詞，就要擷取「美國」的前綴詞了，或者欲瞭解《人民日報》對台灣總統(領導者)的稱呼，就要找出台灣歷任總統的前綴詞，本章學習包會操作上述的例子。

四、記錄中共的對外關係

各國重要人士到中國訪問，《人民日報》都會有詳細的記載。這些描述直接反映中共與他國外交關係的狀態，例如：從國家、訪問時間點的變化或是重要人士的職位高低等，皆會顯示其中的緊密與疏離關係，透過這些資料整理，可以統計曾經來自的國家、來訪者的職級、次數等，《人民日報》為我們做了基礎的資料整理。

現在請大家打開學習包：

請按此處

人民日報

地圖計算

鄭和研究

ch7 字詞檢索與萃取

發佈留言取消回覆

發佈留言 取消回覆

發佈留言取消回覆