ch4 篩選文本

< 1 min read

4-3 台灣總統在人民日報的聲量
(文章數量、比例折線圖)

4-4 台灣總統在人民日報的聲量
(歷任總統篇數折線圖)

《人民日報》的資料量龐大，我們雖可運用程式同時讀取所有文本進行分析，但這曠日廢時，不切實際。因此進行《人民日報》研究時，我們會依研究目的，進行資料篩選。例如如果關心性別議題，先找出與性別相關的關鍵字，再以這些關鍵字篩選出我們要的文本。因此，篩選出符合研究主題的文本，是進行《人民日報》文字探勘的第一步。

本章的學習包提供一個篩選文本的範例程式。人民日報的文章，我們已事先斷好詞，置於Google 雲端 jieba 的資料夾下分享給大家，大家只要有聯結，就可以讀取，但不能編修。一個年度一個檔案，並以年度為名，總共有七十多個檔案。檔案的格式為Excel 活頁簿格式（.xlsx），常用的欄位如下。

doc_content 原始文本

token已斷好詞

tfidf萃取關鍵詞

textrank萃取關鍵詞

author作者

title標題

版次

日期

篩選文章時，基本上以關鍵字作為篩選的依據。亦即文章有出現該關鍵字時即選取。

一、設定篩選的依據：關鍵字
可以設多個 (list)，例如：中共領導人的姓名等，個別關鍵字可組合成串列(list)，此時須注意簡體字與繁體字的差異。

二、指定最低門檻
代表關鍵字所出現的最低次數，例如：以「鬥爭」作為關鍵字篩選，最低門檻設為3，即代表於欄位中，「鬥爭」二字出現3次以上，方納入本次篩選的標的之中。

三、決定蒐尋欄位
亦即從該欄位尋找關鍵字。通常是用 token, doc_content兩個欄位。

四、決定擷取欄位
亦即合乎條件的文本，讀取出來的欄位。共有四個欄位可供選擇，分別為doc_content、token、textrank和tfidf，後續學習包內會有詳細說明。

五、決定分析單位
為擷取文本的單位，分為arti、para、sent和word。

六、決定樣本比例
為避免擷取出來的文本數量太大，可設定需要樣本的大小，適度縮減資料擷取量。

七、是否存檔
篩選的結果是否存檔? True 或 False

透過這些條件，能篩選出適合的文章，檔案格式會以資料表(dataframe)的方式呈現。檔案儲存為Excel活頁簿格式（.xlsx）。Excel 檔案方便流覽及編修，但有大小的限制。當檔案過大時，則自動轉以pickle檔案格式儲存。

經由關鍵字篩選文本，頗為方便，但因檔案太多，讀檔頗為耗時。除此而外，其他欄位也可成為篩選文本的依據，例如選取第一版的文章，或者只選擇社論。

資料篩選完畢，我們可以閱讀單篇文章的完整內容。也可針對篩選出來的文章，隨機閱讀，確認篩選的標準是否合宜。本章的學習包提供完整的程式範例，大家可以修改程式，篩選自己要的文章。

現在請大家打開學習包：

請按此處

人民日報

地圖計算

鄭和研究

ch4 篩選文本

發佈留言取消回覆

發佈留言 取消回覆

發佈留言取消回覆