《人民日報》的資料量龐大,我們雖可運用程式同時讀取所有文本進行分析,但這曠日廢時,不切實際。因此進行《人民日報》研究時,我們會依研究目的,進行資料篩選。例如如果關心性別議題,先找出與性別相關的關鍵字,再以這些關鍵字篩選出我們要的文本。因此,篩選出符合研究主題的文本,是進行《人民日報》文字探勘的第一步。
本章的學習包提供一個篩選文本的範例程式。人民日報的文章,我們已事先斷好詞,置於Google 雲端 jieba 的資料夾下分享給大家,大家只要有聯結,就可以讀取,但不能編修。一個年度一個檔案,並以年度為名,總共有七十多個檔案。檔案的格式為Excel 活頁簿格式(.xlsx),常用的欄位如下。
doc_content 原始文本 | token已斷好詞 | tfidf萃取關鍵詞 | textrank萃取關鍵詞 | author作者 | title標題 | 版次 | 日期 |
篩選文章時,基本上以關鍵字作為篩選的依據。亦即文章有出現該關鍵字時即選取。
一、設定篩選的依據:關鍵字
可以設多個 (list),例如:中共領導人的姓名等,個別關鍵字可組合成串列(list),此時須注意簡體字與繁體字的差異。
二、指定最低門檻
代表關鍵字所出現的最低次數,例如:以「鬥爭」作為關鍵字篩選,最低門檻設為3,即代表於欄位中,「鬥爭」二字出現3次以上,方納入本次篩選的標的之中。
三、決定蒐尋欄位
亦即從該欄位尋找關鍵字。通常是用 token, doc_content兩個欄位。
四、決定擷取欄位
亦即合乎條件的文本,讀取出來的欄位。共有四個欄位可供選擇,分別為doc_content、token、textrank和tfidf,後續學習包內會有詳細說明。
五、決定分析單位
為擷取文本的單位,分為arti、para、sent和word。
六、決定樣本比例
為避免擷取出來的文本數量太大,可設定需要樣本的大小,適度縮減資料擷取量。
七、是否存檔
篩選的結果是否存檔? True 或 False
透過這些條件,能篩選出適合的文章,檔案格式會以資料表(dataframe)的方式呈現。檔案儲存為Excel活頁簿格式(.xlsx)。Excel 檔案方便流覽及編修,但有大小的限制。當檔案過大時,則自動轉以pickle檔案格式儲存。
經由關鍵字篩選文本,頗為方便,但因檔案太多,讀檔頗為耗時。除此而外,其他欄位也可成為篩選文本的依據,例如選取第一版的文章,或者只選擇社論。
資料篩選完畢,我們可以閱讀單篇文章的完整內容。也可針對篩選出來的文章,隨機閱讀,確認篩選的標準是否合宜。本章的學習包提供完整的程式範例,大家可以修改程式,篩選自己要的文章。
現在請大家打開學習包: