跳至主要內容
  • 首頁
  • 人民日報
    • 展示架
    • 各章內容
  • Excel2Earth
    • E2E 繪圖展示
    • E2E 應用簡介
    • E2E 程式下載
    • 空間分析專題
  • 航海家鄭和
    • 鄭和航海圖
    • 七下西洋
    • 風向與海流
    • 鄭和研究
  • 關於我們
  • 討論區
  • 首頁
  • 人民日報
    • 展示架
    • 各章內容
  • Excel2Earth
    • E2E 繪圖展示
    • E2E 應用簡介
    • E2E 程式下載
    • 空間分析專題
  • 航海家鄭和
    • 鄭和航海圖
    • 七下西洋
    • 風向與海流
    • 鄭和研究
  • 關於我們
  • 討論區

人民日報

27
  • i 如何使用本書
  • ii 人民日報文字探勘的意義
  • iii 文字探勘的方法
  • iv 人民日報資料庫的使用
  • v people 模組的使用方法
  • ch1 電腦環境與程式編輯工具
  • ch2 文字探勘的第一步:斷詞
  • ch3 人民日報概觀
  • ch4 篩選文本
  • ch5 詞對與字詞的共現性
  • ch6 不同類型文本的比較
  • ch7 字詞檢索與萃取
  • ch8 文章組成:主題分析
  • ch9 物以類聚:資料分群
  • ch10 正負態度:情感分析
  • ch11 尋找規則:機械學習
  • ch12 神經網絡:深度學習
  • ch13 PEOPLE 模組及其應用
  • 附錄一:ptyhon 基本語法
  • 附錄二:網路爬蟲
  • 附錄三:中共大事紀
  • 附錄四:中共歷次的政治鬥爭
  • 附錄五:重要的指導性歷史文件
  • 附錄六:核心黨政人物大事記
  • 附錄七:重大政策類別
  • 附錄八:歷史上的重大會議
  • 附錄九:有關中共黨史的研究(YOUTUBE)

地圖計算

13
  • E2E 教學影片總覽
  • 點線面圖層
  • 方格與網點
  • 距離計算
  • 資源可近性
  • 空間追蹤資料
  • QGIS
  • 空間自相關
  • 空間異質
  • 傳統廻歸
  • Geoda
  • 空間廻歸
  • 地理加權廻歸

鄭和研究

8
  • 星槎勝覽
  • 瀛涯勝覽
  • 鄭和研究
  • 下西洋航海圖及牽星圖之探討
  • 從鄭和到一帶一路
  • 论〈郑和航海图〉与海上丝绸之路间的关系
  • 北風去南風回
  • 探讨郑和下西洋 14次停靠越南占城之理由
View Categories

ch9 物以類聚:資料分群

< 1 min read

9-1 中共歷史上的儒家
(分群階層)

9-2 中共歷史上的儒家
(文字雲圖數)

9-3 中共歷史上的儒家
(數量疊加圖)

本章將討論文本的分群,亦即將類似的文章歸為一群。分群具有他性的,同一篇文章不同分屬兩個不同的類別。 分群與主題分析相同,文本要經過「自然語言處理」,亦即文章與字詞量都是tfidf 處理過的高維度的向量。轉換成向量之後,計算向量與向量間的相似程度就不困難了。文本分群就是透過相似度計算,將比較接近的文本歸納為同一群,而研究者要先決定總共要分成幾群。

文本分群經常會與主題分析混淆,其實兩者有很大的不同。主題分析,是依據各文章在主題軸上的投影,決定文章的主題屬性,因為文章在各軸上都有投影,所以同時包含不同的主題很正常,文本分群則是將相同的文章歸納於同一類,同一篇文章不可能分屬兩類。

本章學習包主要是運用K-means 演算法將《人民日報》的文章分群。首先要設定分為幾群分群之後,同一群的文章有一定的共通性,我們可以依其文容給它命名,或以文字雲圖顯示其特徵。如果有時間屬性,可以比較不同時期的分群狀況,繪製時間趨勢圖,顯示不同時期報導的重點。

本章學習包我們以《人民日報》有關台灣的報導為例,為了加快運算速度,擷取 tfidf 欄位,進行文本分群,並製時間趨勢折線圖。

現在請大家打開學習包:

請按此處

ch8 文章組成:主題分析ch10 正負態度:情感分析

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Copyright © 2025

返回頂端