跳到主要內容
:::

教育百科logo

::: 自動文件分類 - 教育百科
國家教育研究院辭書
基本資料
英文: automatic document classification
日期: 2003年6月
出處: 資訊與通信術語辭典
辭書內容
名詞解釋:
指電腦根據已有的分類法,對文件內容加以分析,或與分類法的項目內容加以比較,對文件自動賦與目標類號的過程和結果。其主要方法有語義分析法、語法分析法和統計法。
資料來源: 國家教育研究院_自動文件分類
授權資訊: 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出
基本資料
英文: automatic text classification
作者: 曾元顯
日期: 2012年10月
出處: 圖書館學與資訊科學大辭典
辭書內容
名詞解釋:
文件分類(document classification or text classification)是根據文件的內容主題,給定類別的工作。例如,新聞文件可按其報導的內容,給予「政治」、「外交」、「娛樂」、「運動」等類別。通常,這些類別都是事先定義或選定,以符合文件管理者的需求與期望。而給定類別的工作,傳統上都由人工閱覽文件後,給予適當的類別標示,若由機器自動執行,則稱為自動文件分類。文件分類是相當高階的知識處理工作。要將文件分類自動化,必須先整理出人工分類時的規則,電腦才能據以執行。然而,多數的分類工作,其分類規則通常難以用人工分析歸納獲得。因此,機器在做自動分類之前,還必須加以訓練,使其自動學習出人工分類的經驗與知識。 現今自然語言理解的技術,還無法讓電腦瞭解任意的自由文句。因此機器在做文件分類時,常將文件分解成一個個語意較小的單位,通常為文件的關鍵詞彙,或稱「特徵詞彙」,在做機器訓練時,就從這些已知的詞彙與類別關係中找出對應的計算模型。 有時分類的問題,簡單到只要文件的某個欄位中出現什麼特徵詞,就分到什麼類別去。但大部分的情況都沒那麼簡單。例如:「外交」這個類別,如何界定哪些詞彙一定是屬於這個類別,哪些不是?顯然某些詞彙對這個類別較重要(比較有鑑別力),其他的則較不重要(比較不具鑑別力)。如何決定這些詞彙在每個類別的權重,正是機器學習(machine learning) 可以派上用場的地方。而常用的機器學習方法,有SVM(support vector machine)、KNN(k-nearest neighbors)、naïve bayes等等。 目前自動文件分類的成效,有些已達人工分類水準,並且可同時進行上千個類別、上千篇文件的每日即時分類。文件分類自動化後,會帶出更新、更便利的應用方式,除了提供館藏瀏覽(collection browsing)、主題檢索(topic-based retrieval)、文件管理(歸檔、調閱、分享)外,還可應用在網頁過濾、電子郵件過濾、資訊選萃(selected dissemination of information,簡稱SDI)、資訊過濾或配送(information filter or routing)、甚至是文字探勘(text mining)、 新知發掘(knowledge discovery)、知識管理(knowledge management)等領域。跟文件檢索一樣,舉凡牽涉到非結構化文件的處理,都有文件分類的應用。評估自動分類成效的方法,有Micro-F與Macro-F,詳見F-度量詞條。
資料來源: 國家教育研究院_自動文件分類
授權資訊: 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出