自動文件分類 - 教育百科 | 教育雲線上字典

:::

::: 自動文件分類 - 教育百科

自
動
文
件
分
類

國家教育研究院辭書

國家教育研究院辭書

基本資料

英文：	automatic document classification
日期：	2003年6月
出處：	資訊與通信術語辭典

辭書內容

名詞解釋：指電腦根據已有的分類法，對文件內容加以分析，或與分類法的項目內容加以比較，對文件自動賦與目標類號的過程和結果。其主要方法有語義分析法、語法分析法和統計法。
資料來源：	國家教育研究院_自動文件分類
授權資訊：	資料採「創用CC-姓名標示- 禁止改作臺灣3.0版授權條款」釋出

基本資料

英文：	automatic text classification
作者：	曾元顯
日期：	2012年10月
出處：	圖書館學與資訊科學大辭典

辭書內容

名詞解釋：文件分類（document classification or text classification）是根據文件的內容主題，給定類別的工作。例如，新聞文件可按其報導的內容，給予「政治」、「外交」、「娛樂」、「運動」等類別。通常，這些類別都是事先定義或選定，以符合文件管理者的需求與期望。而給定類別的工作，傳統上都由人工閱覽文件後，給予適當的類別標示，若由機器自動執行，則稱為自動文件分類。文件分類是相當高階的知識處理工作。要將文件分類自動化，必須先整理出人工分類時的規則，電腦才能據以執行。然而，多數的分類工作，其分類規則通常難以用人工分析歸納獲得。因此，機器在做自動分類之前，還必須加以訓練，使其自動學習出人工分類的經驗與知識。現今自然語言理解的技術，還無法讓電腦瞭解任意的自由文句。因此機器在做文件分類時，常將文件分解成一個個語意較小的單位，通常為文件的關鍵詞彙，或稱「特徵詞彙」，在做機器訓練時，就從這些已知的詞彙與類別關係中找出對應的計算模型。有時分類的問題，簡單到只要文件的某個欄位中出現什麼特徵詞，就分到什麼類別去。但大部分的情況都沒那麼簡單。例如：「外交」這個類別，如何界定哪些詞彙一定是屬於這個類別，哪些不是？顯然某些詞彙對這個類別較重要（比較有鑑別力），其他的則較不重要（比較不具鑑別力）。如何決定這些詞彙在每個類別的權重，正是機器學習（machine learning）可以派上用場的地方。而常用的機器學習方法，有SVM（support vector machine）、KNN（k-nearest neighbors）、naïve bayes等等。目前自動文件分類的成效，有些已達人工分類水準，並且可同時進行上千個類別、上千篇文件的每日即時分類。文件分類自動化後，會帶出更新、更便利的應用方式，除了提供館藏瀏覽（collection browsing）、主題檢索（topic-based retrieval）、文件管理（歸檔、調閱、分享）外，還可應用在網頁過濾、電子郵件過濾、資訊選萃（selected dissemination of information，簡稱SDI）、資訊過濾或配送（information filter or routing）、甚至是文字探勘（text mining）、新知發掘（knowledge discovery）、知識管理（knowledge management）等領域。跟文件檢索一樣，舉凡牽涉到非結構化文件的處理，都有文件分類的應用。評估自動分類成效的方法，有Micro-F與Macro-F，詳見F-度量詞條。
資料來源：	國家教育研究院_自動文件分類
授權資訊：	資料採「創用CC-姓名標示- 禁止改作臺灣3.0版授權條款」釋出

詞條功能

推薦關聯詞