資訊擷取 - 教育百科 | 教育雲線上字典

:::

::: 資訊擷取 - 教育百科

資

訊

擷

取

國家教育研究院辭書

關閉

國家教育研究院辭書

基本資料

英文：	information extraction
作者：	陳光華
日期：	2012年10月
出處：	圖書館學與資訊科學大辭典

辭書內容

名詞解釋：資訊擷取是由文件中擷取事先預設所需的資訊；資訊檢索則是由文件集合中檢索相關的文件。資訊擷取可視為比資訊檢索更深一層的資訊服務。正如訊息理解會議（Message Understanding Conference，簡稱MUC）陳述的，資訊擷取不僅僅辨識重要的實體，還必須決定實體之間的關係。然而因為資訊擷取工作的特殊性，所以到底擷取何種資訊是依資訊系統服務的範疇而定。傳統上，資訊擷取有基本的工作項目，如專有名詞辨識（named entity identification or tagging，亦稱專有名詞標記或命名實體標註）、照應詞解析（coreference resolution）、腳本樣版（scenario template）等。專有名詞辨識正如字面上的意思，企圖擷取文件中的專有名詞；照應詞的解析是串連專有名詞及其對應的代名詞；腳本樣版則是依照預先訂定的樣版，由文件中擷取相關資訊填入樣版的欄位。吾人可以將這三項工作視為是有層級的關係，唯有專有名詞辨識完成，才能夠進行照應詞解析，而後進行腳本樣版的記錄。事實上，前述工作中有兩項（辨識專有名詞、腳本樣版）正如圖書館編目館員進行的分編工作一般，館員首先進行記述編目然後是主題編目，將所得的資料填入詮釋資料格式的欄位（如MARC），前述的腳本樣版亦即吾人所稱的詮釋資料格式。一套基本的資訊擷取系統是由分詞模組、語彙分析模組、語法分析模組所組成。當然不同的語言有其特殊的考量，而必須引進不同的處理模組，例如印歐語系的文件必須作字形（morphology）的處理，而不必引入分詞模組；有時也必須引進特定範疇的知識以有效擷取特定的資訊。自然語言處理的相關研究早已發展出許多語言分析的技術，資訊檢索以及資訊擷取研究領域與自然語言研究領域交流方熾，各種的語言分析技術目前也廣泛運用於相關的資訊服務系統。
資料來源：	國家教育研究院_資訊擷取
授權資訊：	資料採「創用CC-姓名標示- 禁止改作臺灣3.0版授權條款」釋出

詞條功能

推薦關聯詞

貓頭鷹博士

貓頭鷹博士

你喜歡貓頭鷹博士嗎

針對貓頭鷹博士的服務你會給幾顆星呢

★ ★ ★ ★ ★