跳到主要內容
:::

教育百科logo

::: 資訊擷取 - 教育百科
國家教育研究院辭書
基本資料
英文: information extraction
作者: 陳光華
日期: 2012年10月
出處: 圖書館學與資訊科學大辭典
辭書內容
名詞解釋:
資訊擷取是由文件中擷取事先預設所需的資訊;資訊檢索則是由文件集合中檢索相關的文件。資訊擷取可視為比資訊檢索更深一層的資訊服務。正如訊息理解會議(Message Understanding Conference,簡稱MUC)陳述的,資訊擷取不僅僅辨識重要的實體,還必須決定實體之間的關係。然而因為資訊擷取工作的特殊性,所以到底擷取何種資訊是依資訊系統服務的範疇而定。傳統上,資訊擷取有基本的工作項目,如專有名詞辨識(named entity identification or tagging,亦稱專有名詞標記或命名實體標註)、照應詞解析(coreference resolution)、腳本樣版(scenario template)等。專有名詞辨識正如字面上的意思,企圖擷取文件中的專有名詞;照應詞的解析是串連專有名詞及其對應的代名詞;腳本樣版則是依照預先訂定的樣版,由文件中擷取相關資訊填入樣版的欄位。吾人可以將這三項工作視為是有層級的關係,唯有專有名詞辨識完成,才能夠進行照應詞解析,而後進行腳本樣版的記錄。事實上,前述工作中有兩項(辨識專有名詞、腳本樣版)正如圖書館編目館員進行的分編工作一般,館員首先進行記述編目然後是主題編目,將所得的資料填入詮釋資料格式的欄位(如MARC),前述的腳本樣版亦即吾人所稱的詮釋資料格式。一套基本的資訊擷取系統是由分詞模組、語彙分析模組、語法分析模組所組成。當然不同的語言有其特殊的考量,而必須引進不同的處理模組,例如印歐語系的文件必須作字形(morphology)的處理,而不必引入分詞模組;有時也必須引進特定範疇的知識以有效擷取特定的資訊。自然語言處理的相關研究早已發展出許多語言分析的技術,資訊檢索以及資訊擷取研究領域與自然語言研究領域交流方熾,各種的語言分析技術目前也廣泛運用於相關的資訊服務系統。
資料來源: 國家教育研究院_資訊擷取
授權資訊: 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出
貓頭鷹博士
你喜歡貓頭鷹博士嗎

針對貓頭鷹博士的服務你會給幾顆星呢

回到頁面頂端圖示