跳到主要內容
:::

教育百科logo

::: 多語資訊檢索 - 教育百科
國家教育研究院辭書
基本資料
英文: multilingual information retrieval
作者: 陳光華
日期: 2012年10月
出處: 圖書館學與資訊科學大辭典
辭書內容
名詞解釋:
多語資訊檢索泛指使用者可以使用一種以上的語言建構查詢問句(query),以檢索由一種以上的語言構成之文件集合。簡易的多語言資訊檢索可以看成數個單語資訊檢索,而不牽涉語言翻譯的問題,僅需辨識使用者使用的檢索語言,再啟動對應的單語資訊檢索模組。複雜的多語言資訊檢索,牽涉語言的翻譯,通常稱為跨語資訊檢索(cross-language information retrieval,簡稱CLIR;translingual information retrieval,簡稱TIR)。跨語資訊檢索企圖消除因語言的差異而導致資訊取得的困難。既然牽涉一種以上的語言,並且限定是以不同的查詢語言檢索文件資料,也就是查詢問句與文件資料的語言是不同的,因此兩者之一必須進行翻譯,如此查詢問句與文件資料就屬於同一種語言,爾後的處理方式和單語資訊檢索相同。依據前述的作法,吾人可以消除檢索時語言的藩籬,然而使用者閱讀檢索所得之文件資料時的語言藩籬仍然存在,如果要完全消除語言的藩籬,顯然還是必須引入機器翻譯系統,將檢索所得之文件資料翻譯為使用者或讀者能夠理解的語言。 以人工翻譯檢索系統儲存的大量文件,在實務上並不可行,因此無可避免必須採用機器翻譯的作法。然而機器翻譯是極具挑戰的研究領域,對於一般人而言,要真正理解一段文字就不是簡單的工作,遑論使用機器進行翻譯。因為這牽涉到字(character)、詞(word)、語法(syntax)、語義(semantics)、語用(pragmatics)等層次的知識。例如如何處理未知詞、介詞組的修飾對象為何、多義詞彙的詞義如何決定、照應詞如何處理等等。基本上,必須幾乎所有自然語言的現象都得到一個妥善的解決方案時,方能建構一套優秀的機器翻譯系統。然而如果跨語資訊檢索系統是使用於特定的領域,則使用機器翻譯系統會有比較好的成效,這是因為特定領域的自然語言趨於一定的使用方式,比較容易處理。另一個觀點是將機器翻譯當作輔助的工具,一旦檢索所得的文件資料翻譯為使用者熟悉的語言之後,即使翻譯品質不佳,使用者仍然可以判斷文件資料的相關性,如果有必要再進一步仔細閱讀文件資料,或是請人潤飾譯稿。  一般而言,跨語資訊檢索至少必須處理以下的議題:(1)查詢問句可能必須先分詞(segmentation),因語言不同(例如:中文、日文、泰文等等),分詞方法之複雜度可能差異甚大;(2)查詢問句通常都很短,通常少於2個詞,不會超過4個詞,因此很難判定詞義;(3)必須翻譯使用者下達的查詢或是檢索的文獻;(4)查詢問句中的詞彙通常都有歧義性(ambiguity);(5)檢索的文件可能使用不同的語言,必須先辨識文件語言。
資料來源: 國家教育研究院_多語資訊檢索
授權資訊: 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出
回到頁面頂端圖示