:::
向量空間模型 - 教育百科
向 | |
量 | |
空 | |
間 | |
模 | |
型 |
國家教育研究院辭書
基本資料
英文: | vector space model |
作者: | 曾元顯 |
日期: | 2012年10月 |
出處: | 圖書館學與資訊科學大辭典 |
辭書內容
名詞解釋: 向量空間模型(vector space model,簡稱VSM)是常用的資訊檢索模型,是將文件表達成數學概念(亦即幾何空間中的向量)的一種方式,以方便計算文件之間的相似程度,或便利探討文件與詞彙之間的各種關係。向量空間模型,主要由Salton等人於1975年提出。具體而言,一篇文件i,可以表達成文件向量Di=(wi1, wi2, …, win),其中wij是詞彙j在文件i中的權重,wij一般為大於或等於0,若詞彙j沒有出現在文件i中,則以數值0表示。在空間向量模型中,文件向量的維度n是由所有文件的全部詞彙所決定,因此,文件向量中有很多維度數值為0。在電腦的實際表達與運算中,數值0的維度,可以省略不儲存與不運算。由於向量空間模型在概念上簡單,在實務上也容易計算,因此在資訊檢索的研究中,相當常見。除了將文件表達成向量之外,使用者所下的檢索策略亦能表達成同樣維度(n)的向量;如此一來,運用線性代數(linear algebra)的向量內積(inner product),便能計算文件與檢索策略間的相似程度,亦即:向量內積值越趨近1,則表示文件與檢索策略越相似,若越趨近0,則表示二者越不相似。用同樣的向量內積方法,亦能計算兩文件間的相似程度。雖然如此,向量空間模型有如下的缺點:(1)無從表達各個詞彙之間的關係(均為獨立的維度),若要表達,如利用雙連詞(bi-gram)等方法,則其維度暴增得很快,增加計算負擔;(2)維度的權重計算方式,常為經驗法則,如詞頻與逆向文件篇數的乘積,雖然直覺,但不夠具備理論的推導性。因此,近年來有機率模型、語言模型的提出,其應用在資訊檢索時,可以比向量空間模型有更好的成效。 |
|
資料來源: | 國家教育研究院_向量空間模型 |
授權資訊: | 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出 |
貓頭鷹博士