向量空間模型 - 教育百科 | 教育雲線上字典

:::

::: 向量空間模型 - 教育百科

向
量
空
間
模
型

國家教育研究院辭書

國家教育研究院辭書

基本資料

英文：	vector space model
作者：	曾元顯
日期：	2012年10月
出處：	圖書館學與資訊科學大辭典

辭書內容

名詞解釋：　　向量空間模型（vector space model，簡稱VSM）是常用的資訊檢索模型，是將文件表達成數學概念（亦即幾何空間中的向量）的一種方式，以方便計算文件之間的相似程度，或便利探討文件與詞彙之間的各種關係。向量空間模型，主要由Salton等人於1975年提出。具體而言，一篇文件i，可以表達成文件向量Di=(wi1, wi2, …, win)，其中wij是詞彙j在文件i中的權重，wij一般為大於或等於0，若詞彙j沒有出現在文件i中，則以數值0表示。在空間向量模型中，文件向量的維度n是由所有文件的全部詞彙所決定，因此，文件向量中有很多維度數值為0。在電腦的實際表達與運算中，數值0的維度，可以省略不儲存與不運算。由於向量空間模型在概念上簡單，在實務上也容易計算，因此在資訊檢索的研究中，相當常見。除了將文件表達成向量之外，使用者所下的檢索策略亦能表達成同樣維度（n）的向量；如此一來，運用線性代數（linear algebra）的向量內積（inner product），便能計算文件與檢索策略間的相似程度，亦即：向量內積值越趨近1，則表示文件與檢索策略越相似，若越趨近0，則表示二者越不相似。用同樣的向量內積方法，亦能計算兩文件間的相似程度。雖然如此，向量空間模型有如下的缺點：（1）無從表達各個詞彙之間的關係（均為獨立的維度），若要表達，如利用雙連詞（bi-gram）等方法，則其維度暴增得很快，增加計算負擔；（2）維度的權重計算方式，常為經驗法則，如詞頻與逆向文件篇數的乘積，雖然直覺，但不夠具備理論的推導性。因此，近年來有機率模型、語言模型的提出，其應用在資訊檢索時，可以比向量空間模型有更好的成效。
資料來源：	國家教育研究院_向量空間模型
授權資訊：	資料採「創用CC-姓名標示- 禁止改作臺灣3.0版授權條款」釋出

詞條功能

推薦關聯詞