跳到主要內容
:::

教育百科logo

::: 向量空間模型 - 教育百科
國家教育研究院辭書
基本資料
英文: vector space model
作者: 曾元顯
日期: 2012年10月
出處: 圖書館學與資訊科學大辭典
辭書內容
名詞解釋:
  向量空間模型(vector space model,簡稱VSM)是常用的資訊檢索模型,是將文件表達成數學概念(亦即幾何空間中的向量)的一種方式,以方便計算文件之間的相似程度,或便利探討文件與詞彙之間的各種關係。向量空間模型,主要由Salton等人於1975年提出。具體而言,一篇文件i,可以表達成文件向量Di=(wi1, wi2, …, win),其中wij是詞彙j在文件i中的權重,wij一般為大於或等於0,若詞彙j沒有出現在文件i中,則以數值0表示。在空間向量模型中,文件向量的維度n是由所有文件的全部詞彙所決定,因此,文件向量中有很多維度數值為0。在電腦的實際表達與運算中,數值0的維度,可以省略不儲存與不運算。由於向量空間模型在概念上簡單,在實務上也容易計算,因此在資訊檢索的研究中,相當常見。除了將文件表達成向量之外,使用者所下的檢索策略亦能表達成同樣維度(n)的向量;如此一來,運用線性代數(linear algebra)的向量內積(inner product),便能計算文件與檢索策略間的相似程度,亦即:向量內積值越趨近1,則表示文件與檢索策略越相似,若越趨近0,則表示二者越不相似。用同樣的向量內積方法,亦能計算兩文件間的相似程度。雖然如此,向量空間模型有如下的缺點:(1)無從表達各個詞彙之間的關係(均為獨立的維度),若要表達,如利用雙連詞(bi-gram)等方法,則其維度暴增得很快,增加計算負擔;(2)維度的權重計算方式,常為經驗法則,如詞頻與逆向文件篇數的乘積,雖然直覺,但不夠具備理論的推導性。因此,近年來有機率模型、語言模型的提出,其應用在資訊檢索時,可以比向量空間模型有更好的成效。
資料來源: 國家教育研究院_向量空間模型
授權資訊: 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出