:::
餘絃相似度 - 教育百科
餘 | |
絃 | |
相 | |
似 | |
度 |
國家教育研究院辭書
基本資料
英文: | cosine similarity |
作者: | 曾元顯 |
日期: | 2012年10月 |
出處: | 圖書館學與資訊科學大辭典 |
辭書內容
名詞解釋: 餘絃相似度(cosine similarity)是資訊檢索中常用的相似度計算方式,可用來計算文件之間的相似度,也可以計算詞彙之間的相似度,更可以計算查詢字串與文件之間的相似度。在計算兩文件的相似度前,需將文件表達成向量的形式,亦即將文件中所有的重要詞彙都視為一個個的向量維度,以該詞彙的權重為該維度的值,組合而成一向量,代表該文件,例如文件i表達成文件向量Di=(wi1, wi2, …, win),文件j表達成Dj=(wj1, wj2, …, wjn),則此兩文件的餘絃相似度計算公式為: 同理,詞彙之間的相似度,也是將詞彙表達成類似的向量,以詞彙出現的文件為向量維度,以詞彙在該文件中的權重為該維度的值,也可以計算兩個詞彙的餘絃相似度。計算查詢字串與每一篇文件的相似度時,概念上也是將查詢字串視為一篇文件,帶入上述公式計算。但為求效率,實際計算時,是透過事先建構的反向索引檔,調出每個查詢詞所在的文件,累積每篇文件的相似度計算而成。餘絃相似度最小值為0,最大值為1。其幾何意義,是計算兩文件向量在高維度空間中的夾角,夾角越小,餘絃相似度越大(角度0時,相似度為1),角度越大,餘絃相似度越小(角度90度正交時,相似度為0)。此相似度將向量長度(即文件長度)正規化成長度為1.0的向量,因此文件的長短對相似度的影響不大,而是維度的數值(亦即詞彙的權重)計算方式,影響較大。常用的詞彙權重計算方式,為詞頻與逆向文件篇數的乘積,亦即TF*IDF。 |
|
資料來源: | 國家教育研究院_餘絃相似度 |
授權資訊: | 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出 |
貓頭鷹博士