餘絃相似度 - 教育百科 | 教育雲線上字典

:::

::: 餘絃相似度 - 教育百科

餘
絃
相
似
度

國家教育研究院辭書

關閉

國家教育研究院辭書

基本資料

英文：	cosine similarity
作者：	曾元顯
日期：	2012年10月
出處：	圖書館學與資訊科學大辭典

辭書內容

名詞解釋：餘絃相似度（cosine similarity）是資訊檢索中常用的相似度計算方式，可用來計算文件之間的相似度，也可以計算詞彙之間的相似度，更可以計算查詢字串與文件之間的相似度。在計算兩文件的相似度前，需將文件表達成向量的形式，亦即將文件中所有的重要詞彙都視為一個個的向量維度，以該詞彙的權重為該維度的值，組合而成一向量，代表該文件，例如文件i表達成文件向量Di=(wi1, wi2, …, win)，文件j表達成Dj=(wj1, wj2, …, wjn)，則此兩文件的餘絃相似度計算公式為：同理，詞彙之間的相似度，也是將詞彙表達成類似的向量，以詞彙出現的文件為向量維度，以詞彙在該文件中的權重為該維度的值，也可以計算兩個詞彙的餘絃相似度。計算查詢字串與每一篇文件的相似度時，概念上也是將查詢字串視為一篇文件，帶入上述公式計算。但為求效率，實際計算時，是透過事先建構的反向索引檔，調出每個查詢詞所在的文件，累積每篇文件的相似度計算而成。餘絃相似度最小值為0，最大值為1。其幾何意義，是計算兩文件向量在高維度空間中的夾角，夾角越小，餘絃相似度越大（角度0時，相似度為1），角度越大，餘絃相似度越小（角度90度正交時，相似度為0）。此相似度將向量長度（即文件長度）正規化成長度為1.0的向量，因此文件的長短對相似度的影響不大，而是維度的數值（亦即詞彙的權重）計算方式，影響較大。常用的詞彙權重計算方式，為詞頻與逆向文件篇數的乘積，亦即TF*IDF。
資料來源：	國家教育研究院_餘絃相似度
授權資訊：	資料採「創用CC-姓名標示- 禁止改作臺灣3.0版授權條款」釋出

詞條功能

推薦關聯詞