:::
逆向文件頻率 - 教育百科
逆 | |
向 | |
文 | |
件 | |
頻 | |
率 |
國家教育研究院辭書
基本資料
英文: | inverse document frequency (IDF) |
作者: | 曾元顯 |
日期: | 2012年10月 |
出處: | 圖書館學與資訊科學大辭典 |
辭書內容
名詞解釋: 逆向文件頻率(inverse document frequency,簡稱IDF)或稱反向文件頻率,是衡量詞彙重要性的一種指標,最早是由Karen Spärck Jones博士於1972年提出。在N篇文件中,某一個詞彙的權重,與該詞彙出現在這N篇文件中的篇數文件頻率(document frequency,簡稱DF)成反比。Spärck Jones博士以對數函數將逆向文件頻率的計算公式定義為IDF=log(N/DF)。在各種資訊檢索的實驗中,使用IDF公式在詞彙的權重上,其成效幾乎都比沒有使用時來得高,也比單獨使用詞頻(term frequency,簡稱TF)作為權重來得高。當詞頻的概念與逆向文件頻率的概念以TF*IDF的乘積公式計算詞彙權重後,其成效更佳。公式log(N/DF)等同於log(1/p),其中p=DF/N是該詞彙在N篇文件中出現的機率。從資訊理論的角度看,log(1/p)為資料量的公式,因此IDF可以解讀為該詞彙的資訊量。一個詞彙在N篇文件中都出現,其資訊量為log(N/N)=0,符合IDF的直覺意義。Spärck Jones, Karen (1972). "A statistical interpretation of term specificity and its application in retrieval". Journal of Documentation, 28 (1), 11–21. |
|
參考資料: Spärck Jones, Karen (1972). "A statistical interpretation of term specificity and its application in retrieval". Journal of Documentation, 28 (1), 11–21. |
|
資料來源: | 國家教育研究院_逆向文件頻率 |
授權資訊: | 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出 |
貓頭鷹博士