跳到主要內容
:::

教育百科logo

::: 逆向文件頻率 - 教育百科
國家教育研究院辭書
基本資料
英文: inverse document frequency (IDF)
作者: 曾元顯
日期: 2012年10月
出處: 圖書館學與資訊科學大辭典
辭書內容
名詞解釋:
  逆向文件頻率(inverse document frequency,簡稱IDF)或稱反向文件頻率,是衡量詞彙重要性的一種指標,最早是由Karen Spärck Jones博士於1972年提出。在N篇文件中,某一個詞彙的權重,與該詞彙出現在這N篇文件中的篇數文件頻率(document frequency,簡稱DF)成反比。Spärck Jones博士以對數函數將逆向文件頻率的計算公式定義為IDF=log(N/DF)。在各種資訊檢索的實驗中,使用IDF公式在詞彙的權重上,其成效幾乎都比沒有使用時來得高,也比單獨使用詞頻(term frequency,簡稱TF)作為權重來得高。當詞頻的概念與逆向文件頻率的概念以TF*IDF的乘積公式計算詞彙權重後,其成效更佳。公式log(N/DF)等同於log(1/p),其中p=DF/N是該詞彙在N篇文件中出現的機率。從資訊理論的角度看,log(1/p)為資料量的公式,因此IDF可以解讀為該詞彙的資訊量。一個詞彙在N篇文件中都出現,其資訊量為log(N/N)=0,符合IDF的直覺意義。Spärck Jones, Karen (1972). "A statistical interpretation of term specificity and its application in retrieval". Journal of Documentation, 28 (1), 11–21.
參考資料:
Spärck Jones, Karen (1972). "A statistical interpretation of term specificity and its application in retrieval". Journal of Documentation, 28 (1), 11–21.
資料來源: 國家教育研究院_逆向文件頻率
授權資訊: 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出
回到頁面頂端圖示