跳到主要內容
:::

教育百科logo

::: 詞頻 - 教育百科
國家教育研究院辭書
基本資料
英文: term frequency
作者: 曾元顯
日期: 2012年10月
出處: 圖書館學與資訊科學大辭典
辭書內容
名詞解釋:
  詞頻(term frequency,簡稱TF)是指文件中詞彙出現的頻率或是次數,是衡量一個詞彙重要性的一種指標。在各種資訊檢索模型中,如向量空間模型、機率模型、語言模型,都會用到詞頻的概念。一般而言,一個詞彙在某一篇文件中出現的次數越高,即詞頻越高,則其在該篇文件中的代表性越重要。例外的情況,有虛詞、連接詞、代名詞等功能詞(function words),這些詞彙,經常有高詞頻,卻不帶有任何內容意義,在文件的詞彙處理過程,常被特意地停用、過濾掉,因而被稱為停用詞(stop words)。此外,詞彙的重要性,也會考慮到這個詞彙出現在所有文件中的篇數,亦即其文件篇數(document frequency,簡稱DF)。若其出現在越多篇文件中,即DF越高,則表示該詞彙可能為常用字,故而重要性越低,相對於其反向文件篇數(inverse document frequency,簡稱IDF)也低。例如,在一批有關電腦的文件中,搜尋電腦這個詞彙,幾乎所有的文件都會被找回,則不管其詞頻(TF),電腦在這批文獻中,對檢索沒有幫助,其重要性要降低,剛好對應到其IDF也低。因此,詞彙的重要性,經常以詞頻(TF)以及反向文件篇數(IDF)這兩個概念,一起考慮。真正在應用詞頻的概念時,常會對詞頻做轉換而獲得一個重要性數值。例如,詞彙A與詞彙B在某一篇文件中各出現TF(A)=8次與TF(B)=2次,但不代表詞彙A的重要性是詞彙B的8/2=4倍。常用的轉換作法,有取對數函數,如log2( TF(A) ) = log2(8) = 3,log2( TF(B) ) = log2(2) = 1,如此詞彙A的重要性只比詞彙B多3倍。此外,還有對文件內所有的詞彙頻率做正規化處理,例如TF(A)除以該文件所有詞彙的總詞頻(等於詞彙A的出現機率),詞彙的重要性,從頻率的次數分布,變成詞彙的出現機率分布,如此可以在機率的理論中探討詞彙與文件的各種特性。
資料來源: 國家教育研究院_詞頻
授權資訊: 資料採「 創用CC-姓名標示- 禁止改作 臺灣3.0版授權條款」釋出