詞頻是什么意思詞義解釋來源:辭書
1:詞頻(term frequency簡稱TF)是指文件中詞匯出現的頻率或是次數是衡量一個詞匯重要性的一種指標。在各種資訊檢索模型中如向量空間模型、機率模型、語言模型都會用到詞頻的概念。一般而言一個詞匯在某一篇文件中出現的次數越高即詞頻越高則其在該篇文件中的代表性越重要。例外的情況有虛詞、連接詞、代名詞等功能詞(function words)這些詞匯經常有高詞頻卻不帶有任何內容意義在文件的詞匯處理過程常被特意地停用、過濾掉因而被稱為停用詞(stop words)。此外詞匯的重要性也會考慮到這個詞匯出現在所有文件中的篇數亦即其文件篇數(document frequency簡稱DF)。若其出現在越多篇文件中即DF越高則表示該詞匯可能為常用字故而重要性越低相對于其反向文件篇數(inverse document frequency簡稱IDF)也低。例如在一批有關電腦的文件中搜尋電腦這個詞匯幾乎所有的文件都會被找回則不管其詞頻(TF)電腦在這批文獻中對檢索沒有幫助其重要性要降低剛好對應到其IDF也低。因此詞匯的重要性經常以詞頻(TF)以及反向文件篇數(IDF)這兩個概念一起考慮。真正在應用詞頻的概念時常會對詞頻做轉換而獲得一個重要性數值。例如詞匯A與詞匯B在某一篇文件中各出現TF(A)=8次與TF(B)=2次但不代表詞匯A的重要性是詞匯B的8/2=4倍。常用的轉換作法有取對數函數如log2( TF(A) ) = log2(8) = 3log2( TF(B) ) = log2(2) = 1如此詞匯A的重要性只比詞匯B多3倍。此外還有對文件內所有的詞匯頻率做正規化處理例如TF(A)除以該文件所有詞匯的總詞頻(等于詞匯A的出現機率)詞匯的重要性從頻率的次數分布變成詞匯的出現機率分布如此可以在機率的理論中探討詞匯與文件的各種特性。
|