詞頻是什么意思詞義解釋來源:辭書
1:詞頻(term frequency簡(jiǎn)稱TF)是指文件中詞匯出現(xiàn)的頻率或是次數(shù)是衡量一個(gè)詞匯重要性的一種指標(biāo)。在各種資訊檢索模型中如向量空間模型、機(jī)率模型、語言模型都會(huì)用到詞頻的概念。一般而言一個(gè)詞匯在某一篇文件中出現(xiàn)的次數(shù)越高即詞頻越高則其在該篇文件中的代表性越重要。例外的情況有虛詞、連接詞、代名詞等功能詞(function words)這些詞匯經(jīng)常有高詞頻卻不帶有任何內(nèi)容意義在文件的詞匯處理過程常被特意地停用、過濾掉因而被稱為停用詞(stop words)。此外詞匯的重要性也會(huì)考慮到這個(gè)詞匯出現(xiàn)在所有文件中的篇數(shù)亦即其文件篇數(shù)(document frequency簡(jiǎn)稱DF)。若其出現(xiàn)在越多篇文件中即DF越高則表示該詞匯可能為常用字故而重要性越低相對(duì)于其反向文件篇數(shù)(inverse document frequency簡(jiǎn)稱IDF)也低。例如在一批有關(guān)電腦的文件中搜尋電腦這個(gè)詞匯幾乎所有的文件都會(huì)被找回則不管其詞頻(TF)電腦在這批文獻(xiàn)中對(duì)檢索沒有幫助其重要性要降低剛好對(duì)應(yīng)到其IDF也低。因此詞匯的重要性經(jīng)常以詞頻(TF)以及反向文件篇數(shù)(IDF)這兩個(gè)概念一起考慮。真正在應(yīng)用詞頻的概念時(shí)常會(huì)對(duì)詞頻做轉(zhuǎn)換而獲得一個(gè)重要性數(shù)值。例如詞匯A與詞匯B在某一篇文件中各出現(xiàn)TF(A)=8次與TF(B)=2次但不代表詞匯A的重要性是詞匯B的8/2=4倍。常用的轉(zhuǎn)換作法有取對(duì)數(shù)函數(shù)如log2( TF(A) ) = log2(8) = 3log2( TF(B) ) = log2(2) = 1如此詞匯A的重要性只比詞匯B多3倍。此外還有對(duì)文件內(nèi)所有的詞匯頻率做正規(guī)化處理例如TF(A)除以該文件所有詞匯的總詞頻(等于詞匯A的出現(xiàn)機(jī)率)詞匯的重要性從頻率的次數(shù)分布變成詞匯的出現(xiàn)機(jī)率分布如此可以在機(jī)率的理論中探討詞匯與文件的各種特性。
|