Idf意思
IDF(Inverse Document Frequency)是一種用於信息檢索與文本挖掘的統計方法,用於評估某個詞對於一個檔案集的區分度。IDF值越大,說明該詞具有越好的文檔區分能力。
IDF的計算公式如下:
IDF(t) = log(N / (df(t) + 1))
其中:
- t表示某個詞
- N表示文檔總數
- df(t)表示包含詞t的文檔數
舉個例子,如果某個詞出現在所有的文檔中,那麼它的IDF值為0(因為log(1) = 0),因為它無法區分任何文檔。相反,如果某個詞只出現在一個文檔中,那麼它的IDF值會非常大,因為它可以很好地區分這個文檔與其他文檔。
在TF-IDF(Term Frequency–Inverse Document Frequency)權重計算中,IDF與詞在文檔中的出現頻率(TF)相乘,以平衡詞的重要性。TF-IDF廣泛套用於搜尋引擎排名、文本挖掘、信息檢索等領域,用於評估每個詞對於文檔的重要程度。