互信息(mutual information)是什麼意思

互信息(Mutual Information)是資訊理論中用於度量兩個隨機變數關聯程度的一個指標。它用於衡量兩個變數間相互依賴性,也可以用來度量一個變數對於另一個變數的「信息量」。互信息是克勞德·香農在1948年提出的資訊理論中引入的。

互信息的定義是:在機率論中,兩個隨機變數X和Y的互信息I(X;Y),是它們共同包含的信息量,它可以看做是X和Y的聯合分布P(X,Y)和各自 marginal 分布P(X)P(Y)之間的差異度量。

公式表達為:

I(X;Y) = ∑∑P(x, y) log(P(x, y)/[P(x)P(y)])

其中,P(X,Y)是X和Y的聯合機率分布,P(X)和P(Y)是各自的邊緣機率分布,而log是以2為底的對數(在資訊理論中,通常使用對數來度量信息量,這裡的對數也可以換成以e為底的自然對數)。

互信息的值域是從0到無限大的實數集合。當兩個隨機變數X和Y是獨立的(即它們之間沒有關聯)時,互信息為0。隨著X和Y的關聯程度增加,互信息也會增加,當X和Y完全確定對方時,互信息達到最大值。

互信息在許多領域都有套用,特別是在自然語言處理、機器學習和數據挖掘中,用於特徵選擇、文本分類、聚類分析等任務。