二元交叉熵/對數損失是什麼意思
二元交叉熵(Binary Cross-Entropy)或對數損失(Log Loss)是機器學習中的一種評估指標,用於衡量預測分類模型(尤其是二元分類模型)的性能。在二元分類問題中,模型預測的輸出是一個機率值,表示樣本屬於某一類別的機率。而實際的類別標籤是二元的(0 或 1),表示樣本實際上屬於哪一類。
交叉熵是一個信息理論中的概念,用於衡量兩個機率分布之間的距離。在二元分類問題中,交叉熵損失函數被用來衡量模型預測的機率分布與實際類別標籤之間的差異。交叉熵損失函數的公式如下:
[ \text{Loss} = -\frac{1}{N} \sum_{i=1}^{N} y_i \log(p_i) + (1 - y_i) \log(1 - p_i) ]
其中,$N$ 是樣本數,$y_i$ 是第 $i$ 個樣本的實際類別標籤(0 或 1),$p_i$ 是模型對第 $i$ 個樣本屬於正類($y_i=1$)的機率預測。
對數損失(Log Loss)是交叉熵損失的另一個名稱,因為它實際上就是交叉熵損失對數的負值。在機器學習中,使用對數損失作為損失函數可以促使模型學習到更好的機率分佈,從而提高預測的準確性。
在訓練過程中,模型會最小化交叉熵損失,以便更好地預測類別標籤。在評估模型的性能時,交叉熵損失也可以用來比較不同模型的預測能力。交叉熵損失越小,模型的預測性能越好。
二元交叉熵損失是廣泛使用的損失函數,尤其是在深度學習和邏輯回歸模型中。它不僅可以用於二元分類問題,還可以擴展到多類分類問題,此時交叉熵損失會對每個類別的預測機率進行評估。