Gini不純度意思

"Gini不純度"(Gini impurity)是統計學和機器學習中的一個概念,用於評估分類變量分類的純度。這個概念是由義大利統計學家Corrado Gini在1912年提出的,他最為人知的是提出了基尼係數(Gini coefficient),用於衡量收入不平等。

在機器學習中,Gini不純度常用於決策樹的構建,特別是在分類問題中。決策樹是一種有監督學習算法,用於根據特徵對樣本進行分類。在構建決策樹時,需要在每個節點上選擇一個特徵,以便最有效地將數據分為兩個子集。Gini不純度可以用來幫助選擇這個最佳特徵。

Gini不純度的值介於0和1之間,其中0表示純淨(即所有樣本都屬於同一類別),1表示完全不純淨(即樣本屬於所有類別)。在決策樹中,選擇Gini不純度下降最大的特徵作為分裂特徵,這可以幫助減少混淆並提高分類精度。

例如,假設我們有一個二元分類問題,數據集中有正類和負類兩個類別。如果一個節點包含的樣本完全屬於同一類別,那麼Gini不純度為0。如果樣本平均分佈在正類和負類兩個類別中,那麼Gini不純度為1。在實際應用中,通常會選擇Gini不純度下降超過某個閾值的特徵作為分裂特徵。