過採樣是什麼意思

過採樣(Oversampling)是一種數據處理技術,特別是在機器學習和統計學中,用來處理不平衡數據集的問題。當數據集中不同類別的樣本數量差異很大時,就會出現不平衡數據集的問題。過採樣技術會增加少數類別( minority class )的樣本數量,使其與多數類別( majority class )的樣本數量更加平衡。

過採樣的基本思想是從少數類別中隨機選擇樣本,並對這些樣本進行複製,從而增加少數類別的樣本數量。這樣做可以避免模型過度擬合多數類別,從而提高對少數類別的識別準確率。

過採樣有幾種不同的方法,包括:

隨機過採樣(Random Oversampling):簡單地從少數類別中隨機選擇樣本並複製它們。

SMOTE(Synthetic Minority Oversampling Technique):一種合成過採樣技術,它不僅複製少數類別的樣本,還會生成新的樣本。這些新樣本是通過線性插值少數類別的鄰近樣本之間的特徵來創建的。

Borderline-SMOTE:在SMOTE的基礎上,只對邊緣樣本(borderline samples)進行過採樣,即那些在多數類別和少數類別之間的樣本。

過採樣通常與欠採樣( undersampling )技術結合使用,後者從多數類別中刪除樣本,以達到類似的平衡。過採樣和欠採樣都可以幫助提高模型對少數類別的識別準確率,但選擇哪種方法取決於數據的特性和模型的要求。