混淆矩陣意思
混淆矩陣(Confusion Matrix)是一種用於評估機器學習模型或統計分類模型預測準確性的工具。它用於比較實際類別(ground truth)與預測類別,並以表格的形式展現結果。混淆矩陣通常用於二元分類問題,但在多類分類問題中也可以應用。
混淆矩陣的表格通常由以下四個部分組成:
- 真陽性(True Positives, TP):預測為正類且實際上也為正類的樣本數。
- 假陽性(False Positives, FP):預測為正類但實際上為負類的樣本數。
- 真陰性(True Negatives, TN):預測為負類且實際上也為負類的樣本數。
- 假陰性(False Negatives, FN):預測為負類但實際上為正類的樣本數。
混淆矩陣的對角線TP和TN表示分類器預測正確的部分,而對角線以外的FP和FN則表示分類器預測錯誤的部分。
混淆矩陣有幾個相關的指標可以用來評估分類器的性能,例如:
- 精度(Precision):真陽性率,即預測為正類的樣本中有多少是實際的正類。公式為 TP / (TP + FP)。
- 召回率(Recall):檢出率,即實際的正類中有多少被分類器正確預測為正類。公式為 TP / (TP + FN)。
- F1值:精度和召回率的 harmonic mean。
- 特異性(Specificity):真陰性率,即預測為負類的樣本中有多少是實際的負類。公式為 TN / (TN + FP)。
- 錯誤率(Error Rate):假陽性率,即預測為正類的樣本中有多少是實際的負類。公式為 FP / (TP + FP)。
混淆矩陣和這些相關指標一起使用,可以全面評估分類器的性能,並且可以根據具體應用領域的目標和需求來選擇最適合的評估指標。