類別變數意思

在統計學和數據分析中,「類別變數」(categorical variable)又稱為分類變數,是指變數的取值是分類的,即變量不同取值之間通常沒有自然順序,也不能進行數值上的加減乘除運算。類別變數的每個取值代表一個類別,這些類別是平等的,沒有數值上的大小或先後關係。

例如,一個人的「性別」就是一個類別變數,因為它只有「男」和「女」兩個類別,而且這兩個類別是平等的,沒有數值上的意義。再比如,一個人的「種族」、「教育水平」(本科、研究生、博士等)、「婚姻狀況」(單身、已婚、離婚等)也都是類別變量。

類別變數的數據通常以文字或類別的形式表示,但在數據分析中,這些類別通常會被編碼為數字以方便計算和分析。例如,「性別」這個變量可以編碼為「1」代表男,「2」代表女。這種編碼並不反映任何數值意義,只是為了在計算機中處理數據時方便使用。

與類別變量相對的是「連續變量」(continuous variable),連續變量的取值是連續的,可以在任意值之間取到,而且這些值之間有數學意義上的順序和差異(比如身高、體重、年齡等)。連續變量的數據通常以數字形式表示,可以進行數值運算。