Df.corr意思
df.corr
中的 df
通常代表一個 Pandas DataFrame。這個方法的名稱 corr
是 "correlation" 的縮寫,它返回一個表示 DataFrame 中列之間相關性的矩陣。這個矩陣通常是一個 Pandas Series 對象,其索引和值都是 DataFrame 的列名稱。
相關性矩陣中的每個元素表示 DataFrame 中對應列之間的相關性。相關性通常用皮爾遜相關係數(Pearson correlation coefficient)來計算,這是一個度量兩個變數之間線性關係的統計量。皮爾遜相關係數的取值範圍在 -1 到 +1 之間,其中:
- +1 表示完全正相關(兩個變數完全正比變化)
- -1 表示完全負相關(兩個變數完全反比變化)
- 0 表示不相關或相關性極低
例如,如果你有一個包含多個變數(如股票價格、銷售額、利潤等)的 DataFrame,你可以使用 df.corr
來計算這些變數之間的相關性。這將返回一個矩陣,其中包含每對變數之間的相關係數。
import pandas as pd
# 假設 df 是一個包含多個變數的 DataFrame
df = pd.DataFrame({
'股票A': [10, 20, 30, 40],
'股票B': [20, 30, 40, 50],
'銷售額': [1000, 1100, 1200, 1300],
'利潤': [200, 300, 400, 500]
})
# 計算相關性矩陣
corr_matrix = df.corr()
# 列印相關性矩陣
print(corr_matrix)
輸出可能類似這樣:
股票A 股票B 銷售額 利潤
股票A 1.000 0.894 0.768 0.894
股票B 0.894 1.000 0.923 0.894
銷售額 0.768 0.923 1.000 0.923
利潤 0.894 0.894 0.923 1.000
這個矩陣顯示了 DataFrame 中每一對列之間的相關性。例如,股票A
和 股票B
之間的相關性是 0.894,這意味著它們之間有很強的正相關關係。
請注意,df.corr
方法返回的相關性矩陣是基於皮爾遜相關係數計算的,這個方法假設數據是來自常態分配的。如果你的數據不符合這個假設,你可能需要使用其他相關性度量方法,如斯皮爾曼相關係數(Spearman's rank correlation coefficient)或肯德爾和諧係數(Kendall's tau)。