Df.corr意思

df.corr 中的 df 通常代表一個 Pandas DataFrame。這個方法的名稱 corr 是 "correlation" 的縮寫,它返回一個表示 DataFrame 中列之間相關性的矩陣。這個矩陣通常是一個 Pandas Series 對象,其索引和值都是 DataFrame 的列名稱。

相關性矩陣中的每個元素表示 DataFrame 中對應列之間的相關性。相關性通常用皮爾遜相關係數(Pearson correlation coefficient)來計算,這是一個度量兩個變數之間線性關係的統計量。皮爾遜相關係數的取值範圍在 -1 到 +1 之間,其中:

例如,如果你有一個包含多個變數(如股票價格、銷售額、利潤等)的 DataFrame,你可以使用 df.corr 來計算這些變數之間的相關性。這將返回一個矩陣,其中包含每對變數之間的相關係數。

import pandas as pd

# 假設 df 是一個包含多個變數的 DataFrame
df = pd.DataFrame({
    '股票A': [10, 20, 30, 40],
    '股票B': [20, 30, 40, 50],
    '銷售額': [1000, 1100, 1200, 1300],
    '利潤': [200, 300, 400, 500]
})

# 計算相關性矩陣
corr_matrix = df.corr()

# 列印相關性矩陣
print(corr_matrix)

輸出可能類似這樣:

股票A    股票B  銷售額    利潤
股票A    1.000   0.894    0.768    0.894
股票B    0.894   1.000    0.923    0.894
銷售額  0.768    0.923    1.000    0.923
利潤    0.894    0.894    0.923    1.000

這個矩陣顯示了 DataFrame 中每一對列之間的相關性。例如,股票A股票B 之間的相關性是 0.894,這意味著它們之間有很強的正相關關係。

請注意,df.corr 方法返回的相關性矩陣是基於皮爾遜相關係數計算的,這個方法假設數據是來自常態分配的。如果你的數據不符合這個假設,你可能需要使用其他相關性度量方法,如斯皮爾曼相關係數(Spearman's rank correlation coefficient)或肯德爾和諧係數(Kendall's tau)。