皮尔逊积矩相关系数(pearson product-moment correlation coefficient)通常用于研究变量间的相关性,特别是线性相关。其取值范围在-1到1之间,绝对值越接近1说明变量之间的相关性越强。
- 当r>0时,变量之间正相关;
- 当r<0时,变量之间负相关;
- 当r=-1或1时,可以用一条直线描述变量之间的相关关系。

相关系数r的范围
皮尔逊相关系数的计算公式如下:

皮尔逊相关系数计算公式
该公式将变量x和y的协方差除以变量x和y的标准差的乘积,用来衡量变量x和y之间的相关性。皮尔逊相关系数的优点在于将系数的范围归一化,不受量纲的影响。皮尔逊相关系数并不能完全描述所有变量之间的相关性。除了皮尔逊相关系数,还有斯皮尔曼相关系数和肯德尔相关系数用于描述变量之间的相关关系。斯皮尔曼相关系数适用于具有顺序属性的变量,而肯德尔相关系数适用于具有分类属性的变量。
要计算皮尔逊相关系数,可以使用一些统计分析软件,如origin和spss。以origin为例:

首先将需要分析的变量导入工作簿,在origin的统计菜单中选择相关系数进入相关系数页面。

在相关系数页面,选择需要计算的变量范围,指定相关系数种类,并可将变量绘制成散点图以进行可视化分析。

通过计算可得,变量a和变量b之间相关性很强,相关系数高达0.99。

使用origin计算相关系数
通过使用python的pandas库,可以很容易地计算相关系数。以下是计算变量1和变量2之间相关系数的示例:
import pandas as pd
data = {
'variable1': [1, 2, 3, 4, 5],
'variable2': [2, 4, 6, 8, 10]
}
df = pd.dataframe(data)
correlation = df['variable1'].corr(df['variable2'])
print('correlation coefficient:', correlation)
运行以上代码,可得变量1和变量2之间的相关系数为0.99461,与使用origin计算得到的结果一致。还可以使用corr函数来计算斯皮尔曼相关系数和肯德尔相关系数。

使用python计算相关系数