pearson相关系数计算公式推导与应用实例


Pearson相关系数是一种衡量两个变量之间线强度和方向的方法。它的值介于-1和1之间,其中1表示完全正相关,-1表示完全负相关,0表示无相关性。

公式推导

假设我们有两个变量X和Y,其均值分别为μx和μy,标准差分别为σx和σy。

1. 计算协方差:

协方差是衡量两个变量同时变化趋势的指标。

公式为:Cov(X, Y) = Σ[(xi - μx) (yi - μy)] / (n-1),其中n是数据点的数量,xi和yi是X和Y的第i个数据点。

2. 计算Pearson相关系数:

Pearson相关系数是协方差除以两个变量的标准差的乘积。

公式为:r = Cov(X, Y) / (σx σy)。

应用实例

假设我们有一个数据集,记录了不同学生的数学成绩和物理成绩。我们想要知道这两个科目之间是否存在某种关系。

数据

| 学生 | 数学成绩 | 物理成绩 |

| | | |

| 1 | 85 | 90 |

| 2 | 78 | 85 |

| 3 | 92 | 95 |

| 4 | 75 | 80 |

| 5 | 88 | 92 |

计算步骤

1. 计算均值:

μx (数学成绩) = (85 + 78 + 92 + 75 + 88) / 5 = 85.2

μy (物理成绩) = (90 + 85 + 95 + 80 + 92) / 5 = 87.2

2. 计算标准差:

σx = sqrt[( (85-85.2)^2 + (78-85.2)^2 + (92-85.2)^2 + (75-85.2)^2 + (88-85.2)^2 ) / (5-1)]

σy = sqrt[( (90-87.2)^2 + (85-87.2)^2 + (95-87.2)^2 + (80-87.2)^2 + (92-87.2)^2 ) / (5-1)]

其中sqrt表示平方根。

3. 计算协方差:

Cov(数学成绩, 物理成绩) = [( (85-85.2) (90-87.2) ) + ( (78-85.2) (85-87.2) ) + ( (92-85.2) (95-87.2) ) + ( (75-85.2) (80-87.2) ) + ( (88-85.2) (92-87.2) ) ] / (5-1)

4. 计算Pearson相关系数:

r = Cov(数学成绩, 物理成绩) / (σx σy)

结果

经过计算,我们得到r的值,这个值表示数学成绩和物理成绩之间的相关程度。

解读

如果r接近1,表示两者正相关,即数学成绩高的学生物理成绩也倾向于高。

如果r接近-1,表示两者负相关,即数学成绩高的学生物理成绩倾向于低。

如果r接近0,表示两者没有线。

注意事项

1. Pearson相关系数只能衡量线,不能判断非线。

2. 当数据集中有极端值时,Pearson相关系数可能会受到较大影响。

3. 当数据集中有缺失值时,需要适当处理(如插值、删除等)后再进行计算。

实际应用

在实际应用中,我们可以使用Pearson相关系数来评估不同变量之间的关系,如学生的成绩、股票的价格、气候数据等。通过了解这些变量之间的关系,我们可以更好地理解这些数据的特性,并在需要时做出适当的决策。