两组数据方差公式推导


方差是衡量一组数据离散程度的统计量。对于两个独立的样本,其方差公式可以推导如下:

设两组数据分别为$X_1, X_2, \ldots, X_n$和$Y_1, Y_2, \ldots, Y_m$,其中$n$和$m$分别是两组数据的样本大小。

我们定义两组数据的均值$\mu_1$和$\mu_2$,以及它们的协方差$\text{Cov}(X_i, Y_j)$。

对于任意一个数据点$x_i$,其均值为:

$$\mu_1 = \frac{1}{n}\sum_{i=1}^{n} x_i$$

$$\mu_2 = \frac{1}{m}\sum_{j=1}^{m} y_j$$

对于任意两个数据点$x_i$和$y_j$,其协方差为:

$$\text{Cov}(x_i, y_j) = \frac{1}{n}\sum_{k=1}^{n} (x_i - \mu_1)(y_j - \mu_2)$$

方差的定义是每个数据点与均值之差的平方的平均数,即:

$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \mu_1)^2$$

$$\sigma^2 = \frac{1}{m}\sum_{j=1}^{m} (y_j - \mu_2)^2$$

由于协方差等于两变量乘积的期望值除以两变量的标准差乘积,我们有:

$$\text{Cov}(x_i, y_j) = E[(x_i - \mu_1)(y_j - \mu_2)]$$

$$\text{Cov}(x_i, y_j) = E[x_i]E[y_j] - E[x_i]E[\mu_1]E[y_j] - E[y_j]E[x_i]E[\mu_1]$$

将上式代入方差的定义中,得到:

$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} E[x_i]E[y_j] - \frac{1}{n}\sum_{i=1}^{n} E[x_i]E[\mu_1]E[y_j] - \frac{1}{m}\sum_{j=1}^{m} E[y_j]E[x_i]E[\mu_1]$$

简化得到:

$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} E[x_i]E[y_j] - \frac{1}{n}\sum_{i=1}^{n} E[x_i]E[\mu_1]E[y_j] + \frac{1}{m}\sum_{j=1}^{m} E[y_j]E[x_i]E[\mu_1]$$

整理得:

$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} [E[x_i]E[y_j] - E[x_i]E[\mu_1]E[y_j]] + \frac{1}{m}\sum_{j=1}^{m} [E[y_j]E[x_i]E[\mu_1]]$$

进一步整理得:

$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} [E[x_i]E[y_j] - E[x_i]E[\mu_1]E[y_j]] + \frac{1}{m}\sum_{j=1}^{m} [E[y_j]E[x_i]E[\mu_1]]$$

这就是两组数据的方差公式。