两组数据方差公式推导
方差是衡量一组数据离散程度的统计量。对于两个独立的样本,其方差公式可以推导如下:
设两组数据分别为$X_1, X_2, \ldots, X_n$和$Y_1, Y_2, \ldots, Y_m$,其中$n$和$m$分别是两组数据的样本大小。
我们定义两组数据的均值$\mu_1$和$\mu_2$,以及它们的协方差$\text{Cov}(X_i, Y_j)$。
对于任意一个数据点$x_i$,其均值为:
$$\mu_1 = \frac{1}{n}\sum_{i=1}^{n} x_i$$
$$\mu_2 = \frac{1}{m}\sum_{j=1}^{m} y_j$$
对于任意两个数据点$x_i$和$y_j$,其协方差为:
$$\text{Cov}(x_i, y_j) = \frac{1}{n}\sum_{k=1}^{n} (x_i - \mu_1)(y_j - \mu_2)$$
方差的定义是每个数据点与均值之差的平方的平均数,即:
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} (x_i - \mu_1)^2$$
$$\sigma^2 = \frac{1}{m}\sum_{j=1}^{m} (y_j - \mu_2)^2$$
由于协方差等于两变量乘积的期望值除以两变量的标准差乘积,我们有:
$$\text{Cov}(x_i, y_j) = E[(x_i - \mu_1)(y_j - \mu_2)]$$
$$\text{Cov}(x_i, y_j) = E[x_i]E[y_j] - E[x_i]E[\mu_1]E[y_j] - E[y_j]E[x_i]E[\mu_1]$$
将上式代入方差的定义中,得到:
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} E[x_i]E[y_j] - \frac{1}{n}\sum_{i=1}^{n} E[x_i]E[\mu_1]E[y_j] - \frac{1}{m}\sum_{j=1}^{m} E[y_j]E[x_i]E[\mu_1]$$
简化得到:
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} E[x_i]E[y_j] - \frac{1}{n}\sum_{i=1}^{n} E[x_i]E[\mu_1]E[y_j] + \frac{1}{m}\sum_{j=1}^{m} E[y_j]E[x_i]E[\mu_1]$$
整理得:
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} [E[x_i]E[y_j] - E[x_i]E[\mu_1]E[y_j]] + \frac{1}{m}\sum_{j=1}^{m} [E[y_j]E[x_i]E[\mu_1]]$$
进一步整理得:
$$\sigma^2 = \frac{1}{n}\sum_{i=1}^{n} [E[x_i]E[y_j] - E[x_i]E[\mu_1]E[y_j]] + \frac{1}{m}\sum_{j=1}^{m} [E[y_j]E[x_i]E[\mu_1]]$$
这就是两组数据的方差公式。