方差标准差

发表于 2019-01-25 更新于 2021-03-30 分类于数学/math 阅读次数：

本文字数： 6k 阅读时长 ≈ 11 分钟

方差、标准差都是在概率论(probability)和统计学(statistic)中常用的内容，它们之间彼此联系又互相有差别

独立性和相关性

对于两组随机变量\(X\)和\(Y\)而言:

如果对\(X\)的取值不改变对\(Y\)的取值，反之亦然，那么这两组变量是独立的
如果对\(X\)的取值和对\(Y\)的取值服从某一函数\(f(x,y)=0\)，那么称它们是不独立的

统计学上指相关性为线性相关，即\(y=ax+b\)

所以如果\(X\)对\(Y\)的关系是\(y=x^{2}\)，那么它是没有独立性同时没有相关性

独立同分布

独立同分布(independent and identically distributed (i.i.d.))指多组随机变量服从同一分布，但是彼此相互独立

数学期望和平均数

数学期望又称均值，即所有随机变量的平均数；而平均数是对当前已知样本集进行求和平均的值

数学期望是一个概率论概念，而平均数是一个统计学的概念，当样本集趋近于所有随机变量时，平均数会趋近于数学期望

所以对于总体随机变量而言，它的均值是数学期望；而对于样本随机变量而言，它的均值是平均数

假定总体随机变量为\(X\)，均值为\(\mu\)；独立同分布的样本随机变量为\(x\)，均值为\(\overline{x}\)。它们之间有以下关系：

对于总体随机变量而言，其数学期望\(E(X)=\mu\)
对于样本随机变量而言，其数学期望\(E(x)=\overline{x}\)
对于样本均值而言，其数学期望\(E(\overline{x})=\mu\)

均值

对于独立分布的随机变量\(X/Y\)有

\(E[XY]=E[X]E[Y]\)
\(E[aX]=aE[X]\)
\(E[X+Y]=E[X]+E[Y]\)

方差

方差(variance)指随机变量对其数学期望的平方偏差。用于衡量一组随机变量相对于期望值的离散程度（偏离程度），值多大，表示其分布越广

常用数学符号：\(\sigma ^ { 2 }\)、\(s^{2}\)、\(Var(X)\)、\(D(x)\)，方差计算公式：

\[ D ( X ) = \mathrm { E } \left[ ( X - \mu ) ^ { 2 } \right] \]

其中\(X\)是随机变量，\(\mu\)是均值，计算如下

\[ \mu=E[X] \]

离散随机变量的方差公式：

\[ D( X ) = \frac { 1 } { N } \sum _ { i = 1 } ^ { N } \left( x _ { i } - \mu \right) ^ { 2 } \]

其中\(D(X)\)指离散方差，\(X\)是一组随机变量，\(\mu\)是均值，\(N\)指变量个数

均值\(\mu\)的计算公式如下：

\[ \mu = \frac { 1 } { N } \sum _ { i = 1 } ^ { N} x _ { i } \]

基本属性

下面介绍一些关于方差/协方差的基本属性

方差

方差值永远大于0：\(D ( X ) \geq 0\)
如果一组变量均为同一值，那么其方差为0，换句话说，如果方差为0，那么这组随机变量为同一值：\(P ( X = a ) = 1 \Longleftrightarrow D( X ) = 0\)
对随机变量增加一个数，不改变方差值：\(D ( X + a ) = D( X )\)
对随机变量同乘以一个数，相当于对方差乘以该值平方：\(D( a X ) = a ^ { 2 } D( X )\)
两组随机变量和的方差可通过各组方差以及协方差计算得到：
\[ D ( a X + b Y ) = a ^ { 2 } D ( X ) + b ^ { 2 } D ( Y ) + 2 a b \operatorname { Cov } ( X , Y ) \]
\[ D ( a X - b Y ) = a ^ { 2 }D ( X ) + b ^ { 2 } D ( Y ) - 2 a b \operatorname { Cov } ( X , Y ) \]
其中\(Cov(*,*)\)是协方差，对于\(N\)组随机变量\({X_{1},X_{2},...,X_{N}}\)的和的方差如下：
\[ D(\sum_{i=1}^{n}X_{i})=\sum_{i,j=1}^{n}Cov(X_{i},X_{j})=\sum_{i=1}^{N}D(X_{i})+\sum_{i\neq j}Cov(X_{i},X_{j}) \]

协方差

变量\(X/Y\)属于同一组独立分布的随机变量，那么有

\[\operatorname { Cov } \left( X _ { i } , X _ { j } \right) = 0 , \forall ( i \neq j )\]

所以对于独立分布的随机变量\(X_{1},X_{2},...,X_{N}\)有

\[ D(\sum_{i=1}^{n}X_{i})=\sum_{i=1}^{N}D(X_{i}) \]

不相关变量和的方差

对于不相关分布的随机变量\(X\)，其和的方差等同于方差的和

\[ \operatorname { Var } \left( \sum _ { i = 1 } ^ { n } X _ { i } \right) = \sum _ { i = 1 } ^ { n } \operatorname { Var } \left( X _ { i } \right) \]

所以计算均值的方差等同于方差除以随机变量数目

\[ \operatorname { Var } ( \overline { X } ) = \operatorname { Var } \left( \frac { 1 } { n } \sum _ { i = 1 } ^ { n } X _ { i } \right) = \frac { 1 } { n ^ { 2 } } \sum _ { i = 1 } ^ { n } \operatorname { Var } \left( X _ { i } \right) = \frac { 1 } { n ^ { 2 } } n \sigma ^ { 2 } = \frac { \sigma ^ { 2 } } { n } \]

总体方差和样本方差

通过统计所有随机变量来计算其偏离平均值的平方偏差称为总体方差(population variance)

通过计算样本集得到的方差称为样本方差(sample variance)

在很多情况下，总体随机变量的采集无法实现，通常使用样本集来代替，即使用样本方差来作为总体方差估计(estimate)

假定以下数学符号：

总体均值：\(\mu\)
总体方差：\(\sigma ^{2}\)
总体随机变量：\(X=(x_{1},x_{2},...,x_{N})\)
样本均值：\(\overline { x }\)
样本方差：\(s^{2}\)
样本随机变量：\(X=(x_{1},x_{2},...,x_{n})\)

总体方差计算公式

\[ \mu=\frac{1}{N}\sum_{i=1}^{N}x_{i} \]

\[ \sigma ^{2} =\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\mu)^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}^{2}-2x_{i}\mu +\mu^{2}) \]

\[ =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\frac{2}{N}\sum_{i=1}^{N}x_{i}\mu+\frac{1}{N}\mu^{2} =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-2\mu(\frac{1}{N}\sum_{i=1}^{N}x_{i})+\mu^{2} \]

\[ =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-2\mu^{2}+\mu^{2} =\frac{1}{N}\sum_{i=1}^{N}x_{i}^{2}-\mu^{2} =E[X^{2}]-(E[X])^{2} \]

由上式也可推导出如下公式：

\[ E[X^{2}]=\sigma ^{2}+\mu^{2} \]

样本方差计算公式

\[ \overline {x}=\frac{1}{N}\sum_{i=1}^{N}x_{i} \]

\[ s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\overline {x})^{2} \]

但是上述样本方差计算公式是一个有偏差(biased)的总体方差估计，证明如下：

\[ s^{2}=\frac{1}{n}\sum_{i=1}^{n}[(x_{i}-\overline {x})^{2}]=\frac{1}{n}\sum_{i=1}^{n}[((x_{i}-\mu)-(\overline {x}-\mu))^{2}] \]

\[ =\frac{1}{n}\sum_{i=1}^{n}[(x_{i}-\mu)^{2}-2(x_{i}-\mu)(\overline {x}-\mu)+(\overline {x}-\mu)^{2}] \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-\frac{2}{n}\sum_{i=1}^{n}(x_{i}-\mu)(\overline {x}-\mu)+\frac{1}{n}\sum_{i=1}^{n}(\overline {x}-\mu)^{2} \]

其中\(\mu\)和\(\overline { x }\)是常量，所以上述公式转换为

\[ s^{2}=\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-2(\frac{1}{n}\sum_{i=1}^{n}x_{i}-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^{2} \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-2(\bar{x}-\mu)(\bar{x}-\mu)+(\bar{x}-\mu)^{2} \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2}-(\bar{x}-\mu)^{2} \leq \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu)^{2} \]

样本方差一直小于等于总体方差，为得到正确的总体方差的无偏估计，需要对有偏的样本方差公式乘以一个缩放因子

假定存在\(n\)组独立同分布的随机变量\(X={X_{1},X_{2},...,X_{n}}\)，每个随机变量均值和方差为\(\mu\)和\(\sigma ^{2}\)，那么

\[ E(s^{2})=\sigma ^{2} \]

\[ E(\overline X)=\mu \]

计算如下：

\[ E[s^{2}]=E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\overline {X})^{2}]=E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\frac{1}{n}\sum_{j=1}^{n}X_{j})^{2}] \]

\[ =E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}^{2}-\frac{2}{n}X_{i}\sum_{j=1}^{n}X_{j}+\frac{1}{n^{2}}\sum_{j=1}^{n}\sum_{k=1}^{n}X_{j}X_{k})] \]

\[ =E[\frac{1}{n}\sum_{i=1}^{n}(X_{i}^{2}-\frac{2}{n}X_{i}^{2}-\frac{2}{n}X_{i}\sum_{j=1,j\neq i}^{n}X_{j}+\frac{1}{n^{2}}\sum_{j=1}^{n}X_{j}^{2}+\frac{1}{n^{2}}\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}X_{j}X_{k})] \]

\[ =\frac{1}{n}\sum_{i=1}^{n}(\frac{n-2}{n}E[X_{i}^{2}]-\frac{2}{n}E[X_{i}\sum_{j=1,j\neq i}^{n}X_{j}]+\frac{1}{n^{2}}E[\sum_{j=1}^{n}X_{j}^{2}]+\frac{1}{n^{2}}E[\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}X_{j}X_{k}]) \]

因为随机变量\(X\)是独立同分布，所以

\[ E[X_{i}^{2}]=D(X_{i})+(E[X_{i}])^{2}=\sigma ^{2}+\mu^{2} \]

\[ E[X_{i}\sum_{j=1,j\neq i}^{n}X_{j}]=E[X_{i}]\sum_{j=1,j\neq i}^{n}E[X_{j}]=\mu \cdot(n-1)\cdot\mu=(n-1)\mu^{2} \]

\[ E[\sum_{j=1}^{n}X_{j}^{2}]=\sum_{j=1}^{n}E[X_{j}^{2}]=\sum_{j=1}^{n}(D(X_{j})+(E[X_{j}])^{2})=n(\sigma ^{2}+\mu^{2}) \]

\[ E[\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}X_{j}X_{k}]=\sum_{j=1}^{n}\sum_{k=1,k\neq j}^{n}E[X_{j}]E[X_{k}]=n\cdot (n-1) \cdot \mu \cdot \mu=n(n-1)\mu^{2} \]

所以上述公式转换为

\[ E[s^{2}]=\frac{1}{n}\sum_{i=1}^{n}(\frac{n-2}{n}(\sigma ^{2}+\mu^{2})-\frac{2(n-1)}{n}\mu^{2}+\frac{1}{n}(\sigma ^{2}+\mu^{2})+\frac{n-1}{n}\mu^{2})=\frac{n-1}{n}\sigma^{2} \]

可以通过贝塞尔校正(Bessel Correction)方法来修正原先的样本方差计算公式得到一个无偏(unbiased)的估计，即对样本方差再乘以一个因子\(n/(n-1)\)，那么

\[ \frac{n}{n-1}E[s^{2}]=\frac{n}{n-1}\cdot\frac{n-1}{n}\sigma^{2}=\sigma^{2} \]

所以无偏样本方差公式为

\[ s^{2} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline x)^{2} \]

标准差

标准差(standard deviation)，又称为均方差(Mean square deviation)，是方差的算术平方根，用\(\sigma\)表示

标准差用于衡量数据的离散程度，数值越低表示数据点分布更接近期望值

方差是数据偏离平均值距离的平方，而标准差是方差的算术平方根，所以标准差的单位和数据一致，易于直观理解

大海