标准差和标准偏差
1)首先给出计算公式
标准差:σ=1)
标准偏差:s=2)
这下大家就困惑了,这两个公式分别表示什么意义?他们分别在什么情况下用?这两个公式是怎么来的?
2)公式由来
标准差又叫均方差、标准方差,这个大家都不陌生,它是各数据偏离平均数的距离的平均数,是距离均差平方和平均后的方根,用σ表示。。说白了就是表示数据分本离散度的一个值。计算公式也很好理解,从一开始接触我们用的看的都是这个公式。
那么第二个公式,怎么来的呢?其实标准偏差从样本估计中来的。比如我们有一批数据,共10000个点,他们服从正太分布,很容易计算出它的均值和标准差。在这里我们叫做样本均值和样本标准差。表示如下: 1n
样本均值:=∑Xi ni=1
1n
样本方差:s=∑(Xi-)2 ni=12n
这两个公式就是大家常用的公式。那么现在我们认为,我们想用采集到的这10000个样本估计数据的真实分布,想要求出其均值μ和方差σ2。
对于均值μ,我们容易通过期望获得:
E()=μ
∑(X
但是对于方差,我们知道i=1ni-)22是服从卡分分布χn-1的(这一点请查阅卡分分σ2
布的定义)。因此有下面的公式:
E(s)=2
nσ2nE(2nsn
σ2)=σ2n(n-1)
这个公式的第一个等号后面是利用期望的性质,试图构造卡分分布来求解。第二个等号后面是利用卡分分布的均值计算出来的。请自行查阅卡方分布的定义和性质。 这么一来,我们就能看出,是μ的无偏估计,而sn则不是σ2的无偏估计。但是我
22们可以通过对样本方差进行重新构造,从而是sn就是σ2的无偏估计。我们定义:
1n
s=(Xi-)2 ∑n-1i=12
这样我们重新来求解方差的期望:
E(s)=
2nσ2n-1E(2(n-1)snσ2)=σ2n-1(n-1)=σ2 这样一来,s2就是σ2的无偏估计,这也就是这个公式的由来。
3)这两个公式的应用。
在实际中,公式(2)用的更多。因为当样本容量比较小的时候,公式(1)会过小的估计实际标准差;如果样本容量较大,公式(1)和公式(2)很接近。这时候公式(1)叫做渐近无偏估计,当然还是比不上公式(2)的无偏估计喽。
看了上面这段话,你可能还不知道该用哪个。其实是这样的:如果我们想求一批数据的标准差,那么自然就用公式(1)。如果我们是利用现在的样本估计真实的分布,那么就用公式(2)。
4)在EXCEL中,方差是VAR(),标准偏差是STDEV(),函数里解释是基于样本,分母是除的N-1,其实就是公式(2)。还有个VARP()和STDEVP(),基于样本总体,分母是N,也就是说你关注的就是这批数据。
标准差和标准偏差
1)首先给出计算公式
标准差:σ=1)
标准偏差:s=2)
这下大家就困惑了,这两个公式分别表示什么意义?他们分别在什么情况下用?这两个公式是怎么来的?
2)公式由来
标准差又叫均方差、标准方差,这个大家都不陌生,它是各数据偏离平均数的距离的平均数,是距离均差平方和平均后的方根,用σ表示。。说白了就是表示数据分本离散度的一个值。计算公式也很好理解,从一开始接触我们用的看的都是这个公式。
那么第二个公式,怎么来的呢?其实标准偏差从样本估计中来的。比如我们有一批数据,共10000个点,他们服从正太分布,很容易计算出它的均值和标准差。在这里我们叫做样本均值和样本标准差。表示如下: 1n
样本均值:=∑Xi ni=1
1n
样本方差:s=∑(Xi-)2 ni=12n
这两个公式就是大家常用的公式。那么现在我们认为,我们想用采集到的这10000个样本估计数据的真实分布,想要求出其均值μ和方差σ2。
对于均值μ,我们容易通过期望获得:
E()=μ
∑(X
但是对于方差,我们知道i=1ni-)22是服从卡分分布χn-1的(这一点请查阅卡分分σ2
布的定义)。因此有下面的公式:
E(s)=2
nσ2nE(2nsn
σ2)=σ2n(n-1)
这个公式的第一个等号后面是利用期望的性质,试图构造卡分分布来求解。第二个等号后面是利用卡分分布的均值计算出来的。请自行查阅卡方分布的定义和性质。 这么一来,我们就能看出,是μ的无偏估计,而sn则不是σ2的无偏估计。但是我
22们可以通过对样本方差进行重新构造,从而是sn就是σ2的无偏估计。我们定义:
1n
s=(Xi-)2 ∑n-1i=12
这样我们重新来求解方差的期望:
E(s)=
2nσ2n-1E(2(n-1)snσ2)=σ2n-1(n-1)=σ2 这样一来,s2就是σ2的无偏估计,这也就是这个公式的由来。
3)这两个公式的应用。
在实际中,公式(2)用的更多。因为当样本容量比较小的时候,公式(1)会过小的估计实际标准差;如果样本容量较大,公式(1)和公式(2)很接近。这时候公式(1)叫做渐近无偏估计,当然还是比不上公式(2)的无偏估计喽。
看了上面这段话,你可能还不知道该用哪个。其实是这样的:如果我们想求一批数据的标准差,那么自然就用公式(1)。如果我们是利用现在的样本估计真实的分布,那么就用公式(2)。
4)在EXCEL中,方差是VAR(),标准偏差是STDEV(),函数里解释是基于样本,分母是除的N-1,其实就是公式(2)。还有个VARP()和STDEVP(),基于样本总体,分母是N,也就是说你关注的就是这批数据。