河南大学医学院授课教案首页
预防医学 教研室 教研室主任签名
注:教后记放在讲义最后一页。
基本内容
第三章 离散程度的统计描述指标
第一节 变异指标
描述数值变量资料频数分布的另一主要特征是离散程度,用变异指标表示。只有把集中指标和离散指标结合起来才能全面反映资料的分布特征。常用变异指标有全距、四分位数间距、方差、标准差、变异系数。
1.全距(range,简记为R):亦称极差,是一组同质观察值中最大值与最小值之差。它反映了个体差异的范围,全距大,说明变异度大;反之,全距小,说明变异度小。用全距描述定量资料的变异度大小,虽然计算简单,但不足之处有:①只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度;②样本含量越大,抽到较大或较小观察值的可能性越大,则全距可能越大。因此样本含量相差悬殊时不宜用全距比较。
2.四分位数间距(quartile,简记为Q):为上四分位数QU(即P75)与下四分位数QL(即P25)之差。四分位数间距可看成是中间50%观察值的极差,其数值越大,变异度越大,反之,变异度越小。如例2.7中,已求得QU=P75=35.82小时,QL=P25=15.34小时,则四分位数间距Q= QU-QL==35.82-15.34=20.48(小时)。由于四分位数间距不受两端个别极大值或极小值的影响,因而四分位数间距较全距稳定,但仍未考虑全部观察值的变异度,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。
3.方差(variance):为了全面考虑观察值的变异情况,克服全距和四分位数间距的缺点, 需计算总体中每个观察值X与总体均数μ的差值(X-μ),称之为离均差。由于Σ(X-μ)=0,不能反映变异度的大小,而用离均差平方和
Σ(X-μ)2(sum of squares of deviations from mean)反映之,同时还应考虑观察值个数N的影响,故用式(2.9)即总体方差σ2表示。
∑(X-μ)2
σ= (3.1) N2
在实际工作中,总体均数μ往往是未知的,所以只能用样本均数X作为总体均数μ的估计值,即用∑(X-)代替∑(X-μ),用样本例数n代替N,但再按式(2.9)计算的结果总是比实际σ2小。英国统计学家W.S.Gosset提出用n-1代替n来校正,这就是样本方差s2其公式为:
S222(X-)=n-12 (3.2)
式中的n-1称为自由度( degree of freedom)。
4.标准差(standard deviation):方差的度量单位是原度量单位的平方,将方差开方后与原数据的度量单位相同。标准差大,表示观察值的变异度大;反之,标准差小,表示观察值的变异度小。计算见公式(2.11)和(2.12)。
σ=∑(X-μ)
n2 (3.3)
2
S=(X-)
n-1
2 (3.4) 离均差平方和∑(X-)常用SS或lXX表示。数学上可以证明:
SS=lXX=∑(X-)2=∑X2-(∑X)2
N, 所以,样本标准差的计算公式可写
成:
直接法: S=(X)2∑X- (3.5) 2
加权法: ∑
S=(fX)2fX-f
f-12 (3.6)
5.变异系数(coefficient of variation,简记为CV):常用于比较度量单位不同
或均数相差悬殊的两组或多组资料的变异度。其公式为
CV=
S⨯100% (3.7)
第二节 正态分布及其应用
学时分配:2学时
掌握内容:
1、正态分布的概念、特征和标准正态分布
2、正态分布的应用
一 正态分布的概念和特征
(一)、正态分布的概念
由表1.1的频数表资料所绘制的直方图,图3.1(1)可以看出,高峰位于中部,左右两侧大致对称。我们设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图3.1(3)。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal distribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。
(1) (2)
图3.1 频数分布逐渐接近正态分布示意图 (3)
为了应用方便,常对正态分布变量X作变量变换。
u=X-μ
σ (3.1)
该变换使原来的正态分布转化为标准正态分布 (standard normal distribution),亦称u分布。u被称为标准正态变量或标准正态离差(standard normal deviate)。
(二)、正态分布的特征:
1.正态曲线(normal curve)在横轴上方均数处最高。
2.正态分布以均数为中心,左右对称。
3.正态分布有两个参数,即均数μ和标准差σ。μ是位置参数,当σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动。σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。通常用N(μ,σ2)表示均数为μ,方差为σ2的正态分布。用N(0,1)表示标准正态分布。
4.正态曲线下面积的分布有一定规律。
实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态曲线下一定区间的面积可以通过附表1求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。
查附表1应注意:①表中曲线下面积为-∞到u的左侧累计面积;②当已知μ、σ和X时先按式(3.1)求得u值,再查表,当μ、σ未知且样本含量n足够大时,可用样本均数X和标准差S分别代替μ和σ,按u=(X-)/s式求得u值,再查表;③曲线下对称于0的区间面积相等,如区间(-∞,-1.96)与区间(1.96,
∞)的面积相等,④曲线下横轴上的总面积为100%或1。
正态分布曲线下有三个区间的面积应用较多,应熟记:①标准正态分布时区间(-1,1)或正态分布时区间(μ-1σ,μ+1σ)的面积占总面积的68.27%;②标准正态分布时区间(-1.96,1.96)或正态分布时区间(μ-1.96σ,μ+1.96σ)的面积占总面积的95%;③标准正态分布时区间(-2.58,2.58)或正态分布时区间(μ-2.58σ,μ+2.58σ)的面积占总面积的99%。如图3.2所示。
图3.2 正态曲线与标准正态曲线的面积分布
二 正态分布的应用
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。
1.估计正态分布资料的频数分布
例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;②分别求X±1s、X±1.96s、X±2.58s范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。
本例,μ、σ未知但样本含量n较大,按式(3.1)用样本均数X和标准差S分别代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。
其它计算结果见表3.1。
表3.1 100名18岁男大学生身高的实际分布与理论分布
实际分布 身高范围(cm) 理论分布(%) X±s X±1.96s 164.84~180.56
X±2.58s 162.35~183.05
95 99 95.00 99.00 95.00 99.00
2.制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:
(1)正态分布法:适用于正态或近似正态分布的资料。
双侧界值:±uαS 单侧上界:+uαS ,或单侧下界:-uαS
(2)对数正态分布法:适用于对数正态分布资料。
双侧界值:lg-1(lgx±uαSlgx); 单侧上界:lg-1(lgx+uαSlgx),或单侧下界:lg-1(lgx-uαSlgx)。
常用u值可根据要求由表3.2查出。
(3)百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。
双侧界值:P2.5和P97.5;单侧上界:P95,或单侧下界:P5。
表3.2 常用u值表
参考值范围
(%)
80
90
95
99 单侧 0.842 1.282 1.645 2.326 双侧 1.282 1.645 1.960 2.576
3.正态分布是许多统计方法的理论基础:如t分布、F分布、x2分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分
布原理来处理。
河南大学医学院授课教案首页
预防医学 教研室 教研室主任签名
注:教后记放在讲义最后一页。
基本内容
第三章 离散程度的统计描述指标
第一节 变异指标
描述数值变量资料频数分布的另一主要特征是离散程度,用变异指标表示。只有把集中指标和离散指标结合起来才能全面反映资料的分布特征。常用变异指标有全距、四分位数间距、方差、标准差、变异系数。
1.全距(range,简记为R):亦称极差,是一组同质观察值中最大值与最小值之差。它反映了个体差异的范围,全距大,说明变异度大;反之,全距小,说明变异度小。用全距描述定量资料的变异度大小,虽然计算简单,但不足之处有:①只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度;②样本含量越大,抽到较大或较小观察值的可能性越大,则全距可能越大。因此样本含量相差悬殊时不宜用全距比较。
2.四分位数间距(quartile,简记为Q):为上四分位数QU(即P75)与下四分位数QL(即P25)之差。四分位数间距可看成是中间50%观察值的极差,其数值越大,变异度越大,反之,变异度越小。如例2.7中,已求得QU=P75=35.82小时,QL=P25=15.34小时,则四分位数间距Q= QU-QL==35.82-15.34=20.48(小时)。由于四分位数间距不受两端个别极大值或极小值的影响,因而四分位数间距较全距稳定,但仍未考虑全部观察值的变异度,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。
3.方差(variance):为了全面考虑观察值的变异情况,克服全距和四分位数间距的缺点, 需计算总体中每个观察值X与总体均数μ的差值(X-μ),称之为离均差。由于Σ(X-μ)=0,不能反映变异度的大小,而用离均差平方和
Σ(X-μ)2(sum of squares of deviations from mean)反映之,同时还应考虑观察值个数N的影响,故用式(2.9)即总体方差σ2表示。
∑(X-μ)2
σ= (3.1) N2
在实际工作中,总体均数μ往往是未知的,所以只能用样本均数X作为总体均数μ的估计值,即用∑(X-)代替∑(X-μ),用样本例数n代替N,但再按式(2.9)计算的结果总是比实际σ2小。英国统计学家W.S.Gosset提出用n-1代替n来校正,这就是样本方差s2其公式为:
S222(X-)=n-12 (3.2)
式中的n-1称为自由度( degree of freedom)。
4.标准差(standard deviation):方差的度量单位是原度量单位的平方,将方差开方后与原数据的度量单位相同。标准差大,表示观察值的变异度大;反之,标准差小,表示观察值的变异度小。计算见公式(2.11)和(2.12)。
σ=∑(X-μ)
n2 (3.3)
2
S=(X-)
n-1
2 (3.4) 离均差平方和∑(X-)常用SS或lXX表示。数学上可以证明:
SS=lXX=∑(X-)2=∑X2-(∑X)2
N, 所以,样本标准差的计算公式可写
成:
直接法: S=(X)2∑X- (3.5) 2
加权法: ∑
S=(fX)2fX-f
f-12 (3.6)
5.变异系数(coefficient of variation,简记为CV):常用于比较度量单位不同
或均数相差悬殊的两组或多组资料的变异度。其公式为
CV=
S⨯100% (3.7)
第二节 正态分布及其应用
学时分配:2学时
掌握内容:
1、正态分布的概念、特征和标准正态分布
2、正态分布的应用
一 正态分布的概念和特征
(一)、正态分布的概念
由表1.1的频数表资料所绘制的直方图,图3.1(1)可以看出,高峰位于中部,左右两侧大致对称。我们设想,如果观察例数逐渐增多,组段不断分细,直方图顶端的连线就会逐渐形成一条高峰位于中央(均数所在处),两侧逐渐降低且左右对称,不与横轴相交的光滑曲线图3.1(3)。这条曲线称为频数曲线或频率曲线,近似于数学上的正态分布(normal distribution)。由于频率的总和为100%或1,故该曲线下横轴上的面积为100%或1。
(1) (2)
图3.1 频数分布逐渐接近正态分布示意图 (3)
为了应用方便,常对正态分布变量X作变量变换。
u=X-μ
σ (3.1)
该变换使原来的正态分布转化为标准正态分布 (standard normal distribution),亦称u分布。u被称为标准正态变量或标准正态离差(standard normal deviate)。
(二)、正态分布的特征:
1.正态曲线(normal curve)在横轴上方均数处最高。
2.正态分布以均数为中心,左右对称。
3.正态分布有两个参数,即均数μ和标准差σ。μ是位置参数,当σ固定不变时,μ越大,曲线沿横轴越向右移动;反之,μ越小,则曲线沿横轴越向左移动。σ是形状参数,当μ固定不变时,σ越大,曲线越平阔;σ越小,曲线越尖峭。通常用N(μ,σ2)表示均数为μ,方差为σ2的正态分布。用N(0,1)表示标准正态分布。
4.正态曲线下面积的分布有一定规律。
实际工作中,常需要了解正态曲线下横轴上某一区间的面积占总面积的百分数,以便估计该区间的例数占总例数的百分数(频数分布)或观察值落在该区间的概率。正态曲线下一定区间的面积可以通过附表1求得。对于正态或近似正态分布的资料,已知均数和标准差,就可对其频数分布作出概约估计。
查附表1应注意:①表中曲线下面积为-∞到u的左侧累计面积;②当已知μ、σ和X时先按式(3.1)求得u值,再查表,当μ、σ未知且样本含量n足够大时,可用样本均数X和标准差S分别代替μ和σ,按u=(X-)/s式求得u值,再查表;③曲线下对称于0的区间面积相等,如区间(-∞,-1.96)与区间(1.96,
∞)的面积相等,④曲线下横轴上的总面积为100%或1。
正态分布曲线下有三个区间的面积应用较多,应熟记:①标准正态分布时区间(-1,1)或正态分布时区间(μ-1σ,μ+1σ)的面积占总面积的68.27%;②标准正态分布时区间(-1.96,1.96)或正态分布时区间(μ-1.96σ,μ+1.96σ)的面积占总面积的95%;③标准正态分布时区间(-2.58,2.58)或正态分布时区间(μ-2.58σ,μ+2.58σ)的面积占总面积的99%。如图3.2所示。
图3.2 正态曲线与标准正态曲线的面积分布
二 正态分布的应用
某些医学现象,如同质群体的身高、红细胞数、血红蛋白量、胆固醇等,以及实验中的随机误差,呈现为正态或近似正态分布;有些资料虽为偏态分布,但经数据变换后可成为正态或近似正态分布,故可按正态分布规律处理。
1.估计正态分布资料的频数分布
例1.10 某地1993年抽样调查了100名18岁男大学生身高(cm),其均数=172.70cm,标准差s=4.01cm,①估计该地18岁男大学生身高在168cm以下者占该地18岁男大学生总数的百分数;②分别求X±1s、X±1.96s、X±2.58s范围内18岁男大学生占该地18岁男大学生总数的实际百分数,并与理论百分数比较。
本例,μ、σ未知但样本含量n较大,按式(3.1)用样本均数X和标准差S分别代替μ和σ,求得u值,u=(168-172.70)/4.01=-1.17。查附表标准正态曲线下的面积,在表的左侧找到-1.1,表的上方找到0.07,两者相交处为0.1210=12.10%。该地18岁男大学生身高在168cm以下者,约占总数12.10%。
其它计算结果见表3.1。
表3.1 100名18岁男大学生身高的实际分布与理论分布
实际分布 身高范围(cm) 理论分布(%) X±s X±1.96s 164.84~180.56
X±2.58s 162.35~183.05
95 99 95.00 99.00 95.00 99.00
2.制定医学参考值范围:亦称医学正常值范围。它是指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定正常值范围时,首先要确定一批样本含量足够大的“正常人”,所谓“正常人”不是指“健康人”,而是指排除了影响所研究指标的疾病和有关因素的同质人群;其次需根据研究目的和使用要求选定适当的百分界值,如80%,90%,95%和99%,常用95%;根据指标的实际用途确定单侧或双侧界值,如白细胞计数过高过低皆属不正常须确定双侧界值,又如肝功中转氨酶过高属不正常须确定单侧上界,肺活量过低属不正常须确定单侧下界。另外,还要根据资料的分布特点,选用恰当的计算方法。常用方法有:
(1)正态分布法:适用于正态或近似正态分布的资料。
双侧界值:±uαS 单侧上界:+uαS ,或单侧下界:-uαS
(2)对数正态分布法:适用于对数正态分布资料。
双侧界值:lg-1(lgx±uαSlgx); 单侧上界:lg-1(lgx+uαSlgx),或单侧下界:lg-1(lgx-uαSlgx)。
常用u值可根据要求由表3.2查出。
(3)百分位数法:常用于偏态分布资料以及资料中一端或两端无确切数值的资料。
双侧界值:P2.5和P97.5;单侧上界:P95,或单侧下界:P5。
表3.2 常用u值表
参考值范围
(%)
80
90
95
99 单侧 0.842 1.282 1.645 2.326 双侧 1.282 1.645 1.960 2.576
3.正态分布是许多统计方法的理论基础:如t分布、F分布、x2分布都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础的。此外,t分布、二项分布、Poisson分布的极限为正态分布,在一定条件下,可以按正态分
布原理来处理。