第二章 定量资料的统计描述
三、描述变异程度和分布形态的统计指标
主要内容
n 描述变异程度统计指标
u 极差(range, R )
u 四分位数间距(interquartile range)u 方差(variance )
u 标准差(standard deviation)
u 变异系数(coefficient ofvariation, CV )
n 描述分布形态统计指标
u 偏度系数(coefficient ofskewness, SKEW )u 峰度系数(coefficient ofkurtosis, KURT )
n 小结
同一总体中不同个体间存在的差异称为变异(variation )。例210 A 组:B 组:C 组:30)
24,27,30,33,36 26,28,30,32,34 26,29,30,31,34
试观察三组数据的离散状况。(均数都是
(一)描述变异程度统计指标
1、极差(range ,R )
R =最大值-最小值
计算简便,但仅利用了两个数据的信息
一般,样本量n 越大R 也往往会越大, 不够稳定
例211 计算上述三组数据的极差
A 组 R=3624=12 B 组 R=3426=8 C 组 R=3426=8
2、四分位间距(interquartile range,Q )
u Q= P75P25
P25与P75之间恰好包含50%的个体
u 四分位数间距Q 是总体中数值居中的50%个体散布的范围u Q 越大意味着数据间变异越大
u 常把中位数和四分位数间距结合起来描述变量的平均水平和变异 程度。
例 利用表25中的数据,计算50例链球菌咽颊炎患者潜伏期(h )的四分位数间距。
组段 (1)12~ 24~ 36~ 48~ 60~ 72~ 84~ 96~ 108~120 合计
表25 50例链球菌咽颊炎患者潜伏期(h )频率分布表
组中值(X 频数(f )频率/% 累计频数(F )0 ) (2)(3)(4)(5)
18 1 2 1 30 7 14 8 42 11 22 19 54 11 22 30 66 7 14 37 78 5 10 42 90 4 8 46 102 2 4 48 114 2 4 50 — 50 — —
累计频率/%
(6)
2 16 38 60 74 84 92 96 100 —
12
) = 40 . 91 P 25 = 36 ( 50 × 25 % - 8 ( h )
11
12
) = 73 . 20 ( h ) P 75 = 72 ( 50 × 75 % - 37
5
四分位数间距Q=73.2040.91= 32.29(h )
3、方差(variance )
又称均方差(mean square deviation)方差越大意味着数据间变异越大。
总体方差: 样本方差: N
( X - m 2
i
)
s 2 = å i = 1
N
å n
( X - )
2
i
S 2 i = 1
n - 1
2
S
2
X - ( X ) 2
/ n n - 1
或
、标准差(standard deviation,S )
u 标准差是方差的算术平方根。 u 标准差的量纲与原变量一致。 u 标准差越大意味着个体间变异越大。 u 标准差适合用来表达对称分布的离散趋势。
u 对于对称分布资料,常把均数和标准差结合起来,描述资料的集 中趋势和离散趋势。
4
、变异系数(CV )
应用场合:
(1)量纲不同的变量间变异程度的比较(2)均数差别较大的变量间变异程度的比较
计算公式:CV =S ´ 100% 5
例 某年通过十省调查得知,农村刚满周岁的女童体重均数 为8.42kg ,标准差为0.98kg ;身高均数为72.4cm ,标准差为 3.0cm 。体重的变异大还是身高的变异大?
S CV = ´ 100%
S 0 . 98 CV =´ 100% = ´ 100 % = 11 . 64 % 体重的变异系数:
8 . 42
S 3 . 0
100% ´ 100 % = 4 . 14 % 身高的变异系数: CV = ´ 72 . 4
结果显示,十省农村周岁女童体重的相对变异大于身高的相对变异。
(二)描述分布形态统计指标
用偏度系数和峰度系数来描述分布形态。
1. 偏度系数 (coefficient ofskewness ,SKEW )
3
SKEW = n æ X - ( n - 1 )( n - 2 ) å çö
è S ÷÷ø
其中n S 为样本标准差。u 总体偏度系数为0时,分布是对称分布;
u 取正值时,分布为正偏峰;
u 取负值时,分布为负偏峰。
11
峰度系数(coefficient of kurtosis,KURT )
4 2
KURT = n ( n + 1 ) æ X - ö 3 ( n - )
( n - 1 )( n - 2 )( n - 3 ) å çè S ÷ ÷ ø -1
( n - 2 )( n - 3 )
其中n S 为样本标准差
u 正态分布的总体峰度系数为0;
u 取负值时,其分布较正态分布的峰平阔;
u 取正值时,其分布较正态分布的峰尖峭。
122.
(三)小 结
n 描述变异程度的指标:
u 极差,仅利用2个数据,同时不够稳定。
u 四分位间距,对于偏峰资料,常和中位数结合使用。
u 标准差,是方差算数平方根,对于对称分布资料,常和均数结合 使用。
u 变异系数,用于量纲不同或均数差距过大的指标。
n 描述分布形态指标:
u 偏度系数
u 峰度系数
13
第二章 定量资料的统计描述
三、描述变异程度和分布形态的统计指标
主要内容
n 描述变异程度统计指标
u 极差(range, R )
u 四分位数间距(interquartile range)u 方差(variance )
u 标准差(standard deviation)
u 变异系数(coefficient ofvariation, CV )
n 描述分布形态统计指标
u 偏度系数(coefficient ofskewness, SKEW )u 峰度系数(coefficient ofkurtosis, KURT )
n 小结
同一总体中不同个体间存在的差异称为变异(variation )。例210 A 组:B 组:C 组:30)
24,27,30,33,36 26,28,30,32,34 26,29,30,31,34
试观察三组数据的离散状况。(均数都是
(一)描述变异程度统计指标
1、极差(range ,R )
R =最大值-最小值
计算简便,但仅利用了两个数据的信息
一般,样本量n 越大R 也往往会越大, 不够稳定
例211 计算上述三组数据的极差
A 组 R=3624=12 B 组 R=3426=8 C 组 R=3426=8
2、四分位间距(interquartile range,Q )
u Q= P75P25
P25与P75之间恰好包含50%的个体
u 四分位数间距Q 是总体中数值居中的50%个体散布的范围u Q 越大意味着数据间变异越大
u 常把中位数和四分位数间距结合起来描述变量的平均水平和变异 程度。
例 利用表25中的数据,计算50例链球菌咽颊炎患者潜伏期(h )的四分位数间距。
组段 (1)12~ 24~ 36~ 48~ 60~ 72~ 84~ 96~ 108~120 合计
表25 50例链球菌咽颊炎患者潜伏期(h )频率分布表
组中值(X 频数(f )频率/% 累计频数(F )0 ) (2)(3)(4)(5)
18 1 2 1 30 7 14 8 42 11 22 19 54 11 22 30 66 7 14 37 78 5 10 42 90 4 8 46 102 2 4 48 114 2 4 50 — 50 — —
累计频率/%
(6)
2 16 38 60 74 84 92 96 100 —
12
) = 40 . 91 P 25 = 36 ( 50 × 25 % - 8 ( h )
11
12
) = 73 . 20 ( h ) P 75 = 72 ( 50 × 75 % - 37
5
四分位数间距Q=73.2040.91= 32.29(h )
3、方差(variance )
又称均方差(mean square deviation)方差越大意味着数据间变异越大。
总体方差: 样本方差: N
( X - m 2
i
)
s 2 = å i = 1
N
å n
( X - )
2
i
S 2 i = 1
n - 1
2
S
2
X - ( X ) 2
/ n n - 1
或
、标准差(standard deviation,S )
u 标准差是方差的算术平方根。 u 标准差的量纲与原变量一致。 u 标准差越大意味着个体间变异越大。 u 标准差适合用来表达对称分布的离散趋势。
u 对于对称分布资料,常把均数和标准差结合起来,描述资料的集 中趋势和离散趋势。
4
、变异系数(CV )
应用场合:
(1)量纲不同的变量间变异程度的比较(2)均数差别较大的变量间变异程度的比较
计算公式:CV =S ´ 100% 5
例 某年通过十省调查得知,农村刚满周岁的女童体重均数 为8.42kg ,标准差为0.98kg ;身高均数为72.4cm ,标准差为 3.0cm 。体重的变异大还是身高的变异大?
S CV = ´ 100%
S 0 . 98 CV =´ 100% = ´ 100 % = 11 . 64 % 体重的变异系数:
8 . 42
S 3 . 0
100% ´ 100 % = 4 . 14 % 身高的变异系数: CV = ´ 72 . 4
结果显示,十省农村周岁女童体重的相对变异大于身高的相对变异。
(二)描述分布形态统计指标
用偏度系数和峰度系数来描述分布形态。
1. 偏度系数 (coefficient ofskewness ,SKEW )
3
SKEW = n æ X - ( n - 1 )( n - 2 ) å çö
è S ÷÷ø
其中n S 为样本标准差。u 总体偏度系数为0时,分布是对称分布;
u 取正值时,分布为正偏峰;
u 取负值时,分布为负偏峰。
11
峰度系数(coefficient of kurtosis,KURT )
4 2
KURT = n ( n + 1 ) æ X - ö 3 ( n - )
( n - 1 )( n - 2 )( n - 3 ) å çè S ÷ ÷ ø -1
( n - 2 )( n - 3 )
其中n S 为样本标准差
u 正态分布的总体峰度系数为0;
u 取负值时,其分布较正态分布的峰平阔;
u 取正值时,其分布较正态分布的峰尖峭。
122.
(三)小 结
n 描述变异程度的指标:
u 极差,仅利用2个数据,同时不够稳定。
u 四分位间距,对于偏峰资料,常和中位数结合使用。
u 标准差,是方差算数平方根,对于对称分布资料,常和均数结合 使用。
u 变异系数,用于量纲不同或均数差距过大的指标。
n 描述分布形态指标:
u 偏度系数
u 峰度系数
13