2.3 描述变异程度和分布形态的统计指标

第二章 定量资料的统计描述

三、描述变异程度和分布形态的统计指标

主要内容

n 描述变异程度统计指标

u 极差(range, R )

u 四分位数间距(inter­quartile range)u 方差(variance )

u 标准差(standard deviation)

u 变异系数(coefficient ofvariation, CV )

n 描述分布形态统计指标

u 偏度系数(coefficient ofskewness, SKEW )u 峰度系数(coefficient ofkurtosis, KURT )

n 小结

同一总体中不同个体间存在的差异称为变异(variation )。例2­10 A 组:B 组:C 组:30)

24,27,30,33,36 26,28,30,32,34 26,29,30,31,34

试观察三组数据的离散状况。(均数都是

(一)描述变异程度统计指标

1、极差(range ,R )

R =最大值-最小值

计算简便,但仅利用了两个数据的信息

一般,样本量n 越大R 也往往会越大, 不够稳定

例2­11 计算上述三组数据的极差

A 组 R=36­24=12 B 组 R=34­26=8 C 组 R=34­26=8

2、四分位间距(inter­quartile range,Q )

u Q= P75­P25

P25与P75之间恰好包含50%的个体

u 四分位数间距Q 是总体中数值居中的50%个体散布的范围u Q 越大意味着数据间变异越大

u 常把中位数和四分位数间距结合起来描述变量的平均水平和变异 程度。

例 利用表2­5中的数据,计算50例链球菌咽颊炎患者潜伏期(h )的四分位数间距。

组段 (1)12~ 24~ 36~ 48~ 60~ 72~ 84~ 96~ 108~120 合计

表2­5 50例链球菌咽颊炎患者潜伏期(h )频率分布表

组中值(X 频数(f )频率/% 累计频数(F )0 ) (2)(3)(4)(5)

18 1 2 1 30 7 14 8 42 11 22 19 54 11 22 30 66 7 14 37 78 5 10 42 90 4 8 46 102 2 4 48 114 2 4 50 — 50 — —

累计频率/%

(6)

2 16 38 60 74 84 92 96 100 —

12

) = 40 . 91 P 25  = 36 ( 50 × 25 % - 8 ( h )

11

12

) = 73 . 20 ( h ) P 75  = 72 ( 50 × 75 % - 37

5

四分位数间距Q=73.20­40.91= 32.29(h )

3、方差(variance )

又称均方差(mean square deviation)方差越大意味着数据间变异越大。

总体方差: 样本方差: N

( X - m 2

i

)

s 2 = å i = 1

N

å n

( X - )

2

i

S 2 i = 1

n - 1

2

S

2

X - ( X ) 2

/ n n - 1

、标准差(standard deviation,S )

u 标准差是方差的算术平方根。 u 标准差的量纲与原变量一致。 u 标准差越大意味着个体间变异越大。 u 标准差适合用来表达对称分布的离散趋势。

u 对于对称分布资料,常把均数和标准差结合起来,描述资料的集 中趋势和离散趋势。

4

、变异系数(CV )

应用场合:

(1)量纲不同的变量间变异程度的比较(2)均数差别较大的变量间变异程度的比较

计算公式:CV  =S ´ 100%  5

例 某年通过十省调查得知,农村刚满周岁的女童体重均数 为8.42kg ,标准差为0.98kg ;身高均数为72.4cm ,标准差为 3.0cm 。体重的变异大还是身高的变异大?

S CV  = ´ 100%

S 0 . 98 CV  =´ 100%  = ´ 100 % = 11 . 64 % 体重的变异系数:

8 . 42

S 3 . 0

100%  ´ 100 % = 4 . 14 % 身高的变异系数: CV  = ´ 72 . 4

结果显示,十省农村周岁女童体重的相对变异大于身高的相对变异。

(二)描述分布形态统计指标

用偏度系数和峰度系数来描述分布形态。

1. 偏度系数 (coefficient ofskewness ,SKEW )

3

SKEW = n æ X - ( n - 1 )( n - 2 ) å çö

è S ÷÷ø

其中n S 为样本标准差。u 总体偏度系数为0时,分布是对称分布;

u 取正值时,分布为正偏峰;

u 取负值时,分布为负偏峰。

11

峰度系数(coefficient of kurtosis,KURT )

4 2

KURT = n ( n + 1 ) æ X - ö 3 ( n - )

( n - 1 )( n - 2 )( n - 3 ) å çè S ÷ ÷ ø -1

( n - 2 )( n - 3 )

其中n S 为样本标准差

u 正态分布的总体峰度系数为0;

u 取负值时,其分布较正态分布的峰平阔;

u 取正值时,其分布较正态分布的峰尖峭。

122.

(三)小 结

n 描述变异程度的指标:

u 极差,仅利用2个数据,同时不够稳定。

u 四分位间距,对于偏峰资料,常和中位数结合使用。

u 标准差,是方差算数平方根,对于对称分布资料,常和均数结合 使用。

u 变异系数,用于量纲不同或均数差距过大的指标。

n 描述分布形态指标:

u 偏度系数

u 峰度系数

13

第二章 定量资料的统计描述

三、描述变异程度和分布形态的统计指标

主要内容

n 描述变异程度统计指标

u 极差(range, R )

u 四分位数间距(inter­quartile range)u 方差(variance )

u 标准差(standard deviation)

u 变异系数(coefficient ofvariation, CV )

n 描述分布形态统计指标

u 偏度系数(coefficient ofskewness, SKEW )u 峰度系数(coefficient ofkurtosis, KURT )

n 小结

同一总体中不同个体间存在的差异称为变异(variation )。例2­10 A 组:B 组:C 组:30)

24,27,30,33,36 26,28,30,32,34 26,29,30,31,34

试观察三组数据的离散状况。(均数都是

(一)描述变异程度统计指标

1、极差(range ,R )

R =最大值-最小值

计算简便,但仅利用了两个数据的信息

一般,样本量n 越大R 也往往会越大, 不够稳定

例2­11 计算上述三组数据的极差

A 组 R=36­24=12 B 组 R=34­26=8 C 组 R=34­26=8

2、四分位间距(inter­quartile range,Q )

u Q= P75­P25

P25与P75之间恰好包含50%的个体

u 四分位数间距Q 是总体中数值居中的50%个体散布的范围u Q 越大意味着数据间变异越大

u 常把中位数和四分位数间距结合起来描述变量的平均水平和变异 程度。

例 利用表2­5中的数据,计算50例链球菌咽颊炎患者潜伏期(h )的四分位数间距。

组段 (1)12~ 24~ 36~ 48~ 60~ 72~ 84~ 96~ 108~120 合计

表2­5 50例链球菌咽颊炎患者潜伏期(h )频率分布表

组中值(X 频数(f )频率/% 累计频数(F )0 ) (2)(3)(4)(5)

18 1 2 1 30 7 14 8 42 11 22 19 54 11 22 30 66 7 14 37 78 5 10 42 90 4 8 46 102 2 4 48 114 2 4 50 — 50 — —

累计频率/%

(6)

2 16 38 60 74 84 92 96 100 —

12

) = 40 . 91 P 25  = 36 ( 50 × 25 % - 8 ( h )

11

12

) = 73 . 20 ( h ) P 75  = 72 ( 50 × 75 % - 37

5

四分位数间距Q=73.20­40.91= 32.29(h )

3、方差(variance )

又称均方差(mean square deviation)方差越大意味着数据间变异越大。

总体方差: 样本方差: N

( X - m 2

i

)

s 2 = å i = 1

N

å n

( X - )

2

i

S 2 i = 1

n - 1

2

S

2

X - ( X ) 2

/ n n - 1

、标准差(standard deviation,S )

u 标准差是方差的算术平方根。 u 标准差的量纲与原变量一致。 u 标准差越大意味着个体间变异越大。 u 标准差适合用来表达对称分布的离散趋势。

u 对于对称分布资料,常把均数和标准差结合起来,描述资料的集 中趋势和离散趋势。

4

、变异系数(CV )

应用场合:

(1)量纲不同的变量间变异程度的比较(2)均数差别较大的变量间变异程度的比较

计算公式:CV  =S ´ 100%  5

例 某年通过十省调查得知,农村刚满周岁的女童体重均数 为8.42kg ,标准差为0.98kg ;身高均数为72.4cm ,标准差为 3.0cm 。体重的变异大还是身高的变异大?

S CV  = ´ 100%

S 0 . 98 CV  =´ 100%  = ´ 100 % = 11 . 64 % 体重的变异系数:

8 . 42

S 3 . 0

100%  ´ 100 % = 4 . 14 % 身高的变异系数: CV  = ´ 72 . 4

结果显示,十省农村周岁女童体重的相对变异大于身高的相对变异。

(二)描述分布形态统计指标

用偏度系数和峰度系数来描述分布形态。

1. 偏度系数 (coefficient ofskewness ,SKEW )

3

SKEW = n æ X - ( n - 1 )( n - 2 ) å çö

è S ÷÷ø

其中n S 为样本标准差。u 总体偏度系数为0时,分布是对称分布;

u 取正值时,分布为正偏峰;

u 取负值时,分布为负偏峰。

11

峰度系数(coefficient of kurtosis,KURT )

4 2

KURT = n ( n + 1 ) æ X - ö 3 ( n - )

( n - 1 )( n - 2 )( n - 3 ) å çè S ÷ ÷ ø -1

( n - 2 )( n - 3 )

其中n S 为样本标准差

u 正态分布的总体峰度系数为0;

u 取负值时,其分布较正态分布的峰平阔;

u 取正值时,其分布较正态分布的峰尖峭。

122.

(三)小 结

n 描述变异程度的指标:

u 极差,仅利用2个数据,同时不够稳定。

u 四分位间距,对于偏峰资料,常和中位数结合使用。

u 标准差,是方差算数平方根,对于对称分布资料,常和均数结合 使用。

u 变异系数,用于量纲不同或均数差距过大的指标。

n 描述分布形态指标:

u 偏度系数

u 峰度系数

13


相关内容

  • 一.统计数据的收集与整理
  • 第一章统计数据的收集与整理 1.1 算术平均数是怎样计算的?为什么要计算平均数? 答:算数平均数由下式计算:是说是样本数据的代表. ,含义为将全部观测值相加再被观测值的 个数除,所得之商称为算术平均数.计算算数平均数的目的,是用平均数表示样本数据的集中点,或 1.2 既然方差和标准差都是衡量数据变异 ...

  • 卫生统计学
  • 集中趋势的描述-算术均数 □算术均数(arithmetic mean, mean,μ) X1 + X 2 + L + X n X= = n ∑X i =1 n i n □加权均数(weighted mean) X = ∑wi Xi i=1 n 均数是加权均数的一个特例 集中趋势的描述-几何均数 □几 ...

  • GIS课件第10章 空间统计分析
  • 第10章 空间统计分析 统计分析是空间分析的主要手段,贯穿于空间分析的各个主要环节.空间统计分析方法不仅仅限于常规统计方法,还包括利用空间位置的空间自相关分析.本章主要介绍常用统计量.数据特征分析(即探索性数据分析).分级统计分析.空间插值和空间回归分析五方面内容. 10.1概述 10.1.1基本概 ...

  • 输气管道初勘穿跨越模版
  • 目 录 1.前言 ............................................................................................................ 3 1.1 拟建工程概况 ................... ...

  • 22-科学实验的一般原理和方法
  • 第十二章 科学实验的一般原理和方法 第一节 实验课题的选择和实验设计 [知识概要] 一.实验的意义 生命科学是一门以实验为基础的科学.在探索生命的过程中,揭开生命奥秘的主要方法是通过观察和科学实验.它不仅是探索和发现的源泉,也是学习生命科学的基本方法,对发展智力.培养获取知识的能力是十分重要的. 二 ...

  • 卫生统计学 名词解释
  • 一.名词解释 计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data).计量资料亦称定量资料.测量资料..其变量值是定量的,表现为数值大小,一般有度量衡单位. 计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(coun ...

  • 心理统计学
  • 心理统计学重难点考点归纳整理 一.描述统计 (一)统计图表 1)统计图 次数分布图: ①直方图:用以矩阵的面积表示连续性随即变量次数分布的图形. ②次数多边形图:一种表示连续性随机变量次数分布的线形图,属于次数分布图. ③累加次数分布图:分为:累加直方图和累加曲线图: 其中累加曲线的形状大约有三种: ...

  • [孙振球第三版]医学统计学复习题(整理版)
  • 1.总体:根据研究目的确定的同质观察单位的全体.是同质所有(2)多分类:各类间互不相容.24.无序分类变量资料:计数资观察单位的某种变量值的集合.2.有限总体:是指空间.时间范料,又称定性资料.是将观察单位按照某种属性或类别分组计数,围限制的总体.3.无限总体:是指没有空间.时间限制的总体.分组汇总 ...

  • 卫生统计学试卷B
  • 卫生统计学试卷 1. 某研究属于观察性研究抑或试验性研究是根据确定的.A A. 是否给予研究对象干预措施 B. 是否遵循随机化原则 C. 研究者的工作属性 D. 研究对象所提供的信息 E. 在现场工作,还是在实验室工作 2. 为了反映某地区五年期间鼻咽癌死亡病例的年龄分布,可采用( C A. 普通线 ...