流行病学的常用指标

流行病学的常用指标

⏹ 疾病发病频率测量指标 ● 发病率(incidence rate) ● 罹患率(attack rate) ● 患病率(prevalence rate) ● 感染率(infection rate)

● 续发率(secondary attack rate,SAR) ● 病残率(disablility rate) ● 生存率(survival rate)

发病率(incidence rate):表示在一定期间内,一定人群中某病新病例出现的频率,是用来衡量某时期一个地区人群发生某病的危险性大小的指标。

一定期间内某人群中某病新病例数 发病率=------------------------------- ×K 同期暴露人口数

K=( 100%,1000/千,或10000/万)。

发病率的准确性取决于疾病报告,登记制度以及诊断的正确

● 计算发病率时,要考虑的几个因素: ◆ 发病时间 在观察期内。

◆ 观察时间 观察时间多以年表示。

◆ 暴露人口数 指可能会发生该病的人群。

◆ 新发病例数 分子是一定期间的新发病例,若在观察期间内一个人可多次患病时,则

应分别计为新发病例数,如腹泻,流感等。

发病率可按不同特征(如年龄、性别、职业、民族等)分别计算,此即发病专率。

● 罹患率(attack rate):与发病率一样,也是测量新发病例的指标。 观察期间的新病例 罹患率= ------------------------ ×100 同期暴露人口数

常用于较小范围或短期间的疾病流行。观察时间可以日、周、旬、月为单位。适用于局部地区疾病的爆发,食物中毒、传染病及职业中毒等爆发流行情况。其优点是可以根据暴露程度精确的测量发病机率。

● 患病率(prevalence rate):也称现患率。指某特定时间内总人口中某病新旧病例所

占比例。 可按观察时间的不同分为期间患病率和时点患病率。

某一时点一定人群中现患某病新旧病例数 时点患病率=------------------------------------- ×K 该时点人口数

某观察期间一定人群中现患某病新旧病例数 期间患病率=------------------------------------- ×K 同期的平均人口数 K= 100%,1000/千,或10000/万等

期间患病率实际上等于某一特定期间开始时患病率加上该期间内的发病率。 患病率升高或降低的原因: 影响升高的因素: ①病程延长,

②未治愈者的寿命延长, ③新病例增加(即发病率增), ④病例迁入, ⑤健康者迁出, ⑥易感者迁入, ⑦诊断水平提高, ⑧报告率提高。

影响降低的因素: ①病程缩短, ②病死率高,

③新病例减少(发病率下降), ④健康者迁入, ⑤病例迁出, ⑥治愈率提高

● 感染率(infection rate):是指在某个时间内能检查的整个人群样本中,某病现有感

染者人数所占的比例。

调查时某病感染人数 感染率= ----------------------×100% 调查时受检人数

感染率常用于研究某些或寄生虫病的感染情况和分析防治工作的效果,估计某病的流行势态,为制定防治措施提供依据。特别是对隐性感染、病原携带及轻型和不典型病例的调查较为有用。如乙型肝炎、乙型脑炎、脊髓灰质炎、结核、寄生虫等。

● 续发率(secondary attack rate,SAR):指在某些传染病最短潜伏期到最长潜伏期

之间,易感接触者中发病的人数占所有易感接触者总数的百分率。

一个潜伏期内易感接触者中发病人数 续发率= ----------------------------------×100% 易感接触者总人数

多指在一个家庭内、病房、集体宿舍、托儿所、幼儿园班组中第一个病例发生后,在该病最短与最长潜伏期之间出现的病例称续发病例。也称二代病例。 计算时,须将原发病例从分子及分母中去除。对那些在同一家庭中来自家庭外感染或短于最短潜伏期、或长于最长潜伏期者均不应计入原发病例。 续发率可以用于比较传染病传染力的强弱,用于分析传染病流行因素,包括不同条件对传染病传播的影响(如年龄、性别、家庭中儿童数、家庭人口数、经济条件等)及评价卫生防疫措施的效果(如对免疫接种、隔离、消毒等措施的评价)。

● 病残率(disablility rate): 某一人群中,在一定期间内每百(或千、万、十万)人中

实际存在的病残人数。是指通过调查询问或健康调查,确诊的病残人数与调查人数之比。

病残人数

病残率= ----------------------×K

调查人数

( K= 100%,1000/千,或10000/万,等)

病残率可以说明病残在人群中发生的频率,是作为人群健康状况的评价指标之一。

⏹ 疾病死亡频率测量指标: ● 死亡率(mortality rate) ● 病死率(fatality rate) ● 生存率(survival rate)

● 死亡率(mortality rate): 是某人群在一定期间(一般为一年)的死亡人数与该人群

同期人口数之比。表示在一定时期内,死于某病(或死于所有原因)的频率。

某人群某年总死亡人数 粗死亡率= --------------------------------×K 该人群同年平均人口数

某期间内(因某病)死亡总数 死亡专率=---------------------------------×K 同期平均人口数

( K= 100%,1000/千,或10000/万,等)

死亡率是测量人群死亡危险性大小最常用的指标。

● 病死率(fatality rate): 表示在一定时间内(通常为1年),患某病的病人中因该病而

死亡者的比例。

某时期内因某病死亡人数

病死率= ---------------------------×100% 同期确认的某病病例数

病死率表示某病确诊后发生死亡的概率,它受疾病的严重程度、早期诊断和治疗水平的影响。

● 生存率(survival rate): 指在接受某种治疗的病人或患某病的人中,经若干年随访

(通常为1,3,5年)后,尚存活的病人数所占的比例。

随访满n年尚存活的病例数 生存率= ----------------------------×100% 随访满n年的病例数

生存率反应了疾病对生命的危害程度,也是考核治疗措施效果的指标。

● 率和比

①率(rate):指在某一确定人群中某些事件发生的频率。一个率由分子(发生数)、分母(可能发生的总数)、事件发生的特定时间和乘数组成。大多数率是构成比。

②比(ratio):是两个变量的数值之商,表示分子和分母之间的数量关系。 ③比例(proportion):是表示同一事物局部与总体之间数量上的比值,分子和分母的单位相同,而且分子包含与分母之中。常用 P= a/a+b表示。有两类,一、反映事物静止状态内

部构成成分占全体的比重,也称构成比例,二、与动态的发生变化概率密切相关的发生频率比例,它反映一定时间内,发生某种变化者占全体的比例。

率与比的区别

◆ 率

◆ 分子是分母的一部分,分子和分母代表的应该是同一人群;

◆ 如果分子被限定在某一年龄、性别或种族组内,分母也应该有同样的限定; ◆ 可以取任何值,是反映动态过程的一个参数。 ◆ 比

◆ 不管分子和分母所来自的总体如何 ;可以是两个彼此分离的互不相重叠或包含的

量 ;

◆ 分子和分母本身可以是绝对数,也可以是率、比例或比 ;

◆ 构成比取值仅在0到1之间,是变量在一定期间内发生变化的概率 ⏹ 疾病残疾失能指标:

● 潜在减寿年数(potential years of life lost, PYLL) ● 伤残调整寿命年

潜在减寿年数(potential years of life lost, PYLL):是指某病某年龄组人群死亡者的期望寿命与实际死亡年龄之差的总和。即死亡所造成的寿命损失。

潜在减寿年数是评价人群健康水平的一个重要指标;也是评价人群健康水平的一个重要指标;可以用于衡量某种死因对一定年龄组人群的危害程度。可以反映出对各年龄组人群的危害大小。

● 伤残调整寿命年(disability adjusted life year, DALY):是指从发病到死亡所损失的全

部健康寿命年,包括因早死所致的寿命损失年(YLL)和疾病所致伤残引起的健康寿命损失年(YLD)两部分。DALY是生命数量和生命质量以时间为单位的综合度量。

DALY是一个定量的计算因各种疾病造成的早死与残疾对健康寿命年损失的综合指标。是将由于早死(实际死亡年数与低死亡人群中该年龄的预期寿命之差)造成的损失和因伤残造成的健康损失二者结合起来加以测算的。

流行病学是从宏观的高度和群体的角度来认识疾病和健康状况的分布及其机制,研究制定防治对策及评价其效果。DALY的出现是疾病经济负担研究的划时代变化,在1980年以前,DALY的概念还没有提出,疾病负担的评价指标主要是传统指标。随着医学模式的转变,传统的指标越来越不适应现代医学模式的要求,1988年,为了量化失去健康生命的全部损失,哈佛大学和世界卫生组织的专家进行了DALY的研究,并成功地应用于GDB的分析。DALY是目前应用最多的、最具代表性的疾病经济负担评价和测量指标。 表示流行强度的术语有: 散发(sporadic) 暴发(outbreak) 流行(epidemic) 大流行(pandemic

⏹ 散发(sporadic):是指某病在一定地区的发病率呈历年来一般水平,各病例间在发

病时间和地点方面无明显联系,表现为散在发生。

确定某病在某地区是否属于散发,应参照当地前3年该病的发病率,如当年发病率未显著超过既往一般发病率,则称为散发。不同病种、不同时期散发水平不同。

一般多用于区、县以上范围,不适于小范围的人群,如一个托儿所、工厂和学校等。 疾病分布呈散发形式的主要原因:

①该病常年流行,人群有一定免疫力或因疫苗接种维持着人群的免疫水平,如麻疹。 ②隐性感染为主的,如脊髓灰质炎、病毒性肝炎等。 ③传播机制难以实现的传染病,如流行性回归热。 ④潜伏期较长的传染病,如麻风病、炭疽。

⏹ 暴发(outbreak)是指在局限的区域范围或集体单位中,短时间内突然发生很多相同的

病人,病人之间有相同的传染源或传播途径。如食物中毒、托幼机构的麻疹,流脑等容易发生暴发。

暴发的几个类型:

①点源暴发 易感人群在一个相同的短时间内暴露于共同的传播因素而引起的流行。 ②重复暴露同源暴发 易感人群在一定期间内重复(多次)暴露于共同的传播因素而引起的流行,流行曲线呈多峰或不规则型。

③蔓延暴发 是指通过宿主间传播或人传人所引起的流行。

⏹ 流行(epidemic):流行是指一个地区某病发病率明显超过历年的散发发病率水平称

为流行。流行与散发是相对的,各地应根据不同时期、不同病种等作出判断。

有时在实际工作中用暴发流行一词。它表示在一个地区某病病例突然大量增多,发病率常超过一般流行的发病率水平,来势较迅猛,流行持续时间往往超过该病的最长潜伏期。这个词仅仅是实际工作中使用的,它和流行病学中的暴发之词不同。 有些传染病隐性感染占大多数。当它流行时临床症状明显病例可能不多,而实际感染率却很高,这种现象称为隐性流行。如流行性乙型脑炎和脊髓灰质炎常具有这种现象。

⏹ 大流行(pandemic):大流行即疾病蔓延迅速,涉及地域广,往往在比较短的期间内

越过省界、国界、甚至洲界,而形成大流行。如流行性感冒、霍乱,历史上曾发生过多次世界性流行。当前艾滋病的流行也是呈世界性的。

筛检(screening):是在大量人群中通过快速的试验和其他方法,从外表健康的人群

中查出某病的可疑患者的一种预防性措施。

筛检不是诊断试验,它是把健康人和病人(疑似病人、有缺陷的人)区别开来的方法,它仅是初步检查,是早期发现病人的一种方法。对筛检试验阳性还应进一步确诊。

对某种疾病来说,在一般人群中包括三种人,一种是无该病的健康人,一种是可疑有该病但实际无该病的人,一种是有该病的人,这三种人混杂存在。

筛检的工作即是将健康人与其他两类人区别开来。然后用更完善的诊断方法,将可疑患该病但实际无该病的人与实际患该病的人区别开来。第三步为对有该病的人进行治疗,使之恢复。因此,筛检是第一步,诊断试验是第二步,治疗是第三步。

筛检试验评价

筛检的评价指标: 1.真实性(validity),亦称效度,指测量值与实际值相符合的程度,故又称准确性(accuracy)。 用于评价真实性的指标有:灵敏度与假阴性率、特异度与假阳性率、正确指数、似然比和符合率。

①灵敏度与假阴性率 灵敏度(sensitivity),又称真阳性率(true positive rate),即实际有病而按该筛检试验的标准被正确地判为有病的百分比。它反映了筛检试验发现病人的能力。

A

灵敏度=⨯100% A+C

假阴性率(false negative rate),又称漏诊率,指实际有病,根据筛检试验被确定为无病的百分比。它反映的是筛检试验漏诊病人的情况。

C

假阴性率=⨯100% A+C灵敏度与假阴性率之间为互补关系: 灵敏度 = 1 - 假阴性率

即灵敏度越高,假阴性率越低,反之亦然。 特异度与假阳性率 特异度(specificity),又称真阴性率(true negative rate),即实际无病按该诊断标准被正确地判为无病的百分比。它反映了筛检试验确定非病人的能力。

D

特异度=⨯100%

B+D假阳性率(false positive rate),又称误诊率,即实际无病,但根据筛检被判为有病的百分比。

假阳性率=⨯100%

B+D

特异度与假阳性率之间为互补关系: 特异度 = 1 - 假阳性率

即特异度越高,假阳性率越低,反之亦然。 正确指数

正确指数也称约登指数(Youden’s index),是灵敏度与特异度之和减去1,表示筛检方法发现真正病人与非病人的总能力。正确指数的范围在0~1之间。指数越大,其真实性越高。 正确指数 = (灵敏度 + 特异度) – 1 = 1 – (假阴性 + 假阳性) 似然比(likelihood ratio, LR)

属于同时反映灵敏度和特异度的复合指标,即有病者中得出某一筛检试验结果的概率与无病者得出这一概率的比值。

全面反映了筛检试验的诊断价值,非常稳定。它的计算只涉及灵敏度与特异度,不受患病率的影响。

检验结果有阳性与阴性之分,故似然比相应地区分为: 阳性似然比(positive likelihood ratio, +LR) 阴性似然比(negative likelihood ratio, -LR)

阳性似然比是筛检结果的真阳性率与假阳性率之比。该指标反映了筛检试验正确判断阳性的

可能性是错误判断阳性可能性的倍数。比值越大,试验结果阳性时为真阳性的概率越大。 真阳性率灵敏度

+LR== 假阳性率1-特异度

阴性似然比是筛检结果的假阴性率与真阴性率之比。该指标表示错误判断阴性的可能性是正确判断阴性可能性的倍数。比值越小,试验结果阴性时为真阴性的可能性越大。 假阴性率1-灵敏度

-LR== 真阴性率特异度阳性似然比越大,筛检试验的诊断价值越高;阴性似然比越小,筛检试验的诊断价值也越高。因此,在选择筛检试验时应选择阳性似然比高的方法。

人群某病患病状况与筛检结果的关系

165特异度=⨯100%=90.1%

⨯100%=78.6% 灵敏度=80+730

165+45

8045 假阴性率=假阳性率==9.9%⨯100%=21.4%

165+45 80+730

78.6%

阳性似然比==7.94

9.9%正确指数=78.6%+90.1%-1=0.69

21.4%阴性似然比==0.24

90.1%

可靠性(reliability)

也称信度、精确度(precision)或可重复性(repeata -bility),是指在相同条件下用某测量工具(如筛检试验)重复测量同一受试者时获得相同结果的稳定程度。

评价筛检试验可靠性的方法和指标有下面一些方法:

①标准差和变异系数 当某试验是做定量测定时,可用标准差和变异系数(coefficient variance, CV)来表示可靠性。标准差和变异系数的值越小,表示可重复性越好,精密度越高。反之,可重复性就越差,精密度越低。变异系数为标准差与算术均数之比。 变异系数(CV) =(标准差/算术均数)×100% 符合率(agreement rate, consistency rate)与Kappa值

符合率又称一致率,是筛检试验判定的结果与标准诊断的结果相同的数占总受检人数的比例。符合率可用于比较两个医师筛检诊断同一组病人,或同一医师两次筛检诊断同一组病人的结果。

A+D

一致率=⨯100% A+B+C+D

影响筛检试验可靠性的因素有:

①受试对象生物学变异 由于个体生物周期等生物学变异,使得同一受试对象在不同时间获得的临床测量值有所波动。例如,血压在一天内不同时间的测量值存在变异。

②观察者 由于测量者之间、同一测量者在不同时间的技术水平不一,认真程度不同,生物学感觉差异,预期偏倚等均可导致重复测量的结果不一致。例如,血压测量者的不一致性,X线读片与化验结果判断的不一致性等。

③实验室条件 重复测量时,测量仪器不稳定,试验方法本身不稳定,不同厂家、同一厂家生产的不同批号的试剂盒的纯度、有效成份的含量、试剂的稳定性等均有不同,由此可能引起测量误差。

预测值(predictive value)

预测值是反映应用筛检结果来估计受检者患病和不患病可能性的大小的指标。根据筛检的阳性与阴性结果进行的估计分别称为阳性预测值和阴性预测值。

①阳性预测值(positive predictive value, PPV) 是指筛检试验阳性者患目标疾病的可能性。

A

阳性预测值=⨯100%

A+B

阴性预测值(negative predictive value, NPV) 是指筛检试验阴性者不患目标疾病的可能性。

D

阴性预测值=⨯100%

C+D

筛检试验的灵敏度越高,阴性预测值越高; 筛检试验的特异度越高,阳性预测值越高。

预测值还与受检人群目标疾病患病率(P)的高低密切相关 :

阳性预测值=

灵敏度⨯患病率

灵敏度⨯患病率+(1-患病率)(1-特异度)

特异度⨯(1-患病率)

特异度⨯(1-患病率)+(1-灵敏度)⨯患病率

阴性预测值=

人群在不同患病率、灵敏度与特异度的情况下,阳性预测值与阴性预测值的变化。 当灵敏度与特异度一定,疾病患病率降低时,阳性预测值降低,阴性预测值升高; 当患病率不变,降低灵敏度,特异度将提高,此时阳性预测值将升高,阴性预测值将下降。

卫生统计学常用指标分析与图表制作

⏹ 总体:是根据研究目的确定的同质研究对象的全体。按研究对象来源又分目标总体

和研究总体。

⏹ 样本:是指从研究总体中抽取的一部分有代表性的个体。

⏹ 同质是指同一总体中个体的性质、影响条件和背景相同或非常相近;

⏹ 变异是指同质的个体之间存在的差异。 ⏹ 变量:每个观察单位的某项特征

⏹ 资料:对变量的测得值称为变量值或观察值,亦称为资料

资料的两种类型

连续

离散

定性资料(分类资料) 无序 二项分类

多项分类

有序(等级资料)

根据变量取值特点,计量资料分为:

⏹ 连续性资料:变量值可以在实数轴上连续变动。如年龄、身高、体重。 ⏹ 离散型资料:变量取值能一一列举。只能取整数 。如毒性试验小鼠死亡只

数。

⏹ 习题:

⏹ 某人记录了50名病人体重的测定结果:小于50kg的13人,介于50kg和70kg间

的20人,大于70kg的17人,此种资料属于:

A:定量资料 B:分类资料 C:有序资料D:二分类资料 E:名义变量资料

概率

⏹ 概率是描述随机事件发生的可能性大小的数值,用P表示。

⏹ 随机事件概率的大小在0和1之间,即0≤P ≤1,常用小数或百分数表示。

⏹ P越接近1,表示某事件发生的可能性越大,P越接近0,表示某事件发生的可能性

越小。

⏹ P ≤0.05,称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,

可以视为很可能不发生。

二、统计分析的内容

统计描述

统计推断:包括参数估计和假设检验

统计资料的描述

⏹ 列表描述:频数分布表、一览表…… ⏹ 图形描述:频数分布图、趋势图…… ⏹ 指标描述

⏹ 定量资料

集中位置:算术均数、几何均数、中位数

离散程度:极差、四分位数间距、方差、标准差、变异系数

⏹ 相对数指标:率、构成比、比

集中趋势的描述

⏹ 广义的平均数包含各种表示数据分布集中位置的指标。 ⏹ 卫生领域最常用的三种平均数指标: 算术均数、几何均数、中位数 定量资料的集中趋势指标

算术平均数

算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数。 算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。 (一)直接法

主要用于样本含量n≤30以下、未经分组资料平均数的计算。

设某一资料包含n个观测值: x1、x2、…、xn, 则样本平均数可通过下式计算: n

i

12ni=1

其中,Σ为总和符号; 表示从第一个观测值x1累加到第n个观测值xn。当 在意义上已明确时,可简写为Σx,(3-1)式可改写为:

x

=

n

加权法

对于样本含量 n≥30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:

k

fixi

fx f 1 x 1 + f 2 x 2 + + f k x k i=1

==k=

f1+f2+ +fkf

f ii=1

式中: —第i组的组中值;

—第i组的次数; —分组数

第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量,因此将fi 称为是xi的“权”,加权法也由此而得名 (三)平均数的基本性质

1、样本各观测值与平均数之差的和为零,即离均差之和等于零。 或简写成 n (xi-)=0(x-)=0

i=1

2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。 (xi- )2

对于总体而言,通常用μ表示总体平均数,有限总体的平均数为: N μ=xiN

i=1

x+x+ +x

==

n

∑x

n

中位数

将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。 当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。 中位数的计算方法因资料是否分组而有所不同。

【习题】 某犬场发生犬瘟热,观察得10只仔犬发现症状到死亡分别为7、8、8、9、11、12、12、13、14、14天,求其中位数。 此例n=10,为偶数,则:

(天) 即10只仔犬从发现症状到死亡天数的中位数为11.5天。

几何均数

⏹ 几何均数适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。

⏹ 医学上血清滴度资料常用几何均数描述其分布的集中趋势。

n 个观测值相乘之积开 n 次方所得的方根,称为几何平均数,记为G。它主要应用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析 。 如畜禽 、水产养殖的 增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等,用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下:

1

n123n123n

G=x⋅x⋅x x=(x⋅x⋅x x)

描述定量变量的指标的正确选择

⏹ 正态或近似正态分布的资料

⏹ 偏态分布的资料

⏹ 等比级数或对数正态分布的资料

离散程度的指标

⏹ 极差:

描述单峰对称分布小样本资料的变异程度,或用于初步了解资料的变异程度。若样本含量相差较大,不宜用极差来比较资料的离散程度。

⏹ 四分位数间距:

描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。

⏹ 标准差、方差:

常用于描述对称分布,特别是正态分布或近似正态分布资料的离散程度。

⏹ 变异系数:

适用于比较计量单位不同或均数相差悬殊的几组资料的离散程度。

全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。

标准差

一、标准差的意义

用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。

为 了 准 确 地 表示样本内各个观测值的变异程度 ,首先会考虑到以平均数为标准,求出各个观测值与平均数的离差,( x - ) ,称为离均差。

虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有

- 负 ,离均差之和为零,即( x - ) = 0 ,因 而 不 能 用离均差之和Σ( x )

来 表 示 资料中所有观测值的总偏离程度。

我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。

2

先将各 个离 均差平方,即 ( x - )2 ,再求 离均差平方和 , 即 ( x - ) ,简称平方和,记为SS; 由 于 离差平方和 常 随 样 本 大 小 而 改 变 ,为 了 消 除 样 本大小 的 影 响 , 用平方和 除 以 样 本 大 小, 即 ( x - ) 2 / n ,求出离均差平方和的平均数 ;

相应的总体参数叫 总体方差 ,记为σ2。对于有限总体而言,σ2的计算公式为: 22

σ=(x-)/N

由于 样本方差 带有原观测单位的 平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时 , 常需要与平均数配合使用 ,这 时应 将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差 S2 的平方根叫做样本标准 差,记为S,即:

2

(x-)

S=

n-1

相应的总体参数叫总体标准差,记为σ。对于有限总体而言,σ的计算公式为:

σ=(x-μ)2/N

在统计学中,常用样本标准差S估计总体标准差σ。

标准差的特性

标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也

大,反之则小。

在计算标准差时,在各观测值加上或减去一个常数,其数值不变。

当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a

倍。

变异系数

变异系数是衡量资料中各观测值变异程度的另一个统计量 。 标准差与平均数的比值称为 变异系数,记为C·V。

变异系数可以消除单位 和 (或)平 均数不同对两个或多个资料变异程度比较的影响。 变异系数的计算公式为:

S

C⋅V=⨯100%

⏹ 1、比较度量衡单位不同的多组资料的变异度

⏹ 如某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm;其体重均数为

53.72kg, 标准差为4.96kg。欲比较身高与体重的变异何者为大,由于度量单位不同,不能比较其标准差而应比较其变异系数。

由于,身高的变异系数:

4.95cm

C⋅V=⨯100%=2.98%

166.06cm 体重的变异系数:

4.96kg

C⋅V=⨯100%=9.23%

53.72kg

所以,该地20岁男子体重的变异大于身高的变异。

注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。

⏹ 2、比较均数相差悬殊的多组资料的变异度

正态分布

⏹ 对称分布:以正态分布较为常见

⏹ 非对称分布:偏态分布

⏹ 正偏态:集中位置偏向左侧 向右侧拖尾

均数>中位数

⏹ 负偏态:集中位置偏向右侧 向左侧拖尾

均数

• 单峰分布,高峰位于中央(均数所在处) • 以均数为中心,左右完全对称 • 不与横轴相交的钟型光滑曲线

• 正态分布有两个参数:均数μ与标准差σ • 某些指标经变换后服从正态分布 • 正态曲线下的面积分布有一定的规律

正态曲线下的面积特点

⏹ 正态分布是一种对称分布,其对称轴为直线X= μ, X> μ与 X

的面积是相等,各占50%,靠近X= μ处曲线下的面积较集中,两边逐渐减少。 ⏹ 在μ±σ范围内,即μ-σ~ μ+σ范围内曲线下的面积等于0.6827 ⏹ 在μ±1.64σ范围内曲线下的面积等于0.9090 ⏹ 在μ±1.96σ范围内曲线下的面积等于0.9500 ⏹ 在μ±2.58σ范围内曲线下的面积等于0.9900 标准正态分布

X-μZ=

σ

若 X 服从正态分布 N (μ,σ2) ,

则 Z 就服从均数为0、标准差为1的正态分布, 这种正态分布称为标准正态分布或 u 分布, 记为 N (0,1),Z 称为标准正态变量, 这一变换也称为标准化变换。 正态分布的应用

——医学参考值范围的估计

参数估计是指用样本指标(统计量)估计总体指标(参数)。 有点估计和区间估计 四、总体均数的估计 (一)标准误

(二)均数的置信区间

标准差与标准误

常用统计图表

⏹ 统计表和统计图是重要的统计描述方法。它们具有简单、明了、易于理解和接受的

优点,而且便于比较和分析。

⏹ 同样的事实,用文字叙述可能需要进行长篇大论的解释,而且还受语言不同的限制,

而用统计表或统计图则可一目了然。

统计表

⏹⏹

⏹⏹

概念

统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。统计表的结构

统计表的基本结构包括:标题、标目、线条、数字以及备注。

⏹ ⏹ ⏹ ⏹ ⏹ ⏹ ⏹ 标题 是表格的总名称,置于表正上方 标目 分为横标目和纵标目

横标目 说明每一行中数字的属性,位于表格的左侧

纵标目 说明每一列中数字的属性,位于表格的第一横行 线条 三线(顶线、底线、纵标目下横线),合计及两重纵标目时的短横线 数字 表内不留空项 备注 写在表的下方

统计表的绘制原则

⏹ 重点突出 不要包罗万象

⏹ 层次清楚 避免层次过多和结构混乱 ⏹ 简单明了 文字、线条、数字一切从简

统计图

⏹ 统计图就是以点、线、面等各种几何图形表达统计数据和分析结果

⏹ 统计图的结构

⏹ 统计图的基本结构包括:标题、标目、刻度和图例 ⏹ 标题 置于图的下下方

⏹ 标目 分为横标目和纵标目,说明横轴和纵轴数字刻度的意义 ⏹ 刻度 纵、横轴比例一般为5:7或7:5 ⏹ 图例 说明统计图中各种图形所代表的事物 常用的统计图

⏹ 条图

⏹ 百分比条图、圆图 ⏹ 线图 ⏹ 直方图 ⏹ 散点图 ⏹ 箱式图 ⏹ 统计地图 ⏹ ……

条图

⏹ ⏹ ⏹ ⏹ ⏹

用等宽直条的长短来表示各个相互独立的指标大小的图形

比较、分析相互独立的多个组或者多个资料(资料有明确分组)

分为单式和复式两种。单式适用于只有一个分组因素,复式适用于两个分组因素 习题:请用统计图描述温州市10家哨点医院2009-2011年呼吸道病例数 比较各家哨点医院三年呼吸道病例数的变化

堆积柱形图

68

圆图

⏹ 以一个圆面积为100%,用圆内各扇形面积所占的百分比来表示各部分所占的构成比

⏹ 适用于构成比资料

线图

⏹ 以线段的上升或下降来表示事物在时间上的发展变化或一种现象随另一种现象变迁

的情况

⏹ 适用于连续性资料,反映事物的动态变化规律

⏹ 根据纵轴尺度分为普通线图和半对数线图。普通线图描述绝对变化趋势;半对数线

图描述相对变化趋势,可用于比较。

箱式图

⏹ 适用于定量资料,描述数据的分布特征,也可用于多组数据分布的直观分析比较 百分比条图

⏹ 以长条面积为100%,用长条内各段面积所占的百分比来表示各部分在全体中所占的

比例

⏹ 适用于构成比资料

⏹ 百分比条图特别适合作多个构成比的比较

假设检验的步骤及有关概念

总体间差异: 1. 个体差异,抽样误差所致; 2. 总体间固有差异

判断差别属于哪一种情况的统计学检验,就是假设检验(test of hypothesis)。 t检验是最常用的一种假设检验之一。

小概率思想: Pα(0.05) 样本差别无统计学意义

t检验

⏹ T检验,亦称student t检验(Student„s t test),主要用于样本含量较小(例如n

总体标准差σ未知的正态分布资料。

⏹ 两总体方差未知但相同,用以两平均数之间差异显著性的检验。 ⏹ 样本均数与总体均数的比较 ⏹ 配对资料的比较 ⏹ 两样本均数的比较

⏹ 大样本均数比较的u检验 ⏹ 正态性检验与两方差齐性检验

⏹ 假设检验是通过两组或多组的样本统计量的差别或样本统计量与总体参数的差异来

推断他们相应的总体参数是否相同;

⏹ 医疗卫生实践中最常见的是计量资料两组比较的问题

样本均数与总体均数的比较

推断样本所代表的未知总体均数µ与已知总体均数µ0有无差别。 已知总体均数µ0一般为理论值、标准值或经大量观察所得的稳定值。 统计量t的计算公式:

|-μ0||-μ0|

t==,ν=n-1

SSn

例3-7 难产儿出生体重n=35, =3.42, S =0.40, 一般婴儿出生体重μ0=3.30(大规模调查获得),问相同否? 解:1.建立假设、确定检验水准α

H0:μ=μ0(无效假设,null hypothesis)

H1:μ≠μ0(备择假设,alternative hypothesis,) 双侧检验,检验水准:α=0.05 2.计算检验统计量 t=

3.42-3.300.40/35

=1.77, ν=n-1=35-1=34

3.查相应界值表,确定P值,下结论

查附表2,t0.05/2,34=2.032,t0.05, 按α=0.05水准,不拒绝H0,两者的差别无统计学意义

附表2

t

界值表

二、配对资料的比较

两种情况:1.随机配对设计是将受试对象按某些混杂因素(如性别、年龄、窝别等)配成对子,每对中的两个个体随机分配给两种处理(如处理组与对照组);2.或者同一受试对象作两次不同的处理(自身对照)。

优点:配对设计减少了个体差异。 特点:资料成对,每对数据不可拆分。

两样本均数的比较

完全随机设计(completely random design) :把受试对象完全随机分为两组,分别给予不同处理,然后比较独立的两组样本均数。各组对象数不必严格相同。 目的:比较两总体均数是否相同。

条件:假定资料来自正态总体,σ12=σ22 计算公式:

计算公式:

t=

X1-X2

,SX1-X2

ν=n1-1+n2-1=n1+n2-2

S1-2=Sc(

2

其中,均数差的标准误

2

2

2

11+)n1n2

2

X1-(∑X1)2/n1+∑X2-(∑X2)2/n2(n1-1)S1+(n2-1)S2∑Sc==

n1-1+n2-1n1+n2-2

2

例3-9 白血病组(X1):12.3 13.2 13.7 15.2 15.4 15.8 16.9

正常组 (X2): 10.8 11.6 12.3 12.7 13.5 13.5 14.8

问正常鼠和白血病鼠脾脏中DNA平均含量(mg/g)是否不同?

解:本例:n1=7,1=14.64,S1=1.62,n2=7,2=12.74,S2=1.33 1.建立假设、确定检验水准α。

H0:μ1=μ2 H1:μ1≠μ2 α=0.05 2.计算检验统计量。

(7-1)⨯1.622+(7-1)⨯1.332

=2.20 Sc=

7+7-2

t===2.39,ν=7+7-2=12

2

3.查相应界值,确定P值,下结论。

查表t0.05/2,12=2.179, t>t0.05/2,12,P

大样本均数比较的u检验

两样本均数比较时当每组样本量大于30(或50)时,可采用u检验;但只是近似方法。 优点:简单,u界值与自由度无关, u0.05=1.96, u0.01=2.58 X1-X2X1-X2X1-X2

u=== 2222

SX1-X2

SSS+S1 12

+2

x2检验

n1n2

⏹ 是一种假设检验的方法,当样本量不大,或几个率进行比较时可用x2检验。

某医生想观察一种新药对流感的预防效果,进行了如下的研究,问此药是否有效?

x2分布规律

⏹ 自由度一定时,P值越小, x2值越大。 ⏹ 当P 值一定时,自由度越大, x2越大。 υ=1时, P=0.05, x2 =3.84 P=0.01, x2 =6.63 P=0.05时, υ=1, x2 =3.84

υ=2, x2 =5.99

⏹ 当自由度取1时, u2= x2

x2检验的基本公式

⏹ x2 =∑(A-T)2/T

⏹ A:表示实际频数,即实际观察到的例数。

⏹ T:理论频数,即如果假设检验成立,应该观察到的例数。 ⏹ ∑ :求和符号

⏹ 自由度:υ=(R-1)x(C-1) R行数, C列数

注意:是格子数,而不是例数。 基本原理

⏹ x2 =∑(A-T)2/T

⏹ 如果假设检验成立,A与T不应该相差太大。理论上可以证明 ∑(A-T)2/T服从

组 别 实 验 组 对 照 组 合计

发 病 人 数 14 30 44 未 发 病人数 86 90 176 观察例数 100 120 220 发病率(%) 14 25 20

x2分布,计算出x2值后,查表判断这么大的x2是否为小概率事件,以判断建设检验是否成立

四格表资料的x2检验

⏹ 什么是四格表资料?凡是两个率或构成比资料都可以看做四格表资料。

理论频数与自由度的计算:A是实际频数,T是根据假设检验来确定的,当H0成立时,计算出的格子中的数。每个格子中的理论频数计算公式为:TRC=NR*NC/N, NR所在的行合计,NC所在的列合计,代入公式中求x2值。 (求上例的4个T值) 四格表资料的专用公式:

组 别 实 验 组 对 照 组 合计

发 病 人 数 14 30 44 未 发 病人数 86 90 176 观察例数 100 120 220 发病率(%) 14 25 20

组 别 1 2 合计

阳 性 a c a+c 阴 性 b d b+d 合计 a+b c+d

a+b+c+d

⏹ 上例:问此药是否有效。

⏹ 第一步:建立假设 H0 : π1=π2 =20%

H1 : π1 ‡ π2

⏹ 第二步:确定显著性水平 α=0.05

⏹ 第三步:计算统计量: n =200>40,每格的T值大于5,可选用公式??(计算过

程)

⏹ 第四步:确定P值 ⏹ 第五步:判断结果 配对计数资料的x2检验

⏹ 什么是配对资料?

⏹ 甲乙两种培养基的生长情况

乙 种 甲 种 合 计 + - + 11 ( a ) 7 ( b ) 1 8

- 3 ( c ) 7 ( d ) 1 0

合 计

例:问两种培养基的效果是否不同

⏹ 第一步:建立假设 H0 : B=C=b+c/2 H1 : B‡C ⏹ 第二步:确定显著性水平 α=0.05 ⏹ 第三步:计算统计量:

⏹ b+c>40时,基本公式:x2 =∑(A-T)2/T, 专用公式: x2 =( b-c)2/ b+c b+c≤40时,校正公式: x2 =∑(|A-T|-0.5)2/T

x2 =( lb-cl-1)2/ b+c 自由度:ν=(2-1) x (2-1)=1

⏹ 第四步:确定P值 ⏹ 第五步:判断结果 行x列表的x2检验

四格表是指只有2行2列,当行数或列数超过2时,统称为行x列表。行x列表的x2检验是对多个样本率(或构成比)的检验。 基本公式:x2 =∑(A-T)2/T

专用公式:x2 =n x ( ∑A2 /nR x nC -1) 自由度:υ=(R-1)x(C-1) 适用条件:表中不宜有1/5以上格子的理论频数小于5,或有一个格子的理论频数小于1。

注意事项

⏹ 1、计量资料的注意事项同样适用(见下张幻灯片) ⏹ 2、公式的适用条件n 、T

⏹ 3、多组率经x2检验有显著性时,只能说明不全相同,但不能确定哪两个不同。需

要进一步证明时,用行x列表的x2分割法。

注意事项

⏹ ⏹ ⏹ ⏹ ⏹ ⏹

1 假设检验时可能犯两类错误

2.选择检验方法要注意符合其应用条件 3.正确理解假设检验的结论

4.当差别无显著性时,有两种可能

5.统计学的显著性与否和日常生活中的显著性概念不同. 6.单侧检验与双侧检验

流行病学的常用指标

⏹ 疾病发病频率测量指标 ● 发病率(incidence rate) ● 罹患率(attack rate) ● 患病率(prevalence rate) ● 感染率(infection rate)

● 续发率(secondary attack rate,SAR) ● 病残率(disablility rate) ● 生存率(survival rate)

发病率(incidence rate):表示在一定期间内,一定人群中某病新病例出现的频率,是用来衡量某时期一个地区人群发生某病的危险性大小的指标。

一定期间内某人群中某病新病例数 发病率=------------------------------- ×K 同期暴露人口数

K=( 100%,1000/千,或10000/万)。

发病率的准确性取决于疾病报告,登记制度以及诊断的正确

● 计算发病率时,要考虑的几个因素: ◆ 发病时间 在观察期内。

◆ 观察时间 观察时间多以年表示。

◆ 暴露人口数 指可能会发生该病的人群。

◆ 新发病例数 分子是一定期间的新发病例,若在观察期间内一个人可多次患病时,则

应分别计为新发病例数,如腹泻,流感等。

发病率可按不同特征(如年龄、性别、职业、民族等)分别计算,此即发病专率。

● 罹患率(attack rate):与发病率一样,也是测量新发病例的指标。 观察期间的新病例 罹患率= ------------------------ ×100 同期暴露人口数

常用于较小范围或短期间的疾病流行。观察时间可以日、周、旬、月为单位。适用于局部地区疾病的爆发,食物中毒、传染病及职业中毒等爆发流行情况。其优点是可以根据暴露程度精确的测量发病机率。

● 患病率(prevalence rate):也称现患率。指某特定时间内总人口中某病新旧病例所

占比例。 可按观察时间的不同分为期间患病率和时点患病率。

某一时点一定人群中现患某病新旧病例数 时点患病率=------------------------------------- ×K 该时点人口数

某观察期间一定人群中现患某病新旧病例数 期间患病率=------------------------------------- ×K 同期的平均人口数 K= 100%,1000/千,或10000/万等

期间患病率实际上等于某一特定期间开始时患病率加上该期间内的发病率。 患病率升高或降低的原因: 影响升高的因素: ①病程延长,

②未治愈者的寿命延长, ③新病例增加(即发病率增), ④病例迁入, ⑤健康者迁出, ⑥易感者迁入, ⑦诊断水平提高, ⑧报告率提高。

影响降低的因素: ①病程缩短, ②病死率高,

③新病例减少(发病率下降), ④健康者迁入, ⑤病例迁出, ⑥治愈率提高

● 感染率(infection rate):是指在某个时间内能检查的整个人群样本中,某病现有感

染者人数所占的比例。

调查时某病感染人数 感染率= ----------------------×100% 调查时受检人数

感染率常用于研究某些或寄生虫病的感染情况和分析防治工作的效果,估计某病的流行势态,为制定防治措施提供依据。特别是对隐性感染、病原携带及轻型和不典型病例的调查较为有用。如乙型肝炎、乙型脑炎、脊髓灰质炎、结核、寄生虫等。

● 续发率(secondary attack rate,SAR):指在某些传染病最短潜伏期到最长潜伏期

之间,易感接触者中发病的人数占所有易感接触者总数的百分率。

一个潜伏期内易感接触者中发病人数 续发率= ----------------------------------×100% 易感接触者总人数

多指在一个家庭内、病房、集体宿舍、托儿所、幼儿园班组中第一个病例发生后,在该病最短与最长潜伏期之间出现的病例称续发病例。也称二代病例。 计算时,须将原发病例从分子及分母中去除。对那些在同一家庭中来自家庭外感染或短于最短潜伏期、或长于最长潜伏期者均不应计入原发病例。 续发率可以用于比较传染病传染力的强弱,用于分析传染病流行因素,包括不同条件对传染病传播的影响(如年龄、性别、家庭中儿童数、家庭人口数、经济条件等)及评价卫生防疫措施的效果(如对免疫接种、隔离、消毒等措施的评价)。

● 病残率(disablility rate): 某一人群中,在一定期间内每百(或千、万、十万)人中

实际存在的病残人数。是指通过调查询问或健康调查,确诊的病残人数与调查人数之比。

病残人数

病残率= ----------------------×K

调查人数

( K= 100%,1000/千,或10000/万,等)

病残率可以说明病残在人群中发生的频率,是作为人群健康状况的评价指标之一。

⏹ 疾病死亡频率测量指标: ● 死亡率(mortality rate) ● 病死率(fatality rate) ● 生存率(survival rate)

● 死亡率(mortality rate): 是某人群在一定期间(一般为一年)的死亡人数与该人群

同期人口数之比。表示在一定时期内,死于某病(或死于所有原因)的频率。

某人群某年总死亡人数 粗死亡率= --------------------------------×K 该人群同年平均人口数

某期间内(因某病)死亡总数 死亡专率=---------------------------------×K 同期平均人口数

( K= 100%,1000/千,或10000/万,等)

死亡率是测量人群死亡危险性大小最常用的指标。

● 病死率(fatality rate): 表示在一定时间内(通常为1年),患某病的病人中因该病而

死亡者的比例。

某时期内因某病死亡人数

病死率= ---------------------------×100% 同期确认的某病病例数

病死率表示某病确诊后发生死亡的概率,它受疾病的严重程度、早期诊断和治疗水平的影响。

● 生存率(survival rate): 指在接受某种治疗的病人或患某病的人中,经若干年随访

(通常为1,3,5年)后,尚存活的病人数所占的比例。

随访满n年尚存活的病例数 生存率= ----------------------------×100% 随访满n年的病例数

生存率反应了疾病对生命的危害程度,也是考核治疗措施效果的指标。

● 率和比

①率(rate):指在某一确定人群中某些事件发生的频率。一个率由分子(发生数)、分母(可能发生的总数)、事件发生的特定时间和乘数组成。大多数率是构成比。

②比(ratio):是两个变量的数值之商,表示分子和分母之间的数量关系。 ③比例(proportion):是表示同一事物局部与总体之间数量上的比值,分子和分母的单位相同,而且分子包含与分母之中。常用 P= a/a+b表示。有两类,一、反映事物静止状态内

部构成成分占全体的比重,也称构成比例,二、与动态的发生变化概率密切相关的发生频率比例,它反映一定时间内,发生某种变化者占全体的比例。

率与比的区别

◆ 率

◆ 分子是分母的一部分,分子和分母代表的应该是同一人群;

◆ 如果分子被限定在某一年龄、性别或种族组内,分母也应该有同样的限定; ◆ 可以取任何值,是反映动态过程的一个参数。 ◆ 比

◆ 不管分子和分母所来自的总体如何 ;可以是两个彼此分离的互不相重叠或包含的

量 ;

◆ 分子和分母本身可以是绝对数,也可以是率、比例或比 ;

◆ 构成比取值仅在0到1之间,是变量在一定期间内发生变化的概率 ⏹ 疾病残疾失能指标:

● 潜在减寿年数(potential years of life lost, PYLL) ● 伤残调整寿命年

潜在减寿年数(potential years of life lost, PYLL):是指某病某年龄组人群死亡者的期望寿命与实际死亡年龄之差的总和。即死亡所造成的寿命损失。

潜在减寿年数是评价人群健康水平的一个重要指标;也是评价人群健康水平的一个重要指标;可以用于衡量某种死因对一定年龄组人群的危害程度。可以反映出对各年龄组人群的危害大小。

● 伤残调整寿命年(disability adjusted life year, DALY):是指从发病到死亡所损失的全

部健康寿命年,包括因早死所致的寿命损失年(YLL)和疾病所致伤残引起的健康寿命损失年(YLD)两部分。DALY是生命数量和生命质量以时间为单位的综合度量。

DALY是一个定量的计算因各种疾病造成的早死与残疾对健康寿命年损失的综合指标。是将由于早死(实际死亡年数与低死亡人群中该年龄的预期寿命之差)造成的损失和因伤残造成的健康损失二者结合起来加以测算的。

流行病学是从宏观的高度和群体的角度来认识疾病和健康状况的分布及其机制,研究制定防治对策及评价其效果。DALY的出现是疾病经济负担研究的划时代变化,在1980年以前,DALY的概念还没有提出,疾病负担的评价指标主要是传统指标。随着医学模式的转变,传统的指标越来越不适应现代医学模式的要求,1988年,为了量化失去健康生命的全部损失,哈佛大学和世界卫生组织的专家进行了DALY的研究,并成功地应用于GDB的分析。DALY是目前应用最多的、最具代表性的疾病经济负担评价和测量指标。 表示流行强度的术语有: 散发(sporadic) 暴发(outbreak) 流行(epidemic) 大流行(pandemic

⏹ 散发(sporadic):是指某病在一定地区的发病率呈历年来一般水平,各病例间在发

病时间和地点方面无明显联系,表现为散在发生。

确定某病在某地区是否属于散发,应参照当地前3年该病的发病率,如当年发病率未显著超过既往一般发病率,则称为散发。不同病种、不同时期散发水平不同。

一般多用于区、县以上范围,不适于小范围的人群,如一个托儿所、工厂和学校等。 疾病分布呈散发形式的主要原因:

①该病常年流行,人群有一定免疫力或因疫苗接种维持着人群的免疫水平,如麻疹。 ②隐性感染为主的,如脊髓灰质炎、病毒性肝炎等。 ③传播机制难以实现的传染病,如流行性回归热。 ④潜伏期较长的传染病,如麻风病、炭疽。

⏹ 暴发(outbreak)是指在局限的区域范围或集体单位中,短时间内突然发生很多相同的

病人,病人之间有相同的传染源或传播途径。如食物中毒、托幼机构的麻疹,流脑等容易发生暴发。

暴发的几个类型:

①点源暴发 易感人群在一个相同的短时间内暴露于共同的传播因素而引起的流行。 ②重复暴露同源暴发 易感人群在一定期间内重复(多次)暴露于共同的传播因素而引起的流行,流行曲线呈多峰或不规则型。

③蔓延暴发 是指通过宿主间传播或人传人所引起的流行。

⏹ 流行(epidemic):流行是指一个地区某病发病率明显超过历年的散发发病率水平称

为流行。流行与散发是相对的,各地应根据不同时期、不同病种等作出判断。

有时在实际工作中用暴发流行一词。它表示在一个地区某病病例突然大量增多,发病率常超过一般流行的发病率水平,来势较迅猛,流行持续时间往往超过该病的最长潜伏期。这个词仅仅是实际工作中使用的,它和流行病学中的暴发之词不同。 有些传染病隐性感染占大多数。当它流行时临床症状明显病例可能不多,而实际感染率却很高,这种现象称为隐性流行。如流行性乙型脑炎和脊髓灰质炎常具有这种现象。

⏹ 大流行(pandemic):大流行即疾病蔓延迅速,涉及地域广,往往在比较短的期间内

越过省界、国界、甚至洲界,而形成大流行。如流行性感冒、霍乱,历史上曾发生过多次世界性流行。当前艾滋病的流行也是呈世界性的。

筛检(screening):是在大量人群中通过快速的试验和其他方法,从外表健康的人群

中查出某病的可疑患者的一种预防性措施。

筛检不是诊断试验,它是把健康人和病人(疑似病人、有缺陷的人)区别开来的方法,它仅是初步检查,是早期发现病人的一种方法。对筛检试验阳性还应进一步确诊。

对某种疾病来说,在一般人群中包括三种人,一种是无该病的健康人,一种是可疑有该病但实际无该病的人,一种是有该病的人,这三种人混杂存在。

筛检的工作即是将健康人与其他两类人区别开来。然后用更完善的诊断方法,将可疑患该病但实际无该病的人与实际患该病的人区别开来。第三步为对有该病的人进行治疗,使之恢复。因此,筛检是第一步,诊断试验是第二步,治疗是第三步。

筛检试验评价

筛检的评价指标: 1.真实性(validity),亦称效度,指测量值与实际值相符合的程度,故又称准确性(accuracy)。 用于评价真实性的指标有:灵敏度与假阴性率、特异度与假阳性率、正确指数、似然比和符合率。

①灵敏度与假阴性率 灵敏度(sensitivity),又称真阳性率(true positive rate),即实际有病而按该筛检试验的标准被正确地判为有病的百分比。它反映了筛检试验发现病人的能力。

A

灵敏度=⨯100% A+C

假阴性率(false negative rate),又称漏诊率,指实际有病,根据筛检试验被确定为无病的百分比。它反映的是筛检试验漏诊病人的情况。

C

假阴性率=⨯100% A+C灵敏度与假阴性率之间为互补关系: 灵敏度 = 1 - 假阴性率

即灵敏度越高,假阴性率越低,反之亦然。 特异度与假阳性率 特异度(specificity),又称真阴性率(true negative rate),即实际无病按该诊断标准被正确地判为无病的百分比。它反映了筛检试验确定非病人的能力。

D

特异度=⨯100%

B+D假阳性率(false positive rate),又称误诊率,即实际无病,但根据筛检被判为有病的百分比。

假阳性率=⨯100%

B+D

特异度与假阳性率之间为互补关系: 特异度 = 1 - 假阳性率

即特异度越高,假阳性率越低,反之亦然。 正确指数

正确指数也称约登指数(Youden’s index),是灵敏度与特异度之和减去1,表示筛检方法发现真正病人与非病人的总能力。正确指数的范围在0~1之间。指数越大,其真实性越高。 正确指数 = (灵敏度 + 特异度) – 1 = 1 – (假阴性 + 假阳性) 似然比(likelihood ratio, LR)

属于同时反映灵敏度和特异度的复合指标,即有病者中得出某一筛检试验结果的概率与无病者得出这一概率的比值。

全面反映了筛检试验的诊断价值,非常稳定。它的计算只涉及灵敏度与特异度,不受患病率的影响。

检验结果有阳性与阴性之分,故似然比相应地区分为: 阳性似然比(positive likelihood ratio, +LR) 阴性似然比(negative likelihood ratio, -LR)

阳性似然比是筛检结果的真阳性率与假阳性率之比。该指标反映了筛检试验正确判断阳性的

可能性是错误判断阳性可能性的倍数。比值越大,试验结果阳性时为真阳性的概率越大。 真阳性率灵敏度

+LR== 假阳性率1-特异度

阴性似然比是筛检结果的假阴性率与真阴性率之比。该指标表示错误判断阴性的可能性是正确判断阴性可能性的倍数。比值越小,试验结果阴性时为真阴性的可能性越大。 假阴性率1-灵敏度

-LR== 真阴性率特异度阳性似然比越大,筛检试验的诊断价值越高;阴性似然比越小,筛检试验的诊断价值也越高。因此,在选择筛检试验时应选择阳性似然比高的方法。

人群某病患病状况与筛检结果的关系

165特异度=⨯100%=90.1%

⨯100%=78.6% 灵敏度=80+730

165+45

8045 假阴性率=假阳性率==9.9%⨯100%=21.4%

165+45 80+730

78.6%

阳性似然比==7.94

9.9%正确指数=78.6%+90.1%-1=0.69

21.4%阴性似然比==0.24

90.1%

可靠性(reliability)

也称信度、精确度(precision)或可重复性(repeata -bility),是指在相同条件下用某测量工具(如筛检试验)重复测量同一受试者时获得相同结果的稳定程度。

评价筛检试验可靠性的方法和指标有下面一些方法:

①标准差和变异系数 当某试验是做定量测定时,可用标准差和变异系数(coefficient variance, CV)来表示可靠性。标准差和变异系数的值越小,表示可重复性越好,精密度越高。反之,可重复性就越差,精密度越低。变异系数为标准差与算术均数之比。 变异系数(CV) =(标准差/算术均数)×100% 符合率(agreement rate, consistency rate)与Kappa值

符合率又称一致率,是筛检试验判定的结果与标准诊断的结果相同的数占总受检人数的比例。符合率可用于比较两个医师筛检诊断同一组病人,或同一医师两次筛检诊断同一组病人的结果。

A+D

一致率=⨯100% A+B+C+D

影响筛检试验可靠性的因素有:

①受试对象生物学变异 由于个体生物周期等生物学变异,使得同一受试对象在不同时间获得的临床测量值有所波动。例如,血压在一天内不同时间的测量值存在变异。

②观察者 由于测量者之间、同一测量者在不同时间的技术水平不一,认真程度不同,生物学感觉差异,预期偏倚等均可导致重复测量的结果不一致。例如,血压测量者的不一致性,X线读片与化验结果判断的不一致性等。

③实验室条件 重复测量时,测量仪器不稳定,试验方法本身不稳定,不同厂家、同一厂家生产的不同批号的试剂盒的纯度、有效成份的含量、试剂的稳定性等均有不同,由此可能引起测量误差。

预测值(predictive value)

预测值是反映应用筛检结果来估计受检者患病和不患病可能性的大小的指标。根据筛检的阳性与阴性结果进行的估计分别称为阳性预测值和阴性预测值。

①阳性预测值(positive predictive value, PPV) 是指筛检试验阳性者患目标疾病的可能性。

A

阳性预测值=⨯100%

A+B

阴性预测值(negative predictive value, NPV) 是指筛检试验阴性者不患目标疾病的可能性。

D

阴性预测值=⨯100%

C+D

筛检试验的灵敏度越高,阴性预测值越高; 筛检试验的特异度越高,阳性预测值越高。

预测值还与受检人群目标疾病患病率(P)的高低密切相关 :

阳性预测值=

灵敏度⨯患病率

灵敏度⨯患病率+(1-患病率)(1-特异度)

特异度⨯(1-患病率)

特异度⨯(1-患病率)+(1-灵敏度)⨯患病率

阴性预测值=

人群在不同患病率、灵敏度与特异度的情况下,阳性预测值与阴性预测值的变化。 当灵敏度与特异度一定,疾病患病率降低时,阳性预测值降低,阴性预测值升高; 当患病率不变,降低灵敏度,特异度将提高,此时阳性预测值将升高,阴性预测值将下降。

卫生统计学常用指标分析与图表制作

⏹ 总体:是根据研究目的确定的同质研究对象的全体。按研究对象来源又分目标总体

和研究总体。

⏹ 样本:是指从研究总体中抽取的一部分有代表性的个体。

⏹ 同质是指同一总体中个体的性质、影响条件和背景相同或非常相近;

⏹ 变异是指同质的个体之间存在的差异。 ⏹ 变量:每个观察单位的某项特征

⏹ 资料:对变量的测得值称为变量值或观察值,亦称为资料

资料的两种类型

连续

离散

定性资料(分类资料) 无序 二项分类

多项分类

有序(等级资料)

根据变量取值特点,计量资料分为:

⏹ 连续性资料:变量值可以在实数轴上连续变动。如年龄、身高、体重。 ⏹ 离散型资料:变量取值能一一列举。只能取整数 。如毒性试验小鼠死亡只

数。

⏹ 习题:

⏹ 某人记录了50名病人体重的测定结果:小于50kg的13人,介于50kg和70kg间

的20人,大于70kg的17人,此种资料属于:

A:定量资料 B:分类资料 C:有序资料D:二分类资料 E:名义变量资料

概率

⏹ 概率是描述随机事件发生的可能性大小的数值,用P表示。

⏹ 随机事件概率的大小在0和1之间,即0≤P ≤1,常用小数或百分数表示。

⏹ P越接近1,表示某事件发生的可能性越大,P越接近0,表示某事件发生的可能性

越小。

⏹ P ≤0.05,称为小概率事件,表示在一次实验或观察中该事件发生的可能性很小,

可以视为很可能不发生。

二、统计分析的内容

统计描述

统计推断:包括参数估计和假设检验

统计资料的描述

⏹ 列表描述:频数分布表、一览表…… ⏹ 图形描述:频数分布图、趋势图…… ⏹ 指标描述

⏹ 定量资料

集中位置:算术均数、几何均数、中位数

离散程度:极差、四分位数间距、方差、标准差、变异系数

⏹ 相对数指标:率、构成比、比

集中趋势的描述

⏹ 广义的平均数包含各种表示数据分布集中位置的指标。 ⏹ 卫生领域最常用的三种平均数指标: 算术均数、几何均数、中位数 定量资料的集中趋势指标

算术平均数

算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数。 算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。 (一)直接法

主要用于样本含量n≤30以下、未经分组资料平均数的计算。

设某一资料包含n个观测值: x1、x2、…、xn, 则样本平均数可通过下式计算: n

i

12ni=1

其中,Σ为总和符号; 表示从第一个观测值x1累加到第n个观测值xn。当 在意义上已明确时,可简写为Σx,(3-1)式可改写为:

x

=

n

加权法

对于样本含量 n≥30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:

k

fixi

fx f 1 x 1 + f 2 x 2 + + f k x k i=1

==k=

f1+f2+ +fkf

f ii=1

式中: —第i组的组中值;

—第i组的次数; —分组数

第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量,因此将fi 称为是xi的“权”,加权法也由此而得名 (三)平均数的基本性质

1、样本各观测值与平均数之差的和为零,即离均差之和等于零。 或简写成 n (xi-)=0(x-)=0

i=1

2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。 (xi- )2

对于总体而言,通常用μ表示总体平均数,有限总体的平均数为: N μ=xiN

i=1

x+x+ +x

==

n

∑x

n

中位数

将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。 当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。 中位数的计算方法因资料是否分组而有所不同。

【习题】 某犬场发生犬瘟热,观察得10只仔犬发现症状到死亡分别为7、8、8、9、11、12、12、13、14、14天,求其中位数。 此例n=10,为偶数,则:

(天) 即10只仔犬从发现症状到死亡天数的中位数为11.5天。

几何均数

⏹ 几何均数适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。

⏹ 医学上血清滴度资料常用几何均数描述其分布的集中趋势。

n 个观测值相乘之积开 n 次方所得的方根,称为几何平均数,记为G。它主要应用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析 。 如畜禽 、水产养殖的 增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等,用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下:

1

n123n123n

G=x⋅x⋅x x=(x⋅x⋅x x)

描述定量变量的指标的正确选择

⏹ 正态或近似正态分布的资料

⏹ 偏态分布的资料

⏹ 等比级数或对数正态分布的资料

离散程度的指标

⏹ 极差:

描述单峰对称分布小样本资料的变异程度,或用于初步了解资料的变异程度。若样本含量相差较大,不宜用极差来比较资料的离散程度。

⏹ 四分位数间距:

描述偏态分布资料、两端无确切值或分布不明确资料的离散程度。

⏹ 标准差、方差:

常用于描述对称分布,特别是正态分布或近似正态分布资料的离散程度。

⏹ 变异系数:

适用于比较计量单位不同或均数相差悬殊的几组资料的离散程度。

全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。

标准差

一、标准差的意义

用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。

为 了 准 确 地 表示样本内各个观测值的变异程度 ,首先会考虑到以平均数为标准,求出各个观测值与平均数的离差,( x - ) ,称为离均差。

虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有

- 负 ,离均差之和为零,即( x - ) = 0 ,因 而 不 能 用离均差之和Σ( x )

来 表 示 资料中所有观测值的总偏离程度。

我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。

2

先将各 个离 均差平方,即 ( x - )2 ,再求 离均差平方和 , 即 ( x - ) ,简称平方和,记为SS; 由 于 离差平方和 常 随 样 本 大 小 而 改 变 ,为 了 消 除 样 本大小 的 影 响 , 用平方和 除 以 样 本 大 小, 即 ( x - ) 2 / n ,求出离均差平方和的平均数 ;

相应的总体参数叫 总体方差 ,记为σ2。对于有限总体而言,σ2的计算公式为: 22

σ=(x-)/N

由于 样本方差 带有原观测单位的 平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时 , 常需要与平均数配合使用 ,这 时应 将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差 S2 的平方根叫做样本标准 差,记为S,即:

2

(x-)

S=

n-1

相应的总体参数叫总体标准差,记为σ。对于有限总体而言,σ的计算公式为:

σ=(x-μ)2/N

在统计学中,常用样本标准差S估计总体标准差σ。

标准差的特性

标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也

大,反之则小。

在计算标准差时,在各观测值加上或减去一个常数,其数值不变。

当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a

倍。

变异系数

变异系数是衡量资料中各观测值变异程度的另一个统计量 。 标准差与平均数的比值称为 变异系数,记为C·V。

变异系数可以消除单位 和 (或)平 均数不同对两个或多个资料变异程度比较的影响。 变异系数的计算公式为:

S

C⋅V=⨯100%

⏹ 1、比较度量衡单位不同的多组资料的变异度

⏹ 如某地20岁男子100人,其身高均数为166.06cm,标准差为4.95cm;其体重均数为

53.72kg, 标准差为4.96kg。欲比较身高与体重的变异何者为大,由于度量单位不同,不能比较其标准差而应比较其变异系数。

由于,身高的变异系数:

4.95cm

C⋅V=⨯100%=2.98%

166.06cm 体重的变异系数:

4.96kg

C⋅V=⨯100%=9.23%

53.72kg

所以,该地20岁男子体重的变异大于身高的变异。

注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。

⏹ 2、比较均数相差悬殊的多组资料的变异度

正态分布

⏹ 对称分布:以正态分布较为常见

⏹ 非对称分布:偏态分布

⏹ 正偏态:集中位置偏向左侧 向右侧拖尾

均数>中位数

⏹ 负偏态:集中位置偏向右侧 向左侧拖尾

均数

• 单峰分布,高峰位于中央(均数所在处) • 以均数为中心,左右完全对称 • 不与横轴相交的钟型光滑曲线

• 正态分布有两个参数:均数μ与标准差σ • 某些指标经变换后服从正态分布 • 正态曲线下的面积分布有一定的规律

正态曲线下的面积特点

⏹ 正态分布是一种对称分布,其对称轴为直线X= μ, X> μ与 X

的面积是相等,各占50%,靠近X= μ处曲线下的面积较集中,两边逐渐减少。 ⏹ 在μ±σ范围内,即μ-σ~ μ+σ范围内曲线下的面积等于0.6827 ⏹ 在μ±1.64σ范围内曲线下的面积等于0.9090 ⏹ 在μ±1.96σ范围内曲线下的面积等于0.9500 ⏹ 在μ±2.58σ范围内曲线下的面积等于0.9900 标准正态分布

X-μZ=

σ

若 X 服从正态分布 N (μ,σ2) ,

则 Z 就服从均数为0、标准差为1的正态分布, 这种正态分布称为标准正态分布或 u 分布, 记为 N (0,1),Z 称为标准正态变量, 这一变换也称为标准化变换。 正态分布的应用

——医学参考值范围的估计

参数估计是指用样本指标(统计量)估计总体指标(参数)。 有点估计和区间估计 四、总体均数的估计 (一)标准误

(二)均数的置信区间

标准差与标准误

常用统计图表

⏹ 统计表和统计图是重要的统计描述方法。它们具有简单、明了、易于理解和接受的

优点,而且便于比较和分析。

⏹ 同样的事实,用文字叙述可能需要进行长篇大论的解释,而且还受语言不同的限制,

而用统计表或统计图则可一目了然。

统计表

⏹⏹

⏹⏹

概念

统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系。统计表的结构

统计表的基本结构包括:标题、标目、线条、数字以及备注。

⏹ ⏹ ⏹ ⏹ ⏹ ⏹ ⏹ 标题 是表格的总名称,置于表正上方 标目 分为横标目和纵标目

横标目 说明每一行中数字的属性,位于表格的左侧

纵标目 说明每一列中数字的属性,位于表格的第一横行 线条 三线(顶线、底线、纵标目下横线),合计及两重纵标目时的短横线 数字 表内不留空项 备注 写在表的下方

统计表的绘制原则

⏹ 重点突出 不要包罗万象

⏹ 层次清楚 避免层次过多和结构混乱 ⏹ 简单明了 文字、线条、数字一切从简

统计图

⏹ 统计图就是以点、线、面等各种几何图形表达统计数据和分析结果

⏹ 统计图的结构

⏹ 统计图的基本结构包括:标题、标目、刻度和图例 ⏹ 标题 置于图的下下方

⏹ 标目 分为横标目和纵标目,说明横轴和纵轴数字刻度的意义 ⏹ 刻度 纵、横轴比例一般为5:7或7:5 ⏹ 图例 说明统计图中各种图形所代表的事物 常用的统计图

⏹ 条图

⏹ 百分比条图、圆图 ⏹ 线图 ⏹ 直方图 ⏹ 散点图 ⏹ 箱式图 ⏹ 统计地图 ⏹ ……

条图

⏹ ⏹ ⏹ ⏹ ⏹

用等宽直条的长短来表示各个相互独立的指标大小的图形

比较、分析相互独立的多个组或者多个资料(资料有明确分组)

分为单式和复式两种。单式适用于只有一个分组因素,复式适用于两个分组因素 习题:请用统计图描述温州市10家哨点医院2009-2011年呼吸道病例数 比较各家哨点医院三年呼吸道病例数的变化

堆积柱形图

68

圆图

⏹ 以一个圆面积为100%,用圆内各扇形面积所占的百分比来表示各部分所占的构成比

⏹ 适用于构成比资料

线图

⏹ 以线段的上升或下降来表示事物在时间上的发展变化或一种现象随另一种现象变迁

的情况

⏹ 适用于连续性资料,反映事物的动态变化规律

⏹ 根据纵轴尺度分为普通线图和半对数线图。普通线图描述绝对变化趋势;半对数线

图描述相对变化趋势,可用于比较。

箱式图

⏹ 适用于定量资料,描述数据的分布特征,也可用于多组数据分布的直观分析比较 百分比条图

⏹ 以长条面积为100%,用长条内各段面积所占的百分比来表示各部分在全体中所占的

比例

⏹ 适用于构成比资料

⏹ 百分比条图特别适合作多个构成比的比较

假设检验的步骤及有关概念

总体间差异: 1. 个体差异,抽样误差所致; 2. 总体间固有差异

判断差别属于哪一种情况的统计学检验,就是假设检验(test of hypothesis)。 t检验是最常用的一种假设检验之一。

小概率思想: Pα(0.05) 样本差别无统计学意义

t检验

⏹ T检验,亦称student t检验(Student„s t test),主要用于样本含量较小(例如n

总体标准差σ未知的正态分布资料。

⏹ 两总体方差未知但相同,用以两平均数之间差异显著性的检验。 ⏹ 样本均数与总体均数的比较 ⏹ 配对资料的比较 ⏹ 两样本均数的比较

⏹ 大样本均数比较的u检验 ⏹ 正态性检验与两方差齐性检验

⏹ 假设检验是通过两组或多组的样本统计量的差别或样本统计量与总体参数的差异来

推断他们相应的总体参数是否相同;

⏹ 医疗卫生实践中最常见的是计量资料两组比较的问题

样本均数与总体均数的比较

推断样本所代表的未知总体均数µ与已知总体均数µ0有无差别。 已知总体均数µ0一般为理论值、标准值或经大量观察所得的稳定值。 统计量t的计算公式:

|-μ0||-μ0|

t==,ν=n-1

SSn

例3-7 难产儿出生体重n=35, =3.42, S =0.40, 一般婴儿出生体重μ0=3.30(大规模调查获得),问相同否? 解:1.建立假设、确定检验水准α

H0:μ=μ0(无效假设,null hypothesis)

H1:μ≠μ0(备择假设,alternative hypothesis,) 双侧检验,检验水准:α=0.05 2.计算检验统计量 t=

3.42-3.300.40/35

=1.77, ν=n-1=35-1=34

3.查相应界值表,确定P值,下结论

查附表2,t0.05/2,34=2.032,t0.05, 按α=0.05水准,不拒绝H0,两者的差别无统计学意义

附表2

t

界值表

二、配对资料的比较

两种情况:1.随机配对设计是将受试对象按某些混杂因素(如性别、年龄、窝别等)配成对子,每对中的两个个体随机分配给两种处理(如处理组与对照组);2.或者同一受试对象作两次不同的处理(自身对照)。

优点:配对设计减少了个体差异。 特点:资料成对,每对数据不可拆分。

两样本均数的比较

完全随机设计(completely random design) :把受试对象完全随机分为两组,分别给予不同处理,然后比较独立的两组样本均数。各组对象数不必严格相同。 目的:比较两总体均数是否相同。

条件:假定资料来自正态总体,σ12=σ22 计算公式:

计算公式:

t=

X1-X2

,SX1-X2

ν=n1-1+n2-1=n1+n2-2

S1-2=Sc(

2

其中,均数差的标准误

2

2

2

11+)n1n2

2

X1-(∑X1)2/n1+∑X2-(∑X2)2/n2(n1-1)S1+(n2-1)S2∑Sc==

n1-1+n2-1n1+n2-2

2

例3-9 白血病组(X1):12.3 13.2 13.7 15.2 15.4 15.8 16.9

正常组 (X2): 10.8 11.6 12.3 12.7 13.5 13.5 14.8

问正常鼠和白血病鼠脾脏中DNA平均含量(mg/g)是否不同?

解:本例:n1=7,1=14.64,S1=1.62,n2=7,2=12.74,S2=1.33 1.建立假设、确定检验水准α。

H0:μ1=μ2 H1:μ1≠μ2 α=0.05 2.计算检验统计量。

(7-1)⨯1.622+(7-1)⨯1.332

=2.20 Sc=

7+7-2

t===2.39,ν=7+7-2=12

2

3.查相应界值,确定P值,下结论。

查表t0.05/2,12=2.179, t>t0.05/2,12,P

大样本均数比较的u检验

两样本均数比较时当每组样本量大于30(或50)时,可采用u检验;但只是近似方法。 优点:简单,u界值与自由度无关, u0.05=1.96, u0.01=2.58 X1-X2X1-X2X1-X2

u=== 2222

SX1-X2

SSS+S1 12

+2

x2检验

n1n2

⏹ 是一种假设检验的方法,当样本量不大,或几个率进行比较时可用x2检验。

某医生想观察一种新药对流感的预防效果,进行了如下的研究,问此药是否有效?

x2分布规律

⏹ 自由度一定时,P值越小, x2值越大。 ⏹ 当P 值一定时,自由度越大, x2越大。 υ=1时, P=0.05, x2 =3.84 P=0.01, x2 =6.63 P=0.05时, υ=1, x2 =3.84

υ=2, x2 =5.99

⏹ 当自由度取1时, u2= x2

x2检验的基本公式

⏹ x2 =∑(A-T)2/T

⏹ A:表示实际频数,即实际观察到的例数。

⏹ T:理论频数,即如果假设检验成立,应该观察到的例数。 ⏹ ∑ :求和符号

⏹ 自由度:υ=(R-1)x(C-1) R行数, C列数

注意:是格子数,而不是例数。 基本原理

⏹ x2 =∑(A-T)2/T

⏹ 如果假设检验成立,A与T不应该相差太大。理论上可以证明 ∑(A-T)2/T服从

组 别 实 验 组 对 照 组 合计

发 病 人 数 14 30 44 未 发 病人数 86 90 176 观察例数 100 120 220 发病率(%) 14 25 20

x2分布,计算出x2值后,查表判断这么大的x2是否为小概率事件,以判断建设检验是否成立

四格表资料的x2检验

⏹ 什么是四格表资料?凡是两个率或构成比资料都可以看做四格表资料。

理论频数与自由度的计算:A是实际频数,T是根据假设检验来确定的,当H0成立时,计算出的格子中的数。每个格子中的理论频数计算公式为:TRC=NR*NC/N, NR所在的行合计,NC所在的列合计,代入公式中求x2值。 (求上例的4个T值) 四格表资料的专用公式:

组 别 实 验 组 对 照 组 合计

发 病 人 数 14 30 44 未 发 病人数 86 90 176 观察例数 100 120 220 发病率(%) 14 25 20

组 别 1 2 合计

阳 性 a c a+c 阴 性 b d b+d 合计 a+b c+d

a+b+c+d

⏹ 上例:问此药是否有效。

⏹ 第一步:建立假设 H0 : π1=π2 =20%

H1 : π1 ‡ π2

⏹ 第二步:确定显著性水平 α=0.05

⏹ 第三步:计算统计量: n =200>40,每格的T值大于5,可选用公式??(计算过

程)

⏹ 第四步:确定P值 ⏹ 第五步:判断结果 配对计数资料的x2检验

⏹ 什么是配对资料?

⏹ 甲乙两种培养基的生长情况

乙 种 甲 种 合 计 + - + 11 ( a ) 7 ( b ) 1 8

- 3 ( c ) 7 ( d ) 1 0

合 计

例:问两种培养基的效果是否不同

⏹ 第一步:建立假设 H0 : B=C=b+c/2 H1 : B‡C ⏹ 第二步:确定显著性水平 α=0.05 ⏹ 第三步:计算统计量:

⏹ b+c>40时,基本公式:x2 =∑(A-T)2/T, 专用公式: x2 =( b-c)2/ b+c b+c≤40时,校正公式: x2 =∑(|A-T|-0.5)2/T

x2 =( lb-cl-1)2/ b+c 自由度:ν=(2-1) x (2-1)=1

⏹ 第四步:确定P值 ⏹ 第五步:判断结果 行x列表的x2检验

四格表是指只有2行2列,当行数或列数超过2时,统称为行x列表。行x列表的x2检验是对多个样本率(或构成比)的检验。 基本公式:x2 =∑(A-T)2/T

专用公式:x2 =n x ( ∑A2 /nR x nC -1) 自由度:υ=(R-1)x(C-1) 适用条件:表中不宜有1/5以上格子的理论频数小于5,或有一个格子的理论频数小于1。

注意事项

⏹ 1、计量资料的注意事项同样适用(见下张幻灯片) ⏹ 2、公式的适用条件n 、T

⏹ 3、多组率经x2检验有显著性时,只能说明不全相同,但不能确定哪两个不同。需

要进一步证明时,用行x列表的x2分割法。

注意事项

⏹ ⏹ ⏹ ⏹ ⏹ ⏹

1 假设检验时可能犯两类错误

2.选择检验方法要注意符合其应用条件 3.正确理解假设检验的结论

4.当差别无显著性时,有两种可能

5.统计学的显著性与否和日常生活中的显著性概念不同. 6.单侧检验与双侧检验


相关内容

  • 2009年口腔执业助理医师复习题-口腔预防医学 - Qzone日志
  • [转] 2009年口腔执业助理医师复习题-口腔预防医学 * 分享 * 转载 * 复制地址 日志地址: 请用Ctrl+C复制后贴给好友. * 转发到微博 转载自 小怪兽 2011年01月08日 17:12 阅读(3) 评论(0) 分类:分享 * 举报 * 字体:大▼ * 小 * 中 * 大 2009年 ...

  • 第三章疾病的分布
  • 第三章 疾病的分布 单选题 1.甲乙两地年龄标化死亡率相等,而甲地粗死亡率低,原因是 A.两地人群有相同的年龄分布 B.甲地诊断比乙地更准确 C.甲地老年人比重高于乙地 D.甲地老年人比重低于乙地 E.甲地诊断不如乙地准确 2.在100名血吸虫病人中,60名有游泳戏水的历史,据此可以推断 A.游泳戏 ...

  • 流行病学名词解释.简答题精华
  • 流行病学(epidemiology): 是研究人群中疾病和健康状态的分布及其影响因素,并研究如何防治疾病及促进健康的策略与措施的科学. 第二章 疾病的分布 疾病分布:指疾病在不同人群(人间) .不同地区(空间).不同时间(时间)中的发生频率与分布现象,是流行病学研究的起点和基础. 比(ratio): ...

  • 华医网山东省继续医学教育循证医学答案
  • 循证医学答案 ()是研究病因最好的研究设计a 21世纪医学管理的核心是()c RR表示队列研究中常用来表达病因作用的大小或病因与疾病间关系的强度的哪个指标()a 比较前瞻性观察研究与随机对照试验,你认为以下哪项选择是正确的?b常见的临床路径的变异包括(d 常见的治疗不良反应的研究设计类型不包括d 当 ...

  • 2013医师定期考核公共卫生试题+答案
  • 2013医师定期考核 公共卫生试题+答案600道 1.社区卫生服务实施措施中系统检测不包括(C意外伤害预防) 2.癫痫持续发作时,抢救原则中错误的是: (C等待慢慢缓解,可选用安定针10MG,或氯硝安定针2MG缓慢静脉注射.-) 3.有关癫痫持续状态的描述不正确的是C各型癫痫匀可发生,大发作持续状态 ...

  • 流行病学考试重点
  • 09临床C班流行病学考试复习重点 整理:成玄璇 结语:以下内容为老师在最后一次课上强调的内容加之前上课所讲的重点.本科目考试为本学期最后一门考试,至此我也为各位完成了总共六门课的复习重点整理,感谢大家五年的支持和理解!祝各位一切顺利!祝愿09临床的每一位有所收获.继续奋斗. ▲流行病学(epidem ...

  • 流行病学人卫第六版(李立明)复习重点1
  • 流行病学复习重点 第一章 绪 论 一.定义 1.流行病学:是研究人群中疾病与健康状况的分布及其影响因素,并研究防制疾病及促进健康的策略和措施的科学. 2.流行病学定义的诠释:研究内容的三个层次(疾病.伤害和健康),任务的三个阶段和三个范畴(揭示现象-描述性,找出原因-分析性,提供措施-实验性),研究 ...

  • 传染病流行病学
  • 流行病学--传染病流行病学 第一节 概述 一.传染病流行病学的作用 运用流行病学的调查研究方法,分析传染病的流行特征,提出病因假设,制定针对病原体.传播途径和易感者的预防策略和措施,控制疾病在人群中的流行. 二.传染病消长的历史回顾 1347-1351年,欧洲黑死病流行,2400万人死亡. 18世纪 ...

  • 流行病学与统计
  • 流行病学与统计 医学统计学:根据统计学的原理和方法,研究医学数据收集.表达和分析的一门应用各学科. 医学统计的主要内容: 研究对象:医学数据 统计设计:调查设计和实验设计 统计描述:率.均数 统计推断:对统计指标的差别和关联性进行分析和推断 医学统计资料的类型 统计工作的基本步骤包括: 1. 研究设 ...