P值:概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义, P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。
小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
设计:收集资料:整理资料:分析资料实验设计的基本原则:随机化原则、对照的原则、重复的原则。
频数表制作步骤以及频数分布表的用途 1、找出观察值中的最大值,最小值,求极差(range)。
2、确定分组数和组距。组距=极差/组数。 3、确定组段。 第一组段包括要最小值。最后组段包括最大值并写出其上限值。 4、划记。
5、统计各组段的频数。
算术均数、几何均数、中位数。 极差、四分位数间距、方差、标准差、变异系数。
正态分布的特征:服从正态分布的变量的频数分布由υ 、σ 完全决定。 (1) υ 是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 x =υ为对
称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于υ 。 (2) σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲 线越瘦高。
医学参考值范围的制定
确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧。
95%=
±1.96 S。 99%=
±2.58 S
t分布的图形特征
1.以0为中心,左右对称的单峰分布; 2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
t 分布与标准正态分布相比有以下特点:①都是单峰、对称分布;②t 分布峰值较低,而尾部较高;③随自由度增大,t 分布趋近与标准正态分布;当ν趋向∞,t 分布的极限分布是标准正态分布。
可信区间与参考值范围的不同点(简答) 1.从意义和用途来看95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。可信区间用于估计总体参数,总体参数只有一个 。参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限 。 2.从计算公式看
95%参考值范围的公式是:
±1.96s。
总体均数95%可信区间的公式是
:
。
前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。
t检验的应用条件:要求各样本来自相互独立的正态总体且各总体方差齐。 t检验的类型:单样本t检验,独立t检验,配对t检验
完全随机设计(completely random design):完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。
配对设计(paired design):是将受试对象按一定条件匹配成对,再随机分配每对中的两个受试对象到不同处理组。
1
配对的因素是影响实验效应的主要非处理凶素。
假设检验的基本步骤
1.建立假设,确定检验水准α:H0和H1的关系是互相对立的,如果拒绝H0,就要接受H1.根据备择假设不同,假设检验有单、双侧检验两种。检验水准用α表示,通常取0.05或0.10.检验水准说明了该检验犯第一类错误的概率。 2.根据研究目的和设计类型选择适合的检验方法:是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。对双样本资料,要注意区分成组设计和配对设计的资料类型。如果资料里有
u检验得到的是u统计量或称u值,t检验得到的是t统计量或称t值。方差分析得到的是F统计量或称F值。 为什么等级资料不可用方差分析?资料不相互独立
方差分析(analysis of variance,ANOVA )的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(SS)和自由度分解为两个或多个部分,除随机误差外,
其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS 组间可由处理因素的作用加以解释。通过各变异来源的均方与误差均方比值的大小,借助F 分布作出统计推断,判断各因素对各组均数有无影响。 应用条件
(1) 各样本是相互独立的随机样本,且来自正态分布总体。(2) 各样本的总体方差相等,即方差齐性(homoscedasticity)。
分类资料的统计描述
率(强度相对数,频率相对数)、构成比、相对比
应用相对数时应注意的问题(简答题 六条)
⑴ 计算相对数的分母一般不宜过小。 ⑵ 分析时不能以构成比代替率。 ⑶ 不能用构成比的动态分析代替率的动态分析。
⑷ 对观察单位数不等的几个率,不能直接相加求其总率。
⑸ 在比较相对数时应注意可比性。 ⑹ 对样本率(或构成比)的比较应随机抽样,并做假设检验。 率的标准化的基本思想 : 要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。
标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率(调整率),然后再进行比较。 二、直接标准化法的计算方法 当已知所比较资料各组率Pi,可选用直接法计算标化率。
三、间接标准化死亡比的计算方法 当所比较的资料已知各自某现象总发生数r及各分组观察单位数时,宜采用间接法计算标化率。
非参数统计的特点和适用范围 (简答) 1.特点
(1)样本所来自的总体的分布形式为任何形式,甚至是未知的,都能适用。 (2)收集资料方便,可用“等级”或“符号”来评定观察结果。
(3)多数非参数方法比较简便,易于理解和掌握。
(4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。 2.适用范围 (1)等级资料。
(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。
(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。 (4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。
(5)分布类型不明。
(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。
(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。
非参数检验的优缺点:(简答) 非参数统计与传统的参数统计相比,有以下优点:
1、非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。 2、多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。
3、大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。
4、大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。
5、当推论多达3个以上时,非参数统计方法尤具优越性。
但非参数统计方法也有以下缺点: 1、由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
2、对于大样本,如不采用适当的近似,计算可能变得十分复杂。
配对设计的符号秩和检验方法(简答) (1)假设:H0:差值总体中位数Md=0 H1:Md≠0 α =0.05 (2)求差值
(3)编秩次:依差值的绝对值从小到大编秩次。编秩次时遇差数等于 0,舍去不计,同时样本例数减1;遇绝对值相等差数,符号相同顺次编秩次,符号相反取平均秩次,且符号相反。
2
(4)求秩和并确定检验统计量:分别求出正负秩次之和,正秩和以 T+表示,负秩和的绝对值以T-表示。T+及T-之和应等于 n(n+1)/2,任取T+(或 T-)作检验统计量T 。
(5)确定 P 值和作出推断结论:当 n≤50 时,查 T 界值表,得出 P值。若检验统计量T值在上、下界值范围内,其 P值大于表上方相应概率水平;若 T值在上、下界值上若范围外,其 P值小于表上方相应概率水平。 线性相关系数(名解)
线性相关系数:表示两个变数线性相关方向及程度的统计数或参数。又叫直线相关系数,简称相关系数。,|R|的极值为1,|R|越大(接近1),则直线关系越好。 线性相关系数取值范围(填空) -1≤r≤1
样本相关系数 r的假设检验(填空题) (1)r 界值表法; (2)t检验法。 线性相关或回归应用应注意的问题(简答)
⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。
⑵在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。
⑶直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线,应避免外延。
⑷双变量的小样本经 t 检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。
⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。
秩相关的应用适用范围(简答)
秩相关,又称等级相关(rank correlation),是用双变量等级数据作直线相关分析,适用于下列资料: ⒈ 不服从双变量正态分布而不宜作积差相关分析; ⒉ 总体分布型未知;
⒊ 用等级表示的原始数据。
相关与回归的区别与联系(简答) 区别:
1.意义 :相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。 2.应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。
3.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。 4.相关系数r与回归系数b :r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。 联系:
1. r与b值可相互换算; 2. r与b正负号一致; 3. r与b的假设检验等价;
4. 回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。
回归系数的估计原则:最小二乘(least squares)原则(填空) 应用直线回归时的注意事项:
1.作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。
2.在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。因此,需对异常点进行复查。 3.建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。
4.直线回归方程的适用范围一般以自变量的取值范围为限,避免外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。
3
P值:概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值反应结果真实程度,一般以P ≤ 0.05 认为有统计学意义, P ≤0.01 认为有高度统计学意义,其含义是样本间的差异由抽样误差所致的概率等于或小于0.05 或0.01。
小概率原理:一个事件如果发生的概率很小的话,那么可认为它在一次实际实验中是不会发生的,数学上称之小概率原理,也称为小概率的实际不可能性原理。统计学中,一般认为等于或小于0.05或0.01的概率为小概率。
设计:收集资料:整理资料:分析资料实验设计的基本原则:随机化原则、对照的原则、重复的原则。
频数表制作步骤以及频数分布表的用途 1、找出观察值中的最大值,最小值,求极差(range)。
2、确定分组数和组距。组距=极差/组数。 3、确定组段。 第一组段包括要最小值。最后组段包括最大值并写出其上限值。 4、划记。
5、统计各组段的频数。
算术均数、几何均数、中位数。 极差、四分位数间距、方差、标准差、变异系数。
正态分布的特征:服从正态分布的变量的频数分布由υ 、σ 完全决定。 (1) υ 是正态分布的位置参数,描述正态分布的集中趋势位置。正态分布以 x =υ为对
称轴,左右完全对称。正态分布的均数、中位数、众数相同,均等于υ 。 (2) σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。σ也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲 线越瘦高。
医学参考值范围的制定
确定参考值范围的单双侧:一般生理物质指标多为双侧、毒物指标则多为单侧。
95%=
±1.96 S。 99%=
±2.58 S
t分布的图形特征
1.以0为中心,左右对称的单峰分布; 2.t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。
t 分布与标准正态分布相比有以下特点:①都是单峰、对称分布;②t 分布峰值较低,而尾部较高;③随自由度增大,t 分布趋近与标准正态分布;当ν趋向∞,t 分布的极限分布是标准正态分布。
可信区间与参考值范围的不同点(简答) 1.从意义和用途来看95%参考值范围是指同质总体内包括95%个体值的估计范围,而总体均数95%可信区间是指按95%可信度估计的总体均数的所在范围。可信区间用于估计总体参数,总体参数只有一个 。参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限 。 2.从计算公式看
95%参考值范围的公式是:
±1.96s。
总体均数95%可信区间的公式是
:
。
前者用标准差,后者用标准误。前者用1.96,后者用α为0.05,自由度为v的t界值。
t检验的应用条件:要求各样本来自相互独立的正态总体且各总体方差齐。 t检验的类型:单样本t检验,独立t检验,配对t检验
完全随机设计(completely random design):完全随机设计仅涉及一个处理因素(但可为多水平),故又称单因素(one-way)设计。它是将受试对象按随机化的方法分配到各个处理组中,观察实验效应,临床试验中的随机对照试验也属于此类设计。
配对设计(paired design):是将受试对象按一定条件匹配成对,再随机分配每对中的两个受试对象到不同处理组。
1
配对的因素是影响实验效应的主要非处理凶素。
假设检验的基本步骤
1.建立假设,确定检验水准α:H0和H1的关系是互相对立的,如果拒绝H0,就要接受H1.根据备择假设不同,假设检验有单、双侧检验两种。检验水准用α表示,通常取0.05或0.10.检验水准说明了该检验犯第一类错误的概率。 2.根据研究目的和设计类型选择适合的检验方法:是指参数检验方法,有u检验、t检验和方差分析三种,对应于不同的检验公式。对双样本资料,要注意区分成组设计和配对设计的资料类型。如果资料里有
u检验得到的是u统计量或称u值,t检验得到的是t统计量或称t值。方差分析得到的是F统计量或称F值。 为什么等级资料不可用方差分析?资料不相互独立
方差分析(analysis of variance,ANOVA )的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(SS)和自由度分解为两个或多个部分,除随机误差外,
其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS 组间可由处理因素的作用加以解释。通过各变异来源的均方与误差均方比值的大小,借助F 分布作出统计推断,判断各因素对各组均数有无影响。 应用条件
(1) 各样本是相互独立的随机样本,且来自正态分布总体。(2) 各样本的总体方差相等,即方差齐性(homoscedasticity)。
分类资料的统计描述
率(强度相对数,频率相对数)、构成比、相对比
应用相对数时应注意的问题(简答题 六条)
⑴ 计算相对数的分母一般不宜过小。 ⑵ 分析时不能以构成比代替率。 ⑶ 不能用构成比的动态分析代替率的动态分析。
⑷ 对观察单位数不等的几个率,不能直接相加求其总率。
⑸ 在比较相对数时应注意可比性。 ⑹ 对样本率(或构成比)的比较应随机抽样,并做假设检验。 率的标准化的基本思想 : 要比较两个总率时,发现两组资料的内部构成(如年龄、性别构成等)存在明显不同,而且影响到了总率的结果,这时就不宜再直接比较总率,而应考虑采用标准化法。
标准化法的基本思想,就是采用统一的标准(统一的内部构成)计算出消除内部构成不同影响后的标准化率(调整率),然后再进行比较。 二、直接标准化法的计算方法 当已知所比较资料各组率Pi,可选用直接法计算标化率。
三、间接标准化死亡比的计算方法 当所比较的资料已知各自某现象总发生数r及各分组观察单位数时,宜采用间接法计算标化率。
非参数统计的特点和适用范围 (简答) 1.特点
(1)样本所来自的总体的分布形式为任何形式,甚至是未知的,都能适用。 (2)收集资料方便,可用“等级”或“符号”来评定观察结果。
(3)多数非参数方法比较简便,易于理解和掌握。
(4)缺点是损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。 2.适用范围 (1)等级资料。
(2)偏态分布资料。当观察资料呈偏态或极度偏态分布而又未作变量变换,或虽经变量变换仍未达到正态或近似正态分布时,宜用非参数检验。
(3)各组离散程度相差悬殊,即方差明显不齐,且不能变换达到齐性。 (4)个别数据偏离过大,或资料为单侧或双侧没有上限或下限值。
(5)分布类型不明。
(6)初步分析。有些医学资料由于统计工作量大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)。
(7)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可用非参数统计方法。
非参数检验的优缺点:(简答) 非参数统计与传统的参数统计相比,有以下优点:
1、非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。 2、多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。
3、大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。
4、大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。
5、当推论多达3个以上时,非参数统计方法尤具优越性。
但非参数统计方法也有以下缺点: 1、由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
2、对于大样本,如不采用适当的近似,计算可能变得十分复杂。
配对设计的符号秩和检验方法(简答) (1)假设:H0:差值总体中位数Md=0 H1:Md≠0 α =0.05 (2)求差值
(3)编秩次:依差值的绝对值从小到大编秩次。编秩次时遇差数等于 0,舍去不计,同时样本例数减1;遇绝对值相等差数,符号相同顺次编秩次,符号相反取平均秩次,且符号相反。
2
(4)求秩和并确定检验统计量:分别求出正负秩次之和,正秩和以 T+表示,负秩和的绝对值以T-表示。T+及T-之和应等于 n(n+1)/2,任取T+(或 T-)作检验统计量T 。
(5)确定 P 值和作出推断结论:当 n≤50 时,查 T 界值表,得出 P值。若检验统计量T值在上、下界值范围内,其 P值大于表上方相应概率水平;若 T值在上、下界值上若范围外,其 P值小于表上方相应概率水平。 线性相关系数(名解)
线性相关系数:表示两个变数线性相关方向及程度的统计数或参数。又叫直线相关系数,简称相关系数。,|R|的极值为1,|R|越大(接近1),则直线关系越好。 线性相关系数取值范围(填空) -1≤r≤1
样本相关系数 r的假设检验(填空题) (1)r 界值表法; (2)t检验法。 线性相关或回归应用应注意的问题(简答)
⑴作回归分析和相关分析时要有实际意义,不能把毫无关联的两种现象作回归、相关分析,必须对两种现象间的内在联系有所认识。
⑵在进行回归分析和相关分析之前,应绘制散点图。但观察点的分布有直线趋势时,才适宜作回归、相关分析。如果散点图呈明显曲线趋势,应使之直线化再行分析。散点图还能提示资料有无可疑异常点。
⑶直线回归方程的应用范围一般以自变量的取值范围为限。若无充分理由证明超过自变量取值范围外还是直线,应避免外延。
⑷双变量的小样本经 t 检验只能推断两变量间有无直线关系,而不能推断相关的紧密程度,要推断相关的紧密程度,样本含量必须很大。
⑸相关或回归关系不一定是因果关系,也可能是伴随关系,有相关或回归关系不能证明事物间确有内在联系。
秩相关的应用适用范围(简答)
秩相关,又称等级相关(rank correlation),是用双变量等级数据作直线相关分析,适用于下列资料: ⒈ 不服从双变量正态分布而不宜作积差相关分析; ⒉ 总体分布型未知;
⒊ 用等级表示的原始数据。
相关与回归的区别与联系(简答) 区别:
1.意义 :相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。 2.应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。
3.研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。 4.相关系数r与回归系数b :r与b的绝对值反映的意义不同。r的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。b的绝对值越大,回归直线越陡,说明当X变化一个单位时,Y的平均变化就越大。反之也是一样。 联系:
1. r与b值可相互换算; 2. r与b正负号一致; 3. r与b的假设检验等价;
4. 回归可解释相关。相关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比,故回归平方和是引入相关变量后总平方和减少的部分。
回归系数的估计原则:最小二乘(least squares)原则(填空) 应用直线回归时的注意事项:
1.作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种现象间的内在联系有所认识。
2.在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,散点图还能提示资料有无异常点。异常点的存在往往对方程中的系数(a、b)的估计产生较大影响。因此,需对异常点进行复查。 3.建立直线回归方程后,要对系数进行假设检验,以确定回归方程有无意义。
4.直线回归方程的适用范围一般以自变量的取值范围为限,避免外延。获得自变量值的手段也应与建立方程时相同。否则会产生较大偏差。
3