横断面研究中非抽样误差来源及控制

横断面研究中非抽样误差来源及控制

时涛

摘要:文章针对抽样调查两大误差类型展开分析讨论,重点分析非抽样误差来源,并举例说明其有效控制的可行性方法。

关键词:横断面研究;非抽样误差;质量控制

横断面研究是流行病学描述性研究中应用最为广泛的一种方法,其数据的收集主要采用抽样调查的方式,而抽样调查一定存在抽样误差。因此,要研究误差,必须了解误差的分类。

[1]调查误差分为两种类型:抽样误差和非抽样误差。

1 抽样误差

抽样误差是由于用样本估计总体而产生的误差,它可以通过增大样本量来减小误差,但不可避免。

样本只是总体的一部分,用局部数据来估计总体不可能完全正确。对任何一种抽样方案,可能的样本会很多,而实际抽到的只是一个样本,因此抽到那一个样本完全是随机的、偶然的。

抽样误差是一种系统误差,其大小依赖于抽样方案,任何一种抽样方案一旦确定,由抽样方法本身导致的误差就已经确定了。对于抽样误差的测算和控制,随着统计科学的进步,已发展出了非常深厚的理论体系。研究者在研究一个样本时,只需针对具体问题,在抽样理论的框架内,集中展开估计的公式和随机选样的技术。尽管抽样误差可能对调查结果的影响很大,但由于抽样误差本身并不是一种错误的结果,除了对抽样方案的正确选择外,其他人为的控制不会产生相应的影响,因此对抽样误差的研究和控制并不是本文研究的重点。在流行病调查的质量管理实践中,通过组织专家评审会的方式不断完善抽样方案,尽可能地减少抽样误差。其抽样方案经过专家的评价审核,确定了合理的抽样方案后,其质量控制的重点就放在了减少非抽样误差上。

2 非抽样误差

非抽样误差包括了除抽样误差外,引起调查误差的所有其他因素,不可以通过增大样本量来控制,它可以避免。

通常认为非抽样误差的发生完全是由于调查程序设计和执行中的错误和不足引起的。因此,从理论上说,完美的设计和完美的执行将完全避免非抽样误差。但从实践看,我们永远也不可能完全消除设计和执行过程中的问题。这种理论上的完美可能性和实际情况之间的差异,决定了我们在控制非抽样误差上的努力永远没有止步的一天。非抽样误差按其产生的原因可分为以下三类:抽样框误差、无回答误差、计量误差。

2.1 抽样框误差

抽样框误差是指目标总体和抽样总体不一致而产生的误差。理想的抽样框应是所有的抽样单位必须覆盖目标总体,即抽样总体与目标总体一致。对于较为简单的单阶段抽样,抽样框要唯一地与目标总体相联接。如果目标总体与抽样总体不一致就会产生抽样框误差。多阶段的分层抽样更是如此,如果每个分层抽样的抽样框是正确的,其精度会高于简单的单阶段 抽样;反之,则误差会更大。

一般来说,抽样框误差有以下几种类型:

(1)不能覆盖目标总体单位。不能覆盖目标总体单位,指目标总体单位全部或部分没有出现在抽样总体中,导致部分目标总体被抽中的概率为零,数据丢失。例如:山东省泰安

市某区(县、市)甲型H1N1流感扩散的现状研究。由于该城市进行行政区划的改变,原来的四个城区与近郊区重新规划,整合为五个新的城区。在收集抽样框资料时,如果收集的资料仅为四个城区的资料,未包括后列入的近郊区,就会形成抽样框的不完整,造成数据的偏差和丢失。在基础研究阶段,就需要不断收集和分析资料,根据目标总体的变化随时调整抽样框。

(2)抽样总体包括了非目标总体单位或抽样框部分重复。这与第一种情况恰恰相反,是指有一部分不应被收集入抽样框的资料,被错误地列入被抽样之列,导致目标总体被夸大,或者抽样框中有一部分以不同形式出现然而实际是重复的样框,导致这部分样框被抽中的概率增大,引起数据偏差。

例如:一个城市中地域相邻的几个城区各自辟出工业相对发达的一部分来成立一个新的经济技术开发区,在收集资料时将原有的城区与新的经济开发区的资料一起收集并列抽样,则会引起包含在经济技术开发区中的居(村)委会的重复抽选,样本在这部分工业相对发达的居(村)委会的比例严重扩大,这必然引起最终数据的偏差。

(3)抽样框老化。统计数据调查具有很强的时效性,随着时间的推移,抽样框必须更新,否则就会老化,不符合实际情况而使抽样不准确,抽样的精度就会非常难以控制。每年或每两年重新收集当年最新的抽样框资料(根据城市的重要程度和建设速度,一般大中型城市每年收集一次,小型城市每两年收集一次),并就以上可能出现的抽样框误差来源进行评估,只有评估有效的抽样框才可投入使用。

(4)分层抽样时各层的辅助信息不正确。这种情况在简单随机抽样中不存在,但在分层抽样中却是出现抽样框误差的一种重要来源。

总之,建立一个准确、及时的抽样框,是减少非抽样误差的一个重要方面。在实践中,完美的抽样框几乎无法达到,有缺陷的抽样框并非不能使用,关键看造成抽样精度的损失和弥补样框的成本之间的比较和权衡。

2.2 无回答误差

所谓的无回答误差是指数据的丢失,其原因有两种:一是有意不回答,即被访者拒绝就某一问题给与回答;二是无意不回答,即可能是被访者不在家或是访问员疏忽,导致数据遗漏。无回答误差最常见的有以下几种:

(1)抽样遗漏

抽样遗漏是指抽样过程中没有抽到一些本应调查的抽样单位。这种误差的产生来源不同于前述的抽样框误差,但产生的结果类似,甚至更为严重。因为抽样过程中产生的遗漏最可能是因为漏掉了某一类特征群,而这类特征群的缺失会使调查结果出现无法调整的偏差。

例如在基础研究阶段,访问员如果只固定在晚间某个时段拜访被抽中的样户,很可能就无法与一些工作时间主要在晚间该时段的家庭户取得联系。数次拜访不成后,该样本户可能被放弃,而另选其他替代样户。这样就有可能在无意间缺失了该类特征群的收视调查数据。

(2)无法查找或联系不上

一般情况下,这种误差来源主要是由于抽样框中的地址不确切、发生了变化或者被访者家中无人(如外出旅游、生病住院等特殊情况)造成的无法接触的情况。如果这种误差是随机地、均匀地发生的,尽管增大了误差范围,但对最终结果的威胁并不大。但如果这种情况集中发生在某一类特征群中,就会产生严重的系统性偏差。

(3)被访者拒访

这是最容易理解的一种无回答误差,也是最能体现访问员个人技巧和调查机构现场业务能力的方面。拒访率高,响应率就低,抽取样本的误差就会增大。因此这种类型的无回答误差是现场质量控制方面致力提高的关键点。

在我国的市场调查活动中,产生这种无回答误差的最主要原因与其他国家还有着显著的

不同——调查组织者的身份会在很大程度上左右被调查者的回答意愿。对于国家正式统计部门组织的调查,如居民住户、人口情况等调查,很少有无回答的问题。这与我们国家计划经济改为市场经济的时间较短有莫大关系,也与统计部门组织调查的权威性有密切关系。而在一些非官方的民间调查中,无回答情况则频繁出现。随着市场经济逐渐成熟,人们对调查的市场概念越来越清晰,不合作和安全防范的意识越来越强,而民众的社会参与意识却未能及时随着经济的发展而提高。

2.3 计量误差

计量误差是所有非抽样误差中可能出现的环节最多,也最难以避免的一种误差形式。按其产生原因可大致分为三类:调查方式设计产生的计量误差,调查执行过程中产生的计量误差,其他计量误差。

(1)调查方式设计产生的计量误差,主要有以下两种:① 问卷设计产生的误差:主要是由于不同措辞的不同表达造成了不同的理解。例如文字当中使用了带有倾向性或诱导性的词汇,本身使人产生歧义;或者问卷当中问题的排列顺序不科学;或者问卷过长导致访问疲劳产生等原因造成的误差。② 数据收集方式设计产生的误差:被访者回答问题时圈出答案还是在备选项打“√”,后者容易造成答案不明确从而造成计量误差,一般是圈出答案。

(2)调查执行过程产生的误差,是计量误差的一个重要组成部分,主要来自于两个方面:① 是访问员有意或无意导致数据失真。② 是被访者有意或无意导致数据失真。产生这个问题的主要原因是理解错误或记忆错误,这个问题也是任何一个从事调研工作者致力解决的重要问题,主要通过连续、全面的培训和复核工作加以控制。

(3)其他计量误差:常见的类型有随机数表的编制和使用不当造成的误差;数据处理过程中(包括编码、录入)发生的误差,等等。这些误差都可以通过比较有效的质量控制加以限制。

总之,横断面研究的数据质量,其产品的无形性、不可追溯性和差异性,决定了对其实施的质量控制本质上就是对调查误差的控制。

3 结束语

在卫生统计不断快速发展的今天,作为统计分析人员,我们应不断适应医学的发展,发展调查的新技术新手段,不断提高横断面研究的数据质量,不断深化对基础研究资料的分析和利用,对患病率数据的具有针对性地解释说明,更充分地满足流行病学分析的要求。

参考文献:

[1]冯士雍等编著.抽样调查理论与方法[M]北京.中国统计出版社,1998.

作者简介:时涛,男,1981年9月,山东济南人,硕士,泰山医学院管理学院统计学教研室讲师,研究方向市场调查与数据挖掘。

联系地址:山东泰安长城路中段泰山医学院管理学院统计学教研室

邮政编码:271016。

联系电话:[1**********],0538-6759289

横断面研究中非抽样误差来源及控制

时涛

摘要:文章针对抽样调查两大误差类型展开分析讨论,重点分析非抽样误差来源,并举例说明其有效控制的可行性方法。

关键词:横断面研究;非抽样误差;质量控制

横断面研究是流行病学描述性研究中应用最为广泛的一种方法,其数据的收集主要采用抽样调查的方式,而抽样调查一定存在抽样误差。因此,要研究误差,必须了解误差的分类。

[1]调查误差分为两种类型:抽样误差和非抽样误差。

1 抽样误差

抽样误差是由于用样本估计总体而产生的误差,它可以通过增大样本量来减小误差,但不可避免。

样本只是总体的一部分,用局部数据来估计总体不可能完全正确。对任何一种抽样方案,可能的样本会很多,而实际抽到的只是一个样本,因此抽到那一个样本完全是随机的、偶然的。

抽样误差是一种系统误差,其大小依赖于抽样方案,任何一种抽样方案一旦确定,由抽样方法本身导致的误差就已经确定了。对于抽样误差的测算和控制,随着统计科学的进步,已发展出了非常深厚的理论体系。研究者在研究一个样本时,只需针对具体问题,在抽样理论的框架内,集中展开估计的公式和随机选样的技术。尽管抽样误差可能对调查结果的影响很大,但由于抽样误差本身并不是一种错误的结果,除了对抽样方案的正确选择外,其他人为的控制不会产生相应的影响,因此对抽样误差的研究和控制并不是本文研究的重点。在流行病调查的质量管理实践中,通过组织专家评审会的方式不断完善抽样方案,尽可能地减少抽样误差。其抽样方案经过专家的评价审核,确定了合理的抽样方案后,其质量控制的重点就放在了减少非抽样误差上。

2 非抽样误差

非抽样误差包括了除抽样误差外,引起调查误差的所有其他因素,不可以通过增大样本量来控制,它可以避免。

通常认为非抽样误差的发生完全是由于调查程序设计和执行中的错误和不足引起的。因此,从理论上说,完美的设计和完美的执行将完全避免非抽样误差。但从实践看,我们永远也不可能完全消除设计和执行过程中的问题。这种理论上的完美可能性和实际情况之间的差异,决定了我们在控制非抽样误差上的努力永远没有止步的一天。非抽样误差按其产生的原因可分为以下三类:抽样框误差、无回答误差、计量误差。

2.1 抽样框误差

抽样框误差是指目标总体和抽样总体不一致而产生的误差。理想的抽样框应是所有的抽样单位必须覆盖目标总体,即抽样总体与目标总体一致。对于较为简单的单阶段抽样,抽样框要唯一地与目标总体相联接。如果目标总体与抽样总体不一致就会产生抽样框误差。多阶段的分层抽样更是如此,如果每个分层抽样的抽样框是正确的,其精度会高于简单的单阶段 抽样;反之,则误差会更大。

一般来说,抽样框误差有以下几种类型:

(1)不能覆盖目标总体单位。不能覆盖目标总体单位,指目标总体单位全部或部分没有出现在抽样总体中,导致部分目标总体被抽中的概率为零,数据丢失。例如:山东省泰安

市某区(县、市)甲型H1N1流感扩散的现状研究。由于该城市进行行政区划的改变,原来的四个城区与近郊区重新规划,整合为五个新的城区。在收集抽样框资料时,如果收集的资料仅为四个城区的资料,未包括后列入的近郊区,就会形成抽样框的不完整,造成数据的偏差和丢失。在基础研究阶段,就需要不断收集和分析资料,根据目标总体的变化随时调整抽样框。

(2)抽样总体包括了非目标总体单位或抽样框部分重复。这与第一种情况恰恰相反,是指有一部分不应被收集入抽样框的资料,被错误地列入被抽样之列,导致目标总体被夸大,或者抽样框中有一部分以不同形式出现然而实际是重复的样框,导致这部分样框被抽中的概率增大,引起数据偏差。

例如:一个城市中地域相邻的几个城区各自辟出工业相对发达的一部分来成立一个新的经济技术开发区,在收集资料时将原有的城区与新的经济开发区的资料一起收集并列抽样,则会引起包含在经济技术开发区中的居(村)委会的重复抽选,样本在这部分工业相对发达的居(村)委会的比例严重扩大,这必然引起最终数据的偏差。

(3)抽样框老化。统计数据调查具有很强的时效性,随着时间的推移,抽样框必须更新,否则就会老化,不符合实际情况而使抽样不准确,抽样的精度就会非常难以控制。每年或每两年重新收集当年最新的抽样框资料(根据城市的重要程度和建设速度,一般大中型城市每年收集一次,小型城市每两年收集一次),并就以上可能出现的抽样框误差来源进行评估,只有评估有效的抽样框才可投入使用。

(4)分层抽样时各层的辅助信息不正确。这种情况在简单随机抽样中不存在,但在分层抽样中却是出现抽样框误差的一种重要来源。

总之,建立一个准确、及时的抽样框,是减少非抽样误差的一个重要方面。在实践中,完美的抽样框几乎无法达到,有缺陷的抽样框并非不能使用,关键看造成抽样精度的损失和弥补样框的成本之间的比较和权衡。

2.2 无回答误差

所谓的无回答误差是指数据的丢失,其原因有两种:一是有意不回答,即被访者拒绝就某一问题给与回答;二是无意不回答,即可能是被访者不在家或是访问员疏忽,导致数据遗漏。无回答误差最常见的有以下几种:

(1)抽样遗漏

抽样遗漏是指抽样过程中没有抽到一些本应调查的抽样单位。这种误差的产生来源不同于前述的抽样框误差,但产生的结果类似,甚至更为严重。因为抽样过程中产生的遗漏最可能是因为漏掉了某一类特征群,而这类特征群的缺失会使调查结果出现无法调整的偏差。

例如在基础研究阶段,访问员如果只固定在晚间某个时段拜访被抽中的样户,很可能就无法与一些工作时间主要在晚间该时段的家庭户取得联系。数次拜访不成后,该样本户可能被放弃,而另选其他替代样户。这样就有可能在无意间缺失了该类特征群的收视调查数据。

(2)无法查找或联系不上

一般情况下,这种误差来源主要是由于抽样框中的地址不确切、发生了变化或者被访者家中无人(如外出旅游、生病住院等特殊情况)造成的无法接触的情况。如果这种误差是随机地、均匀地发生的,尽管增大了误差范围,但对最终结果的威胁并不大。但如果这种情况集中发生在某一类特征群中,就会产生严重的系统性偏差。

(3)被访者拒访

这是最容易理解的一种无回答误差,也是最能体现访问员个人技巧和调查机构现场业务能力的方面。拒访率高,响应率就低,抽取样本的误差就会增大。因此这种类型的无回答误差是现场质量控制方面致力提高的关键点。

在我国的市场调查活动中,产生这种无回答误差的最主要原因与其他国家还有着显著的

不同——调查组织者的身份会在很大程度上左右被调查者的回答意愿。对于国家正式统计部门组织的调查,如居民住户、人口情况等调查,很少有无回答的问题。这与我们国家计划经济改为市场经济的时间较短有莫大关系,也与统计部门组织调查的权威性有密切关系。而在一些非官方的民间调查中,无回答情况则频繁出现。随着市场经济逐渐成熟,人们对调查的市场概念越来越清晰,不合作和安全防范的意识越来越强,而民众的社会参与意识却未能及时随着经济的发展而提高。

2.3 计量误差

计量误差是所有非抽样误差中可能出现的环节最多,也最难以避免的一种误差形式。按其产生原因可大致分为三类:调查方式设计产生的计量误差,调查执行过程中产生的计量误差,其他计量误差。

(1)调查方式设计产生的计量误差,主要有以下两种:① 问卷设计产生的误差:主要是由于不同措辞的不同表达造成了不同的理解。例如文字当中使用了带有倾向性或诱导性的词汇,本身使人产生歧义;或者问卷当中问题的排列顺序不科学;或者问卷过长导致访问疲劳产生等原因造成的误差。② 数据收集方式设计产生的误差:被访者回答问题时圈出答案还是在备选项打“√”,后者容易造成答案不明确从而造成计量误差,一般是圈出答案。

(2)调查执行过程产生的误差,是计量误差的一个重要组成部分,主要来自于两个方面:① 是访问员有意或无意导致数据失真。② 是被访者有意或无意导致数据失真。产生这个问题的主要原因是理解错误或记忆错误,这个问题也是任何一个从事调研工作者致力解决的重要问题,主要通过连续、全面的培训和复核工作加以控制。

(3)其他计量误差:常见的类型有随机数表的编制和使用不当造成的误差;数据处理过程中(包括编码、录入)发生的误差,等等。这些误差都可以通过比较有效的质量控制加以限制。

总之,横断面研究的数据质量,其产品的无形性、不可追溯性和差异性,决定了对其实施的质量控制本质上就是对调查误差的控制。

3 结束语

在卫生统计不断快速发展的今天,作为统计分析人员,我们应不断适应医学的发展,发展调查的新技术新手段,不断提高横断面研究的数据质量,不断深化对基础研究资料的分析和利用,对患病率数据的具有针对性地解释说明,更充分地满足流行病学分析的要求。

参考文献:

[1]冯士雍等编著.抽样调查理论与方法[M]北京.中国统计出版社,1998.

作者简介:时涛,男,1981年9月,山东济南人,硕士,泰山医学院管理学院统计学教研室讲师,研究方向市场调查与数据挖掘。

联系地址:山东泰安长城路中段泰山医学院管理学院统计学教研室

邮政编码:271016。

联系电话:[1**********],0538-6759289


相关内容

  • 横断面调查
  • 横断面调查 简析 横断面调查又称横断面研究,因为所获得的描述性资料是在某一时点或在一个较短时间区间内收集的,所以它客观地反映了这一时点的疾病分布以及人们的某些特征与疾病之间的关联.由于所收集的资料是调查当时所得到的现况资料,故又称现况研究或现况调查(prevalencesurvey):又因横断面研究 ...

  • 卫生统计学教学大纲
  • 卫生统计学教学大纲 (供预防医学专业五年制本科生使用) 前言 卫生统计学是研究居民健康状况以及卫生服务领域中数据的收集.整理和分析的一门科学.本课程的教学目的是为学生在校学习专业课程,毕业后从事公共卫生领域的研究和实际工作,打下必要的卫生统计学基础.在学习本课程时,应注意掌握卫生统计学的基本理论.基 ...

  • 流行病学名词解释.简答题精华
  • 流行病学(epidemiology): 是研究人群中疾病和健康状态的分布及其影响因素,并研究如何防治疾病及促进健康的策略与措施的科学. 第二章 疾病的分布 疾病分布:指疾病在不同人群(人间) .不同地区(空间).不同时间(时间)中的发生频率与分布现象,是流行病学研究的起点和基础. 比(ratio): ...

  • 公共营养师一级真题
  • 线此过 超准 不题答生 考 注 意 事 项 一.本试卷依据2006年颁布的<公共营养师>国家职业标准命制. 二.请根据试题考核要求,完成考试内容. 三.请服从考评人员指挥,保证考核安全顺利进行. 试题1.膳食调查方案设计包括哪些基本内容?(10分) (1)确定调查目的,将其具体化到指标. ...

  • 预防医学期末考试重点(天津中医药大学)
  • 1. 预防医学:预防医学是通过研究环境因素.行为和生活方式.医疗卫生服务.生物遗传因素等对健康的影响.疾病的分布规律,以及健康和疾病之间相互演变归路,已制定维护健康.防治疾病.提高生命质量.延长寿命的对策和措施的一门学科. 2. 预防医学的主要内容和特点: 内容①医学模式.健康观念与三级预防的策略和 ...

  • 样本量计算
  • 1.估计样本量的决定因素 1.1 资料性质 计量资料如果设计均衡,误差控制得好,样本可以小于30例; 计数资料即使误差控制严格,设计均衡, 样本需要大一些,需要30-100例. 1.2 研究事件的发生率 研究事件预期结局出现的结局(疾病或死亡),疾病发生率越高,所需的样本量越小,反之就要越大. 1. ...

  • 流行病学five
  • 因肿瘤死亡人数为50人,该社区年内共出生 100人. 1.关于"流行病学",下列说法错误的是 B A. 0.56‰ B. 1.66‰ C. 0.33‰ D. A.流行病学是从群体角度研究疾病与健康 1.11‰ E.33.33% B.流行病学研究的病种仅限于传染病 10.该社区年度 ...

  • 第二章描述性研究
  • 第二章 描述性研究 描述性研究(descriptive study)又称描述流行病学,是流行病学最基本的的研究方法.它往往是病因不明疾病病因探索的起点. 第一节 描述性研究概述 一. 概念 描述性研究是利用专门设计调查的资料或已有的资料,按不同人群.不同地区及不同时间即三间分布的特点分组,把疾病或健 ...

  • 流行病学与统计
  • 流行病学与统计 医学统计学:根据统计学的原理和方法,研究医学数据收集.表达和分析的一门应用各学科. 医学统计的主要内容: 研究对象:医学数据 统计设计:调查设计和实验设计 统计描述:率.均数 统计推断:对统计指标的差别和关联性进行分析和推断 医学统计资料的类型 统计工作的基本步骤包括: 1. 研究设 ...