横断面研究中非抽样误差来源及控制
时涛
摘要:文章针对抽样调查两大误差类型展开分析讨论,重点分析非抽样误差来源,并举例说明其有效控制的可行性方法。
关键词:横断面研究;非抽样误差;质量控制
横断面研究是流行病学描述性研究中应用最为广泛的一种方法,其数据的收集主要采用抽样调查的方式,而抽样调查一定存在抽样误差。因此,要研究误差,必须了解误差的分类。
[1]调查误差分为两种类型:抽样误差和非抽样误差。
1 抽样误差
抽样误差是由于用样本估计总体而产生的误差,它可以通过增大样本量来减小误差,但不可避免。
样本只是总体的一部分,用局部数据来估计总体不可能完全正确。对任何一种抽样方案,可能的样本会很多,而实际抽到的只是一个样本,因此抽到那一个样本完全是随机的、偶然的。
抽样误差是一种系统误差,其大小依赖于抽样方案,任何一种抽样方案一旦确定,由抽样方法本身导致的误差就已经确定了。对于抽样误差的测算和控制,随着统计科学的进步,已发展出了非常深厚的理论体系。研究者在研究一个样本时,只需针对具体问题,在抽样理论的框架内,集中展开估计的公式和随机选样的技术。尽管抽样误差可能对调查结果的影响很大,但由于抽样误差本身并不是一种错误的结果,除了对抽样方案的正确选择外,其他人为的控制不会产生相应的影响,因此对抽样误差的研究和控制并不是本文研究的重点。在流行病调查的质量管理实践中,通过组织专家评审会的方式不断完善抽样方案,尽可能地减少抽样误差。其抽样方案经过专家的评价审核,确定了合理的抽样方案后,其质量控制的重点就放在了减少非抽样误差上。
2 非抽样误差
非抽样误差包括了除抽样误差外,引起调查误差的所有其他因素,不可以通过增大样本量来控制,它可以避免。
通常认为非抽样误差的发生完全是由于调查程序设计和执行中的错误和不足引起的。因此,从理论上说,完美的设计和完美的执行将完全避免非抽样误差。但从实践看,我们永远也不可能完全消除设计和执行过程中的问题。这种理论上的完美可能性和实际情况之间的差异,决定了我们在控制非抽样误差上的努力永远没有止步的一天。非抽样误差按其产生的原因可分为以下三类:抽样框误差、无回答误差、计量误差。
2.1 抽样框误差
抽样框误差是指目标总体和抽样总体不一致而产生的误差。理想的抽样框应是所有的抽样单位必须覆盖目标总体,即抽样总体与目标总体一致。对于较为简单的单阶段抽样,抽样框要唯一地与目标总体相联接。如果目标总体与抽样总体不一致就会产生抽样框误差。多阶段的分层抽样更是如此,如果每个分层抽样的抽样框是正确的,其精度会高于简单的单阶段 抽样;反之,则误差会更大。
一般来说,抽样框误差有以下几种类型:
(1)不能覆盖目标总体单位。不能覆盖目标总体单位,指目标总体单位全部或部分没有出现在抽样总体中,导致部分目标总体被抽中的概率为零,数据丢失。例如:山东省泰安
市某区(县、市)甲型H1N1流感扩散的现状研究。由于该城市进行行政区划的改变,原来的四个城区与近郊区重新规划,整合为五个新的城区。在收集抽样框资料时,如果收集的资料仅为四个城区的资料,未包括后列入的近郊区,就会形成抽样框的不完整,造成数据的偏差和丢失。在基础研究阶段,就需要不断收集和分析资料,根据目标总体的变化随时调整抽样框。
(2)抽样总体包括了非目标总体单位或抽样框部分重复。这与第一种情况恰恰相反,是指有一部分不应被收集入抽样框的资料,被错误地列入被抽样之列,导致目标总体被夸大,或者抽样框中有一部分以不同形式出现然而实际是重复的样框,导致这部分样框被抽中的概率增大,引起数据偏差。
例如:一个城市中地域相邻的几个城区各自辟出工业相对发达的一部分来成立一个新的经济技术开发区,在收集资料时将原有的城区与新的经济开发区的资料一起收集并列抽样,则会引起包含在经济技术开发区中的居(村)委会的重复抽选,样本在这部分工业相对发达的居(村)委会的比例严重扩大,这必然引起最终数据的偏差。
(3)抽样框老化。统计数据调查具有很强的时效性,随着时间的推移,抽样框必须更新,否则就会老化,不符合实际情况而使抽样不准确,抽样的精度就会非常难以控制。每年或每两年重新收集当年最新的抽样框资料(根据城市的重要程度和建设速度,一般大中型城市每年收集一次,小型城市每两年收集一次),并就以上可能出现的抽样框误差来源进行评估,只有评估有效的抽样框才可投入使用。
(4)分层抽样时各层的辅助信息不正确。这种情况在简单随机抽样中不存在,但在分层抽样中却是出现抽样框误差的一种重要来源。
总之,建立一个准确、及时的抽样框,是减少非抽样误差的一个重要方面。在实践中,完美的抽样框几乎无法达到,有缺陷的抽样框并非不能使用,关键看造成抽样精度的损失和弥补样框的成本之间的比较和权衡。
2.2 无回答误差
所谓的无回答误差是指数据的丢失,其原因有两种:一是有意不回答,即被访者拒绝就某一问题给与回答;二是无意不回答,即可能是被访者不在家或是访问员疏忽,导致数据遗漏。无回答误差最常见的有以下几种:
(1)抽样遗漏
抽样遗漏是指抽样过程中没有抽到一些本应调查的抽样单位。这种误差的产生来源不同于前述的抽样框误差,但产生的结果类似,甚至更为严重。因为抽样过程中产生的遗漏最可能是因为漏掉了某一类特征群,而这类特征群的缺失会使调查结果出现无法调整的偏差。
例如在基础研究阶段,访问员如果只固定在晚间某个时段拜访被抽中的样户,很可能就无法与一些工作时间主要在晚间该时段的家庭户取得联系。数次拜访不成后,该样本户可能被放弃,而另选其他替代样户。这样就有可能在无意间缺失了该类特征群的收视调查数据。
(2)无法查找或联系不上
一般情况下,这种误差来源主要是由于抽样框中的地址不确切、发生了变化或者被访者家中无人(如外出旅游、生病住院等特殊情况)造成的无法接触的情况。如果这种误差是随机地、均匀地发生的,尽管增大了误差范围,但对最终结果的威胁并不大。但如果这种情况集中发生在某一类特征群中,就会产生严重的系统性偏差。
(3)被访者拒访
这是最容易理解的一种无回答误差,也是最能体现访问员个人技巧和调查机构现场业务能力的方面。拒访率高,响应率就低,抽取样本的误差就会增大。因此这种类型的无回答误差是现场质量控制方面致力提高的关键点。
在我国的市场调查活动中,产生这种无回答误差的最主要原因与其他国家还有着显著的
不同——调查组织者的身份会在很大程度上左右被调查者的回答意愿。对于国家正式统计部门组织的调查,如居民住户、人口情况等调查,很少有无回答的问题。这与我们国家计划经济改为市场经济的时间较短有莫大关系,也与统计部门组织调查的权威性有密切关系。而在一些非官方的民间调查中,无回答情况则频繁出现。随着市场经济逐渐成熟,人们对调查的市场概念越来越清晰,不合作和安全防范的意识越来越强,而民众的社会参与意识却未能及时随着经济的发展而提高。
2.3 计量误差
计量误差是所有非抽样误差中可能出现的环节最多,也最难以避免的一种误差形式。按其产生原因可大致分为三类:调查方式设计产生的计量误差,调查执行过程中产生的计量误差,其他计量误差。
(1)调查方式设计产生的计量误差,主要有以下两种:① 问卷设计产生的误差:主要是由于不同措辞的不同表达造成了不同的理解。例如文字当中使用了带有倾向性或诱导性的词汇,本身使人产生歧义;或者问卷当中问题的排列顺序不科学;或者问卷过长导致访问疲劳产生等原因造成的误差。② 数据收集方式设计产生的误差:被访者回答问题时圈出答案还是在备选项打“√”,后者容易造成答案不明确从而造成计量误差,一般是圈出答案。
(2)调查执行过程产生的误差,是计量误差的一个重要组成部分,主要来自于两个方面:① 是访问员有意或无意导致数据失真。② 是被访者有意或无意导致数据失真。产生这个问题的主要原因是理解错误或记忆错误,这个问题也是任何一个从事调研工作者致力解决的重要问题,主要通过连续、全面的培训和复核工作加以控制。
(3)其他计量误差:常见的类型有随机数表的编制和使用不当造成的误差;数据处理过程中(包括编码、录入)发生的误差,等等。这些误差都可以通过比较有效的质量控制加以限制。
总之,横断面研究的数据质量,其产品的无形性、不可追溯性和差异性,决定了对其实施的质量控制本质上就是对调查误差的控制。
3 结束语
在卫生统计不断快速发展的今天,作为统计分析人员,我们应不断适应医学的发展,发展调查的新技术新手段,不断提高横断面研究的数据质量,不断深化对基础研究资料的分析和利用,对患病率数据的具有针对性地解释说明,更充分地满足流行病学分析的要求。
参考文献:
[1]冯士雍等编著.抽样调查理论与方法[M]北京.中国统计出版社,1998.
作者简介:时涛,男,1981年9月,山东济南人,硕士,泰山医学院管理学院统计学教研室讲师,研究方向市场调查与数据挖掘。
联系地址:山东泰安长城路中段泰山医学院管理学院统计学教研室
邮政编码:271016。
联系电话:[1**********],0538-6759289
横断面研究中非抽样误差来源及控制
时涛
摘要:文章针对抽样调查两大误差类型展开分析讨论,重点分析非抽样误差来源,并举例说明其有效控制的可行性方法。
关键词:横断面研究;非抽样误差;质量控制
横断面研究是流行病学描述性研究中应用最为广泛的一种方法,其数据的收集主要采用抽样调查的方式,而抽样调查一定存在抽样误差。因此,要研究误差,必须了解误差的分类。
[1]调查误差分为两种类型:抽样误差和非抽样误差。
1 抽样误差
抽样误差是由于用样本估计总体而产生的误差,它可以通过增大样本量来减小误差,但不可避免。
样本只是总体的一部分,用局部数据来估计总体不可能完全正确。对任何一种抽样方案,可能的样本会很多,而实际抽到的只是一个样本,因此抽到那一个样本完全是随机的、偶然的。
抽样误差是一种系统误差,其大小依赖于抽样方案,任何一种抽样方案一旦确定,由抽样方法本身导致的误差就已经确定了。对于抽样误差的测算和控制,随着统计科学的进步,已发展出了非常深厚的理论体系。研究者在研究一个样本时,只需针对具体问题,在抽样理论的框架内,集中展开估计的公式和随机选样的技术。尽管抽样误差可能对调查结果的影响很大,但由于抽样误差本身并不是一种错误的结果,除了对抽样方案的正确选择外,其他人为的控制不会产生相应的影响,因此对抽样误差的研究和控制并不是本文研究的重点。在流行病调查的质量管理实践中,通过组织专家评审会的方式不断完善抽样方案,尽可能地减少抽样误差。其抽样方案经过专家的评价审核,确定了合理的抽样方案后,其质量控制的重点就放在了减少非抽样误差上。
2 非抽样误差
非抽样误差包括了除抽样误差外,引起调查误差的所有其他因素,不可以通过增大样本量来控制,它可以避免。
通常认为非抽样误差的发生完全是由于调查程序设计和执行中的错误和不足引起的。因此,从理论上说,完美的设计和完美的执行将完全避免非抽样误差。但从实践看,我们永远也不可能完全消除设计和执行过程中的问题。这种理论上的完美可能性和实际情况之间的差异,决定了我们在控制非抽样误差上的努力永远没有止步的一天。非抽样误差按其产生的原因可分为以下三类:抽样框误差、无回答误差、计量误差。
2.1 抽样框误差
抽样框误差是指目标总体和抽样总体不一致而产生的误差。理想的抽样框应是所有的抽样单位必须覆盖目标总体,即抽样总体与目标总体一致。对于较为简单的单阶段抽样,抽样框要唯一地与目标总体相联接。如果目标总体与抽样总体不一致就会产生抽样框误差。多阶段的分层抽样更是如此,如果每个分层抽样的抽样框是正确的,其精度会高于简单的单阶段 抽样;反之,则误差会更大。
一般来说,抽样框误差有以下几种类型:
(1)不能覆盖目标总体单位。不能覆盖目标总体单位,指目标总体单位全部或部分没有出现在抽样总体中,导致部分目标总体被抽中的概率为零,数据丢失。例如:山东省泰安
市某区(县、市)甲型H1N1流感扩散的现状研究。由于该城市进行行政区划的改变,原来的四个城区与近郊区重新规划,整合为五个新的城区。在收集抽样框资料时,如果收集的资料仅为四个城区的资料,未包括后列入的近郊区,就会形成抽样框的不完整,造成数据的偏差和丢失。在基础研究阶段,就需要不断收集和分析资料,根据目标总体的变化随时调整抽样框。
(2)抽样总体包括了非目标总体单位或抽样框部分重复。这与第一种情况恰恰相反,是指有一部分不应被收集入抽样框的资料,被错误地列入被抽样之列,导致目标总体被夸大,或者抽样框中有一部分以不同形式出现然而实际是重复的样框,导致这部分样框被抽中的概率增大,引起数据偏差。
例如:一个城市中地域相邻的几个城区各自辟出工业相对发达的一部分来成立一个新的经济技术开发区,在收集资料时将原有的城区与新的经济开发区的资料一起收集并列抽样,则会引起包含在经济技术开发区中的居(村)委会的重复抽选,样本在这部分工业相对发达的居(村)委会的比例严重扩大,这必然引起最终数据的偏差。
(3)抽样框老化。统计数据调查具有很强的时效性,随着时间的推移,抽样框必须更新,否则就会老化,不符合实际情况而使抽样不准确,抽样的精度就会非常难以控制。每年或每两年重新收集当年最新的抽样框资料(根据城市的重要程度和建设速度,一般大中型城市每年收集一次,小型城市每两年收集一次),并就以上可能出现的抽样框误差来源进行评估,只有评估有效的抽样框才可投入使用。
(4)分层抽样时各层的辅助信息不正确。这种情况在简单随机抽样中不存在,但在分层抽样中却是出现抽样框误差的一种重要来源。
总之,建立一个准确、及时的抽样框,是减少非抽样误差的一个重要方面。在实践中,完美的抽样框几乎无法达到,有缺陷的抽样框并非不能使用,关键看造成抽样精度的损失和弥补样框的成本之间的比较和权衡。
2.2 无回答误差
所谓的无回答误差是指数据的丢失,其原因有两种:一是有意不回答,即被访者拒绝就某一问题给与回答;二是无意不回答,即可能是被访者不在家或是访问员疏忽,导致数据遗漏。无回答误差最常见的有以下几种:
(1)抽样遗漏
抽样遗漏是指抽样过程中没有抽到一些本应调查的抽样单位。这种误差的产生来源不同于前述的抽样框误差,但产生的结果类似,甚至更为严重。因为抽样过程中产生的遗漏最可能是因为漏掉了某一类特征群,而这类特征群的缺失会使调查结果出现无法调整的偏差。
例如在基础研究阶段,访问员如果只固定在晚间某个时段拜访被抽中的样户,很可能就无法与一些工作时间主要在晚间该时段的家庭户取得联系。数次拜访不成后,该样本户可能被放弃,而另选其他替代样户。这样就有可能在无意间缺失了该类特征群的收视调查数据。
(2)无法查找或联系不上
一般情况下,这种误差来源主要是由于抽样框中的地址不确切、发生了变化或者被访者家中无人(如外出旅游、生病住院等特殊情况)造成的无法接触的情况。如果这种误差是随机地、均匀地发生的,尽管增大了误差范围,但对最终结果的威胁并不大。但如果这种情况集中发生在某一类特征群中,就会产生严重的系统性偏差。
(3)被访者拒访
这是最容易理解的一种无回答误差,也是最能体现访问员个人技巧和调查机构现场业务能力的方面。拒访率高,响应率就低,抽取样本的误差就会增大。因此这种类型的无回答误差是现场质量控制方面致力提高的关键点。
在我国的市场调查活动中,产生这种无回答误差的最主要原因与其他国家还有着显著的
不同——调查组织者的身份会在很大程度上左右被调查者的回答意愿。对于国家正式统计部门组织的调查,如居民住户、人口情况等调查,很少有无回答的问题。这与我们国家计划经济改为市场经济的时间较短有莫大关系,也与统计部门组织调查的权威性有密切关系。而在一些非官方的民间调查中,无回答情况则频繁出现。随着市场经济逐渐成熟,人们对调查的市场概念越来越清晰,不合作和安全防范的意识越来越强,而民众的社会参与意识却未能及时随着经济的发展而提高。
2.3 计量误差
计量误差是所有非抽样误差中可能出现的环节最多,也最难以避免的一种误差形式。按其产生原因可大致分为三类:调查方式设计产生的计量误差,调查执行过程中产生的计量误差,其他计量误差。
(1)调查方式设计产生的计量误差,主要有以下两种:① 问卷设计产生的误差:主要是由于不同措辞的不同表达造成了不同的理解。例如文字当中使用了带有倾向性或诱导性的词汇,本身使人产生歧义;或者问卷当中问题的排列顺序不科学;或者问卷过长导致访问疲劳产生等原因造成的误差。② 数据收集方式设计产生的误差:被访者回答问题时圈出答案还是在备选项打“√”,后者容易造成答案不明确从而造成计量误差,一般是圈出答案。
(2)调查执行过程产生的误差,是计量误差的一个重要组成部分,主要来自于两个方面:① 是访问员有意或无意导致数据失真。② 是被访者有意或无意导致数据失真。产生这个问题的主要原因是理解错误或记忆错误,这个问题也是任何一个从事调研工作者致力解决的重要问题,主要通过连续、全面的培训和复核工作加以控制。
(3)其他计量误差:常见的类型有随机数表的编制和使用不当造成的误差;数据处理过程中(包括编码、录入)发生的误差,等等。这些误差都可以通过比较有效的质量控制加以限制。
总之,横断面研究的数据质量,其产品的无形性、不可追溯性和差异性,决定了对其实施的质量控制本质上就是对调查误差的控制。
3 结束语
在卫生统计不断快速发展的今天,作为统计分析人员,我们应不断适应医学的发展,发展调查的新技术新手段,不断提高横断面研究的数据质量,不断深化对基础研究资料的分析和利用,对患病率数据的具有针对性地解释说明,更充分地满足流行病学分析的要求。
参考文献:
[1]冯士雍等编著.抽样调查理论与方法[M]北京.中国统计出版社,1998.
作者简介:时涛,男,1981年9月,山东济南人,硕士,泰山医学院管理学院统计学教研室讲师,研究方向市场调查与数据挖掘。
联系地址:山东泰安长城路中段泰山医学院管理学院统计学教研室
邮政编码:271016。
联系电话:[1**********],0538-6759289