粗大误差四种判别准则的比较和应用

第23卷第1期2010年2月

大学物理实验Vol. 23No. 1

Feb. 2010

PH Y SICA L EXPERI M ENT OF CO L LEG E

文章编号:1007 2934(2010) 01 0066 03

粗大误差四种判别准则的比较和应用

熊艳艳, 吴先球

(华南师范大学, 广东

广州

510006)

摘关

要:目前数据处理中异常值的剔除方法有多种, 并没有统一的规范标准, 分析了判别粗大误差词:粗大误差; 异常值; 剔除; 判别准则

文献标识码:A

的四种方法的特点, 通过综合归纳给出了应用这些判别准则的建议。中图分类号:G 642. 423

粗大误差是指在测量过程中, 偶尔产生的某些不应有的反常因素造成的测量数值超出正常测量误差范围的小概率误差。含有粗大误差的数据会干扰对实验结果的分析, 甚至歪曲实验结果。若不按统计的原理剔除异常值, 而把一些包含较大正常误差但不属于异常值的数据舍弃或保留一些包含较小粗大误差的异常值, 就会错估了仪器的精确等级。因此, 系统检验测量数据是否含有粗大误差是保证原始数据的可靠及其有关计算的准确的前提

[2 3]

[1]

>3 , 则可疑值X i 含有粗大误若X i -X 差, 应舍弃;

若X i -X 3 , 则可疑值X i 为正常值, 应保留。

把可疑值舍弃后再重新算出除去这个值的其他测量值的平均值和标准偏差, 然后继续使用判别依据判断, 依此类推。1. 2

格拉布斯准则

格拉布斯准则[5 6]适用于测量次数较少的情况(n

先将呈正态分布的等精度多次测量的样本按从小到大排列, 统计临界系数G(a, n) 的值为G 0, 然后分别计算出G 1、G n :

G 1=(X -X 1) / , G n =(X n -X ) / 若G 1 G n 且G 1>G 0, 则X 1应予以剔除; 若G n G 1且G n >G 0, 则X n 应予以剔除; 若G 1

肖维勒准则肖维勒准则于概率P 概率) 。

[7 8]

[5 6]

排除异常数据有四种较常用的准则, 分别是拉伊达准则、格拉布斯准则

[4]

、肖维勒准则

[7 8]

和狄克逊准则[1]。每种判别准则都有其处理方法, 导致用不同准则对异常值判别的结果有时会不一致。目前异常值的剔除还没有统一的准则, 本文综合判别粗大误差四种方法的特点, 系统归纳各种准则的应用, 以便更好地发现和判别含有粗大误差的数据。

(1)

1

1. 1

四种判别粗大误差准则的特点

拉伊达准则拉伊达准则

[4]

是以三倍测量列的标准偏差为

极限取舍标准, 其给定的置信概率为99. 73%, 该准则适用于测量次数n >10或预先经大量重复测量已统计出其标准误差 的情况。X i 为服从正态分布的等精度测量值, 可先求得它们的算术平均值X 、残差v i 和标准偏差 。

: 26

是建立在频率p =m/n 趋近

X i -X >Z c 的前提下的(其中m

是绝对值大于E c 的误差出现次数, P 是置信

粗大误差四种判别准则的比较和应用

67

设等精度且呈正态分布的测量值为X i , 若其残差v i Z c 则X i 可视为含有粗大误差, 此时把读数X i 应舍弃。把可疑值舍弃后再重新计算和继续使用判别依据判断, 依此类推。1. 4

狄克逊准则狄克逊准则

[1]

系, 见图1。2. 2

四种判别粗大误差准则的比较讨论拉伊达准则、格拉布斯准则和肖维勒准则的对比曲线可以看出:对应于相同的测量次数, 各判别准则的统计临界系数各不相同, 以拉伊达准则的统计临界系数3为线索, 当n =25时, 格拉布斯准则(a =0. 01) 的统计临界系数刚好到达3以上, 而当n =185时, 肖维勒准则的统计临界系数刚好也到达3。因此可把总范围分为以下三个小范围。

(1) 在3 n

(2) 在25 n 185的范围内, 建议用格拉布斯准则(a =0. 05) 或肖维勒准则来判别可疑数据。统计临界系数最大的是格拉布斯准则(a =0. 01) , 虽然肖维勒准则的统计临界系数偏小, 但在这一范围内肖维勒准则可以补充拉伊达准则的不足, 因此判别数据时采用格拉布斯准则(a =0. 05) 或肖维勒准则比较合适。

(3) 在测量次数n >185时, 建议采用拉伊达准则。因为此时肖维勒准则的统计临界系数偏大, 在剔除异常值时容易把含有较小粗大误差的数据遗漏掉。

因此, 为了更好地对测量数据作出确切的判断且尽量避免让被剔除的数据丢失总体信息, 可以采用以下方法:

判别前最好先按照从小到大排列测量数据。首先怀疑最值, 如果最值不是异常值则其他值也就不会含有粗大误差了。对此四种准则的综合判别方法, 见表1。

是一种用极差比双侧检验来判

别粗大误差的准则。它从测量数据的最值入手, 一般取显著性水平a 为0. 01. 此准则的特点是把测量数据划分为四个组, 每个组都有相应的极端异常值统计量R 1、R 2的计算方法, 再根据测量次数n 和所对应的统计临界系数D (a, n) 按照以下方法来判别:

若R 1>R 2, R 1>D(a, n) , 则判别X 1为异常值, 应舍弃;

若R 2>R 1, R 2>D(a, n) , 则应舍弃X n ; 若R 1

2

2. 1

四种判别粗大误差准则的比较

四种判别粗大误差准则的归纳

实际上教学实验中的测量样本大多比较小,

四种准则所要求的正态分布前提不容易满足, 标准偏差会由于偏离正态分布而不准确。若不考虑具体的临界系数与置信水平, 这四种准则的思维方法都可归纳为:首先计算某组测量值X 1, X 2, 残差v i 和标准偏差 。对X 3 X n 的平均值、于第i 次测量值,

如果

v i >k

(2)

则可判别为含有粗大误差, 其中k 为统计临界系数。狄克逊准则是用极差比来检测异常值的, 它的统计临界系数与其他准则不具有可比性[9]

图1拉伊达准则、格拉布斯准则和肖维勒准则在n 30时的统计临界系数值对比

测量次数范围3 n 185

表1综合判别方法

建议使用的准则

除狄克逊准则外, 作拉伊达准则、格拉布斯准则和肖维勒准则在测量次数3 n 250的曲线关

狄克逊准则, 格拉布斯准则(a =0. 01) 格拉布斯准则(a =0. 05) , 肖维勒准则

拉伊达准则

68

粗大误差四种判别准则的比较和应用

3结论

参考文献:

[1]

雷洪. 粗差判别方法的比较与讨论[J].石油仪器, 1997, 11(1) :54 64. [2][3][4][5][6][7][8]

叶川, 伍川辉, 张嘉怡. 计量测试中异常数据剔除方法比较[J]. 计量与测试术, 2007, 34(7) :26 27. 何平. 剔除测量数据中异常值的若干方法[J]. 航空计测技术, 1995, 15(1) :19 22.

沙定国. 误差分析与测量不确定度评定[M ]. 北京:中国计量出版社. 2003:68 76.

梁晋文, 陈林才, 何贡. 误差理论与数据处理[M ].北京:中国计量出版社, 1989:66 68.

刘建, 刘文金. 应用格罗布斯准则判定测量结果中的粗大误差[J]. 设计与研究, 2006:20 21.

张世箕. 测量误差及数据处理[M ]. 北京:科学出版社, 1979:42 46.

王鑫, 吴先球, 蒋珍美, 等. 用O rig in 剔除线性拟合中实验数据的异常值[J].山西师范大学学报:自然科学版, 2003, 17(1) :45 49. [9]

田进军. 可疑数据的剔除判据及其应用[J]. 1998, 2:41 42.

综上所述, 由于四种判别准则在理论上剔除异常值是各自相对于某个精度而言的, 它们的检验范围和判别效果不同, 在不同的情况下应用不同的准则的严格程度不同, 但不加比较随便使用某一种准则来判别测量值是否含有粗大误差, 这样有时会得到相对不准确的结论, 可能把仅包含正常误差的可疑值剔除了, 或者保留了含有粗大误差的异常值。本文中的图1直观明了、使用方便, 因此采用本文建议的综合归纳方法可以使在数据处理中判别粗大误差有据可依, 并使剔除异常数据的效率有所提高, 得出相对准确的测量计算结果。

在目前还没有一个适用于所有情况的判别粗大误差的准则, 因此对数据是否含有粗大误差的判别仍然是一个需要逐步研究和更多实践的问题。本文的建议和尝试, 仍需理论研究分析和进一步完善。

The Generalizing Application of Fou r Judging

C riterions for Gross Errors

XIONG Yan yan, WU Xian qiu

(So ut h China N ormal U niver sity, Guangdong G uang zhou 510006)

Abstract:At present, there are kinds of w ays to remo ve the abno rmal num bers in data pro cessing. But there is no unifo rm standar d for it. This article analy zes the featur es of four w ay s of judg ing gr oss er ror, and giving the sugg estio n w hich could apply these criter io ns through generalizing and integrating.

Key words:Gross er ror; abno rmal value; remo ving ; judging criterions

第23卷第1期2010年2月

大学物理实验Vol. 23No. 1

Feb. 2010

PH Y SICA L EXPERI M ENT OF CO L LEG E

文章编号:1007 2934(2010) 01 0066 03

粗大误差四种判别准则的比较和应用

熊艳艳, 吴先球

(华南师范大学, 广东

广州

510006)

摘关

要:目前数据处理中异常值的剔除方法有多种, 并没有统一的规范标准, 分析了判别粗大误差词:粗大误差; 异常值; 剔除; 判别准则

文献标识码:A

的四种方法的特点, 通过综合归纳给出了应用这些判别准则的建议。中图分类号:G 642. 423

粗大误差是指在测量过程中, 偶尔产生的某些不应有的反常因素造成的测量数值超出正常测量误差范围的小概率误差。含有粗大误差的数据会干扰对实验结果的分析, 甚至歪曲实验结果。若不按统计的原理剔除异常值, 而把一些包含较大正常误差但不属于异常值的数据舍弃或保留一些包含较小粗大误差的异常值, 就会错估了仪器的精确等级。因此, 系统检验测量数据是否含有粗大误差是保证原始数据的可靠及其有关计算的准确的前提

[2 3]

[1]

>3 , 则可疑值X i 含有粗大误若X i -X 差, 应舍弃;

若X i -X 3 , 则可疑值X i 为正常值, 应保留。

把可疑值舍弃后再重新算出除去这个值的其他测量值的平均值和标准偏差, 然后继续使用判别依据判断, 依此类推。1. 2

格拉布斯准则

格拉布斯准则[5 6]适用于测量次数较少的情况(n

先将呈正态分布的等精度多次测量的样本按从小到大排列, 统计临界系数G(a, n) 的值为G 0, 然后分别计算出G 1、G n :

G 1=(X -X 1) / , G n =(X n -X ) / 若G 1 G n 且G 1>G 0, 则X 1应予以剔除; 若G n G 1且G n >G 0, 则X n 应予以剔除; 若G 1

肖维勒准则肖维勒准则于概率P 概率) 。

[7 8]

[5 6]

排除异常数据有四种较常用的准则, 分别是拉伊达准则、格拉布斯准则

[4]

、肖维勒准则

[7 8]

和狄克逊准则[1]。每种判别准则都有其处理方法, 导致用不同准则对异常值判别的结果有时会不一致。目前异常值的剔除还没有统一的准则, 本文综合判别粗大误差四种方法的特点, 系统归纳各种准则的应用, 以便更好地发现和判别含有粗大误差的数据。

(1)

1

1. 1

四种判别粗大误差准则的特点

拉伊达准则拉伊达准则

[4]

是以三倍测量列的标准偏差为

极限取舍标准, 其给定的置信概率为99. 73%, 该准则适用于测量次数n >10或预先经大量重复测量已统计出其标准误差 的情况。X i 为服从正态分布的等精度测量值, 可先求得它们的算术平均值X 、残差v i 和标准偏差 。

: 26

是建立在频率p =m/n 趋近

X i -X >Z c 的前提下的(其中m

是绝对值大于E c 的误差出现次数, P 是置信

粗大误差四种判别准则的比较和应用

67

设等精度且呈正态分布的测量值为X i , 若其残差v i Z c 则X i 可视为含有粗大误差, 此时把读数X i 应舍弃。把可疑值舍弃后再重新计算和继续使用判别依据判断, 依此类推。1. 4

狄克逊准则狄克逊准则

[1]

系, 见图1。2. 2

四种判别粗大误差准则的比较讨论拉伊达准则、格拉布斯准则和肖维勒准则的对比曲线可以看出:对应于相同的测量次数, 各判别准则的统计临界系数各不相同, 以拉伊达准则的统计临界系数3为线索, 当n =25时, 格拉布斯准则(a =0. 01) 的统计临界系数刚好到达3以上, 而当n =185时, 肖维勒准则的统计临界系数刚好也到达3。因此可把总范围分为以下三个小范围。

(1) 在3 n

(2) 在25 n 185的范围内, 建议用格拉布斯准则(a =0. 05) 或肖维勒准则来判别可疑数据。统计临界系数最大的是格拉布斯准则(a =0. 01) , 虽然肖维勒准则的统计临界系数偏小, 但在这一范围内肖维勒准则可以补充拉伊达准则的不足, 因此判别数据时采用格拉布斯准则(a =0. 05) 或肖维勒准则比较合适。

(3) 在测量次数n >185时, 建议采用拉伊达准则。因为此时肖维勒准则的统计临界系数偏大, 在剔除异常值时容易把含有较小粗大误差的数据遗漏掉。

因此, 为了更好地对测量数据作出确切的判断且尽量避免让被剔除的数据丢失总体信息, 可以采用以下方法:

判别前最好先按照从小到大排列测量数据。首先怀疑最值, 如果最值不是异常值则其他值也就不会含有粗大误差了。对此四种准则的综合判别方法, 见表1。

是一种用极差比双侧检验来判

别粗大误差的准则。它从测量数据的最值入手, 一般取显著性水平a 为0. 01. 此准则的特点是把测量数据划分为四个组, 每个组都有相应的极端异常值统计量R 1、R 2的计算方法, 再根据测量次数n 和所对应的统计临界系数D (a, n) 按照以下方法来判别:

若R 1>R 2, R 1>D(a, n) , 则判别X 1为异常值, 应舍弃;

若R 2>R 1, R 2>D(a, n) , 则应舍弃X n ; 若R 1

2

2. 1

四种判别粗大误差准则的比较

四种判别粗大误差准则的归纳

实际上教学实验中的测量样本大多比较小,

四种准则所要求的正态分布前提不容易满足, 标准偏差会由于偏离正态分布而不准确。若不考虑具体的临界系数与置信水平, 这四种准则的思维方法都可归纳为:首先计算某组测量值X 1, X 2, 残差v i 和标准偏差 。对X 3 X n 的平均值、于第i 次测量值,

如果

v i >k

(2)

则可判别为含有粗大误差, 其中k 为统计临界系数。狄克逊准则是用极差比来检测异常值的, 它的统计临界系数与其他准则不具有可比性[9]

图1拉伊达准则、格拉布斯准则和肖维勒准则在n 30时的统计临界系数值对比

测量次数范围3 n 185

表1综合判别方法

建议使用的准则

除狄克逊准则外, 作拉伊达准则、格拉布斯准则和肖维勒准则在测量次数3 n 250的曲线关

狄克逊准则, 格拉布斯准则(a =0. 01) 格拉布斯准则(a =0. 05) , 肖维勒准则

拉伊达准则

68

粗大误差四种判别准则的比较和应用

3结论

参考文献:

[1]

雷洪. 粗差判别方法的比较与讨论[J].石油仪器, 1997, 11(1) :54 64. [2][3][4][5][6][7][8]

叶川, 伍川辉, 张嘉怡. 计量测试中异常数据剔除方法比较[J]. 计量与测试术, 2007, 34(7) :26 27. 何平. 剔除测量数据中异常值的若干方法[J]. 航空计测技术, 1995, 15(1) :19 22.

沙定国. 误差分析与测量不确定度评定[M ]. 北京:中国计量出版社. 2003:68 76.

梁晋文, 陈林才, 何贡. 误差理论与数据处理[M ].北京:中国计量出版社, 1989:66 68.

刘建, 刘文金. 应用格罗布斯准则判定测量结果中的粗大误差[J]. 设计与研究, 2006:20 21.

张世箕. 测量误差及数据处理[M ]. 北京:科学出版社, 1979:42 46.

王鑫, 吴先球, 蒋珍美, 等. 用O rig in 剔除线性拟合中实验数据的异常值[J].山西师范大学学报:自然科学版, 2003, 17(1) :45 49. [9]

田进军. 可疑数据的剔除判据及其应用[J]. 1998, 2:41 42.

综上所述, 由于四种判别准则在理论上剔除异常值是各自相对于某个精度而言的, 它们的检验范围和判别效果不同, 在不同的情况下应用不同的准则的严格程度不同, 但不加比较随便使用某一种准则来判别测量值是否含有粗大误差, 这样有时会得到相对不准确的结论, 可能把仅包含正常误差的可疑值剔除了, 或者保留了含有粗大误差的异常值。本文中的图1直观明了、使用方便, 因此采用本文建议的综合归纳方法可以使在数据处理中判别粗大误差有据可依, 并使剔除异常数据的效率有所提高, 得出相对准确的测量计算结果。

在目前还没有一个适用于所有情况的判别粗大误差的准则, 因此对数据是否含有粗大误差的判别仍然是一个需要逐步研究和更多实践的问题。本文的建议和尝试, 仍需理论研究分析和进一步完善。

The Generalizing Application of Fou r Judging

C riterions for Gross Errors

XIONG Yan yan, WU Xian qiu

(So ut h China N ormal U niver sity, Guangdong G uang zhou 510006)

Abstract:At present, there are kinds of w ays to remo ve the abno rmal num bers in data pro cessing. But there is no unifo rm standar d for it. This article analy zes the featur es of four w ay s of judg ing gr oss er ror, and giving the sugg estio n w hich could apply these criter io ns through generalizing and integrating.

Key words:Gross er ror; abno rmal value; remo ving ; judging criterions


相关内容

  • 误差模拟试卷一
  • ----- -- - - -- - -- - -- - -- - -- - -- : ---业---专 ---- - -- - -- - -- - -- - -- - -- : 级 年 线 - 封 : 院-学 密 - - -- - -- -: ---名--姓 ---- -- - -- - - -- ...

  • 测量误差的分析与研究
  • 测量误差的分析与研究 摘要:测量要依据一定的理论或方法,使用一定的仪器,一定的环境中,由具体的人进行.由于实验理论上存在着近似性,方法上难以很完善,实验仪器灵敏度和分辨能力有局限性,周围环境不稳定等因素的影响,待测量的真值是不可能测得的,测量结果和被测量真值之间总会存在或多或少的偏差.在测量过程中, ...

  • 计量基础知识
  • 计量技术概述 计量:是计量学的简称,是研究测量.保证测量统一和准确的科学,实现单位统一和量值准确可靠的全部活动. 计量的被测对象:主要是测量仪器和测量标准. 计量的主体行为对象是量:量是:一切现象.物体或物质的量可以定性区别与定量确定的一种属性.既要分清量的性质.又要确定量的值,是计量的最终目的. ...

  • 传感器原理课后答案
  • 第一章 传感与检测技术的理论基础 1.什么是测量值的绝对误差.相对误差.引用误差? 答:某量值的测得值和真值之差称为绝对误差. 相对误差有实际相对误差和标称相对误差两种表示方法.实际相对误差是绝对误差与被测量的真值之比:标称相对误差是绝对误差与测得值之比. 引用误差是仪表中通用的一种误差表示方法,也 ...

  • 误差实验一
  • 本科生实验报告 实验课程 误差理论与数据处理 学院名称 核技术与自动化工程学院 专业名称 辐射防护与核安全 学生姓名杨鹏 学生学号 [1**********]4 指导教师 杨 强 实验地点H2201 实验成绩 实验一3σ准则与格罗布斯准则的处理应用 一.实验目的 学会使用EXCEL利用3σ准则与格罗 ...

  • 3测量技术基础
  • 第3章 测量技术基础 3.1 概 述 3.1.1 测量与检验 1. 测量(Measurement) 测量是指将被测量与具有确定计量单位的标准量进行比较,从而确定被测量的量值的实验过程. 一个完整的几何量测量过程应包括以下四个要素: (1)被测对象 (2)计量单位 (3)测量方法 测量时所采用的测量原 ...

  • 浅析测量误差
  • [摘要]介绍了测量误差的定义和分类情况,以及每种测量误差的性质,然后针对每种测量误差可以采用的方法,来达到减弱或消除误差的目的. [关键词]测量误差:系统误差:随机误差:粗大误差(测量结果中的异常值) 质量始于测量,在质量管理中,无论是应用统计过程控制(SPC),或是利用实验设计(DOE)等优化过程 ...

  • 二级注册计量师试题与答案
  • 二级注册计量师试题与答案(专业务实) 一.测量误差的处理 单选题 1.在规定的测量条件下多次测量同一个量所得测量结果与计量标准所复现的量值之差是测 量的 B 的估算值. A.随机误差 B.系统误差 C.不确定度 D.引用误差 2.当测量结果与相应的标准值比较时,得到的系统误差估计值为 C . A.测 ...

  • 公差与配合测量技术基础教案
  • 第4章 测量技术基础 第一讲 概述 课 题:1. 测量技术的概念 2. 长度基准与尺寸传递 3.量块的基本知识4.形位公差值及有关规定 课堂类型:讲授 教学目的:1.了解测量技术的基本概念及尺寸传递 2.重点掌握量块的使用方法. 教学重点:量块的使用方法. 教 具: 量块 教学方法: 例举习题讲解量 ...