第23卷第1期2010年2月
大学物理实验Vol. 23No. 1
Feb. 2010
PH Y SICA L EXPERI M ENT OF CO L LEG E
文章编号:1007 2934(2010) 01 0066 03
粗大误差四种判别准则的比较和应用
熊艳艳, 吴先球
(华南师范大学, 广东
广州
510006)
摘关
键
要:目前数据处理中异常值的剔除方法有多种, 并没有统一的规范标准, 分析了判别粗大误差词:粗大误差; 异常值; 剔除; 判别准则
文献标识码:A
的四种方法的特点, 通过综合归纳给出了应用这些判别准则的建议。中图分类号:G 642. 423
粗大误差是指在测量过程中, 偶尔产生的某些不应有的反常因素造成的测量数值超出正常测量误差范围的小概率误差。含有粗大误差的数据会干扰对实验结果的分析, 甚至歪曲实验结果。若不按统计的原理剔除异常值, 而把一些包含较大正常误差但不属于异常值的数据舍弃或保留一些包含较小粗大误差的异常值, 就会错估了仪器的精确等级。因此, 系统检验测量数据是否含有粗大误差是保证原始数据的可靠及其有关计算的准确的前提
[2 3]
[1]
>3 , 则可疑值X i 含有粗大误若X i -X 差, 应舍弃;
若X i -X 3 , 则可疑值X i 为正常值, 应保留。
把可疑值舍弃后再重新算出除去这个值的其他测量值的平均值和标准偏差, 然后继续使用判别依据判断, 依此类推。1. 2
格拉布斯准则
格拉布斯准则[5 6]适用于测量次数较少的情况(n
先将呈正态分布的等精度多次测量的样本按从小到大排列, 统计临界系数G(a, n) 的值为G 0, 然后分别计算出G 1、G n :
G 1=(X -X 1) / , G n =(X n -X ) / 若G 1 G n 且G 1>G 0, 则X 1应予以剔除; 若G n G 1且G n >G 0, 则X n 应予以剔除; 若G 1
肖维勒准则肖维勒准则于概率P 概率) 。
[7 8]
。
[5 6]
排除异常数据有四种较常用的准则, 分别是拉伊达准则、格拉布斯准则
[4]
、肖维勒准则
[7 8]
和狄克逊准则[1]。每种判别准则都有其处理方法, 导致用不同准则对异常值判别的结果有时会不一致。目前异常值的剔除还没有统一的准则, 本文综合判别粗大误差四种方法的特点, 系统归纳各种准则的应用, 以便更好地发现和判别含有粗大误差的数据。
(1)
1
1. 1
四种判别粗大误差准则的特点
拉伊达准则拉伊达准则
[4]
是以三倍测量列的标准偏差为
极限取舍标准, 其给定的置信概率为99. 73%, 该准则适用于测量次数n >10或预先经大量重复测量已统计出其标准误差 的情况。X i 为服从正态分布的等精度测量值, 可先求得它们的算术平均值X 、残差v i 和标准偏差 。
: 26
是建立在频率p =m/n 趋近
X i -X >Z c 的前提下的(其中m
是绝对值大于E c 的误差出现次数, P 是置信
粗大误差四种判别准则的比较和应用
67
设等精度且呈正态分布的测量值为X i , 若其残差v i Z c 则X i 可视为含有粗大误差, 此时把读数X i 应舍弃。把可疑值舍弃后再重新计算和继续使用判别依据判断, 依此类推。1. 4
狄克逊准则狄克逊准则
[1]
系, 见图1。2. 2
四种判别粗大误差准则的比较讨论拉伊达准则、格拉布斯准则和肖维勒准则的对比曲线可以看出:对应于相同的测量次数, 各判别准则的统计临界系数各不相同, 以拉伊达准则的统计临界系数3为线索, 当n =25时, 格拉布斯准则(a =0. 01) 的统计临界系数刚好到达3以上, 而当n =185时, 肖维勒准则的统计临界系数刚好也到达3。因此可把总范围分为以下三个小范围。
(1) 在3 n
(2) 在25 n 185的范围内, 建议用格拉布斯准则(a =0. 05) 或肖维勒准则来判别可疑数据。统计临界系数最大的是格拉布斯准则(a =0. 01) , 虽然肖维勒准则的统计临界系数偏小, 但在这一范围内肖维勒准则可以补充拉伊达准则的不足, 因此判别数据时采用格拉布斯准则(a =0. 05) 或肖维勒准则比较合适。
(3) 在测量次数n >185时, 建议采用拉伊达准则。因为此时肖维勒准则的统计临界系数偏大, 在剔除异常值时容易把含有较小粗大误差的数据遗漏掉。
因此, 为了更好地对测量数据作出确切的判断且尽量避免让被剔除的数据丢失总体信息, 可以采用以下方法:
判别前最好先按照从小到大排列测量数据。首先怀疑最值, 如果最值不是异常值则其他值也就不会含有粗大误差了。对此四种准则的综合判别方法, 见表1。
是一种用极差比双侧检验来判
别粗大误差的准则。它从测量数据的最值入手, 一般取显著性水平a 为0. 01. 此准则的特点是把测量数据划分为四个组, 每个组都有相应的极端异常值统计量R 1、R 2的计算方法, 再根据测量次数n 和所对应的统计临界系数D (a, n) 按照以下方法来判别:
若R 1>R 2, R 1>D(a, n) , 则判别X 1为异常值, 应舍弃;
若R 2>R 1, R 2>D(a, n) , 则应舍弃X n ; 若R 1
2
2. 1
四种判别粗大误差准则的比较
四种判别粗大误差准则的归纳
实际上教学实验中的测量样本大多比较小,
四种准则所要求的正态分布前提不容易满足, 标准偏差会由于偏离正态分布而不准确。若不考虑具体的临界系数与置信水平, 这四种准则的思维方法都可归纳为:首先计算某组测量值X 1, X 2, 残差v i 和标准偏差 。对X 3 X n 的平均值、于第i 次测量值,
如果
v i >k
(2)
则可判别为含有粗大误差, 其中k 为统计临界系数。狄克逊准则是用极差比来检测异常值的, 它的统计临界系数与其他准则不具有可比性[9]
。
图1拉伊达准则、格拉布斯准则和肖维勒准则在n 30时的统计临界系数值对比
测量次数范围3 n 185
表1综合判别方法
建议使用的准则
除狄克逊准则外, 作拉伊达准则、格拉布斯准则和肖维勒准则在测量次数3 n 250的曲线关
狄克逊准则, 格拉布斯准则(a =0. 01) 格拉布斯准则(a =0. 05) , 肖维勒准则
拉伊达准则
68
粗大误差四种判别准则的比较和应用
3结论
参考文献:
[1]
雷洪. 粗差判别方法的比较与讨论[J].石油仪器, 1997, 11(1) :54 64. [2][3][4][5][6][7][8]
叶川, 伍川辉, 张嘉怡. 计量测试中异常数据剔除方法比较[J]. 计量与测试术, 2007, 34(7) :26 27. 何平. 剔除测量数据中异常值的若干方法[J]. 航空计测技术, 1995, 15(1) :19 22.
沙定国. 误差分析与测量不确定度评定[M ]. 北京:中国计量出版社. 2003:68 76.
梁晋文, 陈林才, 何贡. 误差理论与数据处理[M ].北京:中国计量出版社, 1989:66 68.
刘建, 刘文金. 应用格罗布斯准则判定测量结果中的粗大误差[J]. 设计与研究, 2006:20 21.
张世箕. 测量误差及数据处理[M ]. 北京:科学出版社, 1979:42 46.
王鑫, 吴先球, 蒋珍美, 等. 用O rig in 剔除线性拟合中实验数据的异常值[J].山西师范大学学报:自然科学版, 2003, 17(1) :45 49. [9]
田进军. 可疑数据的剔除判据及其应用[J]. 1998, 2:41 42.
综上所述, 由于四种判别准则在理论上剔除异常值是各自相对于某个精度而言的, 它们的检验范围和判别效果不同, 在不同的情况下应用不同的准则的严格程度不同, 但不加比较随便使用某一种准则来判别测量值是否含有粗大误差, 这样有时会得到相对不准确的结论, 可能把仅包含正常误差的可疑值剔除了, 或者保留了含有粗大误差的异常值。本文中的图1直观明了、使用方便, 因此采用本文建议的综合归纳方法可以使在数据处理中判别粗大误差有据可依, 并使剔除异常数据的效率有所提高, 得出相对准确的测量计算结果。
在目前还没有一个适用于所有情况的判别粗大误差的准则, 因此对数据是否含有粗大误差的判别仍然是一个需要逐步研究和更多实践的问题。本文的建议和尝试, 仍需理论研究分析和进一步完善。
The Generalizing Application of Fou r Judging
C riterions for Gross Errors
XIONG Yan yan, WU Xian qiu
(So ut h China N ormal U niver sity, Guangdong G uang zhou 510006)
Abstract:At present, there are kinds of w ays to remo ve the abno rmal num bers in data pro cessing. But there is no unifo rm standar d for it. This article analy zes the featur es of four w ay s of judg ing gr oss er ror, and giving the sugg estio n w hich could apply these criter io ns through generalizing and integrating.
Key words:Gross er ror; abno rmal value; remo ving ; judging criterions
第23卷第1期2010年2月
大学物理实验Vol. 23No. 1
Feb. 2010
PH Y SICA L EXPERI M ENT OF CO L LEG E
文章编号:1007 2934(2010) 01 0066 03
粗大误差四种判别准则的比较和应用
熊艳艳, 吴先球
(华南师范大学, 广东
广州
510006)
摘关
键
要:目前数据处理中异常值的剔除方法有多种, 并没有统一的规范标准, 分析了判别粗大误差词:粗大误差; 异常值; 剔除; 判别准则
文献标识码:A
的四种方法的特点, 通过综合归纳给出了应用这些判别准则的建议。中图分类号:G 642. 423
粗大误差是指在测量过程中, 偶尔产生的某些不应有的反常因素造成的测量数值超出正常测量误差范围的小概率误差。含有粗大误差的数据会干扰对实验结果的分析, 甚至歪曲实验结果。若不按统计的原理剔除异常值, 而把一些包含较大正常误差但不属于异常值的数据舍弃或保留一些包含较小粗大误差的异常值, 就会错估了仪器的精确等级。因此, 系统检验测量数据是否含有粗大误差是保证原始数据的可靠及其有关计算的准确的前提
[2 3]
[1]
>3 , 则可疑值X i 含有粗大误若X i -X 差, 应舍弃;
若X i -X 3 , 则可疑值X i 为正常值, 应保留。
把可疑值舍弃后再重新算出除去这个值的其他测量值的平均值和标准偏差, 然后继续使用判别依据判断, 依此类推。1. 2
格拉布斯准则
格拉布斯准则[5 6]适用于测量次数较少的情况(n
先将呈正态分布的等精度多次测量的样本按从小到大排列, 统计临界系数G(a, n) 的值为G 0, 然后分别计算出G 1、G n :
G 1=(X -X 1) / , G n =(X n -X ) / 若G 1 G n 且G 1>G 0, 则X 1应予以剔除; 若G n G 1且G n >G 0, 则X n 应予以剔除; 若G 1
肖维勒准则肖维勒准则于概率P 概率) 。
[7 8]
。
[5 6]
排除异常数据有四种较常用的准则, 分别是拉伊达准则、格拉布斯准则
[4]
、肖维勒准则
[7 8]
和狄克逊准则[1]。每种判别准则都有其处理方法, 导致用不同准则对异常值判别的结果有时会不一致。目前异常值的剔除还没有统一的准则, 本文综合判别粗大误差四种方法的特点, 系统归纳各种准则的应用, 以便更好地发现和判别含有粗大误差的数据。
(1)
1
1. 1
四种判别粗大误差准则的特点
拉伊达准则拉伊达准则
[4]
是以三倍测量列的标准偏差为
极限取舍标准, 其给定的置信概率为99. 73%, 该准则适用于测量次数n >10或预先经大量重复测量已统计出其标准误差 的情况。X i 为服从正态分布的等精度测量值, 可先求得它们的算术平均值X 、残差v i 和标准偏差 。
: 26
是建立在频率p =m/n 趋近
X i -X >Z c 的前提下的(其中m
是绝对值大于E c 的误差出现次数, P 是置信
粗大误差四种判别准则的比较和应用
67
设等精度且呈正态分布的测量值为X i , 若其残差v i Z c 则X i 可视为含有粗大误差, 此时把读数X i 应舍弃。把可疑值舍弃后再重新计算和继续使用判别依据判断, 依此类推。1. 4
狄克逊准则狄克逊准则
[1]
系, 见图1。2. 2
四种判别粗大误差准则的比较讨论拉伊达准则、格拉布斯准则和肖维勒准则的对比曲线可以看出:对应于相同的测量次数, 各判别准则的统计临界系数各不相同, 以拉伊达准则的统计临界系数3为线索, 当n =25时, 格拉布斯准则(a =0. 01) 的统计临界系数刚好到达3以上, 而当n =185时, 肖维勒准则的统计临界系数刚好也到达3。因此可把总范围分为以下三个小范围。
(1) 在3 n
(2) 在25 n 185的范围内, 建议用格拉布斯准则(a =0. 05) 或肖维勒准则来判别可疑数据。统计临界系数最大的是格拉布斯准则(a =0. 01) , 虽然肖维勒准则的统计临界系数偏小, 但在这一范围内肖维勒准则可以补充拉伊达准则的不足, 因此判别数据时采用格拉布斯准则(a =0. 05) 或肖维勒准则比较合适。
(3) 在测量次数n >185时, 建议采用拉伊达准则。因为此时肖维勒准则的统计临界系数偏大, 在剔除异常值时容易把含有较小粗大误差的数据遗漏掉。
因此, 为了更好地对测量数据作出确切的判断且尽量避免让被剔除的数据丢失总体信息, 可以采用以下方法:
判别前最好先按照从小到大排列测量数据。首先怀疑最值, 如果最值不是异常值则其他值也就不会含有粗大误差了。对此四种准则的综合判别方法, 见表1。
是一种用极差比双侧检验来判
别粗大误差的准则。它从测量数据的最值入手, 一般取显著性水平a 为0. 01. 此准则的特点是把测量数据划分为四个组, 每个组都有相应的极端异常值统计量R 1、R 2的计算方法, 再根据测量次数n 和所对应的统计临界系数D (a, n) 按照以下方法来判别:
若R 1>R 2, R 1>D(a, n) , 则判别X 1为异常值, 应舍弃;
若R 2>R 1, R 2>D(a, n) , 则应舍弃X n ; 若R 1
2
2. 1
四种判别粗大误差准则的比较
四种判别粗大误差准则的归纳
实际上教学实验中的测量样本大多比较小,
四种准则所要求的正态分布前提不容易满足, 标准偏差会由于偏离正态分布而不准确。若不考虑具体的临界系数与置信水平, 这四种准则的思维方法都可归纳为:首先计算某组测量值X 1, X 2, 残差v i 和标准偏差 。对X 3 X n 的平均值、于第i 次测量值,
如果
v i >k
(2)
则可判别为含有粗大误差, 其中k 为统计临界系数。狄克逊准则是用极差比来检测异常值的, 它的统计临界系数与其他准则不具有可比性[9]
。
图1拉伊达准则、格拉布斯准则和肖维勒准则在n 30时的统计临界系数值对比
测量次数范围3 n 185
表1综合判别方法
建议使用的准则
除狄克逊准则外, 作拉伊达准则、格拉布斯准则和肖维勒准则在测量次数3 n 250的曲线关
狄克逊准则, 格拉布斯准则(a =0. 01) 格拉布斯准则(a =0. 05) , 肖维勒准则
拉伊达准则
68
粗大误差四种判别准则的比较和应用
3结论
参考文献:
[1]
雷洪. 粗差判别方法的比较与讨论[J].石油仪器, 1997, 11(1) :54 64. [2][3][4][5][6][7][8]
叶川, 伍川辉, 张嘉怡. 计量测试中异常数据剔除方法比较[J]. 计量与测试术, 2007, 34(7) :26 27. 何平. 剔除测量数据中异常值的若干方法[J]. 航空计测技术, 1995, 15(1) :19 22.
沙定国. 误差分析与测量不确定度评定[M ]. 北京:中国计量出版社. 2003:68 76.
梁晋文, 陈林才, 何贡. 误差理论与数据处理[M ].北京:中国计量出版社, 1989:66 68.
刘建, 刘文金. 应用格罗布斯准则判定测量结果中的粗大误差[J]. 设计与研究, 2006:20 21.
张世箕. 测量误差及数据处理[M ]. 北京:科学出版社, 1979:42 46.
王鑫, 吴先球, 蒋珍美, 等. 用O rig in 剔除线性拟合中实验数据的异常值[J].山西师范大学学报:自然科学版, 2003, 17(1) :45 49. [9]
田进军. 可疑数据的剔除判据及其应用[J]. 1998, 2:41 42.
综上所述, 由于四种判别准则在理论上剔除异常值是各自相对于某个精度而言的, 它们的检验范围和判别效果不同, 在不同的情况下应用不同的准则的严格程度不同, 但不加比较随便使用某一种准则来判别测量值是否含有粗大误差, 这样有时会得到相对不准确的结论, 可能把仅包含正常误差的可疑值剔除了, 或者保留了含有粗大误差的异常值。本文中的图1直观明了、使用方便, 因此采用本文建议的综合归纳方法可以使在数据处理中判别粗大误差有据可依, 并使剔除异常数据的效率有所提高, 得出相对准确的测量计算结果。
在目前还没有一个适用于所有情况的判别粗大误差的准则, 因此对数据是否含有粗大误差的判别仍然是一个需要逐步研究和更多实践的问题。本文的建议和尝试, 仍需理论研究分析和进一步完善。
The Generalizing Application of Fou r Judging
C riterions for Gross Errors
XIONG Yan yan, WU Xian qiu
(So ut h China N ormal U niver sity, Guangdong G uang zhou 510006)
Abstract:At present, there are kinds of w ays to remo ve the abno rmal num bers in data pro cessing. But there is no unifo rm standar d for it. This article analy zes the featur es of four w ay s of judg ing gr oss er ror, and giving the sugg estio n w hich could apply these criter io ns through generalizing and integrating.
Key words:Gross er ror; abno rmal value; remo ving ; judging criterions