大样本测量中拟合精度与样本量的相关性

2002年6月

深圳大学学报(理工版) J un 12002Vol 119,No 12

) 第19卷, 第2期JOURNAL OF SHENZHEN UN IV ERSIT Y (SCIENCE &EN GIN EERIN G

文章编号:100022618(2002) 0220022207

大样本测量中拟合精度与样本量的相关性

张小绵1, 颜坤鹏1, 21

(1. 深圳大学信息工程学院, 深圳)

摘　要:, 提出在一定

; 用拟合曲线的标准差; 并指出, 对测量精度产生重要影响的样本量存在着一个上界, 参照由实验确定的这个上界, 即可选择一个既能保证较好的测量精度, 又可达到降低测试成本的样本量.

关键词:样本量; 拟合参数; 相关系数; 计算机光学测量; 误差分析中图分类号:O 21211　　　　文献标识码:A

引　言

在计算机光学测量中, 当用实验方法确定已知函数中的参数时, 常常采用多元线性回归的方法, 由于计算机测量系统所记录的是离散信号, 因此, 实验数据越多(即样本容量越大) , 所得到的参数应该越精确, 然而, 样本容量的增大往往是以降低系统测量速度和提高测试硬件成本为代价的. 为了减少计算工作量和降低采样成本, 在进行系统设计时, 应当在满足精度要求的前提下, 确定适当的样本容量.

本文运用椭偏光谱测量中的光度法[1,2], 对采样样本量与曲线拟合精度之间的关系进行了深入研究, 提出了一种样本容量的选择方案, 并指出了在相关运算中, 用标准差和相关系数来量度曲线拟合精度的局限性.

1　采样原理

在椭偏光谱光度法测量中, 样本的采集是通

) 过与光电探测器相通的检偏器旋转一周(360°

过程中, 以选定步进电机步距角的大小来实现等间距采样的[1,3]. 图1为本文设计的测量系统采样界面[2]. 本系统采用23HS3002型混合式步进电机, 步距角为118°, 经配套驱动器40细分后, 步距角可达到01045°. 这时, 在一周中可采取的

图1　系统采样界面

Fig 11　Interface of a sampling system

收稿日期:2002203210

基金项目:深圳市科委科研基金资助项目(20016)

作者简介:张小绵(19512) , 女(汉族) , 湖南省长沙人, 深圳大学讲师. E 2mail :zhangxm @szu1edu 1cn

) ; 式样本量分别为125, 250, 500, …, 8000个(其计算公式为N =360°/(n ×010045°

中, n =1, 2, 3, …, 40, 只能取整数) .

设光电探测器采集到的光强信号为I , 由马吕斯(Malus ) 定理, 测量系统中对应于φ

方向的光强可表示为

) +I m sin 2(φ-α) , I =I M cos (φ-α

或) . I =a +b cos (2φ2α(1)

　　其中, I M 表示最大光强, I m , .

, b =

或令则

b 1=b cos2α, 　　　　b 2=b sin2α,

I =a +b 1cos2φ+b 2sin2φ.

(2)

φ=01045°　　图2给出了样本量为8000(以Δ为采样间隔) 时的实测光强分布曲线(点虚

线) 、拟合曲线

(实线) 、误差数据(扩散线, 误差值已放大10倍) 、曲线的拟合参数以及相关系数和标准差. 拟合参数是将测量得到的8000个光强的原始数据用最小二乘法处理后求得的, 进而可将每一个数据中的误差(包括系统误差和随机误差) 初步分离出来, 作为原始误差数据保存[4-6].

标准差　σ=

(I )

n -1

, 　　相关系数　r =

(I i -I i ) (x i -x i )

(I ) 2Σ(x ) 2

) . 其中, I i 为测量值, 为拟合值, x i =cos (2φi -

2α′

α=87178185, a =36231614, 　b =34771005, 　

s =80148743, 　r =019994133

图2　某一组实测光强分布曲线、拟合曲线和误差分布

Fig 12　Measured light intensity , its f itting curve and the resulting error distribution

2　实验数据及相关分析

当样本容量分别为8000、4000、2000、1000、500、250和125时, 表1给出了各条

曲线对应的拟合参数、相关系数和标准差. 从表1可看出, 样本量从8000变化到125, 相关系数几乎没有改变, 标准差的改变量也很小, 但几个拟合参数的弥散程度在样本量1000

以下的区域却出现了较大的差别.

表1　参数弥散度与样本容量的关系

T able 1　R elation betw een sample size and dispersity of parameter

样本量

[***********]0250125

a b b 1b 2α) /(°

[***********][***********]86

[***********][***********]1060

[***********][***********]36271804

[***********][***********]81887

[***********][***********]34601708

[***********][***********]426

[***********][***********][***********]68

(36241000) (34771000) (34631769) (30310405) (87150000)

注:括号内为参数的理论值

为了突出显示在不同样本容量下, 测量误差对最小二乘法所得到的拟合参数精度的影响, 本文设计了一套模拟实验:

作者根据测量得到的上百个不同样本量的光强数据组和通过计算得到的误差数据组模拟一条理论光强曲线, 即在(1) 式中, 设a =3624, b =3477, α=8715°(相应地, b 1=φ=01045°3663174, b 2=303104) , 并以Δ为采样步距, 由(1) 式给出了8000个理论光强函数值, 并将此函数值视为真值, 在随后的7个模拟实验中, 样本量分别为8000, 4000, …, 125, 根据等间距原则从误差数据组中分别取8000, 4000, …, 125个误差值

εεi , 乘上系数50以后, 依次加到对应样本量的光强函数值中去(即I i =I i +50×i ) , 得到7组模拟的“原始”测量数据, 再用最小二乘法处理, 则求得7组拟合参数(分别用a ′、

b ′、b 1′、b 2′和α′表示) 与理论光强曲线设定的参数值比较就可以确定这7组拟合参数的精度, 见表2.

表2　理论光强值加入原始误差乘50后参数的弥散度与样本容量的关系

T able 2　R elation betw een sample size and parameter dispersity with theoretic optical intensity added by 50times of the original error

样本量

[***********]0250125

a ′b ′b 1′b 2′α) ′/(°

[***********][***********]9195851

[1**********]65

[***********][***********][***********]30

[***********][***********][***********]53

[***********][***********][***********]31

[***********][***********][***********]21

[***********][***********][***********][***********][***********][***********][1**********]

(36241000) (34771000) (34631769) (30310405) (87150000)

注:括号内为参数的理论值

表2提供的数据清楚地显示:①样本量越大, 拟合的精度越高. 在样本量为8000时,

拟合参数与理论光强曲线设定的参数值几乎相等; ②随着测量误差的增大(放大了50倍) , 拟合曲线标准差也同比增大, 相关系数则急剧变小. 单从标准差和相关系数看, 相关性“变坏”是显而易见的. , 然而, 此时的拟合参数却表明曲线的拟合精度基本没有变化. 在样本量大于500的区域, 拟合参数改变极小; 500以下的区域, 化. 显然, .

图3给出了与表2相对应的参数b 2(样本量下的弥散情况.

由于表2度, 性, 间的关系, 笔者引入“误差曲线”的概念.

将上文已设定的曲线参数值代入(1) 式, 即得理论光强曲线

) , I =3624+3477cos (2φ-179°再引入拟合曲线

) , I ′=a ′+b ′cos (2φ-2α′

其中, a ′、b ′和α′为最小二乘法得到的拟合参数, 在本文设计的测量系统中(采样在检偏器旋转一周中完成) , 这种拟合参数在样本容量设置为8000时只有一组, 4000时有2组, 2000时有4组, ……, 样本容量为125时有64组.

定义误差曲线

ΔI =I ′(φ) -I (φ) .

φ曲线画在一起, 并选择适将同一样本的ΔI —

　　　　图3　参数b 2的弥散度与数据采集

　　　　样本量的关系

　　　Fig 13R elation betw een the sample size

and the dispersity of parameter b 2

当的乘数因子k , 使对应同一样本量中最大的ΔI 放大到某一设定坐标值(如图4, 曲线纵坐标

k ΔI 为一恒定值) . 这样, 比较不同组的乘数因子k 的大小, 就可得知由不同样本量得到的拟合参数相对误差的大小. 图4就是计算机绘制的与表2中各样本量对应的误差曲线, 其

中, N 为样本量, k 为各组的自乘因子

由图4可见:样本容量N 越大, 把最大误差ΔI 放大到同一大小的乘数因子k 越大, 说明这时的误差越小; 反之, N 越小, 误差则越大. 在图4中, N 从125到8000, 比值N /k 依次为1010、1211、1312、815、718、717和01025, 前6个比值均在10左右摆动, 而最后一个比值显得特别小, 比前6个比值小400倍左右. 图中还可看到, 样本量为8000时对应的k 比样本量为4000时的k 小了600倍. 显然在4000到8000这一区间的某一位置测量精度产生了突变(大幅度提高) . 为了证实这一结果是否由偶然因素造成, 笔者又随机选择了10组数据, 按相同的方法处理, 得表3.

图4　不同样本量下的误差曲线

Fig 14　E rror curve with various sample sizes

表3　不同组数据得到的值与样本数的关系

T able 3　R elation betw een sample size and N/k from various groups of d ata

组　数第1组第2组第3组第4组第5组第6组第7组第8组第9组第10组

[***********][***********]91621010

[***********][***********]91241211

[***********][***********]0617513102

[***********][***********]5951188150

[***********][***********]541047180

[***********][***********]41327178

[***********][***********][***********]

　　下面讨论表3中由比值N /k 揭示的测量误差与样本量之间的某种关系. 设比值N /k =c , 由于在样本量从125到4000这一区间, c 值均在10左右摆动(个别数据例外) . 从统计

的角度看, c 可以近似的看做常数, 又因为测量误差E r 与k 成反比, 因此有E r ∝4000扩大到8000这一区间, 上述反比关系被破坏.

. N

这个算式指出了测量误差与样本量的一次方成反比的关系(c 为比例系数) . 而在样本量从为继续观察样本量大于8000以后的情况, 笔者还采用了步距角为010175°的日本步进电机, 经20细分后, 9和, 得到的比值N /K 均在01016～01024间. 可见采用大于8, .

需要说明的是, 01045°的整数倍(164) 4000～8000这个样本量区间不能再设, 点”的位置(对应于某一样本量.

结　语

由本文所作的样品测试得到的数据与图形分析表明:

①在一定的样品量范围内, 存在着测量误差与样本量一次方成反比的近似定量关系, 超出此范围时, 这种关系将不再成立;

②对测量精度产生重要影响的样本量存在着一个上界, 在此界以下, 测量精度随样本量增大而提高, 达到这一上界以后, 样本量的增加对测量精度改善起的作用很小. 因此, 参照由实验确定的这个上界, 即可选择既能保证较好的测量精度, 又可达到降低测试成本的样本量. 这个上界的判定方法即是寻找并确定使测量精度产生突变的“点”的位置, 具体程序可参阅本文相关内容;

③相关系数和标准差历来是用以评价回归方程拟合精度的标准之一, 然而, 在不同的测试系统中, 由于分析结果对测试精度和计算精度的要求不同, 对相关性的评价不必要求统一的标准.

参考文献:

[1]Jin G C , Bao N K , Chung P S. 一种新型的计算机控制的偏振相移技术[A].美国光学工程学会会议论

文集[C].1993, 2066:67271. (英文版) .

[2]张小绵, 赵志超. 椭偏法细丝在线监测系统设计及数据分析[J].中南工业大学学报, 2001, 32(6) :

6402643.

[3]金观昌. 计算机辅助光学测量[M ].北京:清华大学出版社, 1997.

[4]刘定晟, 杨　俊, 蒋迪清. 用VB 实现测控软件中的实时控制和历史曲线[J].计算机应用研究,

2001, 18(2) :1472149.

[5]Chu T C , Ranson W F , Sutton M A , et al. 数字图像—相关技术在实验力学中的应用[J].实验力学,

1985, 25:2322244. (英文版) .

[6]景奉水, 孙爱东. 一种非线性回归模型的线性解法[J].数值计算与计算机应用, 1998, 19(3) :1682

174.

Correlation bet w een Fitting Accuracy

and Sample Size in Large Sample

Size 2, un 2peng 1,

2and L I Le 2bin 1

　　1) Engineering

Shenzhen University Shenzhen 518060P. R. China

2) College of Science

Shenzhen University Shenzhen 518060P. R. China

Abstract :This paper investigates the relation between sample size and fitting accuracy of the regression equation in the measurement of ellipsometric spectra. It is found that within certain sample size , the measurement error is approximately inversely proportional to the sample size , and the performance of the fitting accuracy is evaluated by the standard deviation and the correla 2tion coefficient. In addition , an upper bound on the sample size , determined through experi 2ments , can be used to select appropriate sample size which guarantees good measuring accuracy. K ey w ords :sample size ; fitting parameter ; correlation coefficient ; computer 2aided optical measurement ; error analysis R eferences :

[1]Jin G C , Bao N K , Chung P S. A new computer 2controlled polarization phase 2shifting technique [A ].SPIE

[C].1993, 2066:67271.

[2]ZHAN G Xiao 2mian , ZHAO Zhi 2chao. Ellipsometry design and data analysis of the monitoring system of thin

wire on 2line measuring [J].J Cent S outh Univ Technol , 2001, 32(6) :6402643. (in Chinese ) .

[3]J IN Guan 2chang. The Computer 2aided Optical Measurement [M ].Beijing :Tsinghua Univ Publishing House ,

1997. (in Chinese ) .

[4]L IU Ding 2sheng , Y AN GJ un , J IAN G Di 2qing. Drawing the real time curve and history curve in measuring and

control software using VB [J].Research of Com puter Application , 2001, 18(2) :1472149. (in Chinese ) [5]Chu T C , Ranson W F , Sutton M A , et al.

A pplication of digital image 2correlation technique to experimental

mechanics [J].Exp Mech , 1985, 25:2322244.

[6]J IN G Feng 2shui , SUN Ai 2dong. A linear solution of a nonlinear regulation model [J].Numerical Calculus and

Application of Computer , 1998, 19(3) :1682174. (in Chinese ) .

【责任编辑:坪　梓】

2002年6月

深圳大学学报(理工版) J un 12002Vol 119,No 12

) 第19卷, 第2期JOURNAL OF SHENZHEN UN IV ERSIT Y (SCIENCE &EN GIN EERIN G

文章编号:100022618(2002) 0220022207

大样本测量中拟合精度与样本量的相关性

张小绵1, 颜坤鹏1, 21

(1. 深圳大学信息工程学院, 深圳)

摘　要:, 提出在一定

关键词:样本量; 拟合参数; 相关系数; 计算机光学测量; 误差分析中图分类号:O 21211　　　　文献标识码:A

引　言

1　采样原理

在椭偏光谱光度法测量中, 样本的采集是通

) 过与光电探测器相通的检偏器旋转一周(360°

图1　系统采样界面

Fig 11　Interface of a sampling system

收稿日期:2002203210

基金项目:深圳市科委科研基金资助项目(20016)

作者简介:张小绵(19512) , 女(汉族) , 湖南省长沙人, 深圳大学讲师. E 2mail :zhangxm @szu1edu 1cn

) ; 式样本量分别为125, 250, 500, …, 8000个(其计算公式为N =360°/(n ×010045°

中, n =1, 2, 3, …, 40, 只能取整数) .

设光电探测器采集到的光强信号为I , 由马吕斯(Malus ) 定理, 测量系统中对应于φ

方向的光强可表示为

) +I m sin 2(φ-α) , I =I M cos (φ-α

或) . I =a +b cos (2φ2α(1)

　　其中, I M 表示最大光强, I m , .

, b =

或令则

b 1=b cos2α, 　　　　b 2=b sin2α,

I =a +b 1cos2φ+b 2sin2φ.

(2)

φ=01045°　　图2给出了样本量为8000(以Δ为采样间隔) 时的实测光强分布曲线(点虚

线) 、拟合曲线

标准差　σ=

(I )

n -1

, 　　相关系数　r =

(I i -I i ) (x i -x i )

(I ) 2Σ(x ) 2

) . 其中, I i 为测量值, 为拟合值, x i =cos (2φi -

2α′

α=87178185, a =36231614, 　b =34771005, 　

s =80148743, 　r =019994133

图2　某一组实测光强分布曲线、拟合曲线和误差分布

Fig 12　Measured light intensity , its f itting curve and the resulting error distribution

2　实验数据及相关分析

当样本容量分别为8000、4000、2000、1000、500、250和125时, 表1给出了各条

以下的区域却出现了较大的差别.

表1　参数弥散度与样本容量的关系

T able 1　R elation betw een sample size and dispersity of parameter

样本量

[***********]0250125

a b b 1b 2α) /(°

[***********][***********]86

[***********][***********]1060

[***********][***********]36271804

[***********][***********]81887

[***********][***********]34601708

[***********][***********]426

[***********][***********][***********]68

(36241000) (34771000) (34631769) (30310405) (87150000)

注:括号内为参数的理论值

为了突出显示在不同样本容量下, 测量误差对最小二乘法所得到的拟合参数精度的影响, 本文设计了一套模拟实验:

b ′、b 1′、b 2′和α′表示) 与理论光强曲线设定的参数值比较就可以确定这7组拟合参数的精度, 见表2.

表2　理论光强值加入原始误差乘50后参数的弥散度与样本容量的关系

T able 2　R elation betw een sample size and parameter dispersity with theoretic optical intensity added by 50times of the original error

样本量

[***********]0250125

a ′b ′b 1′b 2′α) ′/(°

[***********][***********]9195851

[1**********]65

[***********][***********][***********]30

[***********][***********][***********]53

[***********][***********][***********]31

[***********][***********][***********]21

[***********][***********][***********][***********][***********][***********][1**********]

(36241000) (34771000) (34631769) (30310405) (87150000)

注:括号内为参数的理论值

表2提供的数据清楚地显示:①样本量越大, 拟合的精度越高. 在样本量为8000时,

图3给出了与表2相对应的参数b 2(样本量下的弥散情况.

由于表2度, 性, 间的关系, 笔者引入“误差曲线”的概念.

将上文已设定的曲线参数值代入(1) 式, 即得理论光强曲线

) , I =3624+3477cos (2φ-179°再引入拟合曲线

) , I ′=a ′+b ′cos (2φ-2α′

定义误差曲线

ΔI =I ′(φ) -I (φ) .

φ曲线画在一起, 并选择适将同一样本的ΔI —

　　　　图3　参数b 2的弥散度与数据采集

　　　　样本量的关系

　　　Fig 13R elation betw een the sample size

and the dispersity of parameter b 2

当的乘数因子k , 使对应同一样本量中最大的ΔI 放大到某一设定坐标值(如图4, 曲线纵坐标

中, N 为样本量, k 为各组的自乘因子

图4　不同样本量下的误差曲线

Fig 14　E rror curve with various sample sizes

表3　不同组数据得到的值与样本数的关系

T able 3　R elation betw een sample size and N/k from various groups of d ata

组　数第1组第2组第3组第4组第5组第6组第7组第8组第9组第10组

[***********][***********]91621010

[***********][***********]91241211

[***********][***********]0617513102

[***********][***********]5951188150

[***********][***********]541047180

[***********][***********]41327178

[***********][***********][***********]

的角度看, c 可以近似的看做常数, 又因为测量误差E r 与k 成反比, 因此有E r ∝4000扩大到8000这一区间, 上述反比关系被破坏.

. N

需要说明的是, 01045°的整数倍(164) 4000～8000这个样本量区间不能再设, 点”的位置(对应于某一样本量.

结　语

由本文所作的样品测试得到的数据与图形分析表明:

①在一定的样品量范围内, 存在着测量误差与样本量一次方成反比的近似定量关系, 超出此范围时, 这种关系将不再成立;

参考文献:

[1]Jin G C , Bao N K , Chung P S. 一种新型的计算机控制的偏振相移技术[A].美国光学工程学会会议论

文集[C].1993, 2066:67271. (英文版) .

[2]张小绵, 赵志超. 椭偏法细丝在线监测系统设计及数据分析[J].中南工业大学学报, 2001, 32(6) :

6402643.

[3]金观昌. 计算机辅助光学测量[M ].北京:清华大学出版社, 1997.

[4]刘定晟, 杨　俊, 蒋迪清. 用VB 实现测控软件中的实时控制和历史曲线[J].计算机应用研究,

2001, 18(2) :1472149.

[5]Chu T C , Ranson W F , Sutton M A , et al. 数字图像—相关技术在实验力学中的应用[J].实验力学,

1985, 25:2322244. (英文版) .

[6]景奉水, 孙爱东. 一种非线性回归模型的线性解法[J].数值计算与计算机应用, 1998, 19(3) :1682

174.

Correlation bet w een Fitting Accuracy

and Sample Size in Large Sample

Size 2, un 2peng 1,

2and L I Le 2bin 1

　　1) Engineering

Shenzhen University Shenzhen 518060P. R. China

2) College of Science

Shenzhen University Shenzhen 518060P. R. China

[1]Jin G C , Bao N K , Chung P S. A new computer 2controlled polarization phase 2shifting technique [A ].SPIE

[C].1993, 2066:67271.

[2]ZHAN G Xiao 2mian , ZHAO Zhi 2chao. Ellipsometry design and data analysis of the monitoring system of thin

wire on 2line measuring [J].J Cent S outh Univ Technol , 2001, 32(6) :6402643. (in Chinese ) .

[3]J IN Guan 2chang. The Computer 2aided Optical Measurement [M ].Beijing :Tsinghua Univ Publishing House ,

1997. (in Chinese ) .

[4]L IU Ding 2sheng , Y AN GJ un , J IAN G Di 2qing. Drawing the real time curve and history curve in measuring and

control software using VB [J].Research of Com puter Application , 2001, 18(2) :1472149. (in Chinese ) [5]Chu T C , Ranson W F , Sutton M A , et al.

A pplication of digital image 2correlation technique to experimental

mechanics [J].Exp Mech , 1985, 25:2322244.

[6]J IN G Feng 2shui , SUN Ai 2dong. A linear solution of a nonlinear regulation model [J].Numerical Calculus and

Application of Computer , 1998, 19(3) :1682174. (in Chinese ) .

【责任编辑:坪　梓】

大样本测量中拟合精度与样本量的相关性

相关内容

热门内容

标签