偏最小二乘回归的研究

浙江大学理学院

硕士学位论文

偏最小二乘回归的研究

姓名:宋高阳

申请学位级别:硕士

专业:概率论与数理统计

指导教师:苏中根

20090505

偏最小二乘回归分析(Partial要Regression简记为PLs)是一种新型的LeastSquares

多元统计分析方法,最早产生于化学领域。PLS主要用来解决多元回归分析中的自变量存在多重相关性或变量个数多于样本点数等问题,集多元线性回归分析、主成份分析和典型相关分析的基本功能为一体。在一个算法下,同时实现了回归建模、数据结构简化和两组变量间的相关分析,给多元数据分析带来极大的便利。PLS方法已广泛应用于化学计量、工业设计、计量经济学等各个领域。

本文分为三章,结构如下:

第一章介绍了多元回归分析及其最d,--乘估计,在自变量之间存在严重多重相关性时最d,--乘估计完全失效。接着,介绍了多元回归的PLS方法。PLS方法能有效解决多重相关性问题。PLS回归方法在处理样本容量小、自变量多的数据方面具有一定优势。在实际问题中,往往是一部分自变量只对某一部分因变量有显著影响,另一部分自变量只对另一些因变量有显著影响,而PLS回归方法所选择的主成分中仍包含所有的自变量,最终建立的回归模型是包括所有自变量的全模型,因此一般的PLS方法并没有完全解决变量间存在严重多重相关性的问题,特别是在自变量个数多,样本量小的情况下。

针对这种情况,本文第二章提出了对变量进行双重筛选,即改进的PLS方法。思想如下:在建立PLS回归模型之前先对变量进行筛选,在筛选过程中,自变量和因变量的地位是同等的,既对自变量筛选同时又对因变量筛选。设自变量为zl,z2,…,zm,因变量为Y1,Y2,…,蜘,首先引入一个因变量,并对自变量进行筛选,找出对这一因变量影响显著的自变量组{毛。,z诧,…,Xi,)(其中.[勋。,z锄…,z霸)∈.【z1,X2,…,zm));然后考虑因变量的筛选,这相当于把z1,z2,…,X仇和Y1,Y2,…,蜘的地位作一对换,筛选出对前面选出的r个自变量组'[戤。,z锄…,z讳)影响显著的因变量组{协。,%,…,协:)(其中.[协。,%,…,勘】.∈{可1,Y2,…跏));接着再筛选自变量,找到对这z个因变量影响显著的自变量组。重复这一过程,直到某步当自变量筛选后,没有因变量可删除,同时也没有因变量可引入。假定这一过程得到的因变量组为{y1,沈,…,纨}其中k≤P,自变量组为{鼢,,z锄…,z“),其中r≤m,对这两组数据按照偏最d'--乘回归的建模方法建立回归方程组。从因变量Y1,耽,…,蜘中删除Y1,抛,…,Yk后,再按照上述变量选择方法筛选因变量和自变量,得到第二组因变量和对应的自变量,如此往复,直到全部因变量都有了与之相应的自变量组和PLS回归方程组,计算过程结束。在筛选过程中引入或剔除某一变量的依据是判断该变量对模型中变量的“贡献"的大小,即要检验该变量对模型

Ⅱ中文摘要中变量的显著性大小。文章提出的检验统计量服从F分布。本章最后利用改进的PLS方法研究Y1991—2007年间影响我国人们生活质量和经济发展的多种因素,得到了较好的分析结果。

本文第三章将改进的PLS方法与时间序列ARMA模型结合起来形成了PLS时间序列预测模型,解决了PLS方法不能预测的问题,并利用该方法研究了1985-2007年间我国农民家庭收入水平及城市化问题。关键词:偏最小二乘回归、逐步回归、多重共线性、主成分、时间序列

Abstract

PartialLeastSquares

anditisproducedRegression(PLS)isanewmuliplefield.PLSis

arestatisticdataanalyticalmethod,usedtosolvethethatvariables

callfromchemistrymainlymultiplemorere.gressionanalysisthatthevariablesincorrelationorarethanthesamplepoints.TheoutstandingcharacteristicofPLSisthatitmakethemultiple

linearregressionanalysis,theprincipal

tionanalysiscombined.Inthesamecomponentscananalysisandthecanonicalcorrela—arithmetic,itimplementmodeling,predigestthe

atdatastructureandanalyzethecorrelationbetweentwogropesofvariablesthesame

time.Itbringshugeadvantagetothemultiplelinearregressionanalysis.

isdividedintothreechapters,thestructuresasThepaperfollows:

Thefirstchapterisdevotedtothemultipleregressionanalysisandleastsquaresestimation.Whenthereismultiplecorrelationinvariables,theleastsquaresestimation

corre-doesnotwork.Then,thePLSmethodisintroduced.ThePLSmethodiseffectivein

lafionproblem.Butingeneral,thefinalPLSmodelincludeallindependentvariables.In

ahaspracticalproblems,apartoftheindependentvariablesareoften

enceinonlyapartofdependentvariables.Andsignificantinflu-anotherpartoftheindependentvari’ablesimpactotherdependentvariables.ThustheordinaryPLSdoesnotsolvetheprob_lemespeciallyinthe

samplepoints.casethatthenumberofvariablesaremorethanthenumberof

Toaddressthissituation,thepaperputsforwardthefirstchapterof

variablesselection,thatthePLSforis,theimprovedPLSmethod.Andthethinkingisasfollows:In

aretheselectionprocess,theindependentvariablesandthedependentvariablethe

samestatus.Basedargumentfortheindependentvariablesare

dependentvariablesare2;1,x2,…,xm,andthedependentvariableisY1,y2,…,铷.Aftertheintroductionofa

theselectingofindependentvariablestofind

ontheindependentvariableswhichhavethestrongestimpactingthedependentvariables{xil,zt2,…,zo}(which{xilzt2,…,Xi,)∈

thepaperconsiders{z1,;T2,…,zm));Andthen

ables.Thisisequivalentto

thetheselectionofthedependentvari。changethestatusofthexl,X2,…,xmandyl,Y2,…,Yp.Similarly,paperselectsthedependentvariablestepbystep.Seting.[协1,%,・..,%}(which{yJl,%,

ordertoidentifythefrontofthervariables{ztl,Xi2,…,z“)llI…,%l}∈'【可1,Y2,…珈)),in

Ⅳ!n…m-!!!!!!!=!!!!!!!!!!!!!!!!!!!!!!=!!!!!!!!!!!!!!!!!!!!=!!!!!!!!!!!!!詈!!!!!!!!!!!!!!!!!!!!=!!!!!!!!!!!!!!!!!!!!!!英文摘要whichinfluencethedependentvariablegroupstrongly,andthenselectstheindepen-dentvariablesagain.Thisprocessstopswhenthereis

deleted,andatnodependentvariablescancanbethesametimethereisnodependentvariablesbeintroduced.Thisprocesshasbeenassumedthatthedependentvariablesforthedependentvariablesare{yl,沈,…,Yk},whichk≤P,independent

m.y1,沈,…,YkarevariablesareXil,zi2,…Xi,},whichr≤thenrepeatstheabovedeletedfromthedependentvariables,and

steps.Thesecondgroupofdependentvariablesandthe

stepisbackindependentvariablesget.Thisaandforth,untilthatallthedependentvariableshavecorrespondinggroupofindependentvariables.Assumethatafterscreening,theprocesscandivide

oftheirPLSregressionequation

tostudythevariablesinto£groups,andtheestablishmentusesget.Finally,thepapertheimprovedPLS

amethodthequalityoflifeaandre-economicdevelopmentin

sults.varietyoffactorsintheyears1991—2007,havingbetter

Inthelastchapter,thepapercombinestheimproved

CanPLSmethodandtimeseriesmodelsARMA,assolvestheproblemthatPLS

pertakesnotbepredicted.AndthenthePa—Chinaandadvantageofthemethodstudy

1985—2007.householdincomeoffarmersinurbanizationintheyear

KeyWords:partialleastsquaresregressionanalysis,stepwiseregressionanaly-sis,multicollinearity,principalcomponent,timeseries

浙江大学研究生学位论文独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得逝逛太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

学位论文作者签名:聿l与阳签字日期:沙田年j月达日

学位论文版权使用授权书

浙堑太堂有权保留并向国家有关部门或机

构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝婆太堂本学位论文作者完全了解可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。

(保密的学位论文在解密后适用本授权书)

学位论文作者签名:婿高P日导师签名:

签字日期:诎‘7年y月谚日签字日期:年月日

致谢

本文是在导师苏中根教授的悉心指导下完成的。苏老师严谨的治学态度和一丝不苟的工作作风使我受益匪浅,在苏老师的指导下,不仅在专业知识方面有所进步,而且对自己的各方面的素质,包括学习,生活,品质,都有一定地提高。在此,向张老师表示衷心的感谢!

此外,在两年的求学过程中也得到了林正炎教授,张立新教授,张帼奋副教授,张奕副教授,王秀云副教授,赵敏智老师,张荣茂老师等老师的关心和指导,在此致以诚挚的谢意!同时,对数学系的各位老师和系工作人员的帮助表示感谢!

同时,我要感谢两年来一起学习和生活的同学们,感谢他们在学习和生活上所给予的帮助,让我度过了快乐的研究生生活。最后,祝愿浙江大学,祝愿浙江大学数学系的明天会更加辉煌!

第1章

§1.1引言多元回归分析及其最小二乘估计

回归分析方法是多元统计分析【lOl的各种方法中应用最广泛的一种,它是处理多个变量间相互依赖关系的一种数理统计方法。变量间的相互依赖关系在实际问题中是大量存在的,回归分析是研究这种相互依赖关系的有效数学方法之一。

回归分析方法是在众多相关的变量中,根据实际问题的要求,考查其中一个或几个变量与其余变量的依赖关系。如果只要考查某一个变量(通常称为响应变量、因变量或指标)与其余多个变量(通常称为自变量或因素)的相互依赖关系,称为多元回归问题。如果要同时考查阶因变量与m个自变量的相互依赖关系,称为多因变量的多元回归问题。

在实际问题中,经常要同时考察这种多因变量的多元回归问题,如环境科学研究中,在同一时间地点,抽取了大气样品,测得多种污染气体,如CO,S02等的浓度。大气样品中多种污染气体组成一个多维的随机向量,作为因变量。而大气中各污染气体的含量又与污染源的排放以及气象因子(风向、风速、湿度等)有关,这就是一个多个因变量与多个自变量的回归问题。在实际问题中,这种考察多个因变量与多个自变量的依赖关系的闯题是大量存在的。

以下介绍多元线性回归模型参数的最小二乘估计。

设有m个自变量:x1,z2,…,xm,价因变量:Yl,Y2,…,铷,假设它们之间有线性关系。现有n组自变量与因变量的实测数据(zmz圮,…,z咖;轨1,纨2,…,%)(t=1,2,…,n),数据阵分别用X,y表示:

XllX12Xlm

X2m

.YllY21Yt2ylmX=X21X22Y=沈2耽mZnlXn2XnmYmYn2Ynm

设竹组数据满足如下关系式

%=硒+胁Jztl+…+pmjxtm+g巧

(t=1,2,…,n;j=1,2,…,p).

2第1章引言记

阮1

臼=/311触p12

●硒卢lp答些(风,忍,…,伟),

风1风2

EII£12●

E=£21622●缈功彬劫

●●●笪

6nl£们●洲叩%;‰%;‰

Y=(1扎;x)z+E=C卢+E

其中C为礼×(m+1)矩阵;且假定£(t)=(Eil,gi2,…,£咖)馋=1,2,…,扎)是相互独立的,其均值向量为o,协方差阵相等,均为∑。进一步可假定£(o一姊(0,∑)(i=1,2,…,几).

定义1.1称模型

{■麓篙+㈣E=CZ,+…E㈤,i

乘估计可表示为【8】:相互独立I£(£)一%(o,∑)(=,,…,几)相互独立12(1.1)是多因变量的多元线性回归模型,其中y和E是随机阵,p=(助),∑=(%)是未知参数矩阵,X是己知矩阵,C=(1n;X)J|.rank(C)=m+1。把参数矩阵p分为两块:b(01为1×施阵,B为m×P矩阵。那么参数矩阵p的最小二

声:…邓仞弋,y

由分块求逆公式知(假定_rank(C)=m+1):

∥盯1=陋篓H-1丢二嚣n≥],

其中

Lxx=X7(1n一寺1n1:)x,贾2寺x71n=(圣l,…,牙m)7・

记1

P=砉y71n=(91,…,鲂)7,

Lyy2y7(k-.5nlnl:)y=】厂7(In一寺J)K。~

.nn

Lxy=x7(In一砉J)y=X7Y—nXY7=Lox,

I3

塑垩盔兰塑圭堂位论茎一一

启=一疋t㈡誉’j贾,L叉k戈,nP,一五yL叉kx,y一三叉k2(nF7)+LikX7Y

IP-fiYLxlxLLxlxLxy肼]

Y=1竹由以上求得的∥的最小二乘估计声答(&)(州.。)×p,即得p个因变量的回归方程:巧=砌+伪jzl+…+局巧zm◇=1,2,…,p)X)

扎^6柳斗I.印曼2㈣.B.B2●

=1。p7+(In一{g)xb

实际值l厂与预报值矿之差y—p称为残差。可以用它构造误差向量£(曲的协方差阵∑的估计量。残差

y—p=】,一lnp,一(I珏一±J)X台

=(I作_l孕j)y一(In二丢了)xL矗Lxy之(In一寺J)(y—xL矗Lxy)

y一矿=Y一∞

=(In—c(c7C)-1c7)y

=(In一日)y

令Q=(y~p)7(y—p)为p×施阵,称为残差阵。且Q有以下计算公式:

(y一矿)7(y一夕)

Lyy——LYxLxIxLxy(1.2)

Y7(In—H)Y

4第1章引言

常取∑的估计为宅=南Q.∑=——二—・.

引理1r8,在模型c1.1,下,记届=[翟’]二,L王k=cz巧,,而

/3(1)

雪=(助)m×pd=ef(夙,…,犀)笪

厥。)

设n>m+1,rank(C)=rank(1。!X)=m+1,则

(1)p遵从矩阵正态分布;

(2)Q一%(扎一m一1,E);

(3)p与Q相互独立;

(4)觑£)一%(俄1),PE)(i--1-1,2,…,m)。

§1.2多元回归的偏最小二乘估计

偏最小二乘回归方法最先产生于化学领域。在化学研究中,经常需要利用一些可以控制(或容易测量)的变量(解释变量)去解释、控制或预测另外一些变量(反应变量),常用的统计建模方法是1.1节所叙述的多元线性回归的最小二乘估计。然而,只有当解释变量满足【15]:(1)变量数目较少(2)无多重共线性(3)各解释变量与反应变量之间的关系易于解释时,多元回归的最小二乘估计才具有某些理论特性:比如最佳线性无偏估计(BLUE),才能较好地拟合数据,并能对结果给予比较合理的解释,若数据不能完全满足以上三个条件,则多元线性回归的最小二乘估计就会失效。

为处理违背以上三个条件的数据,统计学家对一般最小二乘估计进行了多种改进。为了克服多重共线性影响,发展了一系列有偏估计方法:岭估计,压缩估计,主成份估计及特征根估计等,或运用逐步回归等方法去掉一部分解释变量。但对于样本数较少,甚至少于解释变量的情况,以上方法均不适用【131,而且这些方法仍然存在着各种各样的问题和不足:要么解释性不够好,要么模型拟合精度不够高,要么预测精度不够理想等等。

对此,早期一些欧洲经济计量学家发展起一种新的统计方法即偏最小二乘(PartialLeastSquares,缩写PLS)回归。偏最小二乘回归方法是一般最小二乘回归的一种拓展,能够克服最小二乘回归分析方法的一些不足,但而当时偏最小二乘回归在统计理论上还有很多的问题没有完全解决,在应用领域也没有取得大的进展。所以没有引起统

浙江大学硕士学位论文5计学界和应用领域研究人员的足够重视。直到上世纪80年代,计量化学研究者将偏最小二乘回归成功地运用到计量化学中,而后工业设计工作者应用该方法同样获得巨大成功,才引起了各方面极大的关注。由此偏最小二乘回归的理论和算法研究取得了极大的发展,而且其应用也迅速扩展到了其他领域,如管理科学,教育评测学,药理学等学科。到上世纪80年代末至90年代初,非线性迭代偏最小二乘(NIPLS)形成多种算法的变种,最早由HemanWold提出的NIPLS算法发展出迭代法,特征根法,奇异值分解法等多种算法,这些算法极大地丰富了偏最小二乘算法。此后随着对偏最小二乘回归理论、算法的进一步深入研究,DeJongZJ:1993年提出了一种与NIPLS完全不同的算法,即简单的偏展小二乘(Sanmple

乘回归的基本步骤和思想。PartialLeastSquaresRegression),同样实现了偏最小二

1996年10月,在法国高等商业教育组织机构HFCCISL托EREsTA的组织和赞助下,关于偏最小二乘回归方法、理论和应用研究的第一次国际学术专题研讨会在巴黎召开,来自世界各地的著名的偏最小二乘专家分析和介绍了他们各自的关于PLS方法的最新进展及研究成果,以及在计量化学、工业设计、和金融分析等领域的应用。这次会议促进了偏最小二乘回归理论和算法的进一步深入发展。

§1.2.1偏最,J、--乘回归的思想和算法

偏最小二乘回归分析是多元线性回归分析、主成分分析和典型相关分析的有机结合,其建模原理也建立在这三种分析方法之上。

在主成分分析中,对于一组自变量的多维数据组z,为了找到能较好地概括原数据信息的综合变量,可在z中提取第一主成分日,使Fl中所包含的原数据变异信息达到最大,即:

Var(日)一?t口ax

在典型相关分析中,为从整体上研究自变量数据组X和因变量数据组y之间的相关关系,分别在X和y中提取典型成分蜀和Gl,在使原变量数据均是标准化的条件下使它们满足

maxr(F1,G1)

s.t.FlR=1

G1G1=1

上式中的参数具体化之后,可通过拉格朗日算法求解。在能够达到相关度最大的综合变量R和G1之间,如果存在明显的相关关系,则认为X和y之间也存在相关关系,即

6第1章引言可采用偏最小二乘回归方法。

下面介绍偏最小二乘回归分析的建模思想。

设有p个因变量.[y1,Y2,…,蜘)和m个自变量{Xl,X2,…,z。)。为了研究因变量与自变量的统计关系,观察了礼个样本点,由此构成了自变量与因变量的数据表X={zl,X2,…,z。)。×。和y=.[yl,Y2,…,跏)n×p。分别在x和y中提取成份tl和Ul(且1]tt是z1,z2,…,z。的线性组合,Ul是Y1,Y2,…,蜘的线性组合),在提取这两个成分时,为了回归分析的需要,有下列两个要求:

・tl和U。尽可能大的携带它们各自数据表中的变异信息;

・t1和U1的相关程度最大。

这两个要求表明:tl和U1尽可能好的代表原始数据X和y,同时自变量的成分£1对因变量的成分让,具有最强的解释能力。

在第一个t1和U1被提取后,偏最d、--"乘回归分别实施X对t1的回归和y对tl的回归。若此时回归方程已经达到满意精度,则算法停止;否则,将利用X被t。解释后的残余信息以及y被t1解释后的残余信息提取第二对成分。如此反复,直到能达到一个较满意的精度为止。若最终对x共提取了z个成分t1,t2,…,tz(1≤m),对因变量Y1,Y2,…,铷中任一变量yk(k=1,2,…,p),偏最小二乘回归将施行Yk对t1,t2,…,tl的回归,而由于t1,t2,…,tl都是zl,z2,…,zm的线性组合,最终可以表示成玑对原始变量X的回归方程。

§1.2.2偏最小二乘回归的建模步骤

为数学推导方便,先将数据做标准化。X经过标准化处理后的数据矩阵记为Eo=(岛1,岛2,…,‰)n×m,y经标准化处理后的数据矩阵记为Fo=(F01,F02,…,嘞)nx即l|u。0=1。记U。为R的第一个成分,u1=FoCl,Cl是R的第一个轴,而且IlcllI=1。p。第一步,记t1为岛的第一个成分,t1=Eoul,u1是Eo的第一个轴,它是单位向量,

如果t1,u,能分别比较好的代表X和y中的变异信息,根据主成分分析原理,则有

Var(t1)_max

Var(u1)一Trtax

另一方面,由于建模的需要,要求t1对U。有最大的解释能力,由典型相关分析可知,tl与U1的相关系数应该达到最大值,即r(h,u1)一max

浙江大学硕士学位论文

因此,综上可知,在偏最小二乘回归分析中,要求t1与itl的协方差达到最大,即7Cov(tl,u1)=弓/—Var(t1)V—ar(u1)r(t1,仳1)一m口z

均“正规数学表述是求解下列优化问题,即2{n‰耻C

s哺

、●.、、●-,1吼柏q司1

因此,将在J1.JiJ12=1和lielIl2=1的约束条件下,求<岛u1,Focl>的最大值。

由拉格朗日法得到第一个轴u。和C1后,即可得到成分

‘t1=岛ul

仳12FoCl

u・是对应于矩阵晶昂昂岛最大特征值的单位特征向量,而cl是对应于矩阵昂岛晶昂最大特征值的单位特征向量。

然后,分别求解晶和晶对t1和仳l的三个回归方程

Eo=t1科+E1

Fo=札1“+目

Fo=tlr;+日

式子中,回归系数向量为

n=

啦=

n=1—21—2塑姊婴娜L一2

而E1,目,只分别为三个回归方程的残差矩阵。

第二步,用残差矩阵E1和日取代岛和晶,求第二个轴u2和c2以及第二个成分t2和u2,则有

t2=Elw2

u22F1c2

u2是对应于矩阵耳日q局最大特征值的单位特征向量,而c2是对应于矩阵耳局耳F1最大特征值的单位特征向量。接着计算回归系数

沈5而

您5商耳t2

8第1章引言所以,得到回归方程

E1=t2鹤+E2

Fl=£2r:+易

如此反复计算下去,如果X的秩是A,则有

Eo=tiP'1+…+tn/A+既

Fo=tlri+…+tAr’A+FA

由于£1,…“均可表示成岛1,…,‰的线性组合。因此,昂还可还原为玩=昂七关于《=%的回归方程,也即

坑=aklX:+…+akpx;+FAk,七=1,2,…,g

n七是残差矩阵f_的第尼列。

又由(1.3)

嫉:—Yk-FE(yk)(七:1,2,…,g)

z净—xi1-E_(xi)(i:1,2,…,p)

(1.4)其E(yk),E(鼢)分别是玑和筑的样本均值;S南和S幺分别是鲰和鼢的样本均方差。回归方程还可写成原始变量的偏最小二乘回归方程:讥=陬纨)一∑P。航簧E(列】+%石Syk山,一r…十∞坳瓦5'yk昂i=1“zt。。l。唧

§1.2.3交叉有效性原则

交叉有效性原则【5】用来确定抽取成分的个数。一般情况下,偏最小二乘回归分析并不需要选取存在的所有m个成分来建立回归方程,而像主成分分析一样,只选用前h个成分,即可得到预测能力较好的回归模型。交叉有效性原则便是其中一种。记玑为原始数据,t1,t2,…,‰是在偏最小二乘回归中提取的成分,觑是利用全部样本点并提取tl,t2,…,th个成分进行回归建模后第i个样本点的拟合值。玩㈠)是在建模时删去第i个样本点,取t1,t2,…,如个成分回归建模之后第i个样本点的拟合值。记

I‰=∑(玑一饥)2

i=ln

.{PRESSh=∑(玑一鲰(∥I

【Q2=1一iPRESSh(1・5)

堑垩盔堂翌主堂堡丝塞二——————,。,,。。。,。,。。,。。。。。———————』

则当QZ≥o.0975聍J,引进新成分t^会对模型预测能力有明显改善作用。这即是交叉有效性原则。

第2章改进的偏最小二乘回归

§2.1有关引理

下面首先不加证明地介绍一些在本章要用到的定理或结论(参见【8】)。

引理2设x(口)一%(o,∑)(Q=1…扎)相互独立,则样本离差阵A服从威沙特分布,即

A=∑(XQ)一.定)(五a)一.髫)7一%(几一1,∑)

威沙特分布是卡方分布的推广。

Hotelling严分布的定义及性质

定义1设x一坼(o,∑),随机阵Ⅳ一%(n,∑)(∑>0,n≥p),Kx与w相互独立,则称统计量严=佗X,Ⅳ_1X为Hotelling严统计量,其分布为服从n个自由度的P分布,记为

T2一T2(p,n)

其中%(n,∑)是威沙特分布。

引理3严与F分布的关系:设铲一铲p,n),则

扎口掣T2。F(p,礼一p-4-1)

A=揣

A—Ap,nl,n2)定义2设x一%(o,∑),则称协方差阵的行列式I∑l为x的广义方差。若五。)(Q=1,…,礼)为p元总体x的随机样本,A为样本离差阵,则称弓AI或Ii与AI为样本广义方差。定义3设A1一%(礼l,∑),A2一%(扎2,∑)(∑>0,nl≥p),且么l和A2独立,则称广义方差阵之比为威尔克斯统计量或A统计量,其分布称为威尔克斯分布,记为

在实际应用中,常把A统计量转化为严统计量,进而转化为F统计量,然后可以利用F统计量来解决统计分析中有关检验的问题。

引理4当礼2=1时,设佗1=礼>P,则

Ap,死,1)雪———■—一.1+————广-=—一1-4-三T2(p,礼)10

浙江大学硕士学位论文

或11

型严=型半兰F∞,n-p+1)np

这就引出了变量选择问题。吼川=礼措.‘_PA§2.2偏最小二乘回归分析的变量选择问题从偏最小二乘回归的计算结果可以看到,最终得到的偏最小二乘回归方程是一个全模型,即最终的回归方程包括了所有的自变量,但是在实际问题中,并不是所有自变量都需要包括在最终的模型中的,人们只想看到对因变量影响最显著的自变量在模型中,

偏最小二乘回归的一个重要方面就是变量的选择问题。通常,变量选择方法【?】包括AIC准则、最终预报误差准则、贝叶斯信息准则、迭代对数准则、多元校正系数准则(R2)、修正的多元校正系数准则(R2)、损失函数的总体F检验以及G准则等。

A鼢惦rHoskuldsson【4】提出分组变量选择方法及正交变量选择方法,并利用具体数据分析说明了这两种选择方法适合于大样本数据且计算更为简单些。

NickeyJ.Messik,JohnH.Kalivas和PatrickM.Langf5】提出了几种不同的变量选择方法:PLS-FORWARE法、PLS-BOOTSTRAP法、8Q法和v】P法等;并利用实验数据说明了PLS-FORWARD法和P峪BOOTSTRAP法从模型拟合的角度来说更好,而BQ法和VIP法更适合于模型预测等情况。

BaibingLi,JulianMorris和ElaineBMartin【3】通过模拟模型对这些不同方法进行了综合比较。得出的结论是:AIC准则更适用于小样本情况,而多元校正系数准则(R2)、修正的多元校正系数准则(冗:)适用于大样本情况。

接着Jean-PierreGauchi和PierreChagnon【1】提出了FMR法、BMR法、SMR法、SR法、WARCI法、VARC2法、BCOR法、CoEF法、RCOEF法、BQ法、SR-BQ法、BSDEP法、JACK法、GA法、SA£A法等将近20种的变量选择方法。得出GA法可以得到较低维的自变量和较高的Q丕。。(交叉有效性)。但是其最大的缺点是:当自变量的维数较高时,计算量要比其他方法大的多,所以此方法只适合于自变量维数低于30的情况。而SMR法则是传统的变量选择方法,但是当自变量存在高度相关时,由于矩阵xTx是奇异的,这种法不再适用。但在所有这些变量的选择方法中,没有一种方法是一致地优于其他方法的。

§2.3改进的偏最小二乘回归分析思想在实际问题中,往往是~部分自变量只对某一部分因变量有显著影响,而另一部分

12第2章改进的偏最小二乘回归自变量只对另一些因变量有显著影响。因此本部分的主要目的是给出一种改进的多元数据分析方法,即改进的偏最tJ、-"乘回归方法。改进的偏最小二乘回归方法既能按自变量对因变量的关系对因变量分组,又能使每个自变量对各组因变量的作用反映出来,因此改进的多因变量偏最小二乘回归方法能很好地处理这类实际问题,并得到合理的结果。

改进的偏最小二乘回归思想如下:第一步,设自变量为X,,X2,…,X仇,因变量是Y1,Y2,…,蜘,首先引入一个因变量,并对自变量进行筛选,找出对这一因变量影响显著的自变量组{以。,Xi。,…,Xi,)(其中{戤。,觑。,…,z“]-冬{Xl,X2,…,%));然后考虑因变量的筛选,这相当于把zl,X2,…,X仇和Y1,Y2,…,蜘的地位作一对换。找出对前面选出的r个自变量组.[鼢。,z锄…,Xi,)影响显著的因变量组{协。,Yj。,…,协。)(其中.[协。,%,…,勘)∈{可1,y2,…蜘));接着再筛选自变量,找出对这z个因变量影响显著的自变量组。重复这一过程,直到某步当自变量筛选后,没有因变量可删除,同时也没有因变量可引入。假定这一过程得到的因变量组为{可l,耽,…,纨)其中七≤P,自变量组为{如,,X锄…,z“】-,其中r≤m,对这两组数据按照偏最小二乘回归的建模方法建立回归方程组。从因变量Yl,Y2,…,孙中删除Y1,Y2,…,Yk后,再按照上述变量选择方法筛选因变量和自变量,得到第二组因变量和对应的自变量,如此往复,直到全部因变量都有了与之相应的自变量组,计算过程结束。假设经过变量筛选后,可将因变量分成t组。

不妨设第一组因变量集合为Y1,Y2,…,纨,自变量集合为z1,X2,…,X,。按照偏最小二乘回归的步骤建立秒l,抛,…,躲关于Xl,X2,…,X,的偏最小二乘回归方程:

Yl=文,0+文.

Y2=庞。0+侥.+++侥.,.Xr+仍.rXr

Yk=|3k,0+{13k.++伉.,Xr

接着再建立余下的t一1组偏最小二乘回归方组,最终将得Nt组不同的偏最d、---乘回归方程组。

自变量被选入或剔除模型的依据是该自变量对模型中的因变量的影响程度的大,hap“贡献"大小。因此,变量选择的第一步是计算自变量对因变量“贡献’’。

§2.4筛选过程所需统计量的计算

§2.4.1自变量筛选所需统计量的计算

考查某个自变量觋晰因变量的“贡献”是否够大,即检验兢对P个因变量的影响是否显著,因此计算“贡献"的问题即归结到参数显著性检验的I;-J题了。若以对p个因

浙江大学硕士学位论文13变量的影响不显著,那么在模型(1.1)中鼢的回归系数p({)=Ov,此问题即要检验假设硪‘’:厥{)=G(i=1,2,…,m)。

首先讨论某个自变量‰对可1’...,Yp“贡献’’的如何表达。根据引11里1Rp可得检验-/0i)的统计量。由引理1知

fl(i)=%一%(ko,产∑),

记局=而1厶,则在卯下

忍%一%(o,∑).

由引理1及残差阵Q的计算公式(1.2)知

Q=Lyy—Lyx二矗Lxy一%∞一m一1,∑)

且Q与反i)相互独立。由定义1知,统计量

铲=(n—m一1)(局反t))7Q一1(E届(;))

=(n—m一1)厉:。)Q一1反t)/∥

根据引理3可得统计量F:一≮Tt掣r2

【一m一1)p一严0,n—m一1)(在硝’成立时)

一亿一m—p徘)Q-1反i)

P(2.1)∥

所以有如下定义:K为‰对p个因变量可l,…,%的“贡献"。由上式可以看出,若前’成立时,则声(i)≈0p。于是表达式Ⅵ:挚应较小,。一F∞,佗一m—P)(在硪2)成立时)

定义4在模型(1.1)中,自变量妃耕因变量的“贡献”K定义为:

配:亟旦二塑Z∞

其中反t)是俄t)的最小二乘估计,Q是残差阵,∥是矩阵己矗的元素,Lxx:X,(1n一磊11。1:)x。给定显著性水平Q,由样本观测值计算K及五=竺掣K。由式子(2.1)知五。F0,礼一m—p)。计算显著性概率值(碓)=P(F≥五)。若p≤Q,则否定穰曲,表

14第2章改进的偏最小二乘回归

善y=cln;x,,[翟]+咒岛+E

且m1+m2亏m。,。2.2,I£({)~%(o,∑)(i=1,2,…,钆)相互独立令C=(1n;X)=(1几;墨;恐),xl为死×仇1给定矩阵,咒为礼×ml给定矩阵,

记B=[三],其中Bt为mt×p参数矩阵,岛为m2×p参数矩阵cm・+m2=m,,且rank(C)=rank(1n!Xl;拖)=仇+1,检验假设Ho:B2=0。即要检验一部分自变量Xrnl+1,…,z。是否耕因变量有显著性影响。假设m2=1即恐=z。是n维向量

(钆1,让2,…,‰)型乱且z。相应的佗次观测值为

这时m+1个自变量与阶因变量的扎次观测值满足下列模型:

6(o)

Y=(C!牡)Bl

6(t‘)+E些G∥(仳)+E,r口n忍(瓯)=m+2,(2.3)

I£({)一Ⅳp(o,∑)(i=1,2,…,佗)相互独立

用6(o),雪1,Q表示在模型(2.2)下参数∥的最小二乘估计及残差矩阵,用6(o)(让),台l@),6(u)及Q(u)表示在模型(2.3)下参数p(u)的最d,---乘估计及残差矩阵。

在模型(2.2)下,记

01=(1n;X1),C=(1。;墨;恐)=(C1;恐),

由式子(1.2)知残差阵

fy=c1.i

I£({)一NAo,∑)(i=1,2,…,礼)相互独立X1)[翟]+E,。2.4,

浙江大学硕士学位论文

其相应的残差阵为

Qt=Y,(In—G(qcl)一1q)y=Y,(In一所)×

其中凰=Cl(CiCl)-1q)。

首先计算Q1~Q的表达式,因为C=(a;.磁),记

D=墨(In—H1).磁,

故有【8】

(c7C)-1

‘qc一,)k-'cI恐I。_1(弼a(qG)--一Im2).曩甜=愕0~。0]

因此

Q=y7卜一cG;恐,c∥c,‘1[乏]]y

=Y”n—o(qG)-1q)y—Y,(In—G(a,G)一1q)X2D一1X;(I。

一a(qG)。q)K

即得

Ql—Q=y7(k—H1)X2D-1嚣1(I。一a(qa)一1q)y

另一方面

p=(C7C)_1C7Y

ml+1

l(qG)-1q)y一(qa)-1q)X2D-1弼(In—H1)Y

lD.1弼(I礼一H1)ym2于是岛=D一1巡(I"一a(qa)一'coY。

所以

Q1一Q=Y’(In—H1)X2D_1嚣1(L—c,(cfcl)一1q)】厂

=岛D岛=岛墨(In一日1)恐龟

引理5【8】在模型1.1下,有

(1)Q一%(n—m一1,∑);15(2.5)

16第2章改进的偏最小二乘回归

(2)在模型2.4下(即凰成立时),QI—Q一%(概,∑);

(3)Q与Q1一Q相互独立。

检验凰的似然比统计量【8】为

“入:—maxL(/—7(1),E):—IQlln—l-"i2:鲤:f型:)hi2

等价与^==一:=:~=——————————●一=l一u=而‰=雨硒IQIma<xL(n,∑)lQ/,2I—n/2lQI—n/2、IQ-I-(Ql—Q)I’

在凰成立时,Q1一Q=岛D岛一%(m2,∑),3Lt天tQ一%(佗一m一1,∑),且Q与Q1一Q相互独立,由定义3知

U—A∞,几一m一1,m2).

可以看出,当日0成立时,则U值应近似等于1;若U值太小,则可否定假设凰。对于给定的显著性水平a,由样本数据计算U值为U,利用检验统计量U的分布,计算显著性概率值(雄)=P(U≤让)。当P<oz时,否定凰,即认为m2个自变量Xml+1,…,z。耕因变量的作用显著;当P≥Ol时,凰成立,即可认为m2个自变量zm,+l,…,zm渤个因变量的作用不显著。

特别地,当m2=1时,恐=Xu是几维向量,D=z:‘(I。一皿xu是数值,记为d,而岛=占{。1为1×旆阵,所以

u:旦!:

IQ+6(。)d6,u)|

由分块求行列式的公式可得:

I£1一磐}:阱喀‰II‰Q

因此P“…。=IQlll+d6,乱)Q_16(u)I,

1+幽:Ⅱ)Q一1‰u:———。二一

另一方面,当m2=1时,由引理4知:r2.6)、’当日。成立时,则c厂值近似等于1,Ku)=d研u)Q一1占(Ⅱ)定义为变量z缸对p个因变量的作用。

A(p,/'t—m一1,1)=———1——二———~1+=—jT2(p,n—m一1)佗一m—l(2.7)

浙江大学硕士学位论文

比较(2.6)(2.7)式得17

严p,仡一m一1)=(几~m一1)d《。)Q。6(让)=(n—m一1).L笋

epu统计量可转化为严统计量,再由引理3知(2.8)

F=≮篙等≯严咖一m-1)一盹n—m刊,

Fl=F=

所以统计量局即是检验自变量zu能否引入模型的统计量。一一:=一一,v,’l。,).7I一,,^一TJl.型P型型U=坚P型盏一砘n—m刊.1一K‘州一“纠

下面的引理来自文献【9】,是证明下面的定理1所需要的。

引理6【8】在模型(2.2)和(2.3)下参数阵的最小二乘估计及残差阵之间有如下关系:

f6(仳)=d-1(LⅡy—L。xLxlxLxy),

(2.9){掣2笔Lx—lxL.x,*b(曲,.lb(0)(u)=】,7一X7B(u)一fib(u),

【Q(u)=Q一曲(让)’6(姐),

其中

111

P=三】,71n,贾=三X71n,面=三乱71。

L。u=扎7(I。一丢J)仳,Lux=u'(In一三J)X=L'x札

L∥2∥(In一寺J)y=西u,d=Luu—L,,xLIxxLxⅡ・

定理1在模型(2.3)T自变量z。对!,l,…,跏的“贡献’’K可以改写成:

K:型l(r)二or(翁r)、』-l/坠(r)!(u:l,2,…,m)

其中

叱=z:‘[厶一c(∥c)-1C7】zⅡ=b—I。,xL矗Ixu=f黝,

证明:由引理6可知6(u)=d一1(Luy—LuxL矗己xy),带入定义4中K的公式即可得学c札……川也靠1(zuy一1.xLxlxLxy)Q一1(zy。一IxuL矗Lxy)既1

18第2章改进的偏最小二乘回归

假设z。是已选入的变量,由消去变换的性质知

I(0一,=一2诧

因此,同理可以推出检验自变量z。能否从模型中剔除的统计量为:

岛=坚芦(一K)

综合以上分析可以得到如下定理2。

定理2自变量筛选过程中,设模型中已引入m-个自变量,p1个因变量。判断能否引入自变量z。的统计量为日=半盏一弛n—m_p)p1l一‰

判断是否剔除模型中自变量z。的统计量为易:竺塑(一K).Pl

§2.4.2因变量筛选所需统计量计算

考虑因变量筛选时,可把z1,z2,…,zm和可1,Y2,…,蜘的地位交换一下,即把m个变量z1,z2,…,。仇作为m维随机向量,来考察它与可1,Y2,…,珈的之间的依赖关系。

假设变量z1,z2,…,‰,与变量y1,Y2,…,洳,的咒次观察数据满足下列模型:

{%×m・=cln;y,【翟J。,+用,×m,+E,I£({)一Ⅳm。(o,∑x)

yH

Y21y12Y22。2.1。,(i=1,2,…,礼)相互独立记YlplY2pl萝lJy=%,协。:

●0=Pl+1,…,p).

∥hl!,h2‰l%

{EX∽nx。,nⅣ=k。(。l。n,∑ix,G’:;鬯)2].:i×焉,纂独立(2.11)

塑兰盔学硕士学位论文19其中多(i)为从y中删除第i列数据后的数据阵,虽(z)为从B中删除第i行参数6(1)后的参数矩阵。检验犰能否从方程中剔除即检验硝’:6({)=01×m。。由似然比原理选统计量【8】:其中Q◇1)表示包邰1个因变量时模型(2.10)的残差阵,由式子(2.8)可知u=揣=砭页云_二了厂#宅等宅‰一A(ml,n-pl-1,1),

T2(ml,n—Pl一1)=(n-Pl-1)丁1-U

(n—P,一1)瓯)Q一1∽)%

讹=蕊(i)Q一1∞1)反f),

F=死一ml—Pl。’。’—’。’。—1’—’’—一一=1一U

mlU—’————————・・_扎一仇I—plml-_一

—F(ml,n—ml—P1)

考虑引入变量协U=p1+1,…,p)后模型(2.9)变为

f%×仇t=q竹;y;珊,[兰L+。,×m。+E,

一=———————:——————————:刍—一=铲dj占{j)Q一1(p1)6{f)————_乱f

1一Pl一21一心60)Q一1p1)60)一1一%’_一

F=(佗一p1~2)一m1+1严

m1.

佗一p1一ml一11一Pl一2

uf

m11~%

F(ml,佗一m1一pl一1)记(2.12)则称“i为变量玑对变量z1,z2,…,Xml的贡献,所以检验统计量利用F统计量可检验假设硝’。(2.13)

20第2章改进的偏最小二乘回归利用F统计量可检验假设日I#’。

因变量的引入与剔除步骤与自变量的引入与剔除步骤完全相同。由以上分析得到如下定理3。

定理3因变量筛选过程中,设模型中已引入m1个自变量p1个因变量,判断是否引入因变量的统计量为

R:竺竺L旦地ml

—F(ml,礼一?721一P1)

判断是否剔除模型中因变量的统计量为忍=坚掣盏m1

Xlm

Z2myllY21l一乱i—F(ml,n—ml~p1—1)其中呦是因变量协对模型中自变量的“贡献’’,计算公式为(2.12)。§2.5改进的偏最,J、--乘回归分析步骤设有价因变量与m个自变量,观测数据阵为XllX21X12X22Y12Y22●●●p●●●

X=.Y=蛳脚

;p

XnlXn2XnmYnl鼽2●●●%

§2.5.1准备工作

考虑是否需要对原始数据进行标准化。由于变量毛(i=1,2,…m)和yj(j=1,2,…p)所取单位不同及取值范围不同,为减少量纲的影响及减少计算误差,可对数据进行标准化。此处采用标准差标准化,即令

舡莆(渊,2'…,m;t-=Ⅵ,…,咄

其中毛=寺∑Xti,8i(z)=死u。令

蝣2错(歹=1'2,…,p归1,2,…,n)

浙江大学硕士学位论文21其中易=丢喜…∽=

(2)计算m+P阶矩阵L,假设中心化后的数据阵为贾和矿,记L=L(o),则

俨)=[雾嚣]却∽纠∞=[凌L(O)J二

为(m+P)×(m+p)矩阵。若数据已做标准化变换,则矩阵L(o)就是m+价变量的相关矩阵。

假设筛选自变量时引入和剔除变量的显著性水平分别记为ax们Otx州,筛选因变量时引入和剔除变量的显著性水平分别记为ay阳口y砌。

§2.5.2变量筛选过程

第一步:取Yl作为协。,矩阵L(o)为当前矩阵。转入第k+1步的(3),考虑引入自变量。若没有任何白变量可引入,说明可l与所有的自变量无关。

假设已计算-fk步,入选的自变量有m1个(不妨设为z1,z2,…,z。,),因变量郁1个(不妨设为Y1,Y2,…,Yp,),当前矩阵为L(…・),每引入(或剔除)一个因变量轳允,即对当前矩阵相应块作高斯消去变换,结果矩阵作为新的当前矩阵为三(m-+1)。

第k+1步:筛选自变量

(1)计算各个白变量对p1个因变量的“贡献’’

vj=db(j)Q_101)6,力(J=1,…,m).

(2)考虑能否剔除自变量。对已入选的自变量zi,选出对Y1,Y2,…,蜘,贡献最小的变量,记为z硒,并计算Xio的F统计量踟值。都≥ax口u。,则剔除变量z如,并对当前矩阵L(m1)作高斯消去变换得矩阵L(m-+1)=%陋(7)】,且以L(m-+1)作为当前矩阵,转向第k+1步,继续考虑自变量的筛选;否则,不能剔除该变量,转入第七+1步的(3)考虑能否引入新的因变量。

(3)考虑能否引入新的自变量。对于未入选的自变量,选出相应的“贡献”最大的变量,记:为Xjo,并计算xj。的F统计量励值。都≤Dx舻则引入变量X如,并对当前矩阵L(m-)作高斯消去变换得矩阵三(m1-I-1)=瓦陋(r)],且以L(ml+1)作为当前矩阵,并继续考虑自变量的筛选。否则,该变量不能被引入,自变量的筛选过程结束。第k+2步:筛选因变量。

第2章改进的偏最小二乘回归

(1)计算各个因变量对m1个自变量的“贡献”

吻=蕊(f)Q.1(m1)昧)

(2)考虑能否剔除因变量。对已经入选的因变量协,选出对z1,z2,…,‰。贡献最小的变量,记为Yi。。计算Yi。的F统计量及施。若p≤OlYout,不能剔除变量,转入k+2步的(3)考虑可否引入新因变量。否则,剔除变量‰,并对当前矩阵作高斯消去变换得矩阵L(”t+1)=五。陋《r)】,且以£(m・+1)作为当前矩阵,然后重复k+2步,继续考虑因变量的筛选。

当P1=1时,考虑能否剔除的步骤跳过,直接考虑能否引入新因变量。

(3)考虑能否引入新因变量。对未入选的变量,选出对zl,z2,…,z仇,贡献最大的变量,记为‰。计算耽。的F统计量及难。若p≥Of.y卵‰不能被引入,因变量的筛选过程结束;接着重复第k+1步,考虑自变量的筛选。如果自变量既没有可剔除的,又没有可引入的,则筛选过程结束,转入计算本组回归模型的结果。否则,若因变量Yio可以被引入,则对当前矩阵L(m,)的相应块作消去变换,并作为当前矩阵。然后重复k+2步,继续考虑对的自变量筛选。

可以看出,在以上给出的逐步筛选过程中,自变量和因变量的地位时同等的,每当在引入一个因变量后,对自变量进行筛选,找出对这一因变量影响显著的自变量组鼢。,zi。,…,轨,;之后考虑因变量的筛选,这相当于把zl,z2,…,‰和Y1,Y2,…,鳓的地位作一交换。类似地,用逐步筛选的方法筛选因变量,设珊,,%,…,%为对r个自变量忍,,z幻…,z“影响显著的变量组,接着再筛选自变量,找出对Z个因变量影响显著的自变量组,这一过程直至某步当自变量筛选后,既没有因变量可剔除,也没有因变量可引入,则逐步筛选过程结束。

§2.5.3计算该组偏最'b-乘回归方程

假设最终入选的因变量为可1,Y2,…,珈,,自变量为z1,X2,…,zm,。按照偏最小二乘回归的步骤计算该组回归方程。原始观测数据阵已标准化处理,故要还原到原变量的回归方程组。

§2.5.4计算下一组偏最小二乘回归方程

从原始数据阵中删去已入选的因变量的数据,重复以上2.5.2和2.5.3两小节中的步骤,考虑P—P1个因变量与仇个自变量的筛选与计算,即可求得第二组,第三

浙江大学硕士学位论文

组,…第t组的偏最d、--"乘回归方程组。到此p个因变量和矾个自变量的改进的偏最小二乘回归过程全部结束。

§2.6实例分析

本实例研究了影响人民生活质量和经济发展的因素【12】。样本数据取自《中国统计年鉴》(1991-2007),共15个变量,分别为:X1原煤产量(亿吨),z2石油产量(万吨),X3纱产量(万吨),z4机械纸及纸板产量(万吨),X5汽油产量(万吨),z6农用氮磷钾化肥产量(万吨),X7水泥产量(万吨),X8城市居民家庭人均可支配收入(元),X9粮食播种面积占总播种面积的比重,X10乡村人口占总人1:3的比重,可1粮食产量(万吨),Y2居民消费水平(元),y3T业生产总值(亿元),y4发电量(亿千瓦小时),//5全社会固定资产投资(亿元)。

按照改进的偏最小二乘回归的步骤,利用matlab编程计算,可将自变量和因变量结果分成三组:

第一组:建2f_y1和z9的偏最小二乘回归方程:

雪1=31697.189—21300.18xo

第二组:分别建立沈和弱关于X3,z4,X8的偏最小二乘回归方程:

蟊=227.16—0.20x3—0.15X4+0.62x8

93=-9030.42+7.73x3+0.42X4+6.88x8

第三组:分别建立纨和骗关于X3,X4,X5,X7,X10的偏最小二乘回归方程:

94=1152.24+1.89x3+0.52x40.39x5+0.16x7—21.46xlo

彘=一116594.69+12.34x3+2.64x4—1.20x7+1.05x7+1153.73Xlo

由计算结果看出,可。粮食产量与z9粮食播种面积占总播种面积的比重成反比,如果再考虑到农业科技的推动,这个表达式是合理的。说明随着农业科技的进步,虽然粮食播种面积的比重降低了,但是粮食总产量却逐年增加。耽居民消费水平与y3I业生产总值的主要影响因素是z3纱产量、X4机械纸及纸板产量和踟城市居民家庭人均可支配收入;Y4发电量与蜘全社会固定资产投资的主要影响因素是z3纱产量、z4机械纸及纸板产量、X5汽油产量、X7水泥产量和zlo乡村人口占总人口的比重。为了对比,根据偏最小二乘回归分析的建模步骤,建立y(yl,…,驺)关于X@1,…,

24第2章改进的偏最小二乘回归zlo)的全模型偏最小二乘回归方程,结果如下:

雪1=-115608~581.9503xl4-3.7565x24-0.4340xs4-1.2234xa4-0.5087x5

4-0.8646x6—0.6978x74-1.0218x8+52140x94-969.7743Xto

扔=-4987.4758—26.0869xl4-0.7481x2—0.5667x3—0.3246x4—0.9655x5

—0.2901x60.0159x74-0.1108x84-2279.4141x9+1.9519Xlo

眈=-551734-184.7674xl一0.7409x24-O.0525xa一0.7518x4—0.4385x5

—0.7909x6+0.3569x7+5.7020x84-203189x9—1365.4189XLO

94=18600+161.9808xl一1.0513x24-0.0351xs一0.3477x44-0.2855x5

+0.1609X64-O.7123x74-0.2175x84-54748x9—579.5049xlo

如=422984-1153.2621xl一12.8673x24-4.7461xs一2.7887x4+2.3689x5

4-2.6636x64-0.5744x74-8.7739x8+457043x9—3432.3402xlo

由以上计算结果可以看出,由改进的偏最小回归计算的结果更简明,各组模型中只

含有跟自身变化关系最密切的自变量。同时可以Ehmatlab计算知各因变量的偏最小二乘回归的预测偏差平方和总是大于改进的偏最小二乘回归的预测偏差平方和。所以,在预测精度上,改进的偏最小二乘回归也具有一定的优越性,而且模型更简洁有效。模型中含有对因变量影响最大的自变量,对于实际问题中的预测控制等都是很好的方法。因此从预测角度来说改进偏最小二乘逐步回归方法要优于一般的偏最小二乘回归方法。

§2.6.1结论

改进的偏最小二乘回归思想其实来源于最小二乘线性回归的逐步回归思想。在最小

二乘回归分析中,对于自变量的逐步筛选过程,是在考察自变量对全部因变量的贡献大小,但是如果某一个变量zi只对因变量%影响显著,对其余变量作用不显著时,对Xi作显著性检验,很可能X;不能引入回归方程。在最终得到的回归方程中,有的回归方程可能不是“最优"的,如在可j的回归方程中,重要变量孔就没有被引入。正是基于这种逐步筛选的思想本节引入了改进的偏最小二乘回归方法,在变量筛选过程中既能以因变量和自变量的关系来将因变量进行分组,又能使每个自变量对各组因变量的影响都能反映出来。因此最终得到的回归方程的预测能力和模型拟合能力要优于普通的偏最d、---乘回归方程。

第3章改进的偏最小二乘回归模型与ARMA模型

的结合

§3.2时间序列模型

在经济分析和科学研究中,通常要对某一个或一组变量Yt进行观察及测量,将在一系列时刻t1,t2,…,k得到的离散数字组成的序列Y1,Y2,…,‰称为时间序列,而在一般的情况下,犰是与其前面的观测数据有一定关系的,时间序列分析就是根据得到的时间序列数据,利用曲线拟合和参数估计等方法来建立数学模型的理论和方法。

平稳的时间序列模型可分为三种类型【14】:自回归模型(AR模型)、滑动平均模型(MA模型)和自回归滑动平均模型(ARMA模型)。ARMA模型是平稳时间序列模型的普遍形式。AR和MA模型是它的特殊情况。对于ARMA模型,在进行参数估计之前,需要进行模型的识别。识别模型的基本任务是找出模型的具体特征,最主要的是确定模型的阶,即ARMA0,q)中的P和g,识别的基本方法是利用时间序列样本的自相关函数和偏自相关函数。

对于非平稳的时间序列现,首先需要判断时间序列的特性,如趋势性、突变性及周期性等。若该序列存在某种特性,需要剔除该特性,使非平稳序列平稳化。对经过平稳化处理后得到的新序列可以按照平稳序列的模型进行建模,模型的阶数可以根据AIC准则来确定。

下面介绍一般的时间序列建模方法【14】:

一、对序列的平稳性,正态性及周期性等进行检验;

二、用适当的方法处理原始数据序列(如差分、转换),使数据达到建模的要求;

三、计算数据序列的自相关函数和偏自相关函数,确定模型的阶次;

步骤一通常所用的方法是运用差分方法将时间序列转换成平稳序列;步骤二包括判断最佳模型时所用的尝试方法,此时工作的工作量比较大,一般通过对相关图及偏相关图的分析来确定模型和模型阶数;最后一步相对比较容易,一般采用最小二乘拟合估计或极大似然估计方法。建模过程比较复杂,~定程度上需要猜测和经验,这样才能做出预测性比较好的模型。

本文实例中的序列具有时间趋势项,都有明显上升或下降的趋势。所以对这些序列采取以下步骤【6】:

一、将利用差分法对序列进行平稳化处理,剔除时间趋势项;

二、对提取的残差序列进行分析,建立时间序列模型。这一过程通过分析EhSAS程25

第3章改进的偏最小二乘回归模型-与ARMA模型的结合

序输出的自相关和偏自相关图确定模型及模型阶数;

三、对原序列进行方程检验,形成预测模型并预测;

四、利用改进的偏最小二乘回归建立预测模型。

《1)A咒(P)模型

在时间序列中,描述时间序列yt自身某一时刻和前P个时刻之间相互关系的模型是自回归模型,其形式为:

玑=≯lYt一1+≯2Yt一2+…+如纨一p+岛

式中≯-,西2,…,妒p是模型的参数,gt是白噪声序列,它反映了其他随机因素的干扰。该模型表明,当前值Yt是其自身过去观测值Yt一1,Yt一2,…,Yt—p的线性组合,通常称为自回归模型,简称A冗模型。缩写AR(p)表示p阶自回归模型。

(2)MA(q)模型

如果将Yt看成是各期随机干扰即白噪声序列的线性组合,即可建立滑动平均模型,

其一般形式为:

Yt=艮+pl岛一1+029t一2+…+%£t一口

这个模型表明,每个时间序列都是过去q个周期随机扰动项的加权平均,因而称为移动平均模型,简称MA模型。缩写MA(q)表示q阶滑动平均模型。

(3)ARMA(p,q)模型

在进行时间序列分析而组建预测预报模型时,往往希望模型具有更强的代表性,即既包括p阶自回归。又包括q阶滑动平均的混合模型。这样的模型称为自回归一滑动平均模型,缩写为ARMA(p,q),有如下表达式:

矽lyt一1+≯2玑一2+…+≯p轨一p+鼠=氏+pl氏一1+如岛一2+…+%岛一g

上式左边是模型的自回归部分,p为自回归阶次,(咖1,咖2,…,如)称为自回归系数;右边是模型的移动平均部分,q是滑动平均阶次,(gl,92,…,£。)称为滑动平均系数。可以看出,AR(p)模型军i1MA(q)模型只不过是ARMA(p,g)模型分别对应于q=Ot(flp=o的特例。

§3.3建立改进的偏最小二乘回归的时间序列预测模型

1.样本数据的选取

样本数据来自《中国统计年鉴》(1985—2007)23年的数据,从中选取五个变量:因变量Yl为农民家庭平均每人纯收入(元),耽为粮食产量(万吨),Xl农村家庭食品消

浙江大学硕士学位论文27费支出占总支出的比例,z2为乡村人口占总人口的比例,z3为粮食播种面积占总播种面积的比例。

2.多重相关性诊断

利用方差膨胀因子对各自变量进行诊断,检查其间是否存在多重共线性。自变量巧的方差膨胀因子记为VIFj,可以FhSAS中的procreg过程【121]求得各自变量的VIF,所有自变量中最大的y,R通常被用来作为变量多重相关性的指标。如果最大的y,R超过10,表示多重相关性将严重影响最小二乘的估计值,即自变量之间存在高度相关现象,诊断结果为:

y,只=8.59,VIF2=17.42,VI忍=8.36,

故(y,F)n一=17.42>10,因此自变量之间存在多重相关性。

3.建立传统的最小二乘回归模型

利用SAS中的Procreg过程得到最小二乘回归模型:

雪1=9281.68+5118.04Xl一4625.30x2+5882.46x3

雪2=42243+97169Xl一127850x2+53831x3

由上式可以看出,可,(农民家庭平均每人纯收入)与z1(农村家庭食品消费支出占总支出的比例)成正比,而实际情况是,随着经济发展,科技水平进步,农民生活水平提高,农民家庭平均每人纯收入提高,农民用于食品消费的支出所占的比例有所下降,而在其他方面的支出,如教育,娱乐,的支出大大增加。模拟结果显然不符合实际情况,这说明白变量之间存在多重相关性,不能用传统的最&--乘法建立回归模型,否则,会导致自变量对因变量的贡献程度无法解释,与实际情况相违背。

4.建立偏最小二乘回归模型

现将因变量序列玑G=1,…,23)和自变量序列zo(i=1,…,23;j=1,…,4)进行标准化处理,得到自变量和因变量的标准序列昂与岛,采用第一章叙述的一般的偏最小二乘回归步骤,并利用交叉有效性原则,通过提取两个成分t1,t2,得到标准化偏最小二乘回归预测模型:

Fo=0.398Eol一0.338E02—0.408Eoa.

将数据还原,最后得到原变量的偏最小二乘回归方程:

雪l=9281.68+5118.04Xl一22218.09x2+6724.50xa仍=42243.35+97168.69xl一127894.59X2+53831.36x3

第3章改进的偏最小二乘回归模型-9ARMA模型的结合

从上式可以看出,并对比对最d'--乘回归建立模型的分析可知,由一般的偏最小二乘回归建立的模型与实际情况不完全相符。

5.建立改进的偏最小二乘回归的预测模型

根据第二章提出的改进的偏最小二乘回归分析,对该实例建立改进的偏最d、--"乘回

归预测模型。首先进行变量筛选,筛选的结果是因变量只有一组,进入模型的自变量是z2,z3,分别建5:/:y1,Y2关于z2,z3的偏最小二乘回归模型。结果如下:

雪1=9760.06—18214.7722+6020.76xz

172=-0.91x2+0.39x3

利用改进的偏最小二乘回归分析首先对变量进行筛选,剔除了对因变量“贡献”小

的自变量z1,再对剩余变量建立合理的偏最小二乘回归模型。从结果可以看出,随着经济发展,社会进步,农民生活水平的提高,人均收入逐年增加,城市化进程的加速,乡村人口所占的比例也越来越小。随着科技的进步,虽然粮食播种面积占总播种面积的比例有所下降,但是粮食产量反而增加,进一步验证了农业科技的巨大贡献。而且,改进的偏最小二乘回归建立的模型更简洁。

§3.4ARMA模型预测各时间序列因子

对3.3节建立的改进偏最小二乘回归方程组里的各自变量因子进行时间序列分析。从

原始数据可以看出,本例的因子含有趋势项,有逐年增加或减小的趋势,应该先剔除趋势项,进行平稳化后再进行时间序列分析,进行ARMA模型预测,阶数由AIC准则确定,最后将预测的平稳序列再加上趋势项得到各因子未来年份的预测值。由SAS输出结果分析可知,zl是ARMA(2,1,o)模型,预测模型如下:

Xt=-0.0614+0.298xt一3一O.495xt一4+et

X2是ARMA(1,1,1)模型,预测模型如下:

觑=0.358+0.752xt—l十et+2.160et一1

X3的残差是ARMA(1,1,2)模型,预测模型如下:

Xt=0.120—0.551x£一1+0.463et—l+3.179et一2

根据各自变量的预测模型,计算出各自变量未来年份的预测值,并将计算结果代入3.3节中改进的偏最小二乘回归方程组,即得到未来工业总产值的预测值:

浙江大学硕士学位论文

2008

4325.15

427.7520094859.21641.5220104422.4163781.2220115304.2091822.3120125090.3377931.29yyl软

从预测结果看出,农民家庭平均每人纯收入与粮食产量都有明显的逐年增大趋势。

§3.5结果分析

有以上各步的计算结果可知:随着经济的发展,农民生活水平的提高,食品消费占

总消费支出的比重越来越低。随着城市化进程的加剧,乡村人口占总人口的比例有所下降,从事第一产业的人员减少。但是,在农业科技的推动,粮食产量却大幅增加,农民平均每人每年的纯收入逐年增加。这说明,随着社会的发展,城市扩张,城市人口不断地增加,人民的生活水平也相应地提高了。

参考文献

【1】Jean-PierreGauchi,PierreChagnon.Cmoparisonofselectionmethodsofexplana・

toryvariablesinplsregressionwithapplicationtomanufacturiongprocessdata.///,chemometricsandintelligentlaboratorysystems58(2001),171—193.

【2】2MagneAldrin.Lengthmodifiedredgeregression,[J],ComputionalStatisticsData

Analysis25(1997),377—398.

【3】BailingLiJulian

【4】4Morris,ElaineB.Martin.Modelselectionforpar玉-ialleastsquares.肌@绷。m咖勰口玎d触dz堙.肌砌的m幻叫垆纪优昭,垂鸯蕊i)霹§静AgnarHoskuldsson.VariableandsubsetselectioninPLSregres-

sio础11,Chemometricsandintelligentlaboratorysystems,55(2001),23—38.

factorforpartialleast【5】NickeyJ.Messick,JohnH.Kalivas,PatrickM.Lang.Selection

squares,1]lMicrochemical.Journal,55(1997)f200-207.

【6】何书元.应用时间序列分析fMJ,北京,北京大学出版社(2003).

【7】王惠文.偏最小二乘回归方法及其应.fMJ,北京,国防工业出版社,(1999).

【8】高惠璇,应用多元统计分析.f|M_7,北京,北京大学出版社,(2005),130—171.

【9】9李天生等,用双重筛选逐步回归法对广西钦州县松毛虫发生进行分析与预测,f玎.林业

科学,3(1985),247-251.

10】方开泰,实用多元统计分析,IMI上海,华东师范大学出版社(1989).

121】高慧璇,SAS系统一SAS/STAT软件使用手册,[M1北京,中国统计出版社(1997).12】冯力天,中国人口生活质量再研究,册高等教育出版社,(1996).

13】张恒喜,郭基联,朱家元,虞健飞小样本多元数据分析方法及应用,fMJ西安,西北工业大

学出版社(2002).

14】George

15】WoldE.PBoxandGwilymM.Jenkins,TimeSeriesAnalysis:Forecastingandcon-trol,f『J中国统计出版社,(1997).S,RuheA,WoldH,DunnWJ.111ecollinearityprobleminlinearregression,the

Statisticspartialleastsquares(PLS)approachtogeneralizedinversesmr】ournalof

Computation,5(1984),735.743.

偏最小二乘回归的研究

作者:

学位授予单位:宋高阳浙江大学理学院

本文读者也读过(3条)

1. 丁磊 偏最小二乘回归算法改进及应用[学位论文]2007

2. 孙彩云 偏最小二乘回归模型的改进研究[学位论文]2009

3. 谢小韦 多元线性模型中偏最小二乘回归的分析研究[学位论文]2008

本文链接:http://d.g.wanfangdata.com.cn/Thesis_Y1639397.aspx

浙江大学理学院

硕士学位论文

偏最小二乘回归的研究

姓名:宋高阳

申请学位级别:硕士

专业:概率论与数理统计

指导教师:苏中根

20090505

偏最小二乘回归分析(Partial要Regression简记为PLs)是一种新型的LeastSquares

多元统计分析方法,最早产生于化学领域。PLS主要用来解决多元回归分析中的自变量存在多重相关性或变量个数多于样本点数等问题,集多元线性回归分析、主成份分析和典型相关分析的基本功能为一体。在一个算法下,同时实现了回归建模、数据结构简化和两组变量间的相关分析,给多元数据分析带来极大的便利。PLS方法已广泛应用于化学计量、工业设计、计量经济学等各个领域。

本文分为三章,结构如下:

第一章介绍了多元回归分析及其最d,--乘估计,在自变量之间存在严重多重相关性时最d,--乘估计完全失效。接着,介绍了多元回归的PLS方法。PLS方法能有效解决多重相关性问题。PLS回归方法在处理样本容量小、自变量多的数据方面具有一定优势。在实际问题中,往往是一部分自变量只对某一部分因变量有显著影响,另一部分自变量只对另一些因变量有显著影响,而PLS回归方法所选择的主成分中仍包含所有的自变量,最终建立的回归模型是包括所有自变量的全模型,因此一般的PLS方法并没有完全解决变量间存在严重多重相关性的问题,特别是在自变量个数多,样本量小的情况下。

针对这种情况,本文第二章提出了对变量进行双重筛选,即改进的PLS方法。思想如下:在建立PLS回归模型之前先对变量进行筛选,在筛选过程中,自变量和因变量的地位是同等的,既对自变量筛选同时又对因变量筛选。设自变量为zl,z2,…,zm,因变量为Y1,Y2,…,蜘,首先引入一个因变量,并对自变量进行筛选,找出对这一因变量影响显著的自变量组{毛。,z诧,…,Xi,)(其中.[勋。,z锄…,z霸)∈.【z1,X2,…,zm));然后考虑因变量的筛选,这相当于把z1,z2,…,X仇和Y1,Y2,…,蜘的地位作一对换,筛选出对前面选出的r个自变量组'[戤。,z锄…,z讳)影响显著的因变量组{协。,%,…,协:)(其中.[协。,%,…,勘】.∈{可1,Y2,…跏));接着再筛选自变量,找到对这z个因变量影响显著的自变量组。重复这一过程,直到某步当自变量筛选后,没有因变量可删除,同时也没有因变量可引入。假定这一过程得到的因变量组为{y1,沈,…,纨}其中k≤P,自变量组为{鼢,,z锄…,z“),其中r≤m,对这两组数据按照偏最d'--乘回归的建模方法建立回归方程组。从因变量Y1,耽,…,蜘中删除Y1,抛,…,Yk后,再按照上述变量选择方法筛选因变量和自变量,得到第二组因变量和对应的自变量,如此往复,直到全部因变量都有了与之相应的自变量组和PLS回归方程组,计算过程结束。在筛选过程中引入或剔除某一变量的依据是判断该变量对模型中变量的“贡献"的大小,即要检验该变量对模型

Ⅱ中文摘要中变量的显著性大小。文章提出的检验统计量服从F分布。本章最后利用改进的PLS方法研究Y1991—2007年间影响我国人们生活质量和经济发展的多种因素,得到了较好的分析结果。

本文第三章将改进的PLS方法与时间序列ARMA模型结合起来形成了PLS时间序列预测模型,解决了PLS方法不能预测的问题,并利用该方法研究了1985-2007年间我国农民家庭收入水平及城市化问题。关键词:偏最小二乘回归、逐步回归、多重共线性、主成分、时间序列

Abstract

PartialLeastSquares

anditisproducedRegression(PLS)isanewmuliplefield.PLSis

arestatisticdataanalyticalmethod,usedtosolvethethatvariables

callfromchemistrymainlymultiplemorere.gressionanalysisthatthevariablesincorrelationorarethanthesamplepoints.TheoutstandingcharacteristicofPLSisthatitmakethemultiple

linearregressionanalysis,theprincipal

tionanalysiscombined.Inthesamecomponentscananalysisandthecanonicalcorrela—arithmetic,itimplementmodeling,predigestthe

atdatastructureandanalyzethecorrelationbetweentwogropesofvariablesthesame

time.Itbringshugeadvantagetothemultiplelinearregressionanalysis.

isdividedintothreechapters,thestructuresasThepaperfollows:

Thefirstchapterisdevotedtothemultipleregressionanalysisandleastsquaresestimation.Whenthereismultiplecorrelationinvariables,theleastsquaresestimation

corre-doesnotwork.Then,thePLSmethodisintroduced.ThePLSmethodiseffectivein

lafionproblem.Butingeneral,thefinalPLSmodelincludeallindependentvariables.In

ahaspracticalproblems,apartoftheindependentvariablesareoften

enceinonlyapartofdependentvariables.Andsignificantinflu-anotherpartoftheindependentvari’ablesimpactotherdependentvariables.ThustheordinaryPLSdoesnotsolvetheprob_lemespeciallyinthe

samplepoints.casethatthenumberofvariablesaremorethanthenumberof

Toaddressthissituation,thepaperputsforwardthefirstchapterof

variablesselection,thatthePLSforis,theimprovedPLSmethod.Andthethinkingisasfollows:In

aretheselectionprocess,theindependentvariablesandthedependentvariablethe

samestatus.Basedargumentfortheindependentvariablesare

dependentvariablesare2;1,x2,…,xm,andthedependentvariableisY1,y2,…,铷.Aftertheintroductionofa

theselectingofindependentvariablestofind

ontheindependentvariableswhichhavethestrongestimpactingthedependentvariables{xil,zt2,…,zo}(which{xilzt2,…,Xi,)∈

thepaperconsiders{z1,;T2,…,zm));Andthen

ables.Thisisequivalentto

thetheselectionofthedependentvari。changethestatusofthexl,X2,…,xmandyl,Y2,…,Yp.Similarly,paperselectsthedependentvariablestepbystep.Seting.[协1,%,・..,%}(which{yJl,%,

ordertoidentifythefrontofthervariables{ztl,Xi2,…,z“)llI…,%l}∈'【可1,Y2,…珈)),in

Ⅳ!n…m-!!!!!!!=!!!!!!!!!!!!!!!!!!!!!!=!!!!!!!!!!!!!!!!!!!!=!!!!!!!!!!!!!詈!!!!!!!!!!!!!!!!!!!!=!!!!!!!!!!!!!!!!!!!!!!英文摘要whichinfluencethedependentvariablegroupstrongly,andthenselectstheindepen-dentvariablesagain.Thisprocessstopswhenthereis

deleted,andatnodependentvariablescancanbethesametimethereisnodependentvariablesbeintroduced.Thisprocesshasbeenassumedthatthedependentvariablesforthedependentvariablesare{yl,沈,…,Yk},whichk≤P,independent

m.y1,沈,…,YkarevariablesareXil,zi2,…Xi,},whichr≤thenrepeatstheabovedeletedfromthedependentvariables,and

steps.Thesecondgroupofdependentvariablesandthe

stepisbackindependentvariablesget.Thisaandforth,untilthatallthedependentvariableshavecorrespondinggroupofindependentvariables.Assumethatafterscreening,theprocesscandivide

oftheirPLSregressionequation

tostudythevariablesinto£groups,andtheestablishmentusesget.Finally,thepapertheimprovedPLS

amethodthequalityoflifeaandre-economicdevelopmentin

sults.varietyoffactorsintheyears1991—2007,havingbetter

Inthelastchapter,thepapercombinestheimproved

CanPLSmethodandtimeseriesmodelsARMA,assolvestheproblemthatPLS

pertakesnotbepredicted.AndthenthePa—Chinaandadvantageofthemethodstudy

1985—2007.householdincomeoffarmersinurbanizationintheyear

KeyWords:partialleastsquaresregressionanalysis,stepwiseregressionanaly-sis,multicollinearity,principalcomponent,timeseries

浙江大学研究生学位论文独创性声明

本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得逝逛太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。

学位论文作者签名:聿l与阳签字日期:沙田年j月达日

学位论文版权使用授权书

浙堑太堂有权保留并向国家有关部门或机

构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝婆太堂本学位论文作者完全了解可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。

(保密的学位论文在解密后适用本授权书)

学位论文作者签名:婿高P日导师签名:

签字日期:诎‘7年y月谚日签字日期:年月日

致谢

本文是在导师苏中根教授的悉心指导下完成的。苏老师严谨的治学态度和一丝不苟的工作作风使我受益匪浅,在苏老师的指导下,不仅在专业知识方面有所进步,而且对自己的各方面的素质,包括学习,生活,品质,都有一定地提高。在此,向张老师表示衷心的感谢!

此外,在两年的求学过程中也得到了林正炎教授,张立新教授,张帼奋副教授,张奕副教授,王秀云副教授,赵敏智老师,张荣茂老师等老师的关心和指导,在此致以诚挚的谢意!同时,对数学系的各位老师和系工作人员的帮助表示感谢!

同时,我要感谢两年来一起学习和生活的同学们,感谢他们在学习和生活上所给予的帮助,让我度过了快乐的研究生生活。最后,祝愿浙江大学,祝愿浙江大学数学系的明天会更加辉煌!

第1章

§1.1引言多元回归分析及其最小二乘估计

回归分析方法是多元统计分析【lOl的各种方法中应用最广泛的一种,它是处理多个变量间相互依赖关系的一种数理统计方法。变量间的相互依赖关系在实际问题中是大量存在的,回归分析是研究这种相互依赖关系的有效数学方法之一。

回归分析方法是在众多相关的变量中,根据实际问题的要求,考查其中一个或几个变量与其余变量的依赖关系。如果只要考查某一个变量(通常称为响应变量、因变量或指标)与其余多个变量(通常称为自变量或因素)的相互依赖关系,称为多元回归问题。如果要同时考查阶因变量与m个自变量的相互依赖关系,称为多因变量的多元回归问题。

在实际问题中,经常要同时考察这种多因变量的多元回归问题,如环境科学研究中,在同一时间地点,抽取了大气样品,测得多种污染气体,如CO,S02等的浓度。大气样品中多种污染气体组成一个多维的随机向量,作为因变量。而大气中各污染气体的含量又与污染源的排放以及气象因子(风向、风速、湿度等)有关,这就是一个多个因变量与多个自变量的回归问题。在实际问题中,这种考察多个因变量与多个自变量的依赖关系的闯题是大量存在的。

以下介绍多元线性回归模型参数的最小二乘估计。

设有m个自变量:x1,z2,…,xm,价因变量:Yl,Y2,…,铷,假设它们之间有线性关系。现有n组自变量与因变量的实测数据(zmz圮,…,z咖;轨1,纨2,…,%)(t=1,2,…,n),数据阵分别用X,y表示:

XllX12Xlm

X2m

.YllY21Yt2ylmX=X21X22Y=沈2耽mZnlXn2XnmYmYn2Ynm

设竹组数据满足如下关系式

%=硒+胁Jztl+…+pmjxtm+g巧

(t=1,2,…,n;j=1,2,…,p).

2第1章引言记

阮1

臼=/311触p12

●硒卢lp答些(风,忍,…,伟),

风1风2

EII£12●

E=£21622●缈功彬劫

●●●笪

6nl£们●洲叩%;‰%;‰

Y=(1扎;x)z+E=C卢+E

其中C为礼×(m+1)矩阵;且假定£(t)=(Eil,gi2,…,£咖)馋=1,2,…,扎)是相互独立的,其均值向量为o,协方差阵相等,均为∑。进一步可假定£(o一姊(0,∑)(i=1,2,…,几).

定义1.1称模型

{■麓篙+㈣E=CZ,+…E㈤,i

乘估计可表示为【8】:相互独立I£(£)一%(o,∑)(=,,…,几)相互独立12(1.1)是多因变量的多元线性回归模型,其中y和E是随机阵,p=(助),∑=(%)是未知参数矩阵,X是己知矩阵,C=(1n;X)J|.rank(C)=m+1。把参数矩阵p分为两块:b(01为1×施阵,B为m×P矩阵。那么参数矩阵p的最小二

声:…邓仞弋,y

由分块求逆公式知(假定_rank(C)=m+1):

∥盯1=陋篓H-1丢二嚣n≥],

其中

Lxx=X7(1n一寺1n1:)x,贾2寺x71n=(圣l,…,牙m)7・

记1

P=砉y71n=(91,…,鲂)7,

Lyy2y7(k-.5nlnl:)y=】厂7(In一寺J)K。~

.nn

Lxy=x7(In一砉J)y=X7Y—nXY7=Lox,

I3

塑垩盔兰塑圭堂位论茎一一

启=一疋t㈡誉’j贾,L叉k戈,nP,一五yL叉kx,y一三叉k2(nF7)+LikX7Y

IP-fiYLxlxLLxlxLxy肼]

Y=1竹由以上求得的∥的最小二乘估计声答(&)(州.。)×p,即得p个因变量的回归方程:巧=砌+伪jzl+…+局巧zm◇=1,2,…,p)X)

扎^6柳斗I.印曼2㈣.B.B2●

=1。p7+(In一{g)xb

实际值l厂与预报值矿之差y—p称为残差。可以用它构造误差向量£(曲的协方差阵∑的估计量。残差

y—p=】,一lnp,一(I珏一±J)X台

=(I作_l孕j)y一(In二丢了)xL矗Lxy之(In一寺J)(y—xL矗Lxy)

y一矿=Y一∞

=(In—c(c7C)-1c7)y

=(In一日)y

令Q=(y~p)7(y—p)为p×施阵,称为残差阵。且Q有以下计算公式:

(y一矿)7(y一夕)

Lyy——LYxLxIxLxy(1.2)

Y7(In—H)Y

4第1章引言

常取∑的估计为宅=南Q.∑=——二—・.

引理1r8,在模型c1.1,下,记届=[翟’]二,L王k=cz巧,,而

/3(1)

雪=(助)m×pd=ef(夙,…,犀)笪

厥。)

设n>m+1,rank(C)=rank(1。!X)=m+1,则

(1)p遵从矩阵正态分布;

(2)Q一%(扎一m一1,E);

(3)p与Q相互独立;

(4)觑£)一%(俄1),PE)(i--1-1,2,…,m)。

§1.2多元回归的偏最小二乘估计

偏最小二乘回归方法最先产生于化学领域。在化学研究中,经常需要利用一些可以控制(或容易测量)的变量(解释变量)去解释、控制或预测另外一些变量(反应变量),常用的统计建模方法是1.1节所叙述的多元线性回归的最小二乘估计。然而,只有当解释变量满足【15]:(1)变量数目较少(2)无多重共线性(3)各解释变量与反应变量之间的关系易于解释时,多元回归的最小二乘估计才具有某些理论特性:比如最佳线性无偏估计(BLUE),才能较好地拟合数据,并能对结果给予比较合理的解释,若数据不能完全满足以上三个条件,则多元线性回归的最小二乘估计就会失效。

为处理违背以上三个条件的数据,统计学家对一般最小二乘估计进行了多种改进。为了克服多重共线性影响,发展了一系列有偏估计方法:岭估计,压缩估计,主成份估计及特征根估计等,或运用逐步回归等方法去掉一部分解释变量。但对于样本数较少,甚至少于解释变量的情况,以上方法均不适用【131,而且这些方法仍然存在着各种各样的问题和不足:要么解释性不够好,要么模型拟合精度不够高,要么预测精度不够理想等等。

对此,早期一些欧洲经济计量学家发展起一种新的统计方法即偏最小二乘(PartialLeastSquares,缩写PLS)回归。偏最小二乘回归方法是一般最小二乘回归的一种拓展,能够克服最小二乘回归分析方法的一些不足,但而当时偏最小二乘回归在统计理论上还有很多的问题没有完全解决,在应用领域也没有取得大的进展。所以没有引起统

浙江大学硕士学位论文5计学界和应用领域研究人员的足够重视。直到上世纪80年代,计量化学研究者将偏最小二乘回归成功地运用到计量化学中,而后工业设计工作者应用该方法同样获得巨大成功,才引起了各方面极大的关注。由此偏最小二乘回归的理论和算法研究取得了极大的发展,而且其应用也迅速扩展到了其他领域,如管理科学,教育评测学,药理学等学科。到上世纪80年代末至90年代初,非线性迭代偏最小二乘(NIPLS)形成多种算法的变种,最早由HemanWold提出的NIPLS算法发展出迭代法,特征根法,奇异值分解法等多种算法,这些算法极大地丰富了偏最小二乘算法。此后随着对偏最小二乘回归理论、算法的进一步深入研究,DeJongZJ:1993年提出了一种与NIPLS完全不同的算法,即简单的偏展小二乘(Sanmple

乘回归的基本步骤和思想。PartialLeastSquaresRegression),同样实现了偏最小二

1996年10月,在法国高等商业教育组织机构HFCCISL托EREsTA的组织和赞助下,关于偏最小二乘回归方法、理论和应用研究的第一次国际学术专题研讨会在巴黎召开,来自世界各地的著名的偏最小二乘专家分析和介绍了他们各自的关于PLS方法的最新进展及研究成果,以及在计量化学、工业设计、和金融分析等领域的应用。这次会议促进了偏最小二乘回归理论和算法的进一步深入发展。

§1.2.1偏最,J、--乘回归的思想和算法

偏最小二乘回归分析是多元线性回归分析、主成分分析和典型相关分析的有机结合,其建模原理也建立在这三种分析方法之上。

在主成分分析中,对于一组自变量的多维数据组z,为了找到能较好地概括原数据信息的综合变量,可在z中提取第一主成分日,使Fl中所包含的原数据变异信息达到最大,即:

Var(日)一?t口ax

在典型相关分析中,为从整体上研究自变量数据组X和因变量数据组y之间的相关关系,分别在X和y中提取典型成分蜀和Gl,在使原变量数据均是标准化的条件下使它们满足

maxr(F1,G1)

s.t.FlR=1

G1G1=1

上式中的参数具体化之后,可通过拉格朗日算法求解。在能够达到相关度最大的综合变量R和G1之间,如果存在明显的相关关系,则认为X和y之间也存在相关关系,即

6第1章引言可采用偏最小二乘回归方法。

下面介绍偏最小二乘回归分析的建模思想。

设有p个因变量.[y1,Y2,…,蜘)和m个自变量{Xl,X2,…,z。)。为了研究因变量与自变量的统计关系,观察了礼个样本点,由此构成了自变量与因变量的数据表X={zl,X2,…,z。)。×。和y=.[yl,Y2,…,跏)n×p。分别在x和y中提取成份tl和Ul(且1]tt是z1,z2,…,z。的线性组合,Ul是Y1,Y2,…,蜘的线性组合),在提取这两个成分时,为了回归分析的需要,有下列两个要求:

・tl和U。尽可能大的携带它们各自数据表中的变异信息;

・t1和U1的相关程度最大。

这两个要求表明:tl和U1尽可能好的代表原始数据X和y,同时自变量的成分£1对因变量的成分让,具有最强的解释能力。

在第一个t1和U1被提取后,偏最d、--"乘回归分别实施X对t1的回归和y对tl的回归。若此时回归方程已经达到满意精度,则算法停止;否则,将利用X被t。解释后的残余信息以及y被t1解释后的残余信息提取第二对成分。如此反复,直到能达到一个较满意的精度为止。若最终对x共提取了z个成分t1,t2,…,tz(1≤m),对因变量Y1,Y2,…,铷中任一变量yk(k=1,2,…,p),偏最小二乘回归将施行Yk对t1,t2,…,tl的回归,而由于t1,t2,…,tl都是zl,z2,…,zm的线性组合,最终可以表示成玑对原始变量X的回归方程。

§1.2.2偏最小二乘回归的建模步骤

为数学推导方便,先将数据做标准化。X经过标准化处理后的数据矩阵记为Eo=(岛1,岛2,…,‰)n×m,y经标准化处理后的数据矩阵记为Fo=(F01,F02,…,嘞)nx即l|u。0=1。记U。为R的第一个成分,u1=FoCl,Cl是R的第一个轴,而且IlcllI=1。p。第一步,记t1为岛的第一个成分,t1=Eoul,u1是Eo的第一个轴,它是单位向量,

如果t1,u,能分别比较好的代表X和y中的变异信息,根据主成分分析原理,则有

Var(t1)_max

Var(u1)一Trtax

另一方面,由于建模的需要,要求t1对U。有最大的解释能力,由典型相关分析可知,tl与U1的相关系数应该达到最大值,即r(h,u1)一max

浙江大学硕士学位论文

因此,综上可知,在偏最小二乘回归分析中,要求t1与itl的协方差达到最大,即7Cov(tl,u1)=弓/—Var(t1)V—ar(u1)r(t1,仳1)一m口z

均“正规数学表述是求解下列优化问题,即2{n‰耻C

s哺

、●.、、●-,1吼柏q司1

因此,将在J1.JiJ12=1和lielIl2=1的约束条件下,求<岛u1,Focl>的最大值。

由拉格朗日法得到第一个轴u。和C1后,即可得到成分

‘t1=岛ul

仳12FoCl

u・是对应于矩阵晶昂昂岛最大特征值的单位特征向量,而cl是对应于矩阵昂岛晶昂最大特征值的单位特征向量。

然后,分别求解晶和晶对t1和仳l的三个回归方程

Eo=t1科+E1

Fo=札1“+目

Fo=tlr;+日

式子中,回归系数向量为

n=

啦=

n=1—21—2塑姊婴娜L一2

而E1,目,只分别为三个回归方程的残差矩阵。

第二步,用残差矩阵E1和日取代岛和晶,求第二个轴u2和c2以及第二个成分t2和u2,则有

t2=Elw2

u22F1c2

u2是对应于矩阵耳日q局最大特征值的单位特征向量,而c2是对应于矩阵耳局耳F1最大特征值的单位特征向量。接着计算回归系数

沈5而

您5商耳t2

8第1章引言所以,得到回归方程

E1=t2鹤+E2

Fl=£2r:+易

如此反复计算下去,如果X的秩是A,则有

Eo=tiP'1+…+tn/A+既

Fo=tlri+…+tAr’A+FA

由于£1,…“均可表示成岛1,…,‰的线性组合。因此,昂还可还原为玩=昂七关于《=%的回归方程,也即

坑=aklX:+…+akpx;+FAk,七=1,2,…,g

n七是残差矩阵f_的第尼列。

又由(1.3)

嫉:—Yk-FE(yk)(七:1,2,…,g)

z净—xi1-E_(xi)(i:1,2,…,p)

(1.4)其E(yk),E(鼢)分别是玑和筑的样本均值;S南和S幺分别是鲰和鼢的样本均方差。回归方程还可写成原始变量的偏最小二乘回归方程:讥=陬纨)一∑P。航簧E(列】+%石Syk山,一r…十∞坳瓦5'yk昂i=1“zt。。l。唧

§1.2.3交叉有效性原则

交叉有效性原则【5】用来确定抽取成分的个数。一般情况下,偏最小二乘回归分析并不需要选取存在的所有m个成分来建立回归方程,而像主成分分析一样,只选用前h个成分,即可得到预测能力较好的回归模型。交叉有效性原则便是其中一种。记玑为原始数据,t1,t2,…,‰是在偏最小二乘回归中提取的成分,觑是利用全部样本点并提取tl,t2,…,th个成分进行回归建模后第i个样本点的拟合值。玩㈠)是在建模时删去第i个样本点,取t1,t2,…,如个成分回归建模之后第i个样本点的拟合值。记

I‰=∑(玑一饥)2

i=ln

.{PRESSh=∑(玑一鲰(∥I

【Q2=1一iPRESSh(1・5)

堑垩盔堂翌主堂堡丝塞二——————,。,,。。。,。,。。,。。。。。———————』

则当QZ≥o.0975聍J,引进新成分t^会对模型预测能力有明显改善作用。这即是交叉有效性原则。

第2章改进的偏最小二乘回归

§2.1有关引理

下面首先不加证明地介绍一些在本章要用到的定理或结论(参见【8】)。

引理2设x(口)一%(o,∑)(Q=1…扎)相互独立,则样本离差阵A服从威沙特分布,即

A=∑(XQ)一.定)(五a)一.髫)7一%(几一1,∑)

威沙特分布是卡方分布的推广。

Hotelling严分布的定义及性质

定义1设x一坼(o,∑),随机阵Ⅳ一%(n,∑)(∑>0,n≥p),Kx与w相互独立,则称统计量严=佗X,Ⅳ_1X为Hotelling严统计量,其分布为服从n个自由度的P分布,记为

T2一T2(p,n)

其中%(n,∑)是威沙特分布。

引理3严与F分布的关系:设铲一铲p,n),则

扎口掣T2。F(p,礼一p-4-1)

A=揣

A—Ap,nl,n2)定义2设x一%(o,∑),则称协方差阵的行列式I∑l为x的广义方差。若五。)(Q=1,…,礼)为p元总体x的随机样本,A为样本离差阵,则称弓AI或Ii与AI为样本广义方差。定义3设A1一%(礼l,∑),A2一%(扎2,∑)(∑>0,nl≥p),且么l和A2独立,则称广义方差阵之比为威尔克斯统计量或A统计量,其分布称为威尔克斯分布,记为

在实际应用中,常把A统计量转化为严统计量,进而转化为F统计量,然后可以利用F统计量来解决统计分析中有关检验的问题。

引理4当礼2=1时,设佗1=礼>P,则

Ap,死,1)雪———■—一.1+————广-=—一1-4-三T2(p,礼)10

浙江大学硕士学位论文

或11

型严=型半兰F∞,n-p+1)np

这就引出了变量选择问题。吼川=礼措.‘_PA§2.2偏最小二乘回归分析的变量选择问题从偏最小二乘回归的计算结果可以看到,最终得到的偏最小二乘回归方程是一个全模型,即最终的回归方程包括了所有的自变量,但是在实际问题中,并不是所有自变量都需要包括在最终的模型中的,人们只想看到对因变量影响最显著的自变量在模型中,

偏最小二乘回归的一个重要方面就是变量的选择问题。通常,变量选择方法【?】包括AIC准则、最终预报误差准则、贝叶斯信息准则、迭代对数准则、多元校正系数准则(R2)、修正的多元校正系数准则(R2)、损失函数的总体F检验以及G准则等。

A鼢惦rHoskuldsson【4】提出分组变量选择方法及正交变量选择方法,并利用具体数据分析说明了这两种选择方法适合于大样本数据且计算更为简单些。

NickeyJ.Messik,JohnH.Kalivas和PatrickM.Langf5】提出了几种不同的变量选择方法:PLS-FORWARE法、PLS-BOOTSTRAP法、8Q法和v】P法等;并利用实验数据说明了PLS-FORWARD法和P峪BOOTSTRAP法从模型拟合的角度来说更好,而BQ法和VIP法更适合于模型预测等情况。

BaibingLi,JulianMorris和ElaineBMartin【3】通过模拟模型对这些不同方法进行了综合比较。得出的结论是:AIC准则更适用于小样本情况,而多元校正系数准则(R2)、修正的多元校正系数准则(冗:)适用于大样本情况。

接着Jean-PierreGauchi和PierreChagnon【1】提出了FMR法、BMR法、SMR法、SR法、WARCI法、VARC2法、BCOR法、CoEF法、RCOEF法、BQ法、SR-BQ法、BSDEP法、JACK法、GA法、SA£A法等将近20种的变量选择方法。得出GA法可以得到较低维的自变量和较高的Q丕。。(交叉有效性)。但是其最大的缺点是:当自变量的维数较高时,计算量要比其他方法大的多,所以此方法只适合于自变量维数低于30的情况。而SMR法则是传统的变量选择方法,但是当自变量存在高度相关时,由于矩阵xTx是奇异的,这种法不再适用。但在所有这些变量的选择方法中,没有一种方法是一致地优于其他方法的。

§2.3改进的偏最小二乘回归分析思想在实际问题中,往往是~部分自变量只对某一部分因变量有显著影响,而另一部分

12第2章改进的偏最小二乘回归自变量只对另一些因变量有显著影响。因此本部分的主要目的是给出一种改进的多元数据分析方法,即改进的偏最tJ、-"乘回归方法。改进的偏最小二乘回归方法既能按自变量对因变量的关系对因变量分组,又能使每个自变量对各组因变量的作用反映出来,因此改进的多因变量偏最小二乘回归方法能很好地处理这类实际问题,并得到合理的结果。

改进的偏最小二乘回归思想如下:第一步,设自变量为X,,X2,…,X仇,因变量是Y1,Y2,…,蜘,首先引入一个因变量,并对自变量进行筛选,找出对这一因变量影响显著的自变量组{以。,Xi。,…,Xi,)(其中{戤。,觑。,…,z“]-冬{Xl,X2,…,%));然后考虑因变量的筛选,这相当于把zl,X2,…,X仇和Y1,Y2,…,蜘的地位作一对换。找出对前面选出的r个自变量组.[鼢。,z锄…,Xi,)影响显著的因变量组{协。,Yj。,…,协。)(其中.[协。,%,…,勘)∈{可1,y2,…蜘));接着再筛选自变量,找出对这z个因变量影响显著的自变量组。重复这一过程,直到某步当自变量筛选后,没有因变量可删除,同时也没有因变量可引入。假定这一过程得到的因变量组为{可l,耽,…,纨)其中七≤P,自变量组为{如,,X锄…,z“】-,其中r≤m,对这两组数据按照偏最小二乘回归的建模方法建立回归方程组。从因变量Yl,Y2,…,孙中删除Y1,Y2,…,Yk后,再按照上述变量选择方法筛选因变量和自变量,得到第二组因变量和对应的自变量,如此往复,直到全部因变量都有了与之相应的自变量组,计算过程结束。假设经过变量筛选后,可将因变量分成t组。

不妨设第一组因变量集合为Y1,Y2,…,纨,自变量集合为z1,X2,…,X,。按照偏最小二乘回归的步骤建立秒l,抛,…,躲关于Xl,X2,…,X,的偏最小二乘回归方程:

Yl=文,0+文.

Y2=庞。0+侥.+++侥.,.Xr+仍.rXr

Yk=|3k,0+{13k.++伉.,Xr

接着再建立余下的t一1组偏最小二乘回归方组,最终将得Nt组不同的偏最d、---乘回归方程组。

自变量被选入或剔除模型的依据是该自变量对模型中的因变量的影响程度的大,hap“贡献"大小。因此,变量选择的第一步是计算自变量对因变量“贡献’’。

§2.4筛选过程所需统计量的计算

§2.4.1自变量筛选所需统计量的计算

考查某个自变量觋晰因变量的“贡献”是否够大,即检验兢对P个因变量的影响是否显著,因此计算“贡献"的问题即归结到参数显著性检验的I;-J题了。若以对p个因

浙江大学硕士学位论文13变量的影响不显著,那么在模型(1.1)中鼢的回归系数p({)=Ov,此问题即要检验假设硪‘’:厥{)=G(i=1,2,…,m)。

首先讨论某个自变量‰对可1’...,Yp“贡献’’的如何表达。根据引11里1Rp可得检验-/0i)的统计量。由引理1知

fl(i)=%一%(ko,产∑),

记局=而1厶,则在卯下

忍%一%(o,∑).

由引理1及残差阵Q的计算公式(1.2)知

Q=Lyy—Lyx二矗Lxy一%∞一m一1,∑)

且Q与反i)相互独立。由定义1知,统计量

铲=(n—m一1)(局反t))7Q一1(E届(;))

=(n—m一1)厉:。)Q一1反t)/∥

根据引理3可得统计量F:一≮Tt掣r2

【一m一1)p一严0,n—m一1)(在硝’成立时)

一亿一m—p徘)Q-1反i)

P(2.1)∥

所以有如下定义:K为‰对p个因变量可l,…,%的“贡献"。由上式可以看出,若前’成立时,则声(i)≈0p。于是表达式Ⅵ:挚应较小,。一F∞,佗一m—P)(在硪2)成立时)

定义4在模型(1.1)中,自变量妃耕因变量的“贡献”K定义为:

配:亟旦二塑Z∞

其中反t)是俄t)的最小二乘估计,Q是残差阵,∥是矩阵己矗的元素,Lxx:X,(1n一磊11。1:)x。给定显著性水平Q,由样本观测值计算K及五=竺掣K。由式子(2.1)知五。F0,礼一m—p)。计算显著性概率值(碓)=P(F≥五)。若p≤Q,则否定穰曲,表

14第2章改进的偏最小二乘回归

善y=cln;x,,[翟]+咒岛+E

且m1+m2亏m。,。2.2,I£({)~%(o,∑)(i=1,2,…,钆)相互独立令C=(1n;X)=(1几;墨;恐),xl为死×仇1给定矩阵,咒为礼×ml给定矩阵,

记B=[三],其中Bt为mt×p参数矩阵,岛为m2×p参数矩阵cm・+m2=m,,且rank(C)=rank(1n!Xl;拖)=仇+1,检验假设Ho:B2=0。即要检验一部分自变量Xrnl+1,…,z。是否耕因变量有显著性影响。假设m2=1即恐=z。是n维向量

(钆1,让2,…,‰)型乱且z。相应的佗次观测值为

这时m+1个自变量与阶因变量的扎次观测值满足下列模型:

6(o)

Y=(C!牡)Bl

6(t‘)+E些G∥(仳)+E,r口n忍(瓯)=m+2,(2.3)

I£({)一Ⅳp(o,∑)(i=1,2,…,佗)相互独立

用6(o),雪1,Q表示在模型(2.2)下参数∥的最小二乘估计及残差矩阵,用6(o)(让),台l@),6(u)及Q(u)表示在模型(2.3)下参数p(u)的最d,---乘估计及残差矩阵。

在模型(2.2)下,记

01=(1n;X1),C=(1。;墨;恐)=(C1;恐),

由式子(1.2)知残差阵

fy=c1.i

I£({)一NAo,∑)(i=1,2,…,礼)相互独立X1)[翟]+E,。2.4,

浙江大学硕士学位论文

其相应的残差阵为

Qt=Y,(In—G(qcl)一1q)y=Y,(In一所)×

其中凰=Cl(CiCl)-1q)。

首先计算Q1~Q的表达式,因为C=(a;.磁),记

D=墨(In—H1).磁,

故有【8】

(c7C)-1

‘qc一,)k-'cI恐I。_1(弼a(qG)--一Im2).曩甜=愕0~。0]

因此

Q=y7卜一cG;恐,c∥c,‘1[乏]]y

=Y”n—o(qG)-1q)y—Y,(In—G(a,G)一1q)X2D一1X;(I。

一a(qG)。q)K

即得

Ql—Q=y7(k—H1)X2D-1嚣1(I。一a(qa)一1q)y

另一方面

p=(C7C)_1C7Y

ml+1

l(qG)-1q)y一(qa)-1q)X2D-1弼(In—H1)Y

lD.1弼(I礼一H1)ym2于是岛=D一1巡(I"一a(qa)一'coY。

所以

Q1一Q=Y’(In—H1)X2D_1嚣1(L—c,(cfcl)一1q)】厂

=岛D岛=岛墨(In一日1)恐龟

引理5【8】在模型1.1下,有

(1)Q一%(n—m一1,∑);15(2.5)

16第2章改进的偏最小二乘回归

(2)在模型2.4下(即凰成立时),QI—Q一%(概,∑);

(3)Q与Q1一Q相互独立。

检验凰的似然比统计量【8】为

“入:—maxL(/—7(1),E):—IQlln—l-"i2:鲤:f型:)hi2

等价与^==一:=:~=——————————●一=l一u=而‰=雨硒IQIma<xL(n,∑)lQ/,2I—n/2lQI—n/2、IQ-I-(Ql—Q)I’

在凰成立时,Q1一Q=岛D岛一%(m2,∑),3Lt天tQ一%(佗一m一1,∑),且Q与Q1一Q相互独立,由定义3知

U—A∞,几一m一1,m2).

可以看出,当日0成立时,则U值应近似等于1;若U值太小,则可否定假设凰。对于给定的显著性水平a,由样本数据计算U值为U,利用检验统计量U的分布,计算显著性概率值(雄)=P(U≤让)。当P<oz时,否定凰,即认为m2个自变量Xml+1,…,z。耕因变量的作用显著;当P≥Ol时,凰成立,即可认为m2个自变量zm,+l,…,zm渤个因变量的作用不显著。

特别地,当m2=1时,恐=Xu是几维向量,D=z:‘(I。一皿xu是数值,记为d,而岛=占{。1为1×旆阵,所以

u:旦!:

IQ+6(。)d6,u)|

由分块求行列式的公式可得:

I£1一磐}:阱喀‰II‰Q

因此P“…。=IQlll+d6,乱)Q_16(u)I,

1+幽:Ⅱ)Q一1‰u:———。二一

另一方面,当m2=1时,由引理4知:r2.6)、’当日。成立时,则c厂值近似等于1,Ku)=d研u)Q一1占(Ⅱ)定义为变量z缸对p个因变量的作用。

A(p,/'t—m一1,1)=———1——二———~1+=—jT2(p,n—m一1)佗一m—l(2.7)

浙江大学硕士学位论文

比较(2.6)(2.7)式得17

严p,仡一m一1)=(几~m一1)d《。)Q。6(让)=(n—m一1).L笋

epu统计量可转化为严统计量,再由引理3知(2.8)

F=≮篙等≯严咖一m-1)一盹n—m刊,

Fl=F=

所以统计量局即是检验自变量zu能否引入模型的统计量。一一:=一一,v,’l。,).7I一,,^一TJl.型P型型U=坚P型盏一砘n—m刊.1一K‘州一“纠

下面的引理来自文献【9】,是证明下面的定理1所需要的。

引理6【8】在模型(2.2)和(2.3)下参数阵的最小二乘估计及残差阵之间有如下关系:

f6(仳)=d-1(LⅡy—L。xLxlxLxy),

(2.9){掣2笔Lx—lxL.x,*b(曲,.lb(0)(u)=】,7一X7B(u)一fib(u),

【Q(u)=Q一曲(让)’6(姐),

其中

111

P=三】,71n,贾=三X71n,面=三乱71。

L。u=扎7(I。一丢J)仳,Lux=u'(In一三J)X=L'x札

L∥2∥(In一寺J)y=西u,d=Luu—L,,xLIxxLxⅡ・

定理1在模型(2.3)T自变量z。对!,l,…,跏的“贡献’’K可以改写成:

K:型l(r)二or(翁r)、』-l/坠(r)!(u:l,2,…,m)

其中

叱=z:‘[厶一c(∥c)-1C7】zⅡ=b—I。,xL矗Ixu=f黝,

证明:由引理6可知6(u)=d一1(Luy—LuxL矗己xy),带入定义4中K的公式即可得学c札……川也靠1(zuy一1.xLxlxLxy)Q一1(zy。一IxuL矗Lxy)既1

18第2章改进的偏最小二乘回归

假设z。是已选入的变量,由消去变换的性质知

I(0一,=一2诧

因此,同理可以推出检验自变量z。能否从模型中剔除的统计量为:

岛=坚芦(一K)

综合以上分析可以得到如下定理2。

定理2自变量筛选过程中,设模型中已引入m-个自变量,p1个因变量。判断能否引入自变量z。的统计量为日=半盏一弛n—m_p)p1l一‰

判断是否剔除模型中自变量z。的统计量为易:竺塑(一K).Pl

§2.4.2因变量筛选所需统计量计算

考虑因变量筛选时,可把z1,z2,…,zm和可1,Y2,…,蜘的地位交换一下,即把m个变量z1,z2,…,。仇作为m维随机向量,来考察它与可1,Y2,…,珈的之间的依赖关系。

假设变量z1,z2,…,‰,与变量y1,Y2,…,洳,的咒次观察数据满足下列模型:

{%×m・=cln;y,【翟J。,+用,×m,+E,I£({)一Ⅳm。(o,∑x)

yH

Y21y12Y22。2.1。,(i=1,2,…,礼)相互独立记YlplY2pl萝lJy=%,协。:

●0=Pl+1,…,p).

∥hl!,h2‰l%

{EX∽nx。,nⅣ=k。(。l。n,∑ix,G’:;鬯)2].:i×焉,纂独立(2.11)

塑兰盔学硕士学位论文19其中多(i)为从y中删除第i列数据后的数据阵,虽(z)为从B中删除第i行参数6(1)后的参数矩阵。检验犰能否从方程中剔除即检验硝’:6({)=01×m。。由似然比原理选统计量【8】:其中Q◇1)表示包邰1个因变量时模型(2.10)的残差阵,由式子(2.8)可知u=揣=砭页云_二了厂#宅等宅‰一A(ml,n-pl-1,1),

T2(ml,n—Pl一1)=(n-Pl-1)丁1-U

(n—P,一1)瓯)Q一1∽)%

讹=蕊(i)Q一1∞1)反f),

F=死一ml—Pl。’。’—’。’。—1’—’’—一一=1一U

mlU—’————————・・_扎一仇I—plml-_一

—F(ml,n—ml—P1)

考虑引入变量协U=p1+1,…,p)后模型(2.9)变为

f%×仇t=q竹;y;珊,[兰L+。,×m。+E,

一=———————:——————————:刍—一=铲dj占{j)Q一1(p1)6{f)————_乱f

1一Pl一21一心60)Q一1p1)60)一1一%’_一

F=(佗一p1~2)一m1+1严

m1.

佗一p1一ml一11一Pl一2

uf

m11~%

F(ml,佗一m1一pl一1)记(2.12)则称“i为变量玑对变量z1,z2,…,Xml的贡献,所以检验统计量利用F统计量可检验假设硝’。(2.13)

20第2章改进的偏最小二乘回归利用F统计量可检验假设日I#’。

因变量的引入与剔除步骤与自变量的引入与剔除步骤完全相同。由以上分析得到如下定理3。

定理3因变量筛选过程中,设模型中已引入m1个自变量p1个因变量,判断是否引入因变量的统计量为

R:竺竺L旦地ml

—F(ml,礼一?721一P1)

判断是否剔除模型中因变量的统计量为忍=坚掣盏m1

Xlm

Z2myllY21l一乱i—F(ml,n—ml~p1—1)其中呦是因变量协对模型中自变量的“贡献’’,计算公式为(2.12)。§2.5改进的偏最,J、--乘回归分析步骤设有价因变量与m个自变量,观测数据阵为XllX21X12X22Y12Y22●●●p●●●

X=.Y=蛳脚

;p

XnlXn2XnmYnl鼽2●●●%

§2.5.1准备工作

考虑是否需要对原始数据进行标准化。由于变量毛(i=1,2,…m)和yj(j=1,2,…p)所取单位不同及取值范围不同,为减少量纲的影响及减少计算误差,可对数据进行标准化。此处采用标准差标准化,即令

舡莆(渊,2'…,m;t-=Ⅵ,…,咄

其中毛=寺∑Xti,8i(z)=死u。令

蝣2错(歹=1'2,…,p归1,2,…,n)

浙江大学硕士学位论文21其中易=丢喜…∽=

(2)计算m+P阶矩阵L,假设中心化后的数据阵为贾和矿,记L=L(o),则

俨)=[雾嚣]却∽纠∞=[凌L(O)J二

为(m+P)×(m+p)矩阵。若数据已做标准化变换,则矩阵L(o)就是m+价变量的相关矩阵。

假设筛选自变量时引入和剔除变量的显著性水平分别记为ax们Otx州,筛选因变量时引入和剔除变量的显著性水平分别记为ay阳口y砌。

§2.5.2变量筛选过程

第一步:取Yl作为协。,矩阵L(o)为当前矩阵。转入第k+1步的(3),考虑引入自变量。若没有任何白变量可引入,说明可l与所有的自变量无关。

假设已计算-fk步,入选的自变量有m1个(不妨设为z1,z2,…,z。,),因变量郁1个(不妨设为Y1,Y2,…,Yp,),当前矩阵为L(…・),每引入(或剔除)一个因变量轳允,即对当前矩阵相应块作高斯消去变换,结果矩阵作为新的当前矩阵为三(m-+1)。

第k+1步:筛选自变量

(1)计算各个白变量对p1个因变量的“贡献’’

vj=db(j)Q_101)6,力(J=1,…,m).

(2)考虑能否剔除自变量。对已入选的自变量zi,选出对Y1,Y2,…,蜘,贡献最小的变量,记为z硒,并计算Xio的F统计量踟值。都≥ax口u。,则剔除变量z如,并对当前矩阵L(m1)作高斯消去变换得矩阵L(m-+1)=%陋(7)】,且以L(m-+1)作为当前矩阵,转向第k+1步,继续考虑自变量的筛选;否则,不能剔除该变量,转入第七+1步的(3)考虑能否引入新的因变量。

(3)考虑能否引入新的自变量。对于未入选的自变量,选出相应的“贡献”最大的变量,记:为Xjo,并计算xj。的F统计量励值。都≤Dx舻则引入变量X如,并对当前矩阵L(m-)作高斯消去变换得矩阵三(m1-I-1)=瓦陋(r)],且以L(ml+1)作为当前矩阵,并继续考虑自变量的筛选。否则,该变量不能被引入,自变量的筛选过程结束。第k+2步:筛选因变量。

第2章改进的偏最小二乘回归

(1)计算各个因变量对m1个自变量的“贡献”

吻=蕊(f)Q.1(m1)昧)

(2)考虑能否剔除因变量。对已经入选的因变量协,选出对z1,z2,…,‰。贡献最小的变量,记为Yi。。计算Yi。的F统计量及施。若p≤OlYout,不能剔除变量,转入k+2步的(3)考虑可否引入新因变量。否则,剔除变量‰,并对当前矩阵作高斯消去变换得矩阵L(”t+1)=五。陋《r)】,且以£(m・+1)作为当前矩阵,然后重复k+2步,继续考虑因变量的筛选。

当P1=1时,考虑能否剔除的步骤跳过,直接考虑能否引入新因变量。

(3)考虑能否引入新因变量。对未入选的变量,选出对zl,z2,…,z仇,贡献最大的变量,记为‰。计算耽。的F统计量及难。若p≥Of.y卵‰不能被引入,因变量的筛选过程结束;接着重复第k+1步,考虑自变量的筛选。如果自变量既没有可剔除的,又没有可引入的,则筛选过程结束,转入计算本组回归模型的结果。否则,若因变量Yio可以被引入,则对当前矩阵L(m,)的相应块作消去变换,并作为当前矩阵。然后重复k+2步,继续考虑对的自变量筛选。

可以看出,在以上给出的逐步筛选过程中,自变量和因变量的地位时同等的,每当在引入一个因变量后,对自变量进行筛选,找出对这一因变量影响显著的自变量组鼢。,zi。,…,轨,;之后考虑因变量的筛选,这相当于把zl,z2,…,‰和Y1,Y2,…,鳓的地位作一交换。类似地,用逐步筛选的方法筛选因变量,设珊,,%,…,%为对r个自变量忍,,z幻…,z“影响显著的变量组,接着再筛选自变量,找出对Z个因变量影响显著的自变量组,这一过程直至某步当自变量筛选后,既没有因变量可剔除,也没有因变量可引入,则逐步筛选过程结束。

§2.5.3计算该组偏最'b-乘回归方程

假设最终入选的因变量为可1,Y2,…,珈,,自变量为z1,X2,…,zm,。按照偏最小二乘回归的步骤计算该组回归方程。原始观测数据阵已标准化处理,故要还原到原变量的回归方程组。

§2.5.4计算下一组偏最小二乘回归方程

从原始数据阵中删去已入选的因变量的数据,重复以上2.5.2和2.5.3两小节中的步骤,考虑P—P1个因变量与仇个自变量的筛选与计算,即可求得第二组,第三

浙江大学硕士学位论文

组,…第t组的偏最d、--"乘回归方程组。到此p个因变量和矾个自变量的改进的偏最小二乘回归过程全部结束。

§2.6实例分析

本实例研究了影响人民生活质量和经济发展的因素【12】。样本数据取自《中国统计年鉴》(1991-2007),共15个变量,分别为:X1原煤产量(亿吨),z2石油产量(万吨),X3纱产量(万吨),z4机械纸及纸板产量(万吨),X5汽油产量(万吨),z6农用氮磷钾化肥产量(万吨),X7水泥产量(万吨),X8城市居民家庭人均可支配收入(元),X9粮食播种面积占总播种面积的比重,X10乡村人口占总人1:3的比重,可1粮食产量(万吨),Y2居民消费水平(元),y3T业生产总值(亿元),y4发电量(亿千瓦小时),//5全社会固定资产投资(亿元)。

按照改进的偏最小二乘回归的步骤,利用matlab编程计算,可将自变量和因变量结果分成三组:

第一组:建2f_y1和z9的偏最小二乘回归方程:

雪1=31697.189—21300.18xo

第二组:分别建立沈和弱关于X3,z4,X8的偏最小二乘回归方程:

蟊=227.16—0.20x3—0.15X4+0.62x8

93=-9030.42+7.73x3+0.42X4+6.88x8

第三组:分别建立纨和骗关于X3,X4,X5,X7,X10的偏最小二乘回归方程:

94=1152.24+1.89x3+0.52x40.39x5+0.16x7—21.46xlo

彘=一116594.69+12.34x3+2.64x4—1.20x7+1.05x7+1153.73Xlo

由计算结果看出,可。粮食产量与z9粮食播种面积占总播种面积的比重成反比,如果再考虑到农业科技的推动,这个表达式是合理的。说明随着农业科技的进步,虽然粮食播种面积的比重降低了,但是粮食总产量却逐年增加。耽居民消费水平与y3I业生产总值的主要影响因素是z3纱产量、X4机械纸及纸板产量和踟城市居民家庭人均可支配收入;Y4发电量与蜘全社会固定资产投资的主要影响因素是z3纱产量、z4机械纸及纸板产量、X5汽油产量、X7水泥产量和zlo乡村人口占总人口的比重。为了对比,根据偏最小二乘回归分析的建模步骤,建立y(yl,…,驺)关于X@1,…,

24第2章改进的偏最小二乘回归zlo)的全模型偏最小二乘回归方程,结果如下:

雪1=-115608~581.9503xl4-3.7565x24-0.4340xs4-1.2234xa4-0.5087x5

4-0.8646x6—0.6978x74-1.0218x8+52140x94-969.7743Xto

扔=-4987.4758—26.0869xl4-0.7481x2—0.5667x3—0.3246x4—0.9655x5

—0.2901x60.0159x74-0.1108x84-2279.4141x9+1.9519Xlo

眈=-551734-184.7674xl一0.7409x24-O.0525xa一0.7518x4—0.4385x5

—0.7909x6+0.3569x7+5.7020x84-203189x9—1365.4189XLO

94=18600+161.9808xl一1.0513x24-0.0351xs一0.3477x44-0.2855x5

+0.1609X64-O.7123x74-0.2175x84-54748x9—579.5049xlo

如=422984-1153.2621xl一12.8673x24-4.7461xs一2.7887x4+2.3689x5

4-2.6636x64-0.5744x74-8.7739x8+457043x9—3432.3402xlo

由以上计算结果可以看出,由改进的偏最小回归计算的结果更简明,各组模型中只

含有跟自身变化关系最密切的自变量。同时可以Ehmatlab计算知各因变量的偏最小二乘回归的预测偏差平方和总是大于改进的偏最小二乘回归的预测偏差平方和。所以,在预测精度上,改进的偏最小二乘回归也具有一定的优越性,而且模型更简洁有效。模型中含有对因变量影响最大的自变量,对于实际问题中的预测控制等都是很好的方法。因此从预测角度来说改进偏最小二乘逐步回归方法要优于一般的偏最小二乘回归方法。

§2.6.1结论

改进的偏最小二乘回归思想其实来源于最小二乘线性回归的逐步回归思想。在最小

二乘回归分析中,对于自变量的逐步筛选过程,是在考察自变量对全部因变量的贡献大小,但是如果某一个变量zi只对因变量%影响显著,对其余变量作用不显著时,对Xi作显著性检验,很可能X;不能引入回归方程。在最终得到的回归方程中,有的回归方程可能不是“最优"的,如在可j的回归方程中,重要变量孔就没有被引入。正是基于这种逐步筛选的思想本节引入了改进的偏最小二乘回归方法,在变量筛选过程中既能以因变量和自变量的关系来将因变量进行分组,又能使每个自变量对各组因变量的影响都能反映出来。因此最终得到的回归方程的预测能力和模型拟合能力要优于普通的偏最d、---乘回归方程。

第3章改进的偏最小二乘回归模型与ARMA模型

的结合

§3.2时间序列模型

在经济分析和科学研究中,通常要对某一个或一组变量Yt进行观察及测量,将在一系列时刻t1,t2,…,k得到的离散数字组成的序列Y1,Y2,…,‰称为时间序列,而在一般的情况下,犰是与其前面的观测数据有一定关系的,时间序列分析就是根据得到的时间序列数据,利用曲线拟合和参数估计等方法来建立数学模型的理论和方法。

平稳的时间序列模型可分为三种类型【14】:自回归模型(AR模型)、滑动平均模型(MA模型)和自回归滑动平均模型(ARMA模型)。ARMA模型是平稳时间序列模型的普遍形式。AR和MA模型是它的特殊情况。对于ARMA模型,在进行参数估计之前,需要进行模型的识别。识别模型的基本任务是找出模型的具体特征,最主要的是确定模型的阶,即ARMA0,q)中的P和g,识别的基本方法是利用时间序列样本的自相关函数和偏自相关函数。

对于非平稳的时间序列现,首先需要判断时间序列的特性,如趋势性、突变性及周期性等。若该序列存在某种特性,需要剔除该特性,使非平稳序列平稳化。对经过平稳化处理后得到的新序列可以按照平稳序列的模型进行建模,模型的阶数可以根据AIC准则来确定。

下面介绍一般的时间序列建模方法【14】:

一、对序列的平稳性,正态性及周期性等进行检验;

二、用适当的方法处理原始数据序列(如差分、转换),使数据达到建模的要求;

三、计算数据序列的自相关函数和偏自相关函数,确定模型的阶次;

步骤一通常所用的方法是运用差分方法将时间序列转换成平稳序列;步骤二包括判断最佳模型时所用的尝试方法,此时工作的工作量比较大,一般通过对相关图及偏相关图的分析来确定模型和模型阶数;最后一步相对比较容易,一般采用最小二乘拟合估计或极大似然估计方法。建模过程比较复杂,~定程度上需要猜测和经验,这样才能做出预测性比较好的模型。

本文实例中的序列具有时间趋势项,都有明显上升或下降的趋势。所以对这些序列采取以下步骤【6】:

一、将利用差分法对序列进行平稳化处理,剔除时间趋势项;

二、对提取的残差序列进行分析,建立时间序列模型。这一过程通过分析EhSAS程25

第3章改进的偏最小二乘回归模型-与ARMA模型的结合

序输出的自相关和偏自相关图确定模型及模型阶数;

三、对原序列进行方程检验,形成预测模型并预测;

四、利用改进的偏最小二乘回归建立预测模型。

《1)A咒(P)模型

在时间序列中,描述时间序列yt自身某一时刻和前P个时刻之间相互关系的模型是自回归模型,其形式为:

玑=≯lYt一1+≯2Yt一2+…+如纨一p+岛

式中≯-,西2,…,妒p是模型的参数,gt是白噪声序列,它反映了其他随机因素的干扰。该模型表明,当前值Yt是其自身过去观测值Yt一1,Yt一2,…,Yt—p的线性组合,通常称为自回归模型,简称A冗模型。缩写AR(p)表示p阶自回归模型。

(2)MA(q)模型

如果将Yt看成是各期随机干扰即白噪声序列的线性组合,即可建立滑动平均模型,

其一般形式为:

Yt=艮+pl岛一1+029t一2+…+%£t一口

这个模型表明,每个时间序列都是过去q个周期随机扰动项的加权平均,因而称为移动平均模型,简称MA模型。缩写MA(q)表示q阶滑动平均模型。

(3)ARMA(p,q)模型

在进行时间序列分析而组建预测预报模型时,往往希望模型具有更强的代表性,即既包括p阶自回归。又包括q阶滑动平均的混合模型。这样的模型称为自回归一滑动平均模型,缩写为ARMA(p,q),有如下表达式:

矽lyt一1+≯2玑一2+…+≯p轨一p+鼠=氏+pl氏一1+如岛一2+…+%岛一g

上式左边是模型的自回归部分,p为自回归阶次,(咖1,咖2,…,如)称为自回归系数;右边是模型的移动平均部分,q是滑动平均阶次,(gl,92,…,£。)称为滑动平均系数。可以看出,AR(p)模型军i1MA(q)模型只不过是ARMA(p,g)模型分别对应于q=Ot(flp=o的特例。

§3.3建立改进的偏最小二乘回归的时间序列预测模型

1.样本数据的选取

样本数据来自《中国统计年鉴》(1985—2007)23年的数据,从中选取五个变量:因变量Yl为农民家庭平均每人纯收入(元),耽为粮食产量(万吨),Xl农村家庭食品消

浙江大学硕士学位论文27费支出占总支出的比例,z2为乡村人口占总人口的比例,z3为粮食播种面积占总播种面积的比例。

2.多重相关性诊断

利用方差膨胀因子对各自变量进行诊断,检查其间是否存在多重共线性。自变量巧的方差膨胀因子记为VIFj,可以FhSAS中的procreg过程【121]求得各自变量的VIF,所有自变量中最大的y,R通常被用来作为变量多重相关性的指标。如果最大的y,R超过10,表示多重相关性将严重影响最小二乘的估计值,即自变量之间存在高度相关现象,诊断结果为:

y,只=8.59,VIF2=17.42,VI忍=8.36,

故(y,F)n一=17.42>10,因此自变量之间存在多重相关性。

3.建立传统的最小二乘回归模型

利用SAS中的Procreg过程得到最小二乘回归模型:

雪1=9281.68+5118.04Xl一4625.30x2+5882.46x3

雪2=42243+97169Xl一127850x2+53831x3

由上式可以看出,可,(农民家庭平均每人纯收入)与z1(农村家庭食品消费支出占总支出的比例)成正比,而实际情况是,随着经济发展,科技水平进步,农民生活水平提高,农民家庭平均每人纯收入提高,农民用于食品消费的支出所占的比例有所下降,而在其他方面的支出,如教育,娱乐,的支出大大增加。模拟结果显然不符合实际情况,这说明白变量之间存在多重相关性,不能用传统的最&--乘法建立回归模型,否则,会导致自变量对因变量的贡献程度无法解释,与实际情况相违背。

4.建立偏最小二乘回归模型

现将因变量序列玑G=1,…,23)和自变量序列zo(i=1,…,23;j=1,…,4)进行标准化处理,得到自变量和因变量的标准序列昂与岛,采用第一章叙述的一般的偏最小二乘回归步骤,并利用交叉有效性原则,通过提取两个成分t1,t2,得到标准化偏最小二乘回归预测模型:

Fo=0.398Eol一0.338E02—0.408Eoa.

将数据还原,最后得到原变量的偏最小二乘回归方程:

雪l=9281.68+5118.04Xl一22218.09x2+6724.50xa仍=42243.35+97168.69xl一127894.59X2+53831.36x3

第3章改进的偏最小二乘回归模型-9ARMA模型的结合

从上式可以看出,并对比对最d'--乘回归建立模型的分析可知,由一般的偏最小二乘回归建立的模型与实际情况不完全相符。

5.建立改进的偏最小二乘回归的预测模型

根据第二章提出的改进的偏最小二乘回归分析,对该实例建立改进的偏最d、--"乘回

归预测模型。首先进行变量筛选,筛选的结果是因变量只有一组,进入模型的自变量是z2,z3,分别建5:/:y1,Y2关于z2,z3的偏最小二乘回归模型。结果如下:

雪1=9760.06—18214.7722+6020.76xz

172=-0.91x2+0.39x3

利用改进的偏最小二乘回归分析首先对变量进行筛选,剔除了对因变量“贡献”小

的自变量z1,再对剩余变量建立合理的偏最小二乘回归模型。从结果可以看出,随着经济发展,社会进步,农民生活水平的提高,人均收入逐年增加,城市化进程的加速,乡村人口所占的比例也越来越小。随着科技的进步,虽然粮食播种面积占总播种面积的比例有所下降,但是粮食产量反而增加,进一步验证了农业科技的巨大贡献。而且,改进的偏最小二乘回归建立的模型更简洁。

§3.4ARMA模型预测各时间序列因子

对3.3节建立的改进偏最小二乘回归方程组里的各自变量因子进行时间序列分析。从

原始数据可以看出,本例的因子含有趋势项,有逐年增加或减小的趋势,应该先剔除趋势项,进行平稳化后再进行时间序列分析,进行ARMA模型预测,阶数由AIC准则确定,最后将预测的平稳序列再加上趋势项得到各因子未来年份的预测值。由SAS输出结果分析可知,zl是ARMA(2,1,o)模型,预测模型如下:

Xt=-0.0614+0.298xt一3一O.495xt一4+et

X2是ARMA(1,1,1)模型,预测模型如下:

觑=0.358+0.752xt—l十et+2.160et一1

X3的残差是ARMA(1,1,2)模型,预测模型如下:

Xt=0.120—0.551x£一1+0.463et—l+3.179et一2

根据各自变量的预测模型,计算出各自变量未来年份的预测值,并将计算结果代入3.3节中改进的偏最小二乘回归方程组,即得到未来工业总产值的预测值:

浙江大学硕士学位论文

2008

4325.15

427.7520094859.21641.5220104422.4163781.2220115304.2091822.3120125090.3377931.29yyl软

从预测结果看出,农民家庭平均每人纯收入与粮食产量都有明显的逐年增大趋势。

§3.5结果分析

有以上各步的计算结果可知:随着经济的发展,农民生活水平的提高,食品消费占

总消费支出的比重越来越低。随着城市化进程的加剧,乡村人口占总人口的比例有所下降,从事第一产业的人员减少。但是,在农业科技的推动,粮食产量却大幅增加,农民平均每人每年的纯收入逐年增加。这说明,随着社会的发展,城市扩张,城市人口不断地增加,人民的生活水平也相应地提高了。

参考文献

【1】Jean-PierreGauchi,PierreChagnon.Cmoparisonofselectionmethodsofexplana・

toryvariablesinplsregressionwithapplicationtomanufacturiongprocessdata.///,chemometricsandintelligentlaboratorysystems58(2001),171—193.

【2】2MagneAldrin.Lengthmodifiedredgeregression,[J],ComputionalStatisticsData

Analysis25(1997),377—398.

【3】BailingLiJulian

【4】4Morris,ElaineB.Martin.Modelselectionforpar玉-ialleastsquares.肌@绷。m咖勰口玎d触dz堙.肌砌的m幻叫垆纪优昭,垂鸯蕊i)霹§静AgnarHoskuldsson.VariableandsubsetselectioninPLSregres-

sio础11,Chemometricsandintelligentlaboratorysystems,55(2001),23—38.

factorforpartialleast【5】NickeyJ.Messick,JohnH.Kalivas,PatrickM.Lang.Selection

squares,1]lMicrochemical.Journal,55(1997)f200-207.

【6】何书元.应用时间序列分析fMJ,北京,北京大学出版社(2003).

【7】王惠文.偏最小二乘回归方法及其应.fMJ,北京,国防工业出版社,(1999).

【8】高惠璇,应用多元统计分析.f|M_7,北京,北京大学出版社,(2005),130—171.

【9】9李天生等,用双重筛选逐步回归法对广西钦州县松毛虫发生进行分析与预测,f玎.林业

科学,3(1985),247-251.

10】方开泰,实用多元统计分析,IMI上海,华东师范大学出版社(1989).

121】高慧璇,SAS系统一SAS/STAT软件使用手册,[M1北京,中国统计出版社(1997).12】冯力天,中国人口生活质量再研究,册高等教育出版社,(1996).

13】张恒喜,郭基联,朱家元,虞健飞小样本多元数据分析方法及应用,fMJ西安,西北工业大

学出版社(2002).

14】George

15】WoldE.PBoxandGwilymM.Jenkins,TimeSeriesAnalysis:Forecastingandcon-trol,f『J中国统计出版社,(1997).S,RuheA,WoldH,DunnWJ.111ecollinearityprobleminlinearregression,the

Statisticspartialleastsquares(PLS)approachtogeneralizedinversesmr】ournalof

Computation,5(1984),735.743.

偏最小二乘回归的研究

作者:

学位授予单位:宋高阳浙江大学理学院

本文读者也读过(3条)

1. 丁磊 偏最小二乘回归算法改进及应用[学位论文]2007

2. 孙彩云 偏最小二乘回归模型的改进研究[学位论文]2009

3. 谢小韦 多元线性模型中偏最小二乘回归的分析研究[学位论文]2008

本文链接:http://d.g.wanfangdata.com.cn/Thesis_Y1639397.aspx


相关内容

  • 浅谈加权最小二乘法及其残差图
  • 浅谈加权最小二乘法及其残差图 --兼答孙小素副教授 何晓群 刘文卿 ABSTRACT The paper introduces some problems in relation to weighted least square regression ,and answers a question ...

  • 偏最小二乘回归法在房地产销售价格分析中的应用
  • ※※※※※※※※※ ※※2015届学生 ※毕业论文材料※※(四)※※※※※※※※※※ 学生毕业论文 偏最小二乘回归法 课题名称 在房地产销售价格分析中的应用 姓 学 院 专名号系业27数学与计算科学院信息与计算科学指导教师 2015年5月20日 湖南城市学院本科毕业论文诚信声明 本人郑重声明:所呈交 ...

  • 分位数回归的思想与简单应用
  • 第10期 )(总第121期 2009年10月 统计教育Statistical Thinktank No. 10(SeriesNo. 121) Oct 2009 分位数回归的思想与简单应用 苏 瑜 万宇艳 与普通最小二乘法相比,分位数回归能够更充分反映自变量对不同部分因变量的分布产生不同的影响,摘要: ...

  • 计量经济学思考题答案
  • 计量经济学思考题答案 第一章 绪论 1.1怎样理解产生于西方国家的计量经济学能够在中国的经济理论研究和现代化建设中发挥重要作用? 答:计量经济学的产生源于对经济问题的定量研究,这是社会经济发展到一定阶段的客观需要.计量经济学的发展是与现代科学技术成就结合在一起的,它反映了社会化大生产对各种经济因素和 ...

  • 直线回归的应用
  • [摘 要]采用最小二乘法配置回归直线,把非线性拟合参数问题加以线性化,进行参数估算,得到回归直线实际应用的数学模型,进行了误差分析,并给出了应用的实例. [关键词]直线回归:回归方程:方差分析 0.引言 "回归"是个借用已久因而相沿成习的名称.若某一变量Y随另一变量X的变动而变动 ...

  • 最小二乘法在数学模型建立与检验中的运用
  • 最小二乘法在数学模型建立与检验中的应用 信息与计算科学专业2008级 周建勤 摘要:本文主要研究了最小二乘法在建立数学模型中的参数学模型中的参数估计数估计,模型检验中的应用.通过给出最小二乘法在Matlab 中的代码计算模型参数,误差精确度,并给出检验模型是否具有多重共线,异方差性,序列相关性方法. ...

  • 一元线性模型
  • 第二章 一元线性回归模型 基本要求: 1.了解相关与回归的概念 2.理解线性回归模型的假定 3.掌握普通最小二乘法 4.理解最小二乘估计量的性质 5.会进行回归模型的检验 第一节 一元线性回归模型概述 一.相关与回归的基本概念 (一)变量之间的关系 各种经济变量之间的关系,一般可以分成两类,即完全确 ...

  • 第十二章直线相关与回归
  • 第十二章 直线相关与回归 A 型选择题 1.若计算得一相关系数r=0.94,则( ) A .x 与y 之间一定存在因果关系 B .同一资料作回归分析时,求得回归系数一定为正值 C .同一资料作回归分析时,求得回归系数一定为负值 D .求得回归截距a>0 E .求得回归截距a ≠0 2.对样本相 ...

  • 多重共线性的有偏回归方法的实例比较
  • [摘 要]本文阐述了处理多元线性回归模型中多重共线性问题的三种有偏回归方法:主成分回归.岭回归.偏最小二乘回归,简要地介绍了这三种方法的处理思想,并通过两个实例来比较三种方法在模型的预测精度和拟合效果方面的优劣性. [关键词]多重共线性:主成分回归:岭回归:偏最小二乘回归 1 问题提出 在多元线性回 ...