第四章练习题及参考解答
4.1 假设在模型Yi=β1+β2X2i+β3X3i+ui中,X2与X3之间的相关系数为零,于是有人建议你进行如下回归:
Yi=α1+α2X2i+u1iY
i=γ1+γ3X3i+u2i
(1)是否存在αˆ2=βˆ2且γˆ3=βˆ3
?为什么? (2)βˆ1
会等于αˆ1或γˆ1或两者的某个线性组合吗? (3)是否有var(βˆ2)=var(αˆ2)且var(βˆ3)
=var(γˆ3
)?
练习题4.1参考解答:
(1) 存在αˆ2=βˆ2且γˆ3=βˆ3
。 2因为βˆ=
(ix2i
)(3i
i3i
2i
x3i)
2
∑y∑x)-(∑yx)(∑x∑x2∑x2-∑xx2
2i
3i
2i
3i
当X2与X3之间的相关系数为零时,离差形式的
∑x
2i
x3i=0
2有βˆ=
(∑i2i
3i
i
2i
2
yx)(∑x)∑yxx2x22=α
ˆ2 2i
3i
=x
2i
同理有:γˆ3=βˆ3
(2) βˆ1
会等于αˆ1或γˆ1的某个线性组合 因为 βˆ1=-βˆ22-ˆβ3,且3αˆ1=-αˆ22,γˆ1=-γˆ33 由于αˆ2=βˆ2且γˆ3=βˆ3
,则 αˆ1=-αˆ22=-βˆ22βˆ-α
ˆ12= 2
γˆ-γˆ1
1=-γˆ33=-βˆ33
βˆ3
= 3
则 βˆ=-βˆ-βˆ=--αˆ1-γˆ1
122332
-3=αˆ1+γˆ1-2
3
(3) 存在var(βˆ2)=var(αˆ2)且var(βˆ3)
=var(γˆ3
)。
ˆ=因为varβ2
()
x1-r2
2i
223
σ2
ˆ=当r23=0时,varβ2
()
x1-rx
2
2i
223
σ2
=
σ2
22i
ˆ2) =var(α
ˆ=var(γˆ) 同理,有varβ33
4.2在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。在逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的解释变量都放在一个多元回归中,然后逐一地将它们剔除(逐步向后回归)。加进或剔除一个变量,通常是根据F检验看其对ESS的贡献而作出决定的。根据你现在对多重共线性的认识,你赞成任何一种逐步回归的程序吗?为什么?
练习题4.2参考解答:
根据对多重共线性的理解,逐步向前和逐步向后回归的程序都存在不足。逐步向前法不能反映引进新的解释变量后的变化情况,即一旦引入就保留在方程中;逐步向后法则一旦某个解释变量被剔出就再也没有机会重新进入方程。而解释变量之间及其与被解释变量的相关关系与引入的变量个数及同时引入哪些变量而呈现出不同,所以要寻找到“最优”变量子集则采用逐步回归较好,它吸收了逐步向前和逐步向后的优点。
4.3 下表给出了中国商品进口额Y、国内生产总值GDP、居民消费价格指数CPI。
()
资料来源:《中国统计年鉴》,中国统计出版社2000年、2008年。
请考虑下列模型:lnYt=β1+β2lnGDPt+β3lnCPIt+ui 1)利用表中数据估计此模型的参数。 2)你认为数据中有多重共线性吗? 3)进行以下回归:
lnYt=A1+A2lnGDPt+v1ilnYt=B1+B2lnCPIt+v2ilnGDPt=C1+C2lnCPIt+v3i
根据这些回归你能对数据中多重共线性的性质说些什么?
ˆ和βˆ在5%水平上个别地显著,并且总的F检验也是显4)假设数据有多重共线性,但β23
著的。对这样的情形,我们是否应考虑共线性的问题?
练习题4.3参考解答: (1) 参数估计结果如下
ln(进口)=-3.060+1.657ln(GDP)-1.057ln(CPI) (0.337) (0.092) (0.215)R2=0.992 2=0.991 F=1275.093
(括号内为标准误)
(2)居民消费价格指数的回归系数的符号不能进行合理的经济意义解释,且CPI与进口之间的简单相关系数呈现正向变动。可能数据中有多重共线性。 计算相关系数
:
(3)最大的CI=108.812,表明GDP与CPI之间存在较高的线性相关。
(4)分别拟合的回归模型如下:
lnY=-4.0907+1.2186ln(GDP) t= (-10.6458) (34.6222)
R2=0.9828 2=0.9820 F=1198.698
lnY=-5.4424+2.6637ln(CPI) t= (-4.3412) (11.6809)
R2=0.8666 2=0.8603 F=
136.4437
ln(GDP)=-1.4380+2.2460ln(CPI) t=(-1.9582) (16.8140)
R2=0.9309 2=0.9276 F=282.7107
单方程拟合效果都很好,回归系数显著,可决系数较高,GDP和CPI对进口分别有显著的单一影响,在这两个变量同时引入模型时影响方向发生了改变,这只有通过相关系数的分析才能发现。
(5)如果仅仅是作预测,可以不在意这种多重共线性,但如果是进行结构分析,还是应该引起注意。
4.4 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造解释变量数据矩阵X才可能避免多重共线性的出现?
练习题4.4参考解答:
本题很灵活,主要应注意以下问题:
(1)选择变量时要有理论支持,即理论预期或假设;变量的数据要足够长,被解释变量与解释变量之间要有因果关系,并高度相关。
(2)建模时尽量使解释变量之间不高度相关,或解释变量的线性组合不高度相关。
4.5 克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE估计得出了下列回归方程:
ˆ=8.133+1.059X1+0.452X2+0.121X3Y
(8.92) (0.17) (0.66) (1.09) R2=0.95 F=107.37
括号中的数据为相应参数估计量的标准误差。试对上述模型进行评析,指出其中存在的问
题。
练习题4.5参考解答:
从模型拟合结果可知,样本观测个数为27,消费模型的判定系数R=0.95,F统计量为107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F临界值为3.028,计算的F值远大于临界值,表明回归方程是显著的。模型整体拟合程度较高。 依据参数估计量及其标准误,可计算出各回归系数估计量的t统计量值:
2
t0=
8.133
=0.91,8.92
t1=
1.059
=6.10,0.17
t2=
0.452
=0.69,0.66
t3=
0.121
=0.111.09
除t1外,其余的tj值都很小。工资收入X1的系数的t检验值虽然显著,但该系数的估计值过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元,消费支出的增长平均将超过一美元,这与经济理论和常识不符。
另外,理论上非工资—非农业收入与农业收入也是消费行为的重要解释变量,但两者的t检验都没有通过。这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的相互关系,掩盖了各个部分对解释消费行为的单独影响。
4.6 理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y (万吨标准煤)、国民总收入(亿元)X1(代表收入水平)、国内生产总值 (亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发
展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2007年期间的统计数据,具体如表4.2所示。
表4.12 1985~2007年统计数据
资料来源:《中国统计年鉴》,中国统计出版社2000、2008年版。
要求:
1)建立对数多元线性回归模型,分析回归结果。
2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么? 3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。
练习题4.6参考解答:
(1)建立对数线性多元回归模型,引入全部变量建立对数线性多元回归模型如下: 生成: lny=log(y), 同样方法生成: lnx1,lnx2,lnx3,lnx4,lnx5,lnx6,lnx7.
作全部变量对数线性多元回归,结果为:
从修正的可决系数和F统计量可以看出,全部变量对数线性多元回归整体对样本拟合很好,,各变量联合起来对能源消费影响显著。可是其中的lnX3、lnX4、lnX6对lnY影响不显著,而且lnX2、lnX5的参数为负值,在经济意义上不合理。所以这样的回归结果并不理想。
(2) 预料此回归模型会遇到多重共线性问题, 因为国民总收入与GDP本来就是一对关联指标;而工业增加值、建筑业增加值、交通运输邮电业增加值则是GDP的组成部分。这两组指标必定存在高度相关。
解释变量国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等很可能线性相关,计算相关系数如下
:
可以看出lnx1与lnx2、lnx3、lnx4、lnx5、lnx6之间高度相关,许多相关系数高于0.900以上。如果决定用表中全部变量作为解释变量,很可能会出现严重多重共线性问题。 (3)因为存在多重共线性,解决方法如下:
A:修正理论假设,在高度相关的变量中选择相关程度最高的变量进行回归建立模型:而对变量取对数后,能源消费总量的对数与人均生活电力消费的对数相关程度最高,可建立
这两者之间的回归模型。如
lny=9.932+0.421lnx6 (0.116) (0.026)
R2=0.926 2=0.922 F=261.551
B:进行逐步回归,直至模型符合需要研究的问题,具有实际的经济意义和统计意义。采用逐步回归的办法,去检验和解决多重共线性问题。分别作lnY对
lnX1,lnX2,lnX3,lnX4,lnX5,lnX6,lnX7的一元回归,结果如下:
一元回归结果:
其中加入lnX6的方程调整的可决系数最大, 以lnX6为基础, 顺次加入其他变量逐步回归。结果如下表:
经比较,新加入lnX5的方程调整可决系数改进最大, 各参数的t检验也都显著,但是lnX5参数
的符号与经济意义不符合。若再加入其他变量后的逐步回归,若剔除不显著的变量和无经济意义的变量后, 仍为第一步所建只包含lnX6的一元回归模型。
如果需要建立多元线性回归模型,则需寻找新的变量或改变模型形式。 例如, 不取对数作全部变量多元线性回归,结果为:
可以看出还是有严重多重共线性。作逐步回归:
可以发现加入X2、X5、X6后参数的符号不合理,加入X4,X7后并不显著。只有加入X3后修正的可决系数有所提高,而且参数符号的经济意义合理, X3参数估计值的p值为0.0821,在10%的显著性水平下是显著的。
可以发现加入X2、X5、X6后参数的符号不合理,加入X4,X7后并不显著。 这时可以考虑四元的:发现所有的模型均不优良,要么不显著,要不出现符号相反; 这时可以考虑五元的:发现模型均出现了符号与预期的相反的情况; 这时你还可以考虑六元的:发现依旧出现符号与预期的相反,,
其实后面可以不用做了,最终相对较为合理的模型估计结果可以为:
4.7 在本章开始的“引子”提出的“农业的发展反而会减少财政收入吗?”的例子中,如果所采用的数据如下表所示
11
(资料来源:《中国统计年鉴2008》,中国统计出版社2008年版)试分析:为什么会出现本章开始时所得到的异常结果?怎样解决所出现的问题?
12
第四章练习题及参考解答
4.1 假设在模型Yi=β1+β2X2i+β3X3i+ui中,X2与X3之间的相关系数为零,于是有人建议你进行如下回归:
Yi=α1+α2X2i+u1iY
i=γ1+γ3X3i+u2i
(1)是否存在αˆ2=βˆ2且γˆ3=βˆ3
?为什么? (2)βˆ1
会等于αˆ1或γˆ1或两者的某个线性组合吗? (3)是否有var(βˆ2)=var(αˆ2)且var(βˆ3)
=var(γˆ3
)?
练习题4.1参考解答:
(1) 存在αˆ2=βˆ2且γˆ3=βˆ3
。 2因为βˆ=
(ix2i
)(3i
i3i
2i
x3i)
2
∑y∑x)-(∑yx)(∑x∑x2∑x2-∑xx2
2i
3i
2i
3i
当X2与X3之间的相关系数为零时,离差形式的
∑x
2i
x3i=0
2有βˆ=
(∑i2i
3i
i
2i
2
yx)(∑x)∑yxx2x22=α
ˆ2 2i
3i
=x
2i
同理有:γˆ3=βˆ3
(2) βˆ1
会等于αˆ1或γˆ1的某个线性组合 因为 βˆ1=-βˆ22-ˆβ3,且3αˆ1=-αˆ22,γˆ1=-γˆ33 由于αˆ2=βˆ2且γˆ3=βˆ3
,则 αˆ1=-αˆ22=-βˆ22βˆ-α
ˆ12= 2
γˆ-γˆ1
1=-γˆ33=-βˆ33
βˆ3
= 3
则 βˆ=-βˆ-βˆ=--αˆ1-γˆ1
122332
-3=αˆ1+γˆ1-2
3
(3) 存在var(βˆ2)=var(αˆ2)且var(βˆ3)
=var(γˆ3
)。
ˆ=因为varβ2
()
x1-r2
2i
223
σ2
ˆ=当r23=0时,varβ2
()
x1-rx
2
2i
223
σ2
=
σ2
22i
ˆ2) =var(α
ˆ=var(γˆ) 同理,有varβ33
4.2在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。在逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的解释变量都放在一个多元回归中,然后逐一地将它们剔除(逐步向后回归)。加进或剔除一个变量,通常是根据F检验看其对ESS的贡献而作出决定的。根据你现在对多重共线性的认识,你赞成任何一种逐步回归的程序吗?为什么?
练习题4.2参考解答:
根据对多重共线性的理解,逐步向前和逐步向后回归的程序都存在不足。逐步向前法不能反映引进新的解释变量后的变化情况,即一旦引入就保留在方程中;逐步向后法则一旦某个解释变量被剔出就再也没有机会重新进入方程。而解释变量之间及其与被解释变量的相关关系与引入的变量个数及同时引入哪些变量而呈现出不同,所以要寻找到“最优”变量子集则采用逐步回归较好,它吸收了逐步向前和逐步向后的优点。
4.3 下表给出了中国商品进口额Y、国内生产总值GDP、居民消费价格指数CPI。
()
资料来源:《中国统计年鉴》,中国统计出版社2000年、2008年。
请考虑下列模型:lnYt=β1+β2lnGDPt+β3lnCPIt+ui 1)利用表中数据估计此模型的参数。 2)你认为数据中有多重共线性吗? 3)进行以下回归:
lnYt=A1+A2lnGDPt+v1ilnYt=B1+B2lnCPIt+v2ilnGDPt=C1+C2lnCPIt+v3i
根据这些回归你能对数据中多重共线性的性质说些什么?
ˆ和βˆ在5%水平上个别地显著,并且总的F检验也是显4)假设数据有多重共线性,但β23
著的。对这样的情形,我们是否应考虑共线性的问题?
练习题4.3参考解答: (1) 参数估计结果如下
ln(进口)=-3.060+1.657ln(GDP)-1.057ln(CPI) (0.337) (0.092) (0.215)R2=0.992 2=0.991 F=1275.093
(括号内为标准误)
(2)居民消费价格指数的回归系数的符号不能进行合理的经济意义解释,且CPI与进口之间的简单相关系数呈现正向变动。可能数据中有多重共线性。 计算相关系数
:
(3)最大的CI=108.812,表明GDP与CPI之间存在较高的线性相关。
(4)分别拟合的回归模型如下:
lnY=-4.0907+1.2186ln(GDP) t= (-10.6458) (34.6222)
R2=0.9828 2=0.9820 F=1198.698
lnY=-5.4424+2.6637ln(CPI) t= (-4.3412) (11.6809)
R2=0.8666 2=0.8603 F=
136.4437
ln(GDP)=-1.4380+2.2460ln(CPI) t=(-1.9582) (16.8140)
R2=0.9309 2=0.9276 F=282.7107
单方程拟合效果都很好,回归系数显著,可决系数较高,GDP和CPI对进口分别有显著的单一影响,在这两个变量同时引入模型时影响方向发生了改变,这只有通过相关系数的分析才能发现。
(5)如果仅仅是作预测,可以不在意这种多重共线性,但如果是进行结构分析,还是应该引起注意。
4.4 自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造解释变量数据矩阵X才可能避免多重共线性的出现?
练习题4.4参考解答:
本题很灵活,主要应注意以下问题:
(1)选择变量时要有理论支持,即理论预期或假设;变量的数据要足够长,被解释变量与解释变量之间要有因果关系,并高度相关。
(2)建模时尽量使解释变量之间不高度相关,或解释变量的线性组合不高度相关。
4.5 克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE估计得出了下列回归方程:
ˆ=8.133+1.059X1+0.452X2+0.121X3Y
(8.92) (0.17) (0.66) (1.09) R2=0.95 F=107.37
括号中的数据为相应参数估计量的标准误差。试对上述模型进行评析,指出其中存在的问
题。
练习题4.5参考解答:
从模型拟合结果可知,样本观测个数为27,消费模型的判定系数R=0.95,F统计量为107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F临界值为3.028,计算的F值远大于临界值,表明回归方程是显著的。模型整体拟合程度较高。 依据参数估计量及其标准误,可计算出各回归系数估计量的t统计量值:
2
t0=
8.133
=0.91,8.92
t1=
1.059
=6.10,0.17
t2=
0.452
=0.69,0.66
t3=
0.121
=0.111.09
除t1外,其余的tj值都很小。工资收入X1的系数的t检验值虽然显著,但该系数的估计值过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元,消费支出的增长平均将超过一美元,这与经济理论和常识不符。
另外,理论上非工资—非农业收入与农业收入也是消费行为的重要解释变量,但两者的t检验都没有通过。这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的相互关系,掩盖了各个部分对解释消费行为的单独影响。
4.6 理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。为此,收集了中国能源消费总量Y (万吨标准煤)、国民总收入(亿元)X1(代表收入水平)、国内生产总值 (亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发
展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2007年期间的统计数据,具体如表4.2所示。
表4.12 1985~2007年统计数据
资料来源:《中国统计年鉴》,中国统计出版社2000、2008年版。
要求:
1)建立对数多元线性回归模型,分析回归结果。
2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么? 3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。
练习题4.6参考解答:
(1)建立对数线性多元回归模型,引入全部变量建立对数线性多元回归模型如下: 生成: lny=log(y), 同样方法生成: lnx1,lnx2,lnx3,lnx4,lnx5,lnx6,lnx7.
作全部变量对数线性多元回归,结果为:
从修正的可决系数和F统计量可以看出,全部变量对数线性多元回归整体对样本拟合很好,,各变量联合起来对能源消费影响显著。可是其中的lnX3、lnX4、lnX6对lnY影响不显著,而且lnX2、lnX5的参数为负值,在经济意义上不合理。所以这样的回归结果并不理想。
(2) 预料此回归模型会遇到多重共线性问题, 因为国民总收入与GDP本来就是一对关联指标;而工业增加值、建筑业增加值、交通运输邮电业增加值则是GDP的组成部分。这两组指标必定存在高度相关。
解释变量国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等很可能线性相关,计算相关系数如下
:
可以看出lnx1与lnx2、lnx3、lnx4、lnx5、lnx6之间高度相关,许多相关系数高于0.900以上。如果决定用表中全部变量作为解释变量,很可能会出现严重多重共线性问题。 (3)因为存在多重共线性,解决方法如下:
A:修正理论假设,在高度相关的变量中选择相关程度最高的变量进行回归建立模型:而对变量取对数后,能源消费总量的对数与人均生活电力消费的对数相关程度最高,可建立
这两者之间的回归模型。如
lny=9.932+0.421lnx6 (0.116) (0.026)
R2=0.926 2=0.922 F=261.551
B:进行逐步回归,直至模型符合需要研究的问题,具有实际的经济意义和统计意义。采用逐步回归的办法,去检验和解决多重共线性问题。分别作lnY对
lnX1,lnX2,lnX3,lnX4,lnX5,lnX6,lnX7的一元回归,结果如下:
一元回归结果:
其中加入lnX6的方程调整的可决系数最大, 以lnX6为基础, 顺次加入其他变量逐步回归。结果如下表:
经比较,新加入lnX5的方程调整可决系数改进最大, 各参数的t检验也都显著,但是lnX5参数
的符号与经济意义不符合。若再加入其他变量后的逐步回归,若剔除不显著的变量和无经济意义的变量后, 仍为第一步所建只包含lnX6的一元回归模型。
如果需要建立多元线性回归模型,则需寻找新的变量或改变模型形式。 例如, 不取对数作全部变量多元线性回归,结果为:
可以看出还是有严重多重共线性。作逐步回归:
可以发现加入X2、X5、X6后参数的符号不合理,加入X4,X7后并不显著。只有加入X3后修正的可决系数有所提高,而且参数符号的经济意义合理, X3参数估计值的p值为0.0821,在10%的显著性水平下是显著的。
可以发现加入X2、X5、X6后参数的符号不合理,加入X4,X7后并不显著。 这时可以考虑四元的:发现所有的模型均不优良,要么不显著,要不出现符号相反; 这时可以考虑五元的:发现模型均出现了符号与预期的相反的情况; 这时你还可以考虑六元的:发现依旧出现符号与预期的相反,,
其实后面可以不用做了,最终相对较为合理的模型估计结果可以为:
4.7 在本章开始的“引子”提出的“农业的发展反而会减少财政收入吗?”的例子中,如果所采用的数据如下表所示
11
(资料来源:《中国统计年鉴2008》,中国统计出版社2008年版)试分析:为什么会出现本章开始时所得到的异常结果?怎样解决所出现的问题?
12