楚雄师范学院
2012年《应用回归分析》期末论文
题 目 影响成品钢材需求量的回归分析
姓 名 韩 金 伟
系 (院) 数学系09级01班
专 业 数学与应用数学
学 号
[1**********]
2012 年 6 月 23日
题目:影响成品钢材需求量的回归分析
摘要:随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不
可收的工具盒手段。应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进行分析应用。为了使分析的模型具有社会实际意义,我们引用了1980——1998年的成品钢材、原油、生铁、原煤、发电量、铁路货运量、固定资产投资额、居民消费、政府消费9个不同的量来进行回归分析。通过建立回归模型充分说明成品钢材需求量与其他8个变量的关系,以及我国社会经济的实际发展情况和意义。
关键字:线性回归 回归分析 社会经济 回归模型 成品钢材 投资
多元回归 国家经济 社会发展
目 录
第1章 题目叙述 ....................................................................................................... 1 第2章 问题假设 ....................................................................................................... 1 第3章 问题分析 ....................................................................................................... 2 第4章 数据的预处理 ............................................................................................... 3
4.1 曲线统计图..................................................................................................... 3 4.2 散点统计图..................................................................................................... 4 4.3 样本的相关系数............................................................................................. 4 第5章 回归模型的建立 ........................................................................................... 5 第6章 回归模型的检验 ........................................................................................... 6
6.1 F检验.............................................................................................................. 6 6.2 T检验及模型的T 检验分析.......................................................................... 7
6.2.1 T检验.................................................................................................... 7 6.2.2 T检验分析............................................................................................. 7
6.3 偏相关性........................................................................................................10 第7章 违背模型基本假设的情况 .......................................................................... 11
7.1 异方差性的检验............................................................................................ 11
7.1.1 残差图检验............................................................................................. 11 7.1.2 怀特(White )检验 ................................................................................12
7.2 自相关性的检验............................................................................................12 7.3 多元加权最小二乘估计................................................................................12
7.3.1 权函数自变量的选取...............................................................................13 7.3.2 Weight Estimate估计幂指数m . ..............................................................13 7.3.3 加权最小二乘估计拟合 ...........................................................................14
第8章 自变量选择与逐步回归 ..............................................................................15
8.1 前进逐步回归................................................................................................15 8.2 后退逐步回归................................................................................................17 第9章 多重共线性的情形及处理 ..........................................................................18
9.1 多重共线性的诊断........................................................................................18 9.2 多重共线性的消除........................................................................................20 第10章 回归模型总结 ............................................................................................24 参考文献.......................................................................................................................25
第1章 题目叙述
理论上认为影响成品钢材的需求量的因素主要有经济发展水平、收入水平、产业发展、
人民生活水平提高、能源转换技术等因素。为此,收集了我国成品钢材的需求量,选择与其相关的八个因素:原油产量、生铁产量、原煤产量、发电量、铁路货运量、固定资产投资额、居民消费、政府消费作为影响变量,1980——1998年的有关数据如下表。本题旨在通过建立这些经济变量的线性模型来说明影响成品钢材需求量的原因。
数据来源:易丹辉. 《数据分析与EViews 应用》. 中国人民大学出版社.2008(教材第85页)
原始数据(中国统计年鉴):
第2章 问题假设
为了问题的简洁明了,现对题目中的变量给出以下假设:中国成品钢材的需求量为y (万吨)、原油产量x 1(万吨)、生铁产量x 2(万吨)、原煤产量x 3(亿吨)、发电量x 4(亿千瓦时)、铁路货运量x 5(万吨)、固定资产投资额x 6(亿元)、居民消费x 7(亿元)、政府消费
x 8(亿元)作为影响变量,而且本题收集的数据均为定量变量,其符号和经济意义如下表:
第3章 问题分析
在上述问题中,中国成品钢材的需求量y (万吨)的影响因素不只是原油产量x 1(万吨),还有生铁产量x 2(万吨)、原煤产量x 3(亿吨)、发电量x 4(亿千瓦时)、铁路货运量、固定资产投资额x 6(亿元)、居民消费x 7(亿元)、政府消费x 8(亿元)等,x 5(万吨)
这样因变量y 就与多个自变量x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8有关。因此,我们就可以采用多元线性回归进行问题的分析。
多元线性回归模型的基本形式:设随机变量y 与一般变量x 1, x 2, , x p 的理论线性回归模型为:
y =β0+β1x 1+β2x 2+ +βp x p +ε
其中,β0, β1, , βp 是p +1个未知参数,β0称为回归常数,β0, β1, , βp 称为回归系数。,而x 1, x 2, , x p 是p 个可以精确测量并可控制的一般变量,y 称为被解释变量(因变量)
称为解释变量(自变量)。ε是随机误差,与一元线性回归一样,对随机误差项我们常假定
⎧E (ε) =0
⎨ 2
⎩var(ε) =σ
称
E (y ) =β0+β1x 1+β2x 2+ +βp x p +ε 为理论回归方程。
第4章 数据的预处理
4.1 曲线统计图
分析:从曲线统计图上我们可以大致的来看,变量x 2, x 4, x 6, x 7, x 8和因变量y 在1980年到1986年的增长速度都相对平稳没有明显的增势;从1986年到1993年,个变量开始缓慢增长;从1993年到1998年,增长的幅度开始加大了。x 1, x 3的曲线近似为一条水平的直线,这两个变量分别表示原油和原煤的量,可能受到资源和政策的限制,因而增长的速度非常缓慢。从图中可以明显看到随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。
4.2 散点统计图
分析:从散点统计图上我们可以细致的来看,变量x 5(铁路运货量)的变化最为明显,还可以清楚的看到1981年,1991年,1998年,因为一些特殊事件而导致的铁路运输量降低。
x 2, x 4, x 6, x 7, x 8与y 在1980年到1986年的增长速度都相对平稳没有明显的增势,从1986
年到1993年,个变量开始缓慢增长;从1993年到1998年,增长的幅度开始加大了。但是x 1(原油)与x 3(原煤)的产量却始终保持相对平稳的增长趋势,而却增长速度非常的缓慢,这可能是受到了资源的限制和国家政策的影响。从散点图中可以很明显的看到各年的真是数据,还可以看出随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。
4.3 样本的相关系数
分析:从样本的相关系数表来看,各变量的相关系数都在0.9以上,说明自变量与因变量y 有高度的线性相关性,适合做y 与8个自变量的多元线性回归。(说明:本表格是由EViews 软件计算得出,但由于不能导出,所以通过保存成图片后经WPS 截图工具截得。)
第5章 回归模型的建立
将原始数据导入到spss19.0(简体中文版)的数据框中,然后用spss19.0软件回归线性分析得到下列表:
分析:从模型汇总表中可以看出,复相关系数R =1. 000,决定系数R 2=0. 999,由决定系数看回归方程高度显著。
分析:从方差分析表,F =1259. 526,P 值=0.000,表明回归方程高度显著,说明
x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8整体上对y 有高度显著的线性影响。
分析:从系数表中可以得到y 对8个自变量的线性回归方程为
ˆ=-381. 485+0. 122x 1+0. 125x 2-149. 154x 3+0. 653x 4 y
+0. 003x 5+0. 081x 6-0. 120x 7+0. 394x 8
x 1、x 2、x 4、x 5、x 6、x 8对成品钢材需求量起正影响, 从回归方程中可以看到,x 3、x 7
对成品钢材需求量起负影响。从实际社会生活来看,原煤生产水平和居民的消费水平提高,都会促进成品钢材的需求量,应该和成品钢材的需求量成正相关,这与定性分析的结果不一致。为此,我们对它进行更深层次的分析。
第6章 回归模型的检验
6.1 F检验
分析:从表中输出结果可以看出,Sig 即显著性P 值,由F =1259. 526,P 值=0.000,可知此回归方程高度显著,即做出8个自变量整体对因变量y 产生显著线性影响的判断所犯错误的概率仅为0.000。
6.2 T检验及模型的T 检验分析
6.2.1 T检验
分析:通过看上面的T 检验表可以发现,在显著性水平α=0. 05时,只有x 4, x 7, 的Sig (收尾概率)小于0.05,通过了显著性检验。回归方程B 的95.0%置信区间上下限给定如表中所示。
6.2.2 T检验分析
为了尽可能的保留合理变量,我们就针对逐个变量给以T 检验分析,逐步剔除不合理的变量,使回归模型更完善。因此我们首先剔除Sig 最大的变量x 5,再做回归分析的T 检验如下:
分析:剔除x 5后,在显著性水平α=0. 05时,有x 1, x 4, x 7, 的Sig (收尾概率)小于0.05,通过了显著性检验。此时我们发现,剔除了x 5后,通过T 检验的变量增多了,这是一个很好的结果。因此我们再剔除Sig 最大的变量x 2,再用其他通过了T 检验的变量做回归分析的T 检验如下:
分析:剔除x 5, x 2后,在显著性水平α=0. 05时,有x 1, x 4, x 6, x 7, 的Sig (收尾概率)小于0.05,通过了显著性检验。此时我们发现,剔除了x 5, x 2后,通过T 检验的变量又增多了一个。因此我们再剔除Sig 最大的变量x 8,再做回归分析的T 检验如下:
分析:剔除x 5, x 2, x 8后,在显著性水平α=0. 05时,剩余变量x 1, x 3, x 4, x 6, x 7, 的Sig (收尾概率)都小于0.05,全部通过了显著性T 检验。
分析:以x 1, x 3, x 4, x 6, x 7, 做回归分析的输出表来看,决定系数R =0. 999,由决定系数看回归模型仍然具有高度的显著性。
2
分析:由F =1951. 080,P 值=0.000,回归模型通过了F 检验,表明8个自变量整体对因变量y 产生显著线性影响的判断所犯错误的概率仅为0.000。说明x 1, x 3, x 4, x 6, x 7, 整体上对y 有高度显著的线性影响。
表中第二列是我们的回归方程参数估计值,由此可以得到y 对5个自变量的线性回归方程为:
ˆ=-108. 818+0. 150x 1-248. 800x 3+0. 978x 4+0. 126x 6-0. 084x 7 y
从回归方程中可以看到,x 1, x 4, x 6对成品钢材需求量起正影响,x 3, x 7对成品钢材需求量起负影响。此时回归方程虽然通过了F,T 检验,但是增加了不合理变量x 3, x 7所占回归方程的比重,这也是不合社会实际的
6.3 偏相关性
分析:从表中可以看出,8个偏相关系数分别为0.338,0.207,-0.362,0.598,0.041,0.521,-0.631,0.462进一步可计算出偏决定系数。表中相关系数栏的“零阶”为y 与x j 的简单相关系数。因为简单相关系数只是两变量的局部相关性质,而非整体的性质。所以在多元线性回归中分析中我门看重的是偏相关系数,从数值上看x 4, x 6, x 8的偏相关系数较大因此他们对因变量y 的影响较大些。
第7章 违背模型基本假设的情况
7.1 异方差性的检验
7.1.1 残差图检验
我们分别以回归标准化残差和因变量y 来绘制残差图分析模型是否存在异方差。
分析:从残差的散点图上我们可以看出,回归的标准化残差随因变量y 的表变化并没有明显的规律性分布,残差图上的点都是随机散布的,无任何规律,因此我们可以初步判定回
归模型不存在异方差。 7.1.2 怀特(White )检验
我们用Eviews 软件做怀特检验,是把e 2作为因变量,原先的自变量和自变量的平方项作为新自变量建立线性回归模型,通过这个模型的拟合情况来检验是否有异方差性,检验的零假设是残差不存在异方差性。怀特检验的统计量是LM =n ⨯R 2,n 是样本观测量,R 2是辅助回归的拟合优度。本题的怀特检验如下: Heteroskedasticity Test: White F-statistic Obs*R-squared Scaled explained SS
1.958884 Prob. F(8,10) 11.59867 Prob. Chi-Square(8) 1.445422 Prob. Chi-Square(8)
0.1579 0.1700 0.9936
分析:上表中Obs*R-squared即为LM =n ⨯R 2,检验结果中由于收尾概率远大于显著性水平0.1,0.05或0.01,接收原假设,残差不存在异方差。
7.2 自相关性的检验
对于自相关性我们用DW 检验来判断,已知回归估计式的残差e t 来定义DW 统计量,假设ˆ的关系式为DW ≈2(1-ρˆ) ,在SPSS19.0中运行结果有H 0:ρ=0,通过化简后DW 值与ρ
如下表:
ˆ) =2.245,因而可以近似的计算出分析:从表中的数据我们可以看到,DW ≈2(1-ρ
ˆ=-0. 1225,ρ通过查表可以判断出误差项的自相关性成轻微的负自相关。由于自相关性不
是很明显,所以在这里就不做处理了。
7.3 多元加权最小二乘估计
7.3.1 权函数自变量的选取 我们先通过
SPSS19.0
计算出普通残差的绝对值ABSE =e i 与
x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8的等级相关系数,输出结果见下表所示:
分析:由于输出结果太多,表格数据太过于繁杂,为了限制篇幅这里采用了WPS 文字校园版的截图工具进行了处理,处理结果如上图所示。从上图的表中数据可以看出,残差绝对值与自变量x 2的相关系数为r e 2=0. 232,比其他自变量的相关系数都要大,因此我们选
x 2构造权函数。
7.3.2 Weight Estimate估计幂指数m
分析:我们直接用软件默认的的范围[-2,2]估计得m 的最优值为m=2,从表中“对数似然值b ”栏可以看出,于2是在边界上,以此我们将估计范围扩大到[-2,7],得到m 的最优解为m=6(为了直观,表格做过调整)。 7.3.3 加权最小二乘估计拟合
分析:从表中输出结果来看,加权最小二乘的R 2=0. 999,F 值=1516.244;而普通最小二乘的R =0. 999,F 值=1259.526。这可以说明加权最小二乘估计的拟合效果略好于普通二乘的效果。
分析:从加权最小二乘估计的系数表表中我们可以惊奇的发现,在前面我们认为不合实际的变量x 3(原煤产量),在这里被剔除了。结合前表中加权最小二乘的R =0. 999,F 值=1516.244,说明模型仍然具有高度的显著性。具体回归方程为: 加权最小二乘的回归方程为
ˆ=-575. 962+0. 006x 1+0. 023x 2+0. 439x 4+0. 015x 5+0. 146x 6-0. 165x 7+0. 568x 8 y
2
标准化的加权最小二乘回归方程为
ˆ*=146. 560+0. 028x 1+0. 046x 2+0. 086x 4+0. 004x 5+0. 036x 6-0. 041x 7+0. 142x 8y
*
*
*
*
*
*
*
总体上来说加权最小二乘估计不光显著性高,而且还剔除了不合理的变量x 3,因此选用加权最小二乘估计是非常正确合理的。
第8章 自变量选择与逐步回归
8.1 前进逐步回归
取显著性水平αentry =0. 10, αremoval =0. 15进行逐步回归检验选变量。
分析:从逐步回归模型的汇总表中我们可以看出,在逐步选取变量x2,x2,x4,x2,x4,x3三步过程中,它们的复相关系数R 分别为0.998,0.998,0.999, 决定系数R 2分别为0.996,0.997,0.998。整个过程都保持着回归方程高度的显著性,并且显著性是逐渐增大的。
分析:从表中我们可以看到,F 的检验值分别为4520.386,2536.362,2213.770在逐渐减小,P 值始终是0.000不变,由此可见虽然F 值在减小,但是模型犯错的概率始终为0.000不变,故逐步回归后得回归方程更加具有高度的显著性。
分析:从上述表中结果可以看到,逐步回归的最优子集为模型3,回归方程为
ˆ=196. 098+0. 500x 2-110. 543x 3+0. 504x 4 y
由回归方程可以看出,x 2生铁的产量和x 4发电量的系数都是正数,对因变量y 起正相关作用,x 3原煤量的系数为负值,对因变量y 起负相关作用,而却从数值上看是-11.0543,对y 的影响很大,这与实际情况不符,这可能是因变量x 3与x 4之间有较强的相关性。同时从表中还可以看出,用逐步回归法的选元过程为第一步引入x 2,第二步引入x 4,第三步引入x 3再形成一个符合要求的线性回归方程。
8.2 后退逐步回归
取显著性水平αentry =0. 10, αremoval =0. 15进行逐步回归检验选变量。
分析:从后退逐步回归模型的汇总表中我们可以看出,复相关系数R 分别为1.000,1.000,0.999, 决定系数R 2分别为0.999,0.998,0.998。整个过程都保持着回归方程高度的显著性,而却相比起前进逐步回归要更为好一些。变量x 5, x 2与因变量y 的线性回归分析系数为:
分析:根据表中的数据我们可以写出关于x 5, x 2的线性回归方程为:
ˆ=-278. 8229+0. 936983x 2-0. 002258x 5 y
此回归方程剔除一些变量后反而变得更加显著,并且更有实际的社会意义,它消除了不合理的变量x 3和x 7。在回归方程中又新出现了负变量x 5(铁路运货量),虽然也是不合实际的,但是它占回归方程的比重很小因此可以保留。
第9章 多重共线性的情形及处理
9.1 多重共线性的诊断
分析:从表中的输出结果可以看出,x 2, x 4, x 5, x 7, x 8的方差扩大因子VIF 都很大,远远的超过了10,说明成品钢材需求量的回归方程存在着严重的多重共线性。又因为
x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8的方差扩大因子都是大于10的,说明回归方程的多重共线性就是
由自变量间的多重共线性引起的。
分析:从条件数可以看到,最大的条件数k 9=453. 668,说明自变量间存在严重的多重共线性,这一判断与上面的方差扩大因子法判断结果一致。表中的方差比例是按从小到大的顺序排列的,不是按自变量顺序排列的,这与方差扩大因子不同。在维数为9的时候,我们可以看到x 1, x 2, x 5, x 6的系数都很快的增大要接近1,这也可以说明x 1, x 2, x 5, x 6之间存在较强的多重共线性。
9.2 多重共线性的消除
在前面多重共线性的诊断中我们看到x 4的方差扩大因子VIF 4=947. 996为最大,因此剔除x 4,建立y 与x 1, x 2, x 3, x 5, x 6, x 7, x 8的回归方程。相关输出结果如下:
分析:从剔除了自变量x 4的回归系数表中我们可以看到x 8的方差扩大因子
VIF 8=525. 920为最大,却远大于10,因此再剔除x 8,建立y 与x 1, x 2, x 3, x 5, x 6, x 7的回归
方程。相关输出结果如下:
分析:从剔除了自变量x 4,x 8的回归系数表中我们可以看到x 5的方差扩大因子
VIF 5=174. 510为最大,却远大于10,因此再剔除x 5,建立y
与x 1, x 2, x 3, x 6, x 7的回归方
程。相关输出结果如下:
分析:从剔除了自变量x 4,x 8, x 5的回归系数表中我们可以看到x 6的方差扩大因子
还是远大于10,因此再剔除x 6,建立y 与x 1, x 2, x 3, x 7的回归方程。VIF 6=124. 084为最大,相关输出结果如下:
分析:从剔除了自变量x 4, x 8, x 5, x 6的回归系数表中我们可以看到x 2的方差扩大因子VIF 2=49. 766为最大,还是大于10,因此再剔除x 2,建立y 与x 1, x 3, x 7的回归方程。相
关输出结果如下:
分析:从剔除了自变量x 4, x 8, x 5, x 6, x 2的回归系数表中我们可以看到x 3的方差扩大因子VIF 3=19. 226为最大,还是大于10,因此再剔除x 3,建立y 与x 1, x 7的回归方程。相关
输出结果如下:
分析:从剔除了自变量x 4, x 8, x 5, x 6, x 2, x 3的回归系数表中我们可以看到,剩下的自变量x 1
, x 7的方差扩大因子分别为VIF 1=3. 694, VIF 7=3. 694,都是小于10的,而却回归系数也都合理的社会经济解释,说明此回归模型不存在强的多重共线性了,可以作为最终的回归模型。建立y 与x 1, x 7的回归方程为:
ˆ=-2210. 934+0. 440x 1+0. 161x 7 y
标准化的回归方程为:
**
ˆ*=0. 319x 1 y +0. 700x 7
由标准化的回归方程我们可以看到,对成品钢材需求量影响较大的事原油产量和居民消费,从社会经济角度来考虑,这是贴近人民生活的两个量,其中居民消费的系数较大,影响也就较大。从整体上来看,消除多重共线性影响后得回归方程更较为符合社会实际。
分析:从表中输出结果可以看出,Sig 即显著性P 值,由F =284. 291,P 值=0.000,可知此回归方程仍然具有高度的显著,即做出2个自变量整体对因变量y 产生显著线性影响的判断所犯错误的概率仅为0.000。
分析:从剔除了自变量x 4, x 8, x 5, x 6, x 2, x 3的新回归方程的样本决定系数R 2=0. 973,
22调整样本决定系数R a =0. 969。而y 对8个自变量的全模型的样本决定系数R =0. 999,
2
ˆ=-2210. 934+0. 440x 1+0. 161x 7的拟合调整样本决定系数R a =0. 998。与全模型相比y
优度仍然很高,并且回归系数有合理的经济解释。
第10章 回归模型总结
随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不可收的工具盒手段。应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进行分析应用。为了使分析的模型具有社会实际意义,我们引用了1980——1998年的成品钢材、原油、生铁、原煤、发电量、铁路货运量、固定资产投资额、居民消费、政府消费9个不同的量来进行回归分析。通过问题分析及假设建立了初步多元线性回归,在本着回归方程进行了F 检验,T 检验,将通过T 检验的变量在建立回归方程分析。对于初等回归模型是否违背原假设我们做了异方差性检验,自相关性检验。异方差性的检验我们采用了作残差图和怀特检验法,很好的检验出了初等回归模型没有异方差性;自相关我们采用了DW 检验,最终检验出了初等模型有轻微的负自相关性。为了模型更贴近实际,我们又分别进行了前进逐步回归,后退逐步回归的分析,在两种逐步回归法得到的结论中我们发现采用后退逐步回归得到的回归模型比前进逐步回归得到的模型要好一些,并且在分析中我们发现了变量之间存在共线性。因此在我们又进一步对变量之间的多重共线性给了诊断,最后确定了确实存在多重共线性,从而又进一步对多重共线性给予了消除,重新建立了线性回归方程。
参考文献
【1】 易丹辉. 数据分析与EViews 应用. 北京:中国人民大学出版社,2008
【2】 何晓群,刘文卿. 应用回归分析(第三版). 北京:中国人民大学出版社,2011 【3】 卢文群.SPSS for windows 统计分析(第三版). 北京:电子工业出版社,2006 【4】 百度文库. 网址:
(http://www.baidu.com/s?wd=%B0%D9%B6%C8%CE%C4%BF%E2&rsv_bp=0&rsv_spt=3&inputT=4144)
楚雄师范学院
2012年《应用回归分析》期末论文
题 目 影响成品钢材需求量的回归分析
姓 名 韩 金 伟
系 (院) 数学系09级01班
专 业 数学与应用数学
学 号
[1**********]
2012 年 6 月 23日
题目:影响成品钢材需求量的回归分析
摘要:随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不
可收的工具盒手段。应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进行分析应用。为了使分析的模型具有社会实际意义,我们引用了1980——1998年的成品钢材、原油、生铁、原煤、发电量、铁路货运量、固定资产投资额、居民消费、政府消费9个不同的量来进行回归分析。通过建立回归模型充分说明成品钢材需求量与其他8个变量的关系,以及我国社会经济的实际发展情况和意义。
关键字:线性回归 回归分析 社会经济 回归模型 成品钢材 投资
多元回归 国家经济 社会发展
目 录
第1章 题目叙述 ....................................................................................................... 1 第2章 问题假设 ....................................................................................................... 1 第3章 问题分析 ....................................................................................................... 2 第4章 数据的预处理 ............................................................................................... 3
4.1 曲线统计图..................................................................................................... 3 4.2 散点统计图..................................................................................................... 4 4.3 样本的相关系数............................................................................................. 4 第5章 回归模型的建立 ........................................................................................... 5 第6章 回归模型的检验 ........................................................................................... 6
6.1 F检验.............................................................................................................. 6 6.2 T检验及模型的T 检验分析.......................................................................... 7
6.2.1 T检验.................................................................................................... 7 6.2.2 T检验分析............................................................................................. 7
6.3 偏相关性........................................................................................................10 第7章 违背模型基本假设的情况 .......................................................................... 11
7.1 异方差性的检验............................................................................................ 11
7.1.1 残差图检验............................................................................................. 11 7.1.2 怀特(White )检验 ................................................................................12
7.2 自相关性的检验............................................................................................12 7.3 多元加权最小二乘估计................................................................................12
7.3.1 权函数自变量的选取...............................................................................13 7.3.2 Weight Estimate估计幂指数m . ..............................................................13 7.3.3 加权最小二乘估计拟合 ...........................................................................14
第8章 自变量选择与逐步回归 ..............................................................................15
8.1 前进逐步回归................................................................................................15 8.2 后退逐步回归................................................................................................17 第9章 多重共线性的情形及处理 ..........................................................................18
9.1 多重共线性的诊断........................................................................................18 9.2 多重共线性的消除........................................................................................20 第10章 回归模型总结 ............................................................................................24 参考文献.......................................................................................................................25
第1章 题目叙述
理论上认为影响成品钢材的需求量的因素主要有经济发展水平、收入水平、产业发展、
人民生活水平提高、能源转换技术等因素。为此,收集了我国成品钢材的需求量,选择与其相关的八个因素:原油产量、生铁产量、原煤产量、发电量、铁路货运量、固定资产投资额、居民消费、政府消费作为影响变量,1980——1998年的有关数据如下表。本题旨在通过建立这些经济变量的线性模型来说明影响成品钢材需求量的原因。
数据来源:易丹辉. 《数据分析与EViews 应用》. 中国人民大学出版社.2008(教材第85页)
原始数据(中国统计年鉴):
第2章 问题假设
为了问题的简洁明了,现对题目中的变量给出以下假设:中国成品钢材的需求量为y (万吨)、原油产量x 1(万吨)、生铁产量x 2(万吨)、原煤产量x 3(亿吨)、发电量x 4(亿千瓦时)、铁路货运量x 5(万吨)、固定资产投资额x 6(亿元)、居民消费x 7(亿元)、政府消费
x 8(亿元)作为影响变量,而且本题收集的数据均为定量变量,其符号和经济意义如下表:
第3章 问题分析
在上述问题中,中国成品钢材的需求量y (万吨)的影响因素不只是原油产量x 1(万吨),还有生铁产量x 2(万吨)、原煤产量x 3(亿吨)、发电量x 4(亿千瓦时)、铁路货运量、固定资产投资额x 6(亿元)、居民消费x 7(亿元)、政府消费x 8(亿元)等,x 5(万吨)
这样因变量y 就与多个自变量x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8有关。因此,我们就可以采用多元线性回归进行问题的分析。
多元线性回归模型的基本形式:设随机变量y 与一般变量x 1, x 2, , x p 的理论线性回归模型为:
y =β0+β1x 1+β2x 2+ +βp x p +ε
其中,β0, β1, , βp 是p +1个未知参数,β0称为回归常数,β0, β1, , βp 称为回归系数。,而x 1, x 2, , x p 是p 个可以精确测量并可控制的一般变量,y 称为被解释变量(因变量)
称为解释变量(自变量)。ε是随机误差,与一元线性回归一样,对随机误差项我们常假定
⎧E (ε) =0
⎨ 2
⎩var(ε) =σ
称
E (y ) =β0+β1x 1+β2x 2+ +βp x p +ε 为理论回归方程。
第4章 数据的预处理
4.1 曲线统计图
分析:从曲线统计图上我们可以大致的来看,变量x 2, x 4, x 6, x 7, x 8和因变量y 在1980年到1986年的增长速度都相对平稳没有明显的增势;从1986年到1993年,个变量开始缓慢增长;从1993年到1998年,增长的幅度开始加大了。x 1, x 3的曲线近似为一条水平的直线,这两个变量分别表示原油和原煤的量,可能受到资源和政策的限制,因而增长的速度非常缓慢。从图中可以明显看到随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。
4.2 散点统计图
分析:从散点统计图上我们可以细致的来看,变量x 5(铁路运货量)的变化最为明显,还可以清楚的看到1981年,1991年,1998年,因为一些特殊事件而导致的铁路运输量降低。
x 2, x 4, x 6, x 7, x 8与y 在1980年到1986年的增长速度都相对平稳没有明显的增势,从1986
年到1993年,个变量开始缓慢增长;从1993年到1998年,增长的幅度开始加大了。但是x 1(原油)与x 3(原煤)的产量却始终保持相对平稳的增长趋势,而却增长速度非常的缓慢,这可能是受到了资源的限制和国家政策的影响。从散点图中可以很明显的看到各年的真是数据,还可以看出随着年限的增加,我国的各种产业和支出水平都随之逐渐增长。
4.3 样本的相关系数
分析:从样本的相关系数表来看,各变量的相关系数都在0.9以上,说明自变量与因变量y 有高度的线性相关性,适合做y 与8个自变量的多元线性回归。(说明:本表格是由EViews 软件计算得出,但由于不能导出,所以通过保存成图片后经WPS 截图工具截得。)
第5章 回归模型的建立
将原始数据导入到spss19.0(简体中文版)的数据框中,然后用spss19.0软件回归线性分析得到下列表:
分析:从模型汇总表中可以看出,复相关系数R =1. 000,决定系数R 2=0. 999,由决定系数看回归方程高度显著。
分析:从方差分析表,F =1259. 526,P 值=0.000,表明回归方程高度显著,说明
x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8整体上对y 有高度显著的线性影响。
分析:从系数表中可以得到y 对8个自变量的线性回归方程为
ˆ=-381. 485+0. 122x 1+0. 125x 2-149. 154x 3+0. 653x 4 y
+0. 003x 5+0. 081x 6-0. 120x 7+0. 394x 8
x 1、x 2、x 4、x 5、x 6、x 8对成品钢材需求量起正影响, 从回归方程中可以看到,x 3、x 7
对成品钢材需求量起负影响。从实际社会生活来看,原煤生产水平和居民的消费水平提高,都会促进成品钢材的需求量,应该和成品钢材的需求量成正相关,这与定性分析的结果不一致。为此,我们对它进行更深层次的分析。
第6章 回归模型的检验
6.1 F检验
分析:从表中输出结果可以看出,Sig 即显著性P 值,由F =1259. 526,P 值=0.000,可知此回归方程高度显著,即做出8个自变量整体对因变量y 产生显著线性影响的判断所犯错误的概率仅为0.000。
6.2 T检验及模型的T 检验分析
6.2.1 T检验
分析:通过看上面的T 检验表可以发现,在显著性水平α=0. 05时,只有x 4, x 7, 的Sig (收尾概率)小于0.05,通过了显著性检验。回归方程B 的95.0%置信区间上下限给定如表中所示。
6.2.2 T检验分析
为了尽可能的保留合理变量,我们就针对逐个变量给以T 检验分析,逐步剔除不合理的变量,使回归模型更完善。因此我们首先剔除Sig 最大的变量x 5,再做回归分析的T 检验如下:
分析:剔除x 5后,在显著性水平α=0. 05时,有x 1, x 4, x 7, 的Sig (收尾概率)小于0.05,通过了显著性检验。此时我们发现,剔除了x 5后,通过T 检验的变量增多了,这是一个很好的结果。因此我们再剔除Sig 最大的变量x 2,再用其他通过了T 检验的变量做回归分析的T 检验如下:
分析:剔除x 5, x 2后,在显著性水平α=0. 05时,有x 1, x 4, x 6, x 7, 的Sig (收尾概率)小于0.05,通过了显著性检验。此时我们发现,剔除了x 5, x 2后,通过T 检验的变量又增多了一个。因此我们再剔除Sig 最大的变量x 8,再做回归分析的T 检验如下:
分析:剔除x 5, x 2, x 8后,在显著性水平α=0. 05时,剩余变量x 1, x 3, x 4, x 6, x 7, 的Sig (收尾概率)都小于0.05,全部通过了显著性T 检验。
分析:以x 1, x 3, x 4, x 6, x 7, 做回归分析的输出表来看,决定系数R =0. 999,由决定系数看回归模型仍然具有高度的显著性。
2
分析:由F =1951. 080,P 值=0.000,回归模型通过了F 检验,表明8个自变量整体对因变量y 产生显著线性影响的判断所犯错误的概率仅为0.000。说明x 1, x 3, x 4, x 6, x 7, 整体上对y 有高度显著的线性影响。
表中第二列是我们的回归方程参数估计值,由此可以得到y 对5个自变量的线性回归方程为:
ˆ=-108. 818+0. 150x 1-248. 800x 3+0. 978x 4+0. 126x 6-0. 084x 7 y
从回归方程中可以看到,x 1, x 4, x 6对成品钢材需求量起正影响,x 3, x 7对成品钢材需求量起负影响。此时回归方程虽然通过了F,T 检验,但是增加了不合理变量x 3, x 7所占回归方程的比重,这也是不合社会实际的
6.3 偏相关性
分析:从表中可以看出,8个偏相关系数分别为0.338,0.207,-0.362,0.598,0.041,0.521,-0.631,0.462进一步可计算出偏决定系数。表中相关系数栏的“零阶”为y 与x j 的简单相关系数。因为简单相关系数只是两变量的局部相关性质,而非整体的性质。所以在多元线性回归中分析中我门看重的是偏相关系数,从数值上看x 4, x 6, x 8的偏相关系数较大因此他们对因变量y 的影响较大些。
第7章 违背模型基本假设的情况
7.1 异方差性的检验
7.1.1 残差图检验
我们分别以回归标准化残差和因变量y 来绘制残差图分析模型是否存在异方差。
分析:从残差的散点图上我们可以看出,回归的标准化残差随因变量y 的表变化并没有明显的规律性分布,残差图上的点都是随机散布的,无任何规律,因此我们可以初步判定回
归模型不存在异方差。 7.1.2 怀特(White )检验
我们用Eviews 软件做怀特检验,是把e 2作为因变量,原先的自变量和自变量的平方项作为新自变量建立线性回归模型,通过这个模型的拟合情况来检验是否有异方差性,检验的零假设是残差不存在异方差性。怀特检验的统计量是LM =n ⨯R 2,n 是样本观测量,R 2是辅助回归的拟合优度。本题的怀特检验如下: Heteroskedasticity Test: White F-statistic Obs*R-squared Scaled explained SS
1.958884 Prob. F(8,10) 11.59867 Prob. Chi-Square(8) 1.445422 Prob. Chi-Square(8)
0.1579 0.1700 0.9936
分析:上表中Obs*R-squared即为LM =n ⨯R 2,检验结果中由于收尾概率远大于显著性水平0.1,0.05或0.01,接收原假设,残差不存在异方差。
7.2 自相关性的检验
对于自相关性我们用DW 检验来判断,已知回归估计式的残差e t 来定义DW 统计量,假设ˆ的关系式为DW ≈2(1-ρˆ) ,在SPSS19.0中运行结果有H 0:ρ=0,通过化简后DW 值与ρ
如下表:
ˆ) =2.245,因而可以近似的计算出分析:从表中的数据我们可以看到,DW ≈2(1-ρ
ˆ=-0. 1225,ρ通过查表可以判断出误差项的自相关性成轻微的负自相关。由于自相关性不
是很明显,所以在这里就不做处理了。
7.3 多元加权最小二乘估计
7.3.1 权函数自变量的选取 我们先通过
SPSS19.0
计算出普通残差的绝对值ABSE =e i 与
x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8的等级相关系数,输出结果见下表所示:
分析:由于输出结果太多,表格数据太过于繁杂,为了限制篇幅这里采用了WPS 文字校园版的截图工具进行了处理,处理结果如上图所示。从上图的表中数据可以看出,残差绝对值与自变量x 2的相关系数为r e 2=0. 232,比其他自变量的相关系数都要大,因此我们选
x 2构造权函数。
7.3.2 Weight Estimate估计幂指数m
分析:我们直接用软件默认的的范围[-2,2]估计得m 的最优值为m=2,从表中“对数似然值b ”栏可以看出,于2是在边界上,以此我们将估计范围扩大到[-2,7],得到m 的最优解为m=6(为了直观,表格做过调整)。 7.3.3 加权最小二乘估计拟合
分析:从表中输出结果来看,加权最小二乘的R 2=0. 999,F 值=1516.244;而普通最小二乘的R =0. 999,F 值=1259.526。这可以说明加权最小二乘估计的拟合效果略好于普通二乘的效果。
分析:从加权最小二乘估计的系数表表中我们可以惊奇的发现,在前面我们认为不合实际的变量x 3(原煤产量),在这里被剔除了。结合前表中加权最小二乘的R =0. 999,F 值=1516.244,说明模型仍然具有高度的显著性。具体回归方程为: 加权最小二乘的回归方程为
ˆ=-575. 962+0. 006x 1+0. 023x 2+0. 439x 4+0. 015x 5+0. 146x 6-0. 165x 7+0. 568x 8 y
2
标准化的加权最小二乘回归方程为
ˆ*=146. 560+0. 028x 1+0. 046x 2+0. 086x 4+0. 004x 5+0. 036x 6-0. 041x 7+0. 142x 8y
*
*
*
*
*
*
*
总体上来说加权最小二乘估计不光显著性高,而且还剔除了不合理的变量x 3,因此选用加权最小二乘估计是非常正确合理的。
第8章 自变量选择与逐步回归
8.1 前进逐步回归
取显著性水平αentry =0. 10, αremoval =0. 15进行逐步回归检验选变量。
分析:从逐步回归模型的汇总表中我们可以看出,在逐步选取变量x2,x2,x4,x2,x4,x3三步过程中,它们的复相关系数R 分别为0.998,0.998,0.999, 决定系数R 2分别为0.996,0.997,0.998。整个过程都保持着回归方程高度的显著性,并且显著性是逐渐增大的。
分析:从表中我们可以看到,F 的检验值分别为4520.386,2536.362,2213.770在逐渐减小,P 值始终是0.000不变,由此可见虽然F 值在减小,但是模型犯错的概率始终为0.000不变,故逐步回归后得回归方程更加具有高度的显著性。
分析:从上述表中结果可以看到,逐步回归的最优子集为模型3,回归方程为
ˆ=196. 098+0. 500x 2-110. 543x 3+0. 504x 4 y
由回归方程可以看出,x 2生铁的产量和x 4发电量的系数都是正数,对因变量y 起正相关作用,x 3原煤量的系数为负值,对因变量y 起负相关作用,而却从数值上看是-11.0543,对y 的影响很大,这与实际情况不符,这可能是因变量x 3与x 4之间有较强的相关性。同时从表中还可以看出,用逐步回归法的选元过程为第一步引入x 2,第二步引入x 4,第三步引入x 3再形成一个符合要求的线性回归方程。
8.2 后退逐步回归
取显著性水平αentry =0. 10, αremoval =0. 15进行逐步回归检验选变量。
分析:从后退逐步回归模型的汇总表中我们可以看出,复相关系数R 分别为1.000,1.000,0.999, 决定系数R 2分别为0.999,0.998,0.998。整个过程都保持着回归方程高度的显著性,而却相比起前进逐步回归要更为好一些。变量x 5, x 2与因变量y 的线性回归分析系数为:
分析:根据表中的数据我们可以写出关于x 5, x 2的线性回归方程为:
ˆ=-278. 8229+0. 936983x 2-0. 002258x 5 y
此回归方程剔除一些变量后反而变得更加显著,并且更有实际的社会意义,它消除了不合理的变量x 3和x 7。在回归方程中又新出现了负变量x 5(铁路运货量),虽然也是不合实际的,但是它占回归方程的比重很小因此可以保留。
第9章 多重共线性的情形及处理
9.1 多重共线性的诊断
分析:从表中的输出结果可以看出,x 2, x 4, x 5, x 7, x 8的方差扩大因子VIF 都很大,远远的超过了10,说明成品钢材需求量的回归方程存在着严重的多重共线性。又因为
x 1, x 2, x 3, x 4, x 5, x 6, x 7, x 8的方差扩大因子都是大于10的,说明回归方程的多重共线性就是
由自变量间的多重共线性引起的。
分析:从条件数可以看到,最大的条件数k 9=453. 668,说明自变量间存在严重的多重共线性,这一判断与上面的方差扩大因子法判断结果一致。表中的方差比例是按从小到大的顺序排列的,不是按自变量顺序排列的,这与方差扩大因子不同。在维数为9的时候,我们可以看到x 1, x 2, x 5, x 6的系数都很快的增大要接近1,这也可以说明x 1, x 2, x 5, x 6之间存在较强的多重共线性。
9.2 多重共线性的消除
在前面多重共线性的诊断中我们看到x 4的方差扩大因子VIF 4=947. 996为最大,因此剔除x 4,建立y 与x 1, x 2, x 3, x 5, x 6, x 7, x 8的回归方程。相关输出结果如下:
分析:从剔除了自变量x 4的回归系数表中我们可以看到x 8的方差扩大因子
VIF 8=525. 920为最大,却远大于10,因此再剔除x 8,建立y 与x 1, x 2, x 3, x 5, x 6, x 7的回归
方程。相关输出结果如下:
分析:从剔除了自变量x 4,x 8的回归系数表中我们可以看到x 5的方差扩大因子
VIF 5=174. 510为最大,却远大于10,因此再剔除x 5,建立y
与x 1, x 2, x 3, x 6, x 7的回归方
程。相关输出结果如下:
分析:从剔除了自变量x 4,x 8, x 5的回归系数表中我们可以看到x 6的方差扩大因子
还是远大于10,因此再剔除x 6,建立y 与x 1, x 2, x 3, x 7的回归方程。VIF 6=124. 084为最大,相关输出结果如下:
分析:从剔除了自变量x 4, x 8, x 5, x 6的回归系数表中我们可以看到x 2的方差扩大因子VIF 2=49. 766为最大,还是大于10,因此再剔除x 2,建立y 与x 1, x 3, x 7的回归方程。相
关输出结果如下:
分析:从剔除了自变量x 4, x 8, x 5, x 6, x 2的回归系数表中我们可以看到x 3的方差扩大因子VIF 3=19. 226为最大,还是大于10,因此再剔除x 3,建立y 与x 1, x 7的回归方程。相关
输出结果如下:
分析:从剔除了自变量x 4, x 8, x 5, x 6, x 2, x 3的回归系数表中我们可以看到,剩下的自变量x 1
, x 7的方差扩大因子分别为VIF 1=3. 694, VIF 7=3. 694,都是小于10的,而却回归系数也都合理的社会经济解释,说明此回归模型不存在强的多重共线性了,可以作为最终的回归模型。建立y 与x 1, x 7的回归方程为:
ˆ=-2210. 934+0. 440x 1+0. 161x 7 y
标准化的回归方程为:
**
ˆ*=0. 319x 1 y +0. 700x 7
由标准化的回归方程我们可以看到,对成品钢材需求量影响较大的事原油产量和居民消费,从社会经济角度来考虑,这是贴近人民生活的两个量,其中居民消费的系数较大,影响也就较大。从整体上来看,消除多重共线性影响后得回归方程更较为符合社会实际。
分析:从表中输出结果可以看出,Sig 即显著性P 值,由F =284. 291,P 值=0.000,可知此回归方程仍然具有高度的显著,即做出2个自变量整体对因变量y 产生显著线性影响的判断所犯错误的概率仅为0.000。
分析:从剔除了自变量x 4, x 8, x 5, x 6, x 2, x 3的新回归方程的样本决定系数R 2=0. 973,
22调整样本决定系数R a =0. 969。而y 对8个自变量的全模型的样本决定系数R =0. 999,
2
ˆ=-2210. 934+0. 440x 1+0. 161x 7的拟合调整样本决定系数R a =0. 998。与全模型相比y
优度仍然很高,并且回归系数有合理的经济解释。
第10章 回归模型总结
随着社会经济的不断发展,科学技术的不断进步,统计方法越来越成为人们必不可收的工具盒手段。应用回归分析是其中的一个重要分支,本着国家经济水平的不断提高,我们采用回归分析的方法对我国成品钢材的需求量进行分析应用。为了使分析的模型具有社会实际意义,我们引用了1980——1998年的成品钢材、原油、生铁、原煤、发电量、铁路货运量、固定资产投资额、居民消费、政府消费9个不同的量来进行回归分析。通过问题分析及假设建立了初步多元线性回归,在本着回归方程进行了F 检验,T 检验,将通过T 检验的变量在建立回归方程分析。对于初等回归模型是否违背原假设我们做了异方差性检验,自相关性检验。异方差性的检验我们采用了作残差图和怀特检验法,很好的检验出了初等回归模型没有异方差性;自相关我们采用了DW 检验,最终检验出了初等模型有轻微的负自相关性。为了模型更贴近实际,我们又分别进行了前进逐步回归,后退逐步回归的分析,在两种逐步回归法得到的结论中我们发现采用后退逐步回归得到的回归模型比前进逐步回归得到的模型要好一些,并且在分析中我们发现了变量之间存在共线性。因此在我们又进一步对变量之间的多重共线性给了诊断,最后确定了确实存在多重共线性,从而又进一步对多重共线性给予了消除,重新建立了线性回归方程。
参考文献
【1】 易丹辉. 数据分析与EViews 应用. 北京:中国人民大学出版社,2008
【2】 何晓群,刘文卿. 应用回归分析(第三版). 北京:中国人民大学出版社,2011 【3】 卢文群.SPSS for windows 统计分析(第三版). 北京:电子工业出版社,2006 【4】 百度文库. 网址:
(http://www.baidu.com/s?wd=%B0%D9%B6%C8%CE%C4%BF%E2&rsv_bp=0&rsv_spt=3&inputT=4144)