数据分析论文

目录 .................................................................................................................................................. 1 摘要 .................................................................................................................................................. 2 关键词 .............................................................................................................................................. 2 引言 .................................................................................................................................................. 3 1 模型建立与检验........................................................................................................................... 3

1.1 模型假设........................................................................................................................... 3 1.2 变量解释： . ...................................................................................................................... 3 1.3 本组数据来源 . .................................................................................................................. 3 1.4 模型建立与问题的解决 . .................................................................................................. 4 1.5 多重共线性诊断与消除 . ................................................................................................ 6

1.5..1 多重共线性的诊断 . ............................................................................................ 6 1.5.2 修正多重共线性 . .................................................................................................. 6 1.5.3 模型建立 . ............................................................................................................ 13

2 模型分析................................................................................................................................... 13

2.1 异方差检验 . .................................................................................................................... 13 2.2 自相关检验 . .................................................................................................................... 14 2.3 迭代法处理自相关 . ........................................................................................................ 14 2.4 经济意义解释 . ................................................................................................................ 15 3 结果分析..................................................................................................................................... 15 参考文献......................................................................................................................................... 16

我国土地资源稀缺，人口多而粮食需求量大，因此粮食产量的稳定增长，直接影响着人民生活和社会的稳定与发展。粮食生产的不稳定性对国民经济的影响是不可忽略的，主要体现在:粮食生产不稳定会引发粮食供求关系的变动, 尤其当国家粮食储备不足的时候, 很容易导致粮价上涨, 从而影响整个宏观经济。因此, 对关系国计民生的这个特殊农产品, 我们不得不慎重对待。因此，分析粮食产量波动的原因，并据此提出相应的对策，对保障粮食生产持续稳定发展，具有重要意义。

关键词：粮食产量；多重共线性；异方差，自相关

众所周知，粮食是我们人类生命得以延续的最基础的物质条件，没有粮食这个物质基础，人类将无法生存。回顾我国粮食的生产情况，我们会发现，随着社会的发展，技术水平的提高，从整体来讲我过粮食产量呈上升的趋势。在改革开放（1978年）以前我国粮食产量缓慢增长，一直都存于30000万吨以下。改革开放后，我国粮食产量从30000万吨一路震荡走高，粮食生产得到快速发展，但波动也更频繁复杂。在1996年总产量首次跨上50000万吨的大台阶，达到了50453万吨，增长率为8.13%。但在2000年开始出现了几年的连续减产的现象，曾一路降到43069万吨的局面，一下子退回到十年前的水平，让人担忧。从2004年以来的5年里，我国粮食产量连续5年增产。在2008年粮食产量达到52870万吨，据中国农业部称，中国粮食产量可能达到历史最高水平。从历史的发展趋势中，不难看出粮食产量的波动性。因此，对我国粮食生产影响因素的实证研究就显得十分有必要，以此寻找我国粮食稳定增产的有效途径。

1 模型建立与检验

1.1 模型假设

1、粮食产量。作为被解释变量，假设它只与这5个变量有关。

2、播种面积。随着播种面积的减少，粮食产量也会相应的减产，二者成正相关的关系。 3、有效灌溉面积。指具有一定的水源，地块比较平整，灌溉工程或设备已经配套，在一般年景下，当年能够进行正常灌溉的耕地面积。在一般情况下，有效灌溉面积应等于灌溉工程或设备已经配备，能够进行正常灌溉的水田和水浇地面积之和。它是反映我国耕地抗旱能力的一个重要指标。与粮食产量成正相关

4、化肥使用量。化肥使用的减少，会使得粮食产量的减少，他们是正相关。 5、成灾面积。成灾面积的增加会使粮食产量减少，它们是负相关的关系。

6、粮食零售价格指数。粮食产量的增加，会导致粮食零售价格的降低，二者呈负相关。

1.2 变量解释：

y — 粮食总产量（单位：万吨）；

； x 1 — 粮食作物耕种面积（单位：千公顷）； x 2 — 有效灌溉面积（单位：千公顷）； x 3 — 化肥使用量（单位：万吨）； x 4 — 受灾面积（单位：千公顷）

x 5 — 粮食零售价格指数。 1.3 本组数据来源

本组数据来自《中华人民共和国统计年鉴》，选用了粮食总产量，粮食作物耕种面积，有效灌溉面积，化肥使用量，受灾面积，粮食零售价格指数这6个指标, 把这5个指标的1985—2004年这19年间的时间序列数据进行回归分析, 来分析这些因素与粮食总产量的关系。以粮食产量作为因变量, 其它5个指标作为解释变量进行实证分析。

数据如表1所示：

表1：中国1985—2004年的粮食产量和相关因素统计表

粮

x 1粮食x 2有效x 3化

肥使用量x 4受

灾面积（千x 5粮

食零售价食总产量

作物耕作面灌溉面积（千多元线性回归的基本理论：

设随机变量y 与一般变量x 1, x 2, x 3... x p 的理论线性回归模型为：

y =β0+β1x 1+β2x 2+... +βp x p +ε

其中β0，β1，... ，βp 是p+1个未知参数，β0称为回归常数，β1，... ，βp 称为回归系数。y 称为被解释变量（因变量），而x 1, x 2, x 3... x p 是p 个可以精确测量并可控制的一般变量，称为解释变量（自变量）。ε是随机误差。且需满足以下四个假设该回归模型才可使用。

假设一：随机误差项0均值假定E (εi ) =0, i =0,1,2,..., n ；假设二：随机误差项同方差var(εi ) =σ2, i =0,1,2,..., n ；假设三：随机误差项不相关

假设四：随机误差项服从如下正态分布

εi ~N (0,σ2), i =0,1,2,... n cov(εi , εj ) =0,(i ≠j , i , j =0,1,2,... n ) 。

数据分析

粮食产量和很多因素有关，本文选取粮食作物耕种面积，有效灌溉面积，化肥使用量，受灾面积，粮食零售价格指数等5个作为自变量对其进行多元线性回归分析。设该模型为：

y =β0+β1x 1+β2x 2+β3x 3+β44x 4+β55x 5+μ

利用eviews 软件，将y 与x 1~ x 5进行多元拟合，得到表2，如下：

表2

Dependent Variable: Y

Method: Least Squares Date: 07/24/12 Time: 18:06 Sample: 1 19 Included observations: 19 Y=C(1)*X1+C(2)*X2+C(3)*X3+C(4)*X4+C(5)*X5+C(6)

Coefficien t Std. Error t-Statistic Prob. C(1) 0.484256 0.106805 4.533998 0.0006 C(2) -1.366636 0.310144 -4.406450 0.0007 C(3) 10.39516 1.014158 10.25005 0.0000 C(4) -0.047716 0.068975 -0.691778 0.5012 C(5) -34.82846 37.52837 -0.928057 0.3703 C(6) 30939.70 15823.26 1.955330 0.0724 R-squared 0.953795 Mean dependent var 44188.38

Adjusted R-squared 0.936024 S.D. dependent var 5638.338

Akaike info

S.E. of regression 1426.137 criterion Sum squared resid 26440250 Schwarz criterion

Hannan-Quinn

Log likelihood -161.3464 criter. F-statistic 53.67073 Durbin-Watson stat Prob(F-statistic) 0.000000

17.61542 17.91366 17.66589 2.267463

此可见，该模型R =0.953795，调整的R =0.936024很高，F=53.67073明显显著，但是当显著性 =0.05时，x 4，x 5的T 检验不显著，这表明可能存在很严重的多重共线性。

1.5 多重共线性诊断与消除

1.5..1 多重共线性的诊断

计算各解释变量的相关系数，通过eviews 计算可得到：

表1-1

X1 X2 X3 X4 X5

-0.646109759-0.6916670650.0127768170-0.629697105

X1 1 6206513 7322418 120411 8040951

-0.6461097590.[1**********].[1**********].6415028666

X2 6206513 1 662869 052838 918169

-0.6916670650.[1**********].[1**********].5615913196

X3 7322418 662869 1 146317 711136

0.[1**********].[1**********].[1**********].2558421085

X4 120411 052838 146317 1 522771

-0.6296971050.[1**********].[1**********].2558421085

X5 8040951 918169 711136 522771 1

由相关系数矩阵可以看出，各解释变量相互之间的相关系数较高，证实确实存在多重共线性. 1.5.2 修正多重共线性

用y 分别与个解释变量做一元回归，结果如下。

表1—2 y 对x 1的一元回归结果

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:29 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 87274.48 27789.73 3.140529 0.0060 X1 -0.390537 0.251636 -1.551992 0.1391

R-squared

Adjusted R-squared

0.124103 Mean dependent var 0.072580 S.D. dependent var

Akaike info

S.E. of regression 5429.870 criterion Sum squared resid 5.01E+08 Schwarz criterion

Hannan-Quinn

Log likelihood -189.2969 criter. F-statistic 2.408679 Durbin-Watson stat Prob(F-statistic) 0.139081

表1—3 y 对x 2的一元回归结果

44188.38

5638.338 20.13652 20.23593 20.15334 0.347197

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:32 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C -10045.54 13599.50 -0.738670 0.4702 X2 1.087677 0.272068 3.997818 0.0009 R-squared 0.484576 Mean dependent var 44188.38

Adjusted R-squared 0.454257 S.D. dependent var 5638.338

Akaike info

S.E. of regression 4165.290 criterion 19.60626 Sum squared resid 2.95E+08 Schwarz criterion 19.70567

Hannan-Quinn

Log likelihood -184.2595 criter. 19.62309 F-statistic 15.98255 Durbin-Watson stat 0.411841 Prob(F-statistic) 0.000932

表1—4 y 对x 3的一元回归结果

Dependent Variable: Y Method: Least Squares

Date: 07/24/12 Time: 19:32 Sample: 1 19

Included observations: 19

Coefficien

Variable C

t Std. Error t-Statistic Prob. 29836.12 2227.343 13.39539 0.0000

X3 R-squared

Adjusted R-squared

4.364503 0.643845 6.778812 0.0000 0.729954 Mean dependent var 44188.38 0.714069 S.D. dependent var 5638.338

Akaike info

S.E. of regression 3014.960 criterion 18.95986 Sum squared resid 1.55E+08 Schwarz criterion 19.05928

Hannan-Quinn

Log likelihood -178.1187 criter. 18.97669 F-statistic 45.95229 Durbin-Watson stat 0.545909 Prob(F-statistic) 0.000003

表1—5 y 对x 4的一元回归结果

Dependent Variable: Y

Method: Least Squares Date: 07/24/12 Time: 19:32 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 39352.44 12724.43 3.092668 0.0066 X4 0.099031 0.259154 0.382131 0.7071 R-squared 0.008516 Mean dependent var 44188.38

Adjusted R-squared -0.049806 S.D. dependent var 5638.338

Akaike info

S.E. of regression 5777.044 criterion 20.26047 Sum squared resid 5.67E+08 Schwarz criterion 20.35989

Hannan-Quinn

Log likelihood -190.4745 criter. 20.27730 F-statistic 0.146024 Durbin-Watson stat 0.323201 Prob(F-statistic) 0.707099

表1—6 y 对x 5的一元回归结果

Dependent Variable: Y

Method: Least Squares

Date: 07/24/12 Time: 19:35 Sample: 1 19

Included observations: 19

Coefficien

Variable t Std. Error t-Statistic Prob.

C 34648.02 10862.71 3.189631 0.0054 X5 85.48308 96.63046 0.884639 0.3887 R-squared 0.044009 Mean dependent var 44188.38

Adjusted R-squared -0.012226 S.D. dependent var 5638.338

Akaike info

S.E. of regression 5672.701 criterion 20.22402 Sum squared resid 5.47E+08 Schwarz criterion 20.32343

Hannan-Quinn

Log likelihood -190.1282 criter. 20.24084 F-statistic 0.782586 Durbin-Watson stat 0.330426 Prob(F-statistic) 0.388692

表1—7 一元回归结果汇总

由上表可以看出，x 3的=0.714069比其他变量的都要大，可见y 与x 3最好，所以以x 3为基础，顺次加入其他变量，做4个二元回归，结果如下。

表1—8 y 对x 1，x 3的二元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:36 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C -31441.68 18676.73 -1.683468 0.1117 X1 0.507240 0.153903 3.295837 0.0046 X3 5.981196 0.709193 8.433801 0.0000 R-squared 0.839154 Mean dependent var 44188.38

Adjusted R-squared 0.819048 S.D. dependent var 5638.338

Akaike info

S.E. of regression 2398.460 criterion Sum squared resid 92041780 Schwarz criterion

Hannan-Quinn

Log likelihood -173.1963 criter. F-statistic 41.73702 Durbin-Watson stat Prob(F-statistic) 0.000000

18.54698 18.69610 18.57222 0.883075

表1—9 y 对x 2，x 3的二元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:37 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 89128.24 18897.00 4.716527 0.0002 X2 -1.492029 0.473355 -3.152031 0.0062 X3 8.957500 1.547585 5.788050 0.0000 R-squared 0.833403 Mean dependent var 44188.38

Adjusted R-squared 0.812579 S.D. dependent var 5638.338

Akaike info

S.E. of regression 2440.959 criterion 18.58211 Sum squared resid 95332480 Schwarz criterion 18.73123

Hannan-Quinn

Log likelihood -173.5300 criter. 18.60735 F-statistic 40.02019 Durbin-Watson stat 1.096270 Prob(F-statistic) 0.000001

表1—10 y 对x 3，x 4的二元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:37 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 31849.08 6919.900 4.602535 0.0003 X3 4.396333 0.669707 6.564562 0.0000

X4 -0.043365 0.140682 -0.308248 0.7619 R-squared 0.731548 Mean dependent var 44188.38

Adjusted R-squared 0.697992 S.D. dependent var 5638.338

Akaike info

S.E. of regression 3098.563 criterion 19.05920 Sum squared resid 1.54E+08 Schwarz criterion 19.20833

Hannan-Quinn

Log likelihood -178.0624 criter. 19.08444 F-statistic 21.80054 Durbin-Watson stat 0.456927 Prob(F-statistic) 0.000027

表1—11 y 对x 3，x 5的二元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:38 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 44052.45 4752.726 9.268879 0.0000 X3 5.496036 0.624191 8.805048 0.0000 X5 -160.7206 49.79003 -3.227967 0.0053 R-squared 0.836458 Mean dependent var 44188.38

Adjusted R-squared 0.816016 S.D. dependent var 5638.338

Akaike info

S.E. of regression 2418.475 criterion 18.56360 Sum squared resid 93584306 Schwarz criterion 18.71272

Hannan-Quinn

Log likelihood -173.3542 criter. 18.58884 F-statistic 40.91722 Durbin-Watson stat 1.090581 Prob(F-statistic) 0.000001

由上面的二元回归结果可以看出，当y 对x 1，x 3进行二元回归时，=0.819048，比其他的都要大，故选择保留x 1。接下来，以x 1，x 3为基础，在顺次引入其他变量，做3次三元回归，输出结果如下。

表1—12 y 对x 1, x 2, x 3的三元回归

Dependent Variable: Y Method: Least Squares

Date: 07/24/12 Time: 19:42 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 27876.50 15388.71 1.811490 0.0901 X1 0.517906 0.091096 5.685246 0.0000 X2 1.525107 0.275304 -5.539725 0.0001 X3 10.71001 0.951209 11.25936 0.0000 R-squared 0.947193 Mean dependent var 44188.38

Adjusted R-squared 0.936631 S.D. dependent var 5638.338

Akaike info

S.E. of regression 1419.348 criterion 17.53845 Sum squared resid 30218219 Schwarz criterion 17.73728

Hannan-Quinn

Log likelihood -162.6152 criter. 17.57210 F-statistic 89.68385 Durbin-Watson stat 2.474696 Prob(F-statistic) 0.000000

表1—13 y 对x 1, x 3, x 4的三元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:43 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C -29542.82 18825.37 -1.569309 0.1374 X1 0.532410 0.156479 3.402447 0.0039 X3 6.139523 0.729728 8.413445 0.0000 X4 -0.106411 0.110718 -0.961102 0.3517 R-squared 0.848485 Mean dependent var 44188.38

Adjusted R-squared 0.818181 S.D. dependent var 5638.338

Akaike info

S.E. of regression 2404.198 criterion 18.59248 Sum squared resid 86702537 Schwarz criterion 18.79131

Hannan-Quinn

Log likelihood -172.6286 criter. 18.62613 F-statistic 27.99993 Durbin-Watson stat 0.780128

Prob(F-statistic) 0.000002

表1—14y 对x 1, x 3, x 5的三元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:43 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C -4143.049 19980.08 -0.207359 0.8385 X1 0.364388 0.147783 2.465707 0.0262 X3 6.325115 0.639365 9.892815 0.0000 X5 -113.5197 47.41421 -2.394214 0.0302 R-squared 0.883626 Mean dependent var 44188.38

Adjusted R-squared 0.860352 S.D. dependent var 5638.338

Akaike info

S.E. of regression 2107.023 criterion 18.32860 Sum squared resid 66593163 Schwarz criterion 18.52743

Hannan-Quinn

Log likelihood -170.1217 criter. 18.36225 F-statistic 37.96503 Durbin-Watson stat 1.257043 Prob(F-statistic) 0.000000

由三元回归后输出的结果，我们可以看出y 对x 1, x 2, x 3的三元回归结果后，=0.936631为最大的。也就是说，y 对x 1, x 2, x 3的组合最好。故可以得出模型。 1.5.3 模型建立

到此，可以得出最后的模型为：

y =27876.5+0.517906x 1+1.5251071x 2+10.71001x 3 （1）

其中，R =0.947193，=0.936631，F=89.68385，DW=2.474696。

2 模型分析

2.1 异方差检验

怀特（White ）检验法

利用White 方法检验是否存在异方差，得到下表

表2—1 怀特检验结果

Heteroskedasticity Test: White F-statistic

1.161144 Prob. F(9,9)

0.4138 0.3339 0.9334

Obs*R-squared Scaled explained SS

10.20836 Prob. Chi-Square(9) 3.640540 Prob. Chi-Square(9)

由上面输出结果可以看出，nR =10.20836，由White 检验知，在α=0.05下，经查表得临界

22值χ0.05（9）=16.9190，，比较统计值与临界值，因为nR = 10.20836

所以接受原假设，拒绝备择假设，表明该模型异方差不显著。

2.2 自相关检验

运用eviews 软件，采用D.W. 检验法对y 与x 1, x 2, x 3的关系进行检验，结果见下表。

表2—2

Sample: 1 19

Included observations: 19

Variable C X1 X2 X3

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

Coefficient 27876.50 0.517906 -1.525107 10.71001

Std. Error 15388.71 0.091096 0.275304 0.951209

t-Statistic 1.811490 5.685246 -5.539725 11.25936

Prob. 0.0901 0.0000 0.0001 0.0000 44188.38 5638.338 17.53845 17.73728 17.57210 2.474696

0.947193 Mean dependent var 0.936631 S.D. dependent var 1419.348 Akaike info criterion 30218219 Schwarz criterion -162.6152 Hannan-Quinn criter. 89.68385 Durbin-Watson stat 0.000000

根据上表的参数估计结果可以知道D.W=2.474696，给定显著水平0.05， n=19，查表得下限临界值

=0.75，上线临界值

=2.02，模型中D.W 值介于

4-d

和

4-d

之间，所以该

模型是否有自相关不确定。

2.3 迭代法处理自相关

利用Cochrane —Orcutt 迭代法分析其自相关的问题，输出结果如下表。

表2—3 迭代法输出结果

Sample (adjusted): 2 19

Included observations: 18 after adjustments Convergence achieved after 10 iterations

Variable C X1 X2 X3 AR(1)

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) Inverted AR Roots

Coefficient 23758.76 0.538660 -1.474090 10.50830 -0.238456

Std. Error 15868.95 0.082621 0.287022 1.013863 0.266261

t-Statistic 1.497186 6.519671 -5.135819 10.36462 -0.895576

Prob. 0.1582 0.0000 0.0002 0.0000 0.3868 44950.16 4689.001 17.62991 17.87724 17.66402 1.912420

0.926635 Mean dependent var 0.904061 S.D. dependent var 1452.369 Akaike info criterion 27421877 Schwarz criterion -153.6692 Hannan-Quinn criter. 41.04918 Durbin-Watson stat 0.000000 -.24

根据上表的参数估计结果可以知道D.W=1.912520，给定显著水平0.05，样本数量n=18，查表得下限临界值

=0.71，上线临界值

=2.06，D.W=1.912520，所以该模型不存在自

相关性。

故得出的模型（1）式可以作为最后的模型，即

y =27876.5+0.517906x 1+1.5251071x 2+10.71001x 3 2.4 经济意义解释

x 1的回归参数0.517906表示：在其他条件不变的情况下，粮食播种面积每增加1千公

顷，粮食产量增加0.517906万吨；

x 2的回归参数1.5251071表示：在其他条件不变的情况下，有效灌溉面积每增加1千

公顷，粮食产量增加1.5251071万吨；

x 3的回归参数10.71007表示：在其他条件不变的情况下，化肥施用量每增加１万吨，

粮食产量增加10.71007万吨；

3 结果分析

在与粮食产量有关的这三个解释变量中，化肥施用量对粮食产量的影响最大，有效灌溉面积的影响最小。因此，在粮食生产整体调控中，即使遇到自然灾害（旱涝灾害等），我们也可以通过适当施用化肥来提高产量，从而保证粮食供给。

经过实证分析，粮食产量的主要受化肥施用量、播种面积和有效灌溉面积的影响。播种面积的增加和有效灌溉面积的增加使粮食产量增加，化肥施用量的增加使得粮食产量增加，但在实际中，有限的土地上只能施用有限的化肥。近年来城市化和工业化不得不再占用耕地，在耕地不足的情况下，为减少污染而将减少化肥施用的情况下，粮食产量将更多的依赖于技

术进步。以下总结了三点粮食增产的建议。第一，加强耕地保护的执法力度。中国在耕地保护方面的政策和措施主要有：基本农田保护耕地、耕地总量动态平衡制度、土地用途制度等。但由于执行不严格，使得制度弱化，常常起不到应有的作用。因此，必须严格执行这些土地保护的政策和措施，以确保中国耕地在新的经济发展形式下能得到切实有效的保护。第二，将耕地保护和地方政府政绩挂钩，进一步规范地方政府的供地行为。第三，推进农业科技进步，提高农业生产能力解决“三农”问题，发展现代农业，必须重视农业科技的作业。增强我国农业科技的研发能力，研发出更为有效的化肥来增加粮食产量。

参考文献

[1] 《中国统计年鉴》

.http://www.stats.gov.cn/tjsj/ndsj/2011/indexch.htm,2005.

[2] 易丹辉. 数据分析与Eviews 应用. 北京：中国人民大学出版社，2002008.

2 模型分析................................................................................................................................... 13

关键词：粮食产量；多重共线性；异方差，自相关

1 模型建立与检验

1.1 模型假设

1、粮食产量。作为被解释变量，假设它只与这5个变量有关。

4、化肥使用量。化肥使用的减少，会使得粮食产量的减少，他们是正相关。 5、成灾面积。成灾面积的增加会使粮食产量减少，它们是负相关的关系。

6、粮食零售价格指数。粮食产量的增加，会导致粮食零售价格的降低，二者呈负相关。

1.2 变量解释：

y — 粮食总产量（单位：万吨）；

x 5 — 粮食零售价格指数。 1.3 本组数据来源

数据如表1所示：

表1：中国1985—2004年的粮食产量和相关因素统计表

粮

x 1粮食x 2有效x 3化

肥使用量x 4受

灾面积（千x 5粮

食零售价食总产量

作物耕作面灌溉面积（千多元线性回归的基本理论：

设随机变量y 与一般变量x 1, x 2, x 3... x p 的理论线性回归模型为：

y =β0+β1x 1+β2x 2+... +βp x p +ε

假设一：随机误差项0均值假定E (εi ) =0, i =0,1,2,..., n ；假设二：随机误差项同方差var(εi ) =σ2, i =0,1,2,..., n ；假设三：随机误差项不相关

假设四：随机误差项服从如下正态分布

εi ~N (0,σ2), i =0,1,2,... n cov(εi , εj ) =0,(i ≠j , i , j =0,1,2,... n ) 。

数据分析

y =β0+β1x 1+β2x 2+β3x 3+β44x 4+β55x 5+μ

利用eviews 软件，将y 与x 1~ x 5进行多元拟合，得到表2，如下：

表2

Dependent Variable: Y

Method: Least Squares Date: 07/24/12 Time: 18:06 Sample: 1 19 Included observations: 19 Y=C(1)*X1+C(2)*X2+C(3)*X3+C(4)*X4+C(5)*X5+C(6)

Adjusted R-squared 0.936024 S.D. dependent var 5638.338

Akaike info

S.E. of regression 1426.137 criterion Sum squared resid 26440250 Schwarz criterion

Hannan-Quinn

Log likelihood -161.3464 criter. F-statistic 53.67073 Durbin-Watson stat Prob(F-statistic) 0.000000

17.61542 17.91366 17.66589 2.267463

1.5 多重共线性诊断与消除

1.5..1 多重共线性的诊断

计算各解释变量的相关系数，通过eviews 计算可得到：

表1-1

X1 X2 X3 X4 X5

-0.646109759-0.6916670650.0127768170-0.629697105

X1 1 6206513 7322418 120411 8040951

-0.6461097590.[1**********].[1**********].6415028666

X2 6206513 1 662869 052838 918169

-0.6916670650.[1**********].[1**********].5615913196

X3 7322418 662869 1 146317 711136

0.[1**********].[1**********].[1**********].2558421085

X4 120411 052838 146317 1 522771

-0.6296971050.[1**********].[1**********].2558421085

X5 8040951 918169 711136 522771 1

由相关系数矩阵可以看出，各解释变量相互之间的相关系数较高，证实确实存在多重共线性. 1.5.2 修正多重共线性

用y 分别与个解释变量做一元回归，结果如下。

表1—2 y 对x 1的一元回归结果

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:29 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 87274.48 27789.73 3.140529 0.0060 X1 -0.390537 0.251636 -1.551992 0.1391

R-squared

Adjusted R-squared

0.124103 Mean dependent var 0.072580 S.D. dependent var

Akaike info

S.E. of regression 5429.870 criterion Sum squared resid 5.01E+08 Schwarz criterion

Hannan-Quinn

Log likelihood -189.2969 criter. F-statistic 2.408679 Durbin-Watson stat Prob(F-statistic) 0.139081

表1—3 y 对x 2的一元回归结果

44188.38

5638.338 20.13652 20.23593 20.15334 0.347197

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:32 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C -10045.54 13599.50 -0.738670 0.4702 X2 1.087677 0.272068 3.997818 0.0009 R-squared 0.484576 Mean dependent var 44188.38

Adjusted R-squared 0.454257 S.D. dependent var 5638.338

Akaike info

S.E. of regression 4165.290 criterion 19.60626 Sum squared resid 2.95E+08 Schwarz criterion 19.70567

Hannan-Quinn

Log likelihood -184.2595 criter. 19.62309 F-statistic 15.98255 Durbin-Watson stat 0.411841 Prob(F-statistic) 0.000932

表1—4 y 对x 3的一元回归结果

Dependent Variable: Y Method: Least Squares

Date: 07/24/12 Time: 19:32 Sample: 1 19

Included observations: 19

Coefficien

Variable C

t Std. Error t-Statistic Prob. 29836.12 2227.343 13.39539 0.0000

X3 R-squared

Adjusted R-squared

4.364503 0.643845 6.778812 0.0000 0.729954 Mean dependent var 44188.38 0.714069 S.D. dependent var 5638.338

Akaike info

S.E. of regression 3014.960 criterion 18.95986 Sum squared resid 1.55E+08 Schwarz criterion 19.05928

Hannan-Quinn

Log likelihood -178.1187 criter. 18.97669 F-statistic 45.95229 Durbin-Watson stat 0.545909 Prob(F-statistic) 0.000003

表1—5 y 对x 4的一元回归结果

Dependent Variable: Y

Method: Least Squares Date: 07/24/12 Time: 19:32 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 39352.44 12724.43 3.092668 0.0066 X4 0.099031 0.259154 0.382131 0.7071 R-squared 0.008516 Mean dependent var 44188.38

Adjusted R-squared -0.049806 S.D. dependent var 5638.338

Akaike info

S.E. of regression 5777.044 criterion 20.26047 Sum squared resid 5.67E+08 Schwarz criterion 20.35989

Hannan-Quinn

Log likelihood -190.4745 criter. 20.27730 F-statistic 0.146024 Durbin-Watson stat 0.323201 Prob(F-statistic) 0.707099

表1—6 y 对x 5的一元回归结果

Dependent Variable: Y

Method: Least Squares

Date: 07/24/12 Time: 19:35 Sample: 1 19

Included observations: 19

Coefficien

Variable t Std. Error t-Statistic Prob.

C 34648.02 10862.71 3.189631 0.0054 X5 85.48308 96.63046 0.884639 0.3887 R-squared 0.044009 Mean dependent var 44188.38

Adjusted R-squared -0.012226 S.D. dependent var 5638.338

Akaike info

S.E. of regression 5672.701 criterion 20.22402 Sum squared resid 5.47E+08 Schwarz criterion 20.32343

Hannan-Quinn

Log likelihood -190.1282 criter. 20.24084 F-statistic 0.782586 Durbin-Watson stat 0.330426 Prob(F-statistic) 0.388692

表1—7 一元回归结果汇总

由上表可以看出，x 3的=0.714069比其他变量的都要大，可见y 与x 3最好，所以以x 3为基础，顺次加入其他变量，做4个二元回归，结果如下。

表1—8 y 对x 1，x 3的二元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:36 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C -31441.68 18676.73 -1.683468 0.1117 X1 0.507240 0.153903 3.295837 0.0046 X3 5.981196 0.709193 8.433801 0.0000 R-squared 0.839154 Mean dependent var 44188.38

Adjusted R-squared 0.819048 S.D. dependent var 5638.338

Akaike info

S.E. of regression 2398.460 criterion Sum squared resid 92041780 Schwarz criterion

Hannan-Quinn

Log likelihood -173.1963 criter. F-statistic 41.73702 Durbin-Watson stat Prob(F-statistic) 0.000000

18.54698 18.69610 18.57222 0.883075

表1—9 y 对x 2，x 3的二元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:37 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 89128.24 18897.00 4.716527 0.0002 X2 -1.492029 0.473355 -3.152031 0.0062 X3 8.957500 1.547585 5.788050 0.0000 R-squared 0.833403 Mean dependent var 44188.38

Adjusted R-squared 0.812579 S.D. dependent var 5638.338

Akaike info

S.E. of regression 2440.959 criterion 18.58211 Sum squared resid 95332480 Schwarz criterion 18.73123

Hannan-Quinn

Log likelihood -173.5300 criter. 18.60735 F-statistic 40.02019 Durbin-Watson stat 1.096270 Prob(F-statistic) 0.000001

表1—10 y 对x 3，x 4的二元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:37 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 31849.08 6919.900 4.602535 0.0003 X3 4.396333 0.669707 6.564562 0.0000

X4 -0.043365 0.140682 -0.308248 0.7619 R-squared 0.731548 Mean dependent var 44188.38

Adjusted R-squared 0.697992 S.D. dependent var 5638.338

Akaike info

S.E. of regression 3098.563 criterion 19.05920 Sum squared resid 1.54E+08 Schwarz criterion 19.20833

Hannan-Quinn

Log likelihood -178.0624 criter. 19.08444 F-statistic 21.80054 Durbin-Watson stat 0.456927 Prob(F-statistic) 0.000027

表1—11 y 对x 3，x 5的二元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:38 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 44052.45 4752.726 9.268879 0.0000 X3 5.496036 0.624191 8.805048 0.0000 X5 -160.7206 49.79003 -3.227967 0.0053 R-squared 0.836458 Mean dependent var 44188.38

Adjusted R-squared 0.816016 S.D. dependent var 5638.338

Akaike info

S.E. of regression 2418.475 criterion 18.56360 Sum squared resid 93584306 Schwarz criterion 18.71272

Hannan-Quinn

Log likelihood -173.3542 criter. 18.58884 F-statistic 40.91722 Durbin-Watson stat 1.090581 Prob(F-statistic) 0.000001

表1—12 y 对x 1, x 2, x 3的三元回归

Dependent Variable: Y Method: Least Squares

Date: 07/24/12 Time: 19:42 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C 27876.50 15388.71 1.811490 0.0901 X1 0.517906 0.091096 5.685246 0.0000 X2 1.525107 0.275304 -5.539725 0.0001 X3 10.71001 0.951209 11.25936 0.0000 R-squared 0.947193 Mean dependent var 44188.38

Adjusted R-squared 0.936631 S.D. dependent var 5638.338

Akaike info

S.E. of regression 1419.348 criterion 17.53845 Sum squared resid 30218219 Schwarz criterion 17.73728

Hannan-Quinn

Log likelihood -162.6152 criter. 17.57210 F-statistic 89.68385 Durbin-Watson stat 2.474696 Prob(F-statistic) 0.000000

表1—13 y 对x 1, x 3, x 4的三元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:43 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C -29542.82 18825.37 -1.569309 0.1374 X1 0.532410 0.156479 3.402447 0.0039 X3 6.139523 0.729728 8.413445 0.0000 X4 -0.106411 0.110718 -0.961102 0.3517 R-squared 0.848485 Mean dependent var 44188.38

Adjusted R-squared 0.818181 S.D. dependent var 5638.338

Akaike info

S.E. of regression 2404.198 criterion 18.59248 Sum squared resid 86702537 Schwarz criterion 18.79131

Hannan-Quinn

Log likelihood -172.6286 criter. 18.62613 F-statistic 27.99993 Durbin-Watson stat 0.780128

Prob(F-statistic) 0.000002

表1—14y 对x 1, x 3, x 5的三元回归

Dependent Variable: Y Method: Least Squares Date: 07/24/12 Time: 19:43 Sample: 1 19 Included observations: 19

Coefficien Variable t Std. Error t-Statistic Prob.

C -4143.049 19980.08 -0.207359 0.8385 X1 0.364388 0.147783 2.465707 0.0262 X3 6.325115 0.639365 9.892815 0.0000 X5 -113.5197 47.41421 -2.394214 0.0302 R-squared 0.883626 Mean dependent var 44188.38

Adjusted R-squared 0.860352 S.D. dependent var 5638.338

Akaike info

S.E. of regression 2107.023 criterion 18.32860 Sum squared resid 66593163 Schwarz criterion 18.52743

Hannan-Quinn

Log likelihood -170.1217 criter. 18.36225 F-statistic 37.96503 Durbin-Watson stat 1.257043 Prob(F-statistic) 0.000000

到此，可以得出最后的模型为：

y =27876.5+0.517906x 1+1.5251071x 2+10.71001x 3 （1）

其中，R =0.947193，=0.936631，F=89.68385，DW=2.474696。

2 模型分析

2.1 异方差检验

怀特（White ）检验法

利用White 方法检验是否存在异方差，得到下表

表2—1 怀特检验结果

Heteroskedasticity Test: White F-statistic

1.161144 Prob. F(9,9)

0.4138 0.3339 0.9334

Obs*R-squared Scaled explained SS

10.20836 Prob. Chi-Square(9) 3.640540 Prob. Chi-Square(9)

由上面输出结果可以看出，nR =10.20836，由White 检验知，在α=0.05下，经查表得临界

22值χ0.05（9）=16.9190，，比较统计值与临界值，因为nR = 10.20836

所以接受原假设，拒绝备择假设，表明该模型异方差不显著。

2.2 自相关检验

运用eviews 软件，采用D.W. 检验法对y 与x 1, x 2, x 3的关系进行检验，结果见下表。

表2—2

Sample: 1 19

Included observations: 19

Variable C X1 X2 X3

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)

Coefficient 27876.50 0.517906 -1.525107 10.71001

Std. Error 15388.71 0.091096 0.275304 0.951209

t-Statistic 1.811490 5.685246 -5.539725 11.25936

Prob. 0.0901 0.0000 0.0001 0.0000 44188.38 5638.338 17.53845 17.73728 17.57210 2.474696

0.947193 Mean dependent var 0.936631 S.D. dependent var 1419.348 Akaike info criterion 30218219 Schwarz criterion -162.6152 Hannan-Quinn criter. 89.68385 Durbin-Watson stat 0.000000

根据上表的参数估计结果可以知道D.W=2.474696，给定显著水平0.05， n=19，查表得下限临界值

=0.75，上线临界值

=2.02，模型中D.W 值介于

4-d

和

4-d

之间，所以该

模型是否有自相关不确定。

2.3 迭代法处理自相关

利用Cochrane —Orcutt 迭代法分析其自相关的问题，输出结果如下表。

表2—3 迭代法输出结果

Sample (adjusted): 2 19

Included observations: 18 after adjustments Convergence achieved after 10 iterations

Variable C X1 X2 X3 AR(1)

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic) Inverted AR Roots

Coefficient 23758.76 0.538660 -1.474090 10.50830 -0.238456

Std. Error 15868.95 0.082621 0.287022 1.013863 0.266261

t-Statistic 1.497186 6.519671 -5.135819 10.36462 -0.895576

Prob. 0.1582 0.0000 0.0002 0.0000 0.3868 44950.16 4689.001 17.62991 17.87724 17.66402 1.912420

0.926635 Mean dependent var 0.904061 S.D. dependent var 1452.369 Akaike info criterion 27421877 Schwarz criterion -153.6692 Hannan-Quinn criter. 41.04918 Durbin-Watson stat 0.000000 -.24

根据上表的参数估计结果可以知道D.W=1.912520，给定显著水平0.05，样本数量n=18，查表得下限临界值

=0.71，上线临界值

=2.06，D.W=1.912520，所以该模型不存在自

相关内容

热门内容

标签