第五章-含虚拟变量的回归模型

Econometrics

第五章虚拟变量回归模型

(教材第六章)

第五章

虚拟变量回归模型

第一节

虚拟变量的性质和引入的意义

第二节

虚拟变量的引入

第三节

交互作用效应

第四节

含虚拟变量的回归模型

学习要点

虚拟变量的性质,虚拟变量的设定

5.1 虚拟变量的性质和引入的意义

虚拟变量的性质

f

定性变量

性别(男,女)

婚姻状况(已婚,未婚)

受教育程度(高等教育,其他)

收入水平(高收入,中低收入)

肤色(白人,有色人种)

政治状况(和平时期,战争时期)

f引入虚拟变量(Dummy Variables)

5.1 虚拟变量的性质和引入的意义

1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。

2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。

3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。

5.2 虚拟变量的引入

虚变量引入的方式主要有两种

f加法方式

f乘法方式。单纯的乘法方式不常见

虚拟变量与其它解释变量在模型中是相加关系,称为虚拟变量的加法引入方式。

加法引入方式引起截距变动

5.2 虚拟变量的引入

f虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。f例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。

f这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。

f事实上,模型可以只包括虚拟变量(ANOVA 模型):

Y i =B 1+B 2D i +u i

其中,D i =0, 男性;D i =1, 女性。

5.2 虚拟变量的引入

虚拟变量的性质

f食品支出对性别虚拟变量(男=0,女=1)回归的结果:

ˆ=3176.83−503.17D Y i i

se =(233.04) 329.57()

t =(13.63) (−1.53) r 2=0.1890

f结果怎么解释?

f由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。

f通常把取值为0的一类称为基准类、参照类或比较类。此时,女性平均食物支出等于截距项加上D i 的系数值。f哪类赋值为1,哪类赋值为0,并没有什么关系。

5.2 虚拟变量的引入

虚拟变量的性质

f很容易验证:D 2=1-D3或D 3=1-D2

f我们发现,如果定性变量有两类,只引入一个虚拟变量(D 2或D 3)就可以了。

f一般的原则:如果模型有共同的截距项B 1,且定性变量有m 种分类,则需引入(m-1)个虚拟变量。

线性或多重共线性。f如果不符合该原则,则会陷入虚拟变量陷阱,即完全共f上述ANOVA 模型在经济学中一般用得较少,更多的是,回归模型中既包括定量解释变量,也包括定性解释变量。这种模型称为协方差分析模型(ANCOVA )。

5.3 交互作用效应

考虑这样一个模型:

Y i =a 1+a 2D 2i +a 3D 3i +βX i +u i

其中表示衣着方面的年度开支

表示收入

D ⎧1女性

2=⎨D ⎧

⎩0男性⎨1大学毕业

3=⎩0不然的话

该模型隐含的假定是,在两种教育水平之间性别的级差效应保持不变,在两种性别之间教育的级差效应保持不变。

5.3 交互作用效应

这种假定显然是站不住脚的。显然上过大学的

男性与女性在衣着方面支出差距比没上过大学的肯定大或者说不一样。这就是存在所谓的交互效应。简单一点,上过大学和性别这两个因素对衣着支出的影响不是独立的,他们相互影响,也即交互效应。

5.3 交互作用效应

模型修正为:

Y i =a 1+a 2D 2i +a 3D 3i +a 4(D 2i D 3i ) +βX i +u i a 2=女性的级差效应

a 3=大学毕业的级差效应

a 4=女大学毕业生的级差效应

交互作用虚拟变量的系数是否在统计上显著,可通过t检验加以验证。错误地忽略一个显著的交互作用项将导致模型设定上的偏误。

5.4 含虚拟变量的回归模型

包含一个定量变量、一个两分定性变量的回归

f把税收收入作为新的解释变量纳入模型:

Y i =B 1+B 2D i +B 3X i +u i

式中,Y——食品支出,X——税收收入,

D——1(女性)和0(男性)。

f回归结果如下,怎么解释?

Y ˆi =1506.244−228.9868D i +0.0589X i

se =(188.0096) 107.0582() 0.0061()

t =(8.0115) (−2.1388) (9.6417)

p =(0.000) (0.0611) (0.000) R 2=0.9284

5.4 含虚拟变量的回归模型

包含一个定量变量、一个两分定性变量的回归

f女性平均食品消费支出:Y ˆi =1277.2574+0.0589X i 男性平均食品消费支出:Y ˆi =

1506.244+0.0589X i

f进一步的问题:男女的食品边际消费倾向有差异吗?

5.4 含虚拟变量的回归模型

包含一个定量变量、一个多分定性变量的回归

f“一个多分定性变量”,如中国的东部,中部、西部。f又如,美国的学校分为三个地区:(1)南部;(2)东北和中北部;(3)西部。

f考虑:美国大学研究生接受率是否存在地区差异?

Accept i =B 1+B 2D 2+B 3D 3+u i

其中,D 2——1(东北和中北部),0(其他地区)

D 3——1(西部),0(其他地区)

f根据引入虚拟变量的原则:定性变量“地区”有三个分类,所以引入两个虚拟变量。这里南部是基准类。f根据模型,三个地区的平均接受率分别等于?

5.4 含虚拟变量的回归模型

包含一个定量变量、一个多分定性变量的回归

f上述是ANAVO 模型,下面考虑ANCOVA 模型(引入一个定量解释变量,例如每个学校的年学费)。

Accept i =79.033−5.670D 2i −11.14D 3i −0.0011Tuition t =(15.53) (−1.91) (−2.79) (−7.55)

p =(0.000) (0.061) (0.007) (0.000) R =0.5462f结果怎么解释?

f同样的问题:不同地区学费的斜率系数相同吗?

5.4 含虚拟变量的回归模型

包含一个定量变量、一个多分定性变量的回归f

平均接受率与学费(图)

5.4 含虚拟变量的回归模型

包含一个定量变量和多个定性变量的回归f考虑解释变量包含多个定性变量的情形:

Y i =B 1+B 2D 2+B 3D 3+B 4X i +u i

其中,Y——小时工资;X——受教育年限;

D 2——1(女性),0(男性);

D 3——1(非白人和非西班牙裔人),0(其他)f回归结果怎么解释?

Y i =−0.2610−2.3606D 2i −1.7327D 3i +0.8028X i t =(−0.2357) (−5.4873) (−2.1803) (9.9094)R 2=0.546; n =528

5.4 含虚拟变量的回归模型

包含一个定量变量和多个定性变量的回归

f回归结果如下,怎么解释?

i =−0.2610−2.3606D −1.7327D +2.1289D D +0.8028X Y 2i 3i 2i 3i i t =(−0.2357) (−5.4873) (−2.1803) (1.7420) (9.9094)R =0.2032; n =528

f-2.3605表示女性的差别,-1.7327表示非白种人的差别。f(-2.3605-1.7327+2.1289)=-1.9643表示非白种人女性的2平均小时工资偏低1.9643美元。——比较的基准是什么?f

非白种人女性比非白种人男性低多少?

非白人男性:-2.3605×0-1.7327×1+2.1289×0×1=-1.7327低:-1.9643-(-1.7327)=-0.2361

5.4 含虚拟变量的回归模型

比较两个回归

f 模型Y i =B 1+B 2D i +B 3X i +B 4D i X i +u i 可能出现的情况:

1. 一致回归B 2=0, B 4=0

2. 平行回归(截距不同)B 2≠0, B 4=0

3. 并发回归(斜率不同)B 2=0, B 4≠0

4. 相异回归(截距、斜率均不同)B 2≠0, B 4≠0

5.4 含虚拟变量的回归模型

比较两个回归

5.4 含虚拟变量的回归模型

比较两个回归

f回归结果:

f

怎么解释?

5.4 含虚拟变量的回归模型

虚拟变量在季节分析中的应用

f时间序列往往呈现季节模型,例如夏天对冰淇林的需求,假期对旅游的需求,夏天冬天对空调的需求……f季节调整的虚拟变量法:怎么设置虚拟变量?

1. 定性变量有几个?是什么?

2. 该定性变量分几类?

3. 因此需要几个虚拟变量?

f模型:Y i =B 1+B 2D 2i +B 3D 3i +B 4D 4i +u i

D =⎧⎨1, 夏季D ⎧1, 秋季

2i 3i D =⎧⎩0, 其它=⎨⎩0, 其它⎨1, 冬季

4i ⎩0, 其它

Econometrics

第五章虚拟变量回归模型

(教材第六章)

第五章

虚拟变量回归模型

第一节

虚拟变量的性质和引入的意义

第二节

虚拟变量的引入

第三节

交互作用效应

第四节

含虚拟变量的回归模型

学习要点

虚拟变量的性质,虚拟变量的设定

5.1 虚拟变量的性质和引入的意义

虚拟变量的性质

f

定性变量

性别(男,女)

婚姻状况(已婚,未婚)

受教育程度(高等教育,其他)

收入水平(高收入,中低收入)

肤色(白人,有色人种)

政治状况(和平时期,战争时期)

f引入虚拟变量(Dummy Variables)

5.1 虚拟变量的性质和引入的意义

1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。

2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。

3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。

5.2 虚拟变量的引入

虚变量引入的方式主要有两种

f加法方式

f乘法方式。单纯的乘法方式不常见

虚拟变量与其它解释变量在模型中是相加关系,称为虚拟变量的加法引入方式。

加法引入方式引起截距变动

5.2 虚拟变量的引入

f虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。f例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。

f这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。

f事实上,模型可以只包括虚拟变量(ANOVA 模型):

Y i =B 1+B 2D i +u i

其中,D i =0, 男性;D i =1, 女性。

5.2 虚拟变量的引入

虚拟变量的性质

f食品支出对性别虚拟变量(男=0,女=1)回归的结果:

ˆ=3176.83−503.17D Y i i

se =(233.04) 329.57()

t =(13.63) (−1.53) r 2=0.1890

f结果怎么解释?

f由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。

f通常把取值为0的一类称为基准类、参照类或比较类。此时,女性平均食物支出等于截距项加上D i 的系数值。f哪类赋值为1,哪类赋值为0,并没有什么关系。

5.2 虚拟变量的引入

虚拟变量的性质

f很容易验证:D 2=1-D3或D 3=1-D2

f我们发现,如果定性变量有两类,只引入一个虚拟变量(D 2或D 3)就可以了。

f一般的原则:如果模型有共同的截距项B 1,且定性变量有m 种分类,则需引入(m-1)个虚拟变量。

线性或多重共线性。f如果不符合该原则,则会陷入虚拟变量陷阱,即完全共f上述ANOVA 模型在经济学中一般用得较少,更多的是,回归模型中既包括定量解释变量,也包括定性解释变量。这种模型称为协方差分析模型(ANCOVA )。

5.3 交互作用效应

考虑这样一个模型:

Y i =a 1+a 2D 2i +a 3D 3i +βX i +u i

其中表示衣着方面的年度开支

表示收入

D ⎧1女性

2=⎨D ⎧

⎩0男性⎨1大学毕业

3=⎩0不然的话

该模型隐含的假定是,在两种教育水平之间性别的级差效应保持不变,在两种性别之间教育的级差效应保持不变。

5.3 交互作用效应

这种假定显然是站不住脚的。显然上过大学的

男性与女性在衣着方面支出差距比没上过大学的肯定大或者说不一样。这就是存在所谓的交互效应。简单一点,上过大学和性别这两个因素对衣着支出的影响不是独立的,他们相互影响,也即交互效应。

5.3 交互作用效应

模型修正为:

Y i =a 1+a 2D 2i +a 3D 3i +a 4(D 2i D 3i ) +βX i +u i a 2=女性的级差效应

a 3=大学毕业的级差效应

a 4=女大学毕业生的级差效应

交互作用虚拟变量的系数是否在统计上显著,可通过t检验加以验证。错误地忽略一个显著的交互作用项将导致模型设定上的偏误。

5.4 含虚拟变量的回归模型

包含一个定量变量、一个两分定性变量的回归

f把税收收入作为新的解释变量纳入模型:

Y i =B 1+B 2D i +B 3X i +u i

式中,Y——食品支出,X——税收收入,

D——1(女性)和0(男性)。

f回归结果如下,怎么解释?

Y ˆi =1506.244−228.9868D i +0.0589X i

se =(188.0096) 107.0582() 0.0061()

t =(8.0115) (−2.1388) (9.6417)

p =(0.000) (0.0611) (0.000) R 2=0.9284

5.4 含虚拟变量的回归模型

包含一个定量变量、一个两分定性变量的回归

f女性平均食品消费支出:Y ˆi =1277.2574+0.0589X i 男性平均食品消费支出:Y ˆi =

1506.244+0.0589X i

f进一步的问题:男女的食品边际消费倾向有差异吗?

5.4 含虚拟变量的回归模型

包含一个定量变量、一个多分定性变量的回归

f“一个多分定性变量”,如中国的东部,中部、西部。f又如,美国的学校分为三个地区:(1)南部;(2)东北和中北部;(3)西部。

f考虑:美国大学研究生接受率是否存在地区差异?

Accept i =B 1+B 2D 2+B 3D 3+u i

其中,D 2——1(东北和中北部),0(其他地区)

D 3——1(西部),0(其他地区)

f根据引入虚拟变量的原则:定性变量“地区”有三个分类,所以引入两个虚拟变量。这里南部是基准类。f根据模型,三个地区的平均接受率分别等于?

5.4 含虚拟变量的回归模型

包含一个定量变量、一个多分定性变量的回归

f上述是ANAVO 模型,下面考虑ANCOVA 模型(引入一个定量解释变量,例如每个学校的年学费)。

Accept i =79.033−5.670D 2i −11.14D 3i −0.0011Tuition t =(15.53) (−1.91) (−2.79) (−7.55)

p =(0.000) (0.061) (0.007) (0.000) R =0.5462f结果怎么解释?

f同样的问题:不同地区学费的斜率系数相同吗?

5.4 含虚拟变量的回归模型

包含一个定量变量、一个多分定性变量的回归f

平均接受率与学费(图)

5.4 含虚拟变量的回归模型

包含一个定量变量和多个定性变量的回归f考虑解释变量包含多个定性变量的情形:

Y i =B 1+B 2D 2+B 3D 3+B 4X i +u i

其中,Y——小时工资;X——受教育年限;

D 2——1(女性),0(男性);

D 3——1(非白人和非西班牙裔人),0(其他)f回归结果怎么解释?

Y i =−0.2610−2.3606D 2i −1.7327D 3i +0.8028X i t =(−0.2357) (−5.4873) (−2.1803) (9.9094)R 2=0.546; n =528

5.4 含虚拟变量的回归模型

包含一个定量变量和多个定性变量的回归

f回归结果如下,怎么解释?

i =−0.2610−2.3606D −1.7327D +2.1289D D +0.8028X Y 2i 3i 2i 3i i t =(−0.2357) (−5.4873) (−2.1803) (1.7420) (9.9094)R =0.2032; n =528

f-2.3605表示女性的差别,-1.7327表示非白种人的差别。f(-2.3605-1.7327+2.1289)=-1.9643表示非白种人女性的2平均小时工资偏低1.9643美元。——比较的基准是什么?f

非白种人女性比非白种人男性低多少?

非白人男性:-2.3605×0-1.7327×1+2.1289×0×1=-1.7327低:-1.9643-(-1.7327)=-0.2361

5.4 含虚拟变量的回归模型

比较两个回归

f 模型Y i =B 1+B 2D i +B 3X i +B 4D i X i +u i 可能出现的情况:

1. 一致回归B 2=0, B 4=0

2. 平行回归(截距不同)B 2≠0, B 4=0

3. 并发回归(斜率不同)B 2=0, B 4≠0

4. 相异回归(截距、斜率均不同)B 2≠0, B 4≠0

5.4 含虚拟变量的回归模型

比较两个回归

5.4 含虚拟变量的回归模型

比较两个回归

f回归结果:

f

怎么解释?

5.4 含虚拟变量的回归模型

虚拟变量在季节分析中的应用

f时间序列往往呈现季节模型,例如夏天对冰淇林的需求,假期对旅游的需求,夏天冬天对空调的需求……f季节调整的虚拟变量法:怎么设置虚拟变量?

1. 定性变量有几个?是什么?

2. 该定性变量分几类?

3. 因此需要几个虚拟变量?

f模型:Y i =B 1+B 2D 2i +B 3D 3i +B 4D 4i +u i

D =⎧⎨1, 夏季D ⎧1, 秋季

2i 3i D =⎧⎩0, 其它=⎨⎩0, 其它⎨1, 冬季

4i ⎩0, 其它


相关内容

  • 计量经济学知识点(超全版)
  • 1.经济变量:经济变量是用来描述经济因素数量水平的指标.(3分) 2.解释变量:是用来解释作为研究对象的变量(即因变量)为什么变动.如何变动的变量.(2分)它对因变量的变动做出解释,表现为方程所描述的因果关系中的"因".(1分) 3.被解释变量:是作为研究对象的变量.(1分)它的 ...

  • 实验七 虚拟变量
  • 实验七 虚拟变量 [实验目的] 掌握虚拟变量的设置方法. [实验内容] 一.试根据表7-1的1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料建立我国城镇居民彩电需求函数: 资料来源:据<中国统计年鉴1999>整理计算得到 二.试建立我国税收预测模型(数据见实验一): 三.试根据 ...

  • 应用回归分析含定性变量的回归模型第九章课后答案
  • 第9章 含定性变量的回归模型 思考与练习参考答案 9.1 一个学生使用含有季节定性自变量的回归模型,对春夏秋冬四个季节引入4个0-1型自变量,用SPSS 软件计算的结果中总是自动删除了其中的一个自变量,他为此感到困惑不解.出现这种情况的原因是什么? 答:假如这个含有季节定性自变量的回归模型为: Y ...

  • 计量经济学考试重点整理
  • 计量经济学考试重点整理 第一章: P1:什么是计量经济学?由哪三组组成? 定义:"用数学方法探讨经济学可以从好几个方面着手,但任何一个方面都不能和计量经济学混为一谈.计量经济学与经济统计学绝非一码事:它也不同于我们所说的一般经济理论,尽管经济理论大部分具有一定的数量特征:计量经济学也不应视 ...

  • 计量经济学庞浩第二版河北金融学院考试重点
  • 1.5一个完整的计量经济模型应包括哪些基本要素?你能举一个例子吗? 答:一个完整的计量经济模型应包括三个基本要素:经济变量.参数和随机误差项. 例如研究消费函数的计量经济模型:Y?α?βX?u 其中,Y为居民消费支出,X为居民家庭收入,二者是经济变量:α和β为参数:u是随机误差项. 1.10你能分别 ...

  • 计量经济学习题与答案
  • 第一章绪论 1-14.计量经济模型中为何要包括随机误差项?简述随机误差项形成的原因. 答:由于客观经济现象的复杂性,以至于人们目前仍难以完全地透彻地了解它的全貌.对于某一种经济现象而言,往往受到很多因素的影响,而人们在认识这种经济现象的时候,只能从影响它的很多因素中选择一种或若干种来说明.这样就会有 ...

  • 计量经济学试题2
  • 计量经济学试题2 一.单项选择题 1.在线性回归模型中,若解释变量X1和X2的观测值成比例,即有X1=kX2,其中k为非零常数,则该模型中存在(B) A.方差非齐性 B.多重共线性 C.序列相关 D.设定误差 2.当质的因素引进计量模型时,需要使用(D) A.外生变量 B.前定变量 C.内生变量 D ...

  • 计量经济学试题及答案(1)
  • 计量经济学试题及答案(1) 程代码:00142 第一部分 选择题 一.单项选择题(本大题共30小题,每小题1分,共30分)在每小题列出的四个选项中只有一个选项是符合题目要求的,请将正确选项前的字母填在题后的括号内. 1.对联立方程模型进行参数估计的方法可以分两类,即:( ) A.间接最小二乘法和系统 ...

  • 泊松回归在生育率研究中的应用
  • 泊松回归在生育率研究中的应用 郭志刚 巫锡炜* [摘 要] 泊松回归是专门分析因变量为计数变量的回归模型.文章通过对 2001年全国计划生育/生殖健康调查数据的泊松回归分析来介绍其在生育率研究中 的应用.泊松回归除了可以接受虚拟编码方式的年龄.城乡等常规人口学分类自变 量外, 还可以直接接受支出.收 ...