Econometrics
第五章虚拟变量回归模型
(教材第六章)
第五章
虚拟变量回归模型
第一节
虚拟变量的性质和引入的意义
第二节
虚拟变量的引入
第三节
交互作用效应
第四节
含虚拟变量的回归模型
学习要点
虚拟变量的性质,虚拟变量的设定
5.1 虚拟变量的性质和引入的意义
虚拟变量的性质
f
定性变量
性别(男,女)
婚姻状况(已婚,未婚)
受教育程度(高等教育,其他)
收入水平(高收入,中低收入)
肤色(白人,有色人种)
政治状况(和平时期,战争时期)
f引入虚拟变量(Dummy Variables)
5.1 虚拟变量的性质和引入的意义
1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。
2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。
3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。
5.2 虚拟变量的引入
虚变量引入的方式主要有两种
f加法方式
f乘法方式。单纯的乘法方式不常见
虚拟变量与其它解释变量在模型中是相加关系,称为虚拟变量的加法引入方式。
加法引入方式引起截距变动
5.2 虚拟变量的引入
f虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。f例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。
f这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。
f事实上,模型可以只包括虚拟变量(ANOVA 模型):
Y i =B 1+B 2D i +u i
其中,D i =0, 男性;D i =1, 女性。
5.2 虚拟变量的引入
虚拟变量的性质
f食品支出对性别虚拟变量(男=0,女=1)回归的结果:
ˆ=3176.83−503.17D Y i i
se =(233.04) 329.57()
t =(13.63) (−1.53) r 2=0.1890
f结果怎么解释?
f由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。
f通常把取值为0的一类称为基准类、参照类或比较类。此时,女性平均食物支出等于截距项加上D i 的系数值。f哪类赋值为1,哪类赋值为0,并没有什么关系。
5.2 虚拟变量的引入
虚拟变量的性质
f很容易验证:D 2=1-D3或D 3=1-D2
f我们发现,如果定性变量有两类,只引入一个虚拟变量(D 2或D 3)就可以了。
f一般的原则:如果模型有共同的截距项B 1,且定性变量有m 种分类,则需引入(m-1)个虚拟变量。
线性或多重共线性。f如果不符合该原则,则会陷入虚拟变量陷阱,即完全共f上述ANOVA 模型在经济学中一般用得较少,更多的是,回归模型中既包括定量解释变量,也包括定性解释变量。这种模型称为协方差分析模型(ANCOVA )。
5.3 交互作用效应
考虑这样一个模型:
Y i =a 1+a 2D 2i +a 3D 3i +βX i +u i
其中表示衣着方面的年度开支
表示收入
D ⎧1女性
2=⎨D ⎧
⎩0男性⎨1大学毕业
3=⎩0不然的话
该模型隐含的假定是,在两种教育水平之间性别的级差效应保持不变,在两种性别之间教育的级差效应保持不变。
5.3 交互作用效应
这种假定显然是站不住脚的。显然上过大学的
男性与女性在衣着方面支出差距比没上过大学的肯定大或者说不一样。这就是存在所谓的交互效应。简单一点,上过大学和性别这两个因素对衣着支出的影响不是独立的,他们相互影响,也即交互效应。
5.3 交互作用效应
模型修正为:
Y i =a 1+a 2D 2i +a 3D 3i +a 4(D 2i D 3i ) +βX i +u i a 2=女性的级差效应
a 3=大学毕业的级差效应
a 4=女大学毕业生的级差效应
交互作用虚拟变量的系数是否在统计上显著,可通过t检验加以验证。错误地忽略一个显著的交互作用项将导致模型设定上的偏误。
5.4 含虚拟变量的回归模型
包含一个定量变量、一个两分定性变量的回归
f把税收收入作为新的解释变量纳入模型:
Y i =B 1+B 2D i +B 3X i +u i
式中,Y——食品支出,X——税收收入,
D——1(女性)和0(男性)。
f回归结果如下,怎么解释?
Y ˆi =1506.244−228.9868D i +0.0589X i
se =(188.0096) 107.0582() 0.0061()
t =(8.0115) (−2.1388) (9.6417)
p =(0.000) (0.0611) (0.000) R 2=0.9284
5.4 含虚拟变量的回归模型
包含一个定量变量、一个两分定性变量的回归
f女性平均食品消费支出:Y ˆi =1277.2574+0.0589X i 男性平均食品消费支出:Y ˆi =
1506.244+0.0589X i
f进一步的问题:男女的食品边际消费倾向有差异吗?
5.4 含虚拟变量的回归模型
包含一个定量变量、一个多分定性变量的回归
f“一个多分定性变量”,如中国的东部,中部、西部。f又如,美国的学校分为三个地区:(1)南部;(2)东北和中北部;(3)西部。
f考虑:美国大学研究生接受率是否存在地区差异?
Accept i =B 1+B 2D 2+B 3D 3+u i
其中,D 2——1(东北和中北部),0(其他地区)
D 3——1(西部),0(其他地区)
f根据引入虚拟变量的原则:定性变量“地区”有三个分类,所以引入两个虚拟变量。这里南部是基准类。f根据模型,三个地区的平均接受率分别等于?
5.4 含虚拟变量的回归模型
包含一个定量变量、一个多分定性变量的回归
f上述是ANAVO 模型,下面考虑ANCOVA 模型(引入一个定量解释变量,例如每个学校的年学费)。
Accept i =79.033−5.670D 2i −11.14D 3i −0.0011Tuition t =(15.53) (−1.91) (−2.79) (−7.55)
p =(0.000) (0.061) (0.007) (0.000) R =0.5462f结果怎么解释?
f同样的问题:不同地区学费的斜率系数相同吗?
5.4 含虚拟变量的回归模型
包含一个定量变量、一个多分定性变量的回归f
平均接受率与学费(图)
5.4 含虚拟变量的回归模型
包含一个定量变量和多个定性变量的回归f考虑解释变量包含多个定性变量的情形:
Y i =B 1+B 2D 2+B 3D 3+B 4X i +u i
其中,Y——小时工资;X——受教育年限;
D 2——1(女性),0(男性);
D 3——1(非白人和非西班牙裔人),0(其他)f回归结果怎么解释?
Y i =−0.2610−2.3606D 2i −1.7327D 3i +0.8028X i t =(−0.2357) (−5.4873) (−2.1803) (9.9094)R 2=0.546; n =528
5.4 含虚拟变量的回归模型
包含一个定量变量和多个定性变量的回归
f回归结果如下,怎么解释?
i =−0.2610−2.3606D −1.7327D +2.1289D D +0.8028X Y 2i 3i 2i 3i i t =(−0.2357) (−5.4873) (−2.1803) (1.7420) (9.9094)R =0.2032; n =528
f-2.3605表示女性的差别,-1.7327表示非白种人的差别。f(-2.3605-1.7327+2.1289)=-1.9643表示非白种人女性的2平均小时工资偏低1.9643美元。——比较的基准是什么?f
非白种人女性比非白种人男性低多少?
非白人男性:-2.3605×0-1.7327×1+2.1289×0×1=-1.7327低:-1.9643-(-1.7327)=-0.2361
5.4 含虚拟变量的回归模型
比较两个回归
f 模型Y i =B 1+B 2D i +B 3X i +B 4D i X i +u i 可能出现的情况:
1. 一致回归B 2=0, B 4=0
2. 平行回归(截距不同)B 2≠0, B 4=0
3. 并发回归(斜率不同)B 2=0, B 4≠0
4. 相异回归(截距、斜率均不同)B 2≠0, B 4≠0
5.4 含虚拟变量的回归模型
比较两个回归
5.4 含虚拟变量的回归模型
比较两个回归
f回归结果:
f
怎么解释?
5.4 含虚拟变量的回归模型
虚拟变量在季节分析中的应用
f时间序列往往呈现季节模型,例如夏天对冰淇林的需求,假期对旅游的需求,夏天冬天对空调的需求……f季节调整的虚拟变量法:怎么设置虚拟变量?
1. 定性变量有几个?是什么?
2. 该定性变量分几类?
3. 因此需要几个虚拟变量?
f模型:Y i =B 1+B 2D 2i +B 3D 3i +B 4D 4i +u i
D =⎧⎨1, 夏季D ⎧1, 秋季
2i 3i D =⎧⎩0, 其它=⎨⎩0, 其它⎨1, 冬季
4i ⎩0, 其它
Econometrics
第五章虚拟变量回归模型
(教材第六章)
第五章
虚拟变量回归模型
第一节
虚拟变量的性质和引入的意义
第二节
虚拟变量的引入
第三节
交互作用效应
第四节
含虚拟变量的回归模型
学习要点
虚拟变量的性质,虚拟变量的设定
5.1 虚拟变量的性质和引入的意义
虚拟变量的性质
f
定性变量
性别(男,女)
婚姻状况(已婚,未婚)
受教育程度(高等教育,其他)
收入水平(高收入,中低收入)
肤色(白人,有色人种)
政治状况(和平时期,战争时期)
f引入虚拟变量(Dummy Variables)
5.1 虚拟变量的性质和引入的意义
1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。
2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。
3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。
5.2 虚拟变量的引入
虚变量引入的方式主要有两种
f加法方式
f乘法方式。单纯的乘法方式不常见
虚拟变量与其它解释变量在模型中是相加关系,称为虚拟变量的加法引入方式。
加法引入方式引起截距变动
5.2 虚拟变量的引入
f虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。f例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。
f这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。
f事实上,模型可以只包括虚拟变量(ANOVA 模型):
Y i =B 1+B 2D i +u i
其中,D i =0, 男性;D i =1, 女性。
5.2 虚拟变量的引入
虚拟变量的性质
f食品支出对性别虚拟变量(男=0,女=1)回归的结果:
ˆ=3176.83−503.17D Y i i
se =(233.04) 329.57()
t =(13.63) (−1.53) r 2=0.1890
f结果怎么解释?
f由于男性赋值为0,女性赋值为1,因此,截距项表示取值为0的一类(这里是男性)的均值。
f通常把取值为0的一类称为基准类、参照类或比较类。此时,女性平均食物支出等于截距项加上D i 的系数值。f哪类赋值为1,哪类赋值为0,并没有什么关系。
5.2 虚拟变量的引入
虚拟变量的性质
f很容易验证:D 2=1-D3或D 3=1-D2
f我们发现,如果定性变量有两类,只引入一个虚拟变量(D 2或D 3)就可以了。
f一般的原则:如果模型有共同的截距项B 1,且定性变量有m 种分类,则需引入(m-1)个虚拟变量。
线性或多重共线性。f如果不符合该原则,则会陷入虚拟变量陷阱,即完全共f上述ANOVA 模型在经济学中一般用得较少,更多的是,回归模型中既包括定量解释变量,也包括定性解释变量。这种模型称为协方差分析模型(ANCOVA )。
5.3 交互作用效应
考虑这样一个模型:
Y i =a 1+a 2D 2i +a 3D 3i +βX i +u i
其中表示衣着方面的年度开支
表示收入
D ⎧1女性
2=⎨D ⎧
⎩0男性⎨1大学毕业
3=⎩0不然的话
该模型隐含的假定是,在两种教育水平之间性别的级差效应保持不变,在两种性别之间教育的级差效应保持不变。
5.3 交互作用效应
这种假定显然是站不住脚的。显然上过大学的
男性与女性在衣着方面支出差距比没上过大学的肯定大或者说不一样。这就是存在所谓的交互效应。简单一点,上过大学和性别这两个因素对衣着支出的影响不是独立的,他们相互影响,也即交互效应。
5.3 交互作用效应
模型修正为:
Y i =a 1+a 2D 2i +a 3D 3i +a 4(D 2i D 3i ) +βX i +u i a 2=女性的级差效应
a 3=大学毕业的级差效应
a 4=女大学毕业生的级差效应
交互作用虚拟变量的系数是否在统计上显著,可通过t检验加以验证。错误地忽略一个显著的交互作用项将导致模型设定上的偏误。
5.4 含虚拟变量的回归模型
包含一个定量变量、一个两分定性变量的回归
f把税收收入作为新的解释变量纳入模型:
Y i =B 1+B 2D i +B 3X i +u i
式中,Y——食品支出,X——税收收入,
D——1(女性)和0(男性)。
f回归结果如下,怎么解释?
Y ˆi =1506.244−228.9868D i +0.0589X i
se =(188.0096) 107.0582() 0.0061()
t =(8.0115) (−2.1388) (9.6417)
p =(0.000) (0.0611) (0.000) R 2=0.9284
5.4 含虚拟变量的回归模型
包含一个定量变量、一个两分定性变量的回归
f女性平均食品消费支出:Y ˆi =1277.2574+0.0589X i 男性平均食品消费支出:Y ˆi =
1506.244+0.0589X i
f进一步的问题:男女的食品边际消费倾向有差异吗?
5.4 含虚拟变量的回归模型
包含一个定量变量、一个多分定性变量的回归
f“一个多分定性变量”,如中国的东部,中部、西部。f又如,美国的学校分为三个地区:(1)南部;(2)东北和中北部;(3)西部。
f考虑:美国大学研究生接受率是否存在地区差异?
Accept i =B 1+B 2D 2+B 3D 3+u i
其中,D 2——1(东北和中北部),0(其他地区)
D 3——1(西部),0(其他地区)
f根据引入虚拟变量的原则:定性变量“地区”有三个分类,所以引入两个虚拟变量。这里南部是基准类。f根据模型,三个地区的平均接受率分别等于?
5.4 含虚拟变量的回归模型
包含一个定量变量、一个多分定性变量的回归
f上述是ANAVO 模型,下面考虑ANCOVA 模型(引入一个定量解释变量,例如每个学校的年学费)。
Accept i =79.033−5.670D 2i −11.14D 3i −0.0011Tuition t =(15.53) (−1.91) (−2.79) (−7.55)
p =(0.000) (0.061) (0.007) (0.000) R =0.5462f结果怎么解释?
f同样的问题:不同地区学费的斜率系数相同吗?
5.4 含虚拟变量的回归模型
包含一个定量变量、一个多分定性变量的回归f
平均接受率与学费(图)
5.4 含虚拟变量的回归模型
包含一个定量变量和多个定性变量的回归f考虑解释变量包含多个定性变量的情形:
Y i =B 1+B 2D 2+B 3D 3+B 4X i +u i
其中,Y——小时工资;X——受教育年限;
D 2——1(女性),0(男性);
D 3——1(非白人和非西班牙裔人),0(其他)f回归结果怎么解释?
Y i =−0.2610−2.3606D 2i −1.7327D 3i +0.8028X i t =(−0.2357) (−5.4873) (−2.1803) (9.9094)R 2=0.546; n =528
5.4 含虚拟变量的回归模型
包含一个定量变量和多个定性变量的回归
f回归结果如下,怎么解释?
i =−0.2610−2.3606D −1.7327D +2.1289D D +0.8028X Y 2i 3i 2i 3i i t =(−0.2357) (−5.4873) (−2.1803) (1.7420) (9.9094)R =0.2032; n =528
f-2.3605表示女性的差别,-1.7327表示非白种人的差别。f(-2.3605-1.7327+2.1289)=-1.9643表示非白种人女性的2平均小时工资偏低1.9643美元。——比较的基准是什么?f
非白种人女性比非白种人男性低多少?
非白人男性:-2.3605×0-1.7327×1+2.1289×0×1=-1.7327低:-1.9643-(-1.7327)=-0.2361
5.4 含虚拟变量的回归模型
比较两个回归
f 模型Y i =B 1+B 2D i +B 3X i +B 4D i X i +u i 可能出现的情况:
1. 一致回归B 2=0, B 4=0
2. 平行回归(截距不同)B 2≠0, B 4=0
3. 并发回归(斜率不同)B 2=0, B 4≠0
4. 相异回归(截距、斜率均不同)B 2≠0, B 4≠0
5.4 含虚拟变量的回归模型
比较两个回归
5.4 含虚拟变量的回归模型
比较两个回归
f回归结果:
f
怎么解释?
5.4 含虚拟变量的回归模型
虚拟变量在季节分析中的应用
f时间序列往往呈现季节模型,例如夏天对冰淇林的需求,假期对旅游的需求,夏天冬天对空调的需求……f季节调整的虚拟变量法:怎么设置虚拟变量?
1. 定性变量有几个?是什么?
2. 该定性变量分几类?
3. 因此需要几个虚拟变量?
f模型:Y i =B 1+B 2D 2i +B 3D 3i +B 4D 4i +u i
D =⎧⎨1, 夏季D ⎧1, 秋季
2i 3i D =⎧⎩0, 其它=⎨⎩0, 其它⎨1, 冬季
4i ⎩0, 其它