第二章 一元线性回归模型
开篇语:回归分析与刑事画像的对比
第一节 一元线性回归的概念框架
一、回归分析的基本概念
客观存在统计学方法样拟合
某种关信Simulate
回归分析是研究一个变量(被解释变量)对一个或多个其他变量(解释变量)的依存关系,目的是通过已知的解释变量的数值去估计被解释变量的总体均值。
二、总体回归函数(PRF, Population Regression Function)
(一)条件均值(条件期望)
在X固定为某一数值的条件下Y的均值。
E(XX) X的取值固定为X时Y的均值,ii简记为E(X)i
(二)PRF的定义
一个固定的X可以对应一个条件均值。 多个不同的X可以对应多个不同的条件均值。
如果Y的条件均值是X的函数,该函数成为PRF.
一般形式 E(Xf(Xi)i)
一元线性形式 E(XXi)01iPRF的另一种表达方式:
实际的和Y(X之间可能存在差距,ii)该差距称为随机扰动项(干扰项、误差项),记为ui
uY(Xiii)
在定义扰动项后,PRF亦可记为
Xu)Xuiii01ii
Xi非随机变量
X固定时为常数
E(YXi)非随机变量
X变动时是X的函数
YiX固定时服从某种分布,是随机变量。 不同的X对应不同的随机变量ui随机变量
ui的性质:
E(uiXi)E[(YiE(YXi))Xi]E(YiXi)E[E(YXi)Xi]E(YiXi)E(YiXi)0
随机扰动项ui始终以0为其波动中心。该结论不以ui服从正态分布为前提条件。
随机扰动项的含义:p34
PRF是存在的,但也是未知的。 三、样本回归函数(SRF, Sample Regression Function)
目的:根据来自样本的有限信息,尽可能真是地拟合总体回归函数。
Yˆiˆ0ˆ1Xi,称为样本回归函数。
根据样本数据,可以估计出下列函数
i与Yˆi的差距称为残差,记为ei
或uˆiei
=Yi
Y
ˆi
SRF的另一种表达方式
ˆ
i
=
Y
ˆi
ei
0
ˆ1
Xi
ei
YY
总体回归函数
EY|Xi01Xi
Yi01Xiui
存在但未知
样本回归函数
XYi01i
样本信息ˆˆXeYi=01ii估计、拟合
总体回归函数的模拟画像
两大系数的OLS估计
模拟
作出ˆxiyi画像模拟效果
描述统计性质12画像如何
xi
数理统计性质ˆˆ10
第二节 样本回归函数的最小二乘估计 (OLS, Ordinary Least Squares) 一、 OLS的估计准则
minei正负抵消问题
三种可能的无正负抵消问题
minei
估计准则求导困难
mine2同时解决两大难题
i
OLS的估计准则是残差平方和最小化,即mine
2i
二、 截距系数和斜率系数的估计 P26-27
ˆˆ估计过程中,X、Y为已知,和为待求的ii01未知项。
令xiXi,yiY别称为Xi和Y离差i,分i的形式,则有
ˆxiyi12
xiˆˆ10
三、OLS估计量的描述统计性质
性质1:回归线通过X、Y的样本均值(样本均值点在回归线上)。
ˆˆ0
ˆˆ01
性质2:Y的估计值的均值等于其实际观测
值的均值,即
YY
证明:
11ˆYYi(ˆ0nn1
(Yˆ1ˆ1Xn11ˆ
Y1(Xinn
1ˆ
Y1(Xi
n1ˆ
Y1(nXnX)
nY
Y1111ˆˆe(YY)YY0iiiiinnnn
ˆXi)
i
)
X)X)
性质3:残差的均值为零。
4.残差与因变量的估计量不相关。
表达方式:rXY
rˆeYˆ
ˆ
ˆ
ˆ
ˆ0
eiYˆi0
需证明eiYˆi0
eiYˆi
ei(yˆiY)eiyˆi
eieiyˆiY
ei
eyˆiYiY(01Xi)(01)
iyˆi
ˆ1(Xi)ˆ1xi
eiˆ1xiˆ1eixi
ˆ1xi(YiYˆi) YiYi(yi)(yˆi)yiyˆiˆ1xi(yiyˆi)ˆ1(xiyixiˆ1xi)ˆ1(xiyiˆ21xi)ˆ1(xiyi
ˆ21xi)
ˆ1(xiyiˆ21xi) ˆxiyi1x2
i0
5:残差与解释变量不相关
性质
表达方式:需证明
eiX
i
0
eiYˆi0
eiyˆi0
eiˆ1xi0eixi0ei(XiX)0eiXieiX0
eiXiX
ei0
eiX
i
0
OLS估计的数理统计性质四、
三性
线性性无偏性
有效性(最小方差性)1.线性性:ˆ1和ˆ0是被解释变量观测值的线性组合。
ˆxiyi1x2
1
i
x2iy
xii
1
x2xiyii
xi
x2
令xiyi i
x2
k
ii
kiyiki
(Yi
)
kiYi
ki
ki
x1
x2
i
i
x2
xi
k1
1iYi
ki
x2
(Xi)
ix2
(Xi
)
i
1
x2
(nn)0
i
kiYi
ˆˆ1
01n
Yi
kiYi
1
nYiiYi
1nYiiYi
1
ni
Yi
令1iki
kYi
2.无偏性ˆ1kYk(0
1Xu)
0
k1
kX
ku
1kX
kuE(ˆ1)E(1
kX
ku)
1E(kX)E(ku)1E(kX)
E(ku)
1kX
kE(u)
1kX1k(xX)
1
kxx
1
x
x
x
21
x
1
21
x
x
1
E(ˆ10)E(YXˆ1)E(n
YXˆ1)1
nE(Y)X(ˆ1)1
nE(01Xu)X11
n(01XE(u))X11
n(n01X)X11
(n01nX)X1
3.最小方差性
在所有线性无偏估计量中,OLS估计量的方差为最小――最优线性无偏估计量(Best Linear Unbiased Estimator, BLUE)----高斯-马尔科夫定理。
2
随机扰动项的方差
Var(ˆ1)Se(ˆ1)Var(ˆ0)Se(ˆ0)
2
xi2
2
nxX
i
2i
2
第三节 一元线性回归模型的假设检验 一、假设检验(Hypothesis Test)的思维模式
1.提出假设
原假设(Null Hypothesis):H0
非此即彼 备选假设(Alternative Hypothesis):H1
2.首先认为原假设成立,并构造(寻找、设计)一个原假设成立条件下发生的可能性很小的事件(小概率事件)。小概率事件的概率称为显著性水平,记为。
3.观察小概率事件是否实际发生,并根据观察结果做出接受或拒绝原假设的判断。
没有证据表未发生接受H(绝)H0拒1
原假设应被拒
小概率事件
有证据表明
发生拒绝H(受)H0接1原假设应被拒
卡恩性侵案
无罪推定--首先假设嫌疑人无罪,除非
有充分证据能推翻该假定。 beyond reasonable doubtH0:未发生发生了S关系检验1H:发生1构成
AND条件
H0:自愿假定H0成立女方为非自愿检验2
H:非自愿1
小概率事H未发生有关生物物发假0:定成H生0立
检验1拒绝H0
H:发生遗留在Diall1
服装上
小概率事件
女方坚称受强迫
发生
事件概率
决定于
Diallo的诚信水平
诚信水平 多次撒谎
诚信水平
Diallo历史上
抓痕或其他伤痕现场打斗痕迹
生
未发无法拒绝H
生未发无法拒绝H
小
H0:自愿假定H0成立
检验2率
H1:非自愿事
概
件
无法
小概率
高度
事件女方坚称发生显著事件概率受强迫显著性决定于
地拒绝Diallo的
诚信水平程度H0历史上多次
诚信水平 撒谎诚信水平
抓痕或未发生
无法拒绝H0
其他伤痕
现场打斗未发生
无法拒绝H0
痕迹
第本为真,却被拒IH0
概率为)假错检H本为假,却未被拒绝II0
误概率为,不一定等于1错
二、古典线性回归模型的各项假定
三、回归系数的显著性检验
(一)回归系数估计量的分布
Yi服从正态分布ui服从正态分布
Yi01XiuiuiN(0,2))YiN(01Xi,2)0,1服从
ˆˆ正态分布(0,1是Yi的线性组合)ˆ2
1N(1x2)
i
22
XiˆN()002nxi
(二)回归系数的t检验
2
未知两个系数的方差未知
无法用正态分布进行假设检验
但2可根据样本数据估计ˆ2
e2i
RSS
n2
n2
可以证明,在大样本条件下,
ˆ11
t1t(n2)
se(1
)tˆ00
t(n2)
0se( 0)计算两个标准差时用
ˆ2替代2。以斜率系数为例,检验步骤为:
1.提出假设
H0X的变动无法显著地影响Y0:1(X对Y的影响不显著)
X的变动可以显著地影响Y H1:10
(X对Y的影响显著)2.在原假设成立时
ˆ0ˆt1t(n2)
se(1)se(1)
小概率事件可定义为:t1t2(n2)或t1t2(n2),即t1t2(n2)
该小概率事件的概率为
3.判断准则
(n2)小概率事件未发生接受H20(n2)小概率事件发生拒绝H20
补充内容:如何利用概率值Probability进行假设检验?
1.大小对假设检验的影响
(1)越小,表示检验越严格,或者越不容易拒绝原假设;越大,则表
示检验越宽松,或者越容易拒绝原假设。
则在提高,即检验标准放宽后也一定能拒绝原假设。
(2)一个检验若能在较小时拒绝原假设,
2.概率值的定义
概率值是使检验结论为拒绝原假设的的最低水平。即只要实际选择的大于该水平,就可以拒绝原假设;反之,只要只要实际选择的小于该水平,就无法拒绝原 假设。3.判别标准p值 拒绝H0
p值 接受H0
21
4.概率值的优点
(1)无需查临界点表也能得出检验结论;(2)不仅能在固定的水平得出结论,而
且可以得知可以在多严格的条件下得出结论;
第四节 拟合优度的度量
一、总变差(总离差平方和)的分解yiYi
y2
iTSS (Total Sum of Squares)总变差总离差平方和)yˆiYi
yˆ2
iESS (Explained Sum of Squares)解释平方和(回归平方和)代表TSS中可以被模型所解释的部分
eiYiYi
e2
iRSS (Residual Sum of Squares)
残差平方和
代表TSS中无法被模型所解释的部分
二、 三个平方和的数量关系
22
TSS
yi2
ˆiei)2(y
ˆi2ei22yˆiei)(yˆi2yˆi2yˆi2yˆi2yˆi2y
ˆieiei22y
ei22(ˆ1xi)(yiˆ1xi)ei22ˆ1(xiyiˆ1xi2)ei22ˆ1ei2
xiyiˆ1xi2
三、判定系数(可决系数)及其含义
ESSRSS
R1TSSTSS
2
含义:总变差中可以被模型解释的部分所占的比重。(0R1)判定系数高低代表模型解释能力高低。数值越大表明模型的解释能力越强。
若数值为0.86,表示因变量的全部变化中,有86%的变化可以被模型所解释。
四、一元线性回归中判定系数与相关系数的关系
2
2
R2rXY
四、一元回归结果的报告
23
RICEi361.720.13IRRGieise (191.77) (0.08)t (1.89) (1.53)R20.077假设0.05,n30则t0.025(28)2.048
t11.53t0.025(28),接受原假设t01.89t0.025(28),接受原假设两个系数均不是显著地不为零
本章总结:一元线性回归的计算程序
回归系数的估计
________________________________________________________ Xi2
Xi
xixiyixiyixiyiˆˆˆXˆ1Y22i01i2
xYxixiiiˆˆi1xiy yi
ˆˆ10
24
模型拟合优度和整体显著性指标的计算
____________________________________________________________n12yiyi2yi2TSSESS1n(k1)TSS222
ˆˆˆyyyESSRiii2
RSSR12F2eiRSSTSS(1R)n(k1)] 人工计算中的列表方式
_________________________________________________________________ Xi Yi xi yi xi2 yi2 xiyi || ei ei2_________________________________________________________________12
n
_________________________________________________________________总和 Xi2 xi2 yi2 xiyi || ei2平均值
25
第二章 一元线性回归模型
开篇语:回归分析与刑事画像的对比
第一节 一元线性回归的概念框架
一、回归分析的基本概念
客观存在统计学方法样拟合
某种关信Simulate
回归分析是研究一个变量(被解释变量)对一个或多个其他变量(解释变量)的依存关系,目的是通过已知的解释变量的数值去估计被解释变量的总体均值。
二、总体回归函数(PRF, Population Regression Function)
(一)条件均值(条件期望)
在X固定为某一数值的条件下Y的均值。
E(XX) X的取值固定为X时Y的均值,ii简记为E(X)i
(二)PRF的定义
一个固定的X可以对应一个条件均值。 多个不同的X可以对应多个不同的条件均值。
如果Y的条件均值是X的函数,该函数成为PRF.
一般形式 E(Xf(Xi)i)
一元线性形式 E(XXi)01iPRF的另一种表达方式:
实际的和Y(X之间可能存在差距,ii)该差距称为随机扰动项(干扰项、误差项),记为ui
uY(Xiii)
在定义扰动项后,PRF亦可记为
Xu)Xuiii01ii
Xi非随机变量
X固定时为常数
E(YXi)非随机变量
X变动时是X的函数
YiX固定时服从某种分布,是随机变量。 不同的X对应不同的随机变量ui随机变量
ui的性质:
E(uiXi)E[(YiE(YXi))Xi]E(YiXi)E[E(YXi)Xi]E(YiXi)E(YiXi)0
随机扰动项ui始终以0为其波动中心。该结论不以ui服从正态分布为前提条件。
随机扰动项的含义:p34
PRF是存在的,但也是未知的。 三、样本回归函数(SRF, Sample Regression Function)
目的:根据来自样本的有限信息,尽可能真是地拟合总体回归函数。
Yˆiˆ0ˆ1Xi,称为样本回归函数。
根据样本数据,可以估计出下列函数
i与Yˆi的差距称为残差,记为ei
或uˆiei
=Yi
Y
ˆi
SRF的另一种表达方式
ˆ
i
=
Y
ˆi
ei
0
ˆ1
Xi
ei
YY
总体回归函数
EY|Xi01Xi
Yi01Xiui
存在但未知
样本回归函数
XYi01i
样本信息ˆˆXeYi=01ii估计、拟合
总体回归函数的模拟画像
两大系数的OLS估计
模拟
作出ˆxiyi画像模拟效果
描述统计性质12画像如何
xi
数理统计性质ˆˆ10
第二节 样本回归函数的最小二乘估计 (OLS, Ordinary Least Squares) 一、 OLS的估计准则
minei正负抵消问题
三种可能的无正负抵消问题
minei
估计准则求导困难
mine2同时解决两大难题
i
OLS的估计准则是残差平方和最小化,即mine
2i
二、 截距系数和斜率系数的估计 P26-27
ˆˆ估计过程中,X、Y为已知,和为待求的ii01未知项。
令xiXi,yiY别称为Xi和Y离差i,分i的形式,则有
ˆxiyi12
xiˆˆ10
三、OLS估计量的描述统计性质
性质1:回归线通过X、Y的样本均值(样本均值点在回归线上)。
ˆˆ0
ˆˆ01
性质2:Y的估计值的均值等于其实际观测
值的均值,即
YY
证明:
11ˆYYi(ˆ0nn1
(Yˆ1ˆ1Xn11ˆ
Y1(Xinn
1ˆ
Y1(Xi
n1ˆ
Y1(nXnX)
nY
Y1111ˆˆe(YY)YY0iiiiinnnn
ˆXi)
i
)
X)X)
性质3:残差的均值为零。
4.残差与因变量的估计量不相关。
表达方式:rXY
rˆeYˆ
ˆ
ˆ
ˆ
ˆ0
eiYˆi0
需证明eiYˆi0
eiYˆi
ei(yˆiY)eiyˆi
eieiyˆiY
ei
eyˆiYiY(01Xi)(01)
iyˆi
ˆ1(Xi)ˆ1xi
eiˆ1xiˆ1eixi
ˆ1xi(YiYˆi) YiYi(yi)(yˆi)yiyˆiˆ1xi(yiyˆi)ˆ1(xiyixiˆ1xi)ˆ1(xiyiˆ21xi)ˆ1(xiyi
ˆ21xi)
ˆ1(xiyiˆ21xi) ˆxiyi1x2
i0
5:残差与解释变量不相关
性质
表达方式:需证明
eiX
i
0
eiYˆi0
eiyˆi0
eiˆ1xi0eixi0ei(XiX)0eiXieiX0
eiXiX
ei0
eiX
i
0
OLS估计的数理统计性质四、
三性
线性性无偏性
有效性(最小方差性)1.线性性:ˆ1和ˆ0是被解释变量观测值的线性组合。
ˆxiyi1x2
1
i
x2iy
xii
1
x2xiyii
xi
x2
令xiyi i
x2
k
ii
kiyiki
(Yi
)
kiYi
ki
ki
x1
x2
i
i
x2
xi
k1
1iYi
ki
x2
(Xi)
ix2
(Xi
)
i
1
x2
(nn)0
i
kiYi
ˆˆ1
01n
Yi
kiYi
1
nYiiYi
1nYiiYi
1
ni
Yi
令1iki
kYi
2.无偏性ˆ1kYk(0
1Xu)
0
k1
kX
ku
1kX
kuE(ˆ1)E(1
kX
ku)
1E(kX)E(ku)1E(kX)
E(ku)
1kX
kE(u)
1kX1k(xX)
1
kxx
1
x
x
x
21
x
1
21
x
x
1
E(ˆ10)E(YXˆ1)E(n
YXˆ1)1
nE(Y)X(ˆ1)1
nE(01Xu)X11
n(01XE(u))X11
n(n01X)X11
(n01nX)X1
3.最小方差性
在所有线性无偏估计量中,OLS估计量的方差为最小――最优线性无偏估计量(Best Linear Unbiased Estimator, BLUE)----高斯-马尔科夫定理。
2
随机扰动项的方差
Var(ˆ1)Se(ˆ1)Var(ˆ0)Se(ˆ0)
2
xi2
2
nxX
i
2i
2
第三节 一元线性回归模型的假设检验 一、假设检验(Hypothesis Test)的思维模式
1.提出假设
原假设(Null Hypothesis):H0
非此即彼 备选假设(Alternative Hypothesis):H1
2.首先认为原假设成立,并构造(寻找、设计)一个原假设成立条件下发生的可能性很小的事件(小概率事件)。小概率事件的概率称为显著性水平,记为。
3.观察小概率事件是否实际发生,并根据观察结果做出接受或拒绝原假设的判断。
没有证据表未发生接受H(绝)H0拒1
原假设应被拒
小概率事件
有证据表明
发生拒绝H(受)H0接1原假设应被拒
卡恩性侵案
无罪推定--首先假设嫌疑人无罪,除非
有充分证据能推翻该假定。 beyond reasonable doubtH0:未发生发生了S关系检验1H:发生1构成
AND条件
H0:自愿假定H0成立女方为非自愿检验2
H:非自愿1
小概率事H未发生有关生物物发假0:定成H生0立
检验1拒绝H0
H:发生遗留在Diall1
服装上
小概率事件
女方坚称受强迫
发生
事件概率
决定于
Diallo的诚信水平
诚信水平 多次撒谎
诚信水平
Diallo历史上
抓痕或其他伤痕现场打斗痕迹
生
未发无法拒绝H
生未发无法拒绝H
小
H0:自愿假定H0成立
检验2率
H1:非自愿事
概
件
无法
小概率
高度
事件女方坚称发生显著事件概率受强迫显著性决定于
地拒绝Diallo的
诚信水平程度H0历史上多次
诚信水平 撒谎诚信水平
抓痕或未发生
无法拒绝H0
其他伤痕
现场打斗未发生
无法拒绝H0
痕迹
第本为真,却被拒IH0
概率为)假错检H本为假,却未被拒绝II0
误概率为,不一定等于1错
二、古典线性回归模型的各项假定
三、回归系数的显著性检验
(一)回归系数估计量的分布
Yi服从正态分布ui服从正态分布
Yi01XiuiuiN(0,2))YiN(01Xi,2)0,1服从
ˆˆ正态分布(0,1是Yi的线性组合)ˆ2
1N(1x2)
i
22
XiˆN()002nxi
(二)回归系数的t检验
2
未知两个系数的方差未知
无法用正态分布进行假设检验
但2可根据样本数据估计ˆ2
e2i
RSS
n2
n2
可以证明,在大样本条件下,
ˆ11
t1t(n2)
se(1
)tˆ00
t(n2)
0se( 0)计算两个标准差时用
ˆ2替代2。以斜率系数为例,检验步骤为:
1.提出假设
H0X的变动无法显著地影响Y0:1(X对Y的影响不显著)
X的变动可以显著地影响Y H1:10
(X对Y的影响显著)2.在原假设成立时
ˆ0ˆt1t(n2)
se(1)se(1)
小概率事件可定义为:t1t2(n2)或t1t2(n2),即t1t2(n2)
该小概率事件的概率为
3.判断准则
(n2)小概率事件未发生接受H20(n2)小概率事件发生拒绝H20
补充内容:如何利用概率值Probability进行假设检验?
1.大小对假设检验的影响
(1)越小,表示检验越严格,或者越不容易拒绝原假设;越大,则表
示检验越宽松,或者越容易拒绝原假设。
则在提高,即检验标准放宽后也一定能拒绝原假设。
(2)一个检验若能在较小时拒绝原假设,
2.概率值的定义
概率值是使检验结论为拒绝原假设的的最低水平。即只要实际选择的大于该水平,就可以拒绝原假设;反之,只要只要实际选择的小于该水平,就无法拒绝原 假设。3.判别标准p值 拒绝H0
p值 接受H0
21
4.概率值的优点
(1)无需查临界点表也能得出检验结论;(2)不仅能在固定的水平得出结论,而
且可以得知可以在多严格的条件下得出结论;
第四节 拟合优度的度量
一、总变差(总离差平方和)的分解yiYi
y2
iTSS (Total Sum of Squares)总变差总离差平方和)yˆiYi
yˆ2
iESS (Explained Sum of Squares)解释平方和(回归平方和)代表TSS中可以被模型所解释的部分
eiYiYi
e2
iRSS (Residual Sum of Squares)
残差平方和
代表TSS中无法被模型所解释的部分
二、 三个平方和的数量关系
22
TSS
yi2
ˆiei)2(y
ˆi2ei22yˆiei)(yˆi2yˆi2yˆi2yˆi2yˆi2y
ˆieiei22y
ei22(ˆ1xi)(yiˆ1xi)ei22ˆ1(xiyiˆ1xi2)ei22ˆ1ei2
xiyiˆ1xi2
三、判定系数(可决系数)及其含义
ESSRSS
R1TSSTSS
2
含义:总变差中可以被模型解释的部分所占的比重。(0R1)判定系数高低代表模型解释能力高低。数值越大表明模型的解释能力越强。
若数值为0.86,表示因变量的全部变化中,有86%的变化可以被模型所解释。
四、一元线性回归中判定系数与相关系数的关系
2
2
R2rXY
四、一元回归结果的报告
23
RICEi361.720.13IRRGieise (191.77) (0.08)t (1.89) (1.53)R20.077假设0.05,n30则t0.025(28)2.048
t11.53t0.025(28),接受原假设t01.89t0.025(28),接受原假设两个系数均不是显著地不为零
本章总结:一元线性回归的计算程序
回归系数的估计
________________________________________________________ Xi2
Xi
xixiyixiyixiyiˆˆˆXˆ1Y22i01i2
xYxixiiiˆˆi1xiy yi
ˆˆ10
24
模型拟合优度和整体显著性指标的计算
____________________________________________________________n12yiyi2yi2TSSESS1n(k1)TSS222
ˆˆˆyyyESSRiii2
RSSR12F2eiRSSTSS(1R)n(k1)] 人工计算中的列表方式
_________________________________________________________________ Xi Yi xi yi xi2 yi2 xiyi || ei ei2_________________________________________________________________12
n
_________________________________________________________________总和 Xi2 xi2 yi2 xiyi || ei2平均值
25