统计案例总复习
一.考点分析
1.建立回归直线方程解决预测问题
例1.假设关于某种设备的使用年限x (年)与所支出的维修费用y (万元)有如下统计资料:
x 2
3
4
5
6
y 2.2 3.8 5.5 6.5 7.0
已知
∑x
i =2
6
2i
=90, ∑y =140.8, ∑x i y i =112.3, n -2=3时,r 0.05=0.878
2i i =2
i =2
66
≈≈1.4. )
(1)对x , y 进行相关性检验,如果x 与y 具有相关关系,求出回归直线方程; (2)估计使用年限为10年时,维修费用约是多少?
分析:求出回归方程,将使用年限10代入进行求解维修费用。 解:(1)由题设条件可得=作统计步聚如下:
①作统计假设:x 与y 不具有相关关系; ②n -2=3时,r 0.05=0.878. ③
2+3+4+5+62.2+3.8+5.5+6.5+7.0
=4, ==5.
55
∑x
i =22
i
6
2i
-5⋅=112.3-5⨯4⨯5=12.3,∑x i 2-52=90-5⨯42=10,
i =2
6
∑y
i =2
6
-52=140.8-125=15.8,
12.3
==≈=0.987.
1.4⨯8.9所以r =
④|r |=0.987>0.878,即|r |>r 0.05。
所以有95%的把握认为“x 与y 之间具有线性相关关系”,去求回归直线方程是有意义的。
ˆ=b
∑x y -5⋅i i
i =2
6
∑x
i =2
6
=
2
i
-52
112.3-5⨯4⨯5ˆ=5-1.23⨯4=0.08. ˆ=-=1.23,a 2
90-5⨯4
ˆ=1.23x +0.08. 所以所求的回归直线方程为:y
ˆ=1.23⨯10+0.08=12.38(万元) (2)当x =10时,y
即估计用10年时,维修的费用为12.38万元。
解题指导:在解决具体问题时,要先进行相关性检验,通过检验确认两个变量之间是否具有相关关系。若它们之间具有线性相关关系,再求出直线方程,否则,即使求出回方程也是毫无意义的,而且其估计和预测的量也是不可信的。回归直线方程求解需要复杂的运算,随着新课程标准的继续实施和新课程高考改革的不断深入,考查学生数据处理能力,特别是运用计算器等现代技术工具对进行数据处理的能力,将是改革的方向之一. 2.解答非线性回归问题
试建立y 关于x 的回归方程。
分析:根据表中的数据,作散点图,如图1,易看出样本点不呈带状分布,而是和反比例函数y =
k
(k ≠0) 的图像比较吻合,因此,需要通过转化选择更为合适的模型来做答。 x
解:令
u =1
,由已知数据,可得变换后的样本数据: 作出散点图,如图2所示,可以看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程拟合。计算得u =1. 55,y =7. 2,
∑u
i =1
5
2
i
=21. 3125,∑u i y i =94. 25,
i =1
5
∑u y -5u ⋅y
i i
5
则b=
i =1
∑u
i =1
5
2
i
-5u
2
≈4.13,a =y -b u ≈0. 8,因此y 关于u 的线性回归方程为
^^
y =4. 13u +0. 8,则y 关于x 的非线性回归方程为y =
^
4. 13
+0. 8. x
点评:从该例题我们可以看出:
(1)解决这类问题必须严格按照建立回归模型的基本步骤,这不是因循守旧,墨守成规,而是按部就班,依照规律办事。
(2)一些非线性回归问题可通过变量变换转化为线性回归问题求解。
(3)衡量两个变量是否具有线性相关关系,我们可以通过画散点图或计算相关系数r 来判断。
解题指导:非线性回归问题有时并不直接给出经验公式,此时我们可以由已知的数据画出散点图,并把散点图与我们已经学习的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,然后采用变量的置换,把问题转化成线性回归分析问题,使问题得以解决。
三.独立性检验
根据表中数据判断该药与哪类患者痊愈的相关性的可信度更大?
分析:分别求出两类患者“使用新药与痊愈有关”犯错误的概率,谁的概率小,说明谁使用新药与痊愈相关的可信度大。
180⨯(40⨯30-80⨯30) 2
≈4. 675>3. 841, 解:对于男性患者,有k =
120⨯60⨯70⨯110
因此,在犯错误的概率不超过0.05的前提下,认为使用新药与男性患者痊愈有关。
79⨯(6⨯23-21⨯29) 2
≈8. 106>7. 879. 对于女性患者,有k =
35⨯44⨯27⨯52
因此,在犯错误的概率不超过0.005的前提下,认为使用新药与女性患者痊愈有关。 综上可知,新药与女性患者痊愈的相关性的可信度更大。
解题指导:用独立性检验的知识判定两个变量之间的关系,首先计算出K2的观测值k 的大小,然后将k 的值与临界值k0的大小进行比较,即可得到“判定两个变量有关系犯错误”的概率。
统计案例总复习
一.考点分析
1.建立回归直线方程解决预测问题
例1.假设关于某种设备的使用年限x (年)与所支出的维修费用y (万元)有如下统计资料:
x 2
3
4
5
6
y 2.2 3.8 5.5 6.5 7.0
已知
∑x
i =2
6
2i
=90, ∑y =140.8, ∑x i y i =112.3, n -2=3时,r 0.05=0.878
2i i =2
i =2
66
≈≈1.4. )
(1)对x , y 进行相关性检验,如果x 与y 具有相关关系,求出回归直线方程; (2)估计使用年限为10年时,维修费用约是多少?
分析:求出回归方程,将使用年限10代入进行求解维修费用。 解:(1)由题设条件可得=作统计步聚如下:
①作统计假设:x 与y 不具有相关关系; ②n -2=3时,r 0.05=0.878. ③
2+3+4+5+62.2+3.8+5.5+6.5+7.0
=4, ==5.
55
∑x
i =22
i
6
2i
-5⋅=112.3-5⨯4⨯5=12.3,∑x i 2-52=90-5⨯42=10,
i =2
6
∑y
i =2
6
-52=140.8-125=15.8,
12.3
==≈=0.987.
1.4⨯8.9所以r =
④|r |=0.987>0.878,即|r |>r 0.05。
所以有95%的把握认为“x 与y 之间具有线性相关关系”,去求回归直线方程是有意义的。
ˆ=b
∑x y -5⋅i i
i =2
6
∑x
i =2
6
=
2
i
-52
112.3-5⨯4⨯5ˆ=5-1.23⨯4=0.08. ˆ=-=1.23,a 2
90-5⨯4
ˆ=1.23x +0.08. 所以所求的回归直线方程为:y
ˆ=1.23⨯10+0.08=12.38(万元) (2)当x =10时,y
即估计用10年时,维修的费用为12.38万元。
解题指导:在解决具体问题时,要先进行相关性检验,通过检验确认两个变量之间是否具有相关关系。若它们之间具有线性相关关系,再求出直线方程,否则,即使求出回方程也是毫无意义的,而且其估计和预测的量也是不可信的。回归直线方程求解需要复杂的运算,随着新课程标准的继续实施和新课程高考改革的不断深入,考查学生数据处理能力,特别是运用计算器等现代技术工具对进行数据处理的能力,将是改革的方向之一. 2.解答非线性回归问题
试建立y 关于x 的回归方程。
分析:根据表中的数据,作散点图,如图1,易看出样本点不呈带状分布,而是和反比例函数y =
k
(k ≠0) 的图像比较吻合,因此,需要通过转化选择更为合适的模型来做答。 x
解:令
u =1
,由已知数据,可得变换后的样本数据: 作出散点图,如图2所示,可以看出,变换后的样本点分布在一条直线的附近,因此可以用线性回归方程拟合。计算得u =1. 55,y =7. 2,
∑u
i =1
5
2
i
=21. 3125,∑u i y i =94. 25,
i =1
5
∑u y -5u ⋅y
i i
5
则b=
i =1
∑u
i =1
5
2
i
-5u
2
≈4.13,a =y -b u ≈0. 8,因此y 关于u 的线性回归方程为
^^
y =4. 13u +0. 8,则y 关于x 的非线性回归方程为y =
^
4. 13
+0. 8. x
点评:从该例题我们可以看出:
(1)解决这类问题必须严格按照建立回归模型的基本步骤,这不是因循守旧,墨守成规,而是按部就班,依照规律办事。
(2)一些非线性回归问题可通过变量变换转化为线性回归问题求解。
(3)衡量两个变量是否具有线性相关关系,我们可以通过画散点图或计算相关系数r 来判断。
解题指导:非线性回归问题有时并不直接给出经验公式,此时我们可以由已知的数据画出散点图,并把散点图与我们已经学习的各种函数,如幂函数、指数函数、对数函数、二次函数等作比较,然后采用变量的置换,把问题转化成线性回归分析问题,使问题得以解决。
三.独立性检验
根据表中数据判断该药与哪类患者痊愈的相关性的可信度更大?
分析:分别求出两类患者“使用新药与痊愈有关”犯错误的概率,谁的概率小,说明谁使用新药与痊愈相关的可信度大。
180⨯(40⨯30-80⨯30) 2
≈4. 675>3. 841, 解:对于男性患者,有k =
120⨯60⨯70⨯110
因此,在犯错误的概率不超过0.05的前提下,认为使用新药与男性患者痊愈有关。
79⨯(6⨯23-21⨯29) 2
≈8. 106>7. 879. 对于女性患者,有k =
35⨯44⨯27⨯52
因此,在犯错误的概率不超过0.005的前提下,认为使用新药与女性患者痊愈有关。 综上可知,新药与女性患者痊愈的相关性的可信度更大。
解题指导:用独立性检验的知识判定两个变量之间的关系,首先计算出K2的观测值k 的大小,然后将k 的值与临界值k0的大小进行比较,即可得到“判定两个变量有关系犯错误”的概率。