统计案例的应用就在身边 224100 江苏省盐城市大丰区南阳中学 潘锦明
统计是与生活关系最为密切的一门学科, 统计知识的学习更侧重于体会, 理解统计学的基本概念、方法、原理及其相应的实际意义,突出了统计中分析处理问题的基本思想方法.同学们只有亲自实践并与实际问题进行对比,才能有深刻而真实的体会.
一.环保问题
例1 有人统计了同一个省的6个城市某一年的人均国内生产总值(即人均GDP )和这一年各城市患白血病的儿童数量,如下表:
(1)画出散点图;
(2)求y 对x 的回归直线方程;
(3)如果这个省的某一城市同时期年人均GDP 为12万元,估计这个城市一年患白血病的儿童数目;
分析:利用公式分别求出b , a 的值,即可确定回归直线方程,然后再进行预测. 解:(1)作x 与y 对应的散点图,如右图所示; (2)计算得x =5. 33, y =226. 17,
∧∧
∑
i =1
6
(x i -x ) (y i -y ) =1286. 67
∑
i =1
6
(x i -x ) 2=55. 33,
∧1286. 67
∴b =≈23. 25,a =226. 17-23. 25⨯5. 33≈102. 25,
55. 33∧
∴y 对x 的回归直线方程是y =23. 25x +102. 25;
∧
∧
∧
人均G
(3)将x =12代入y =23. 25x +102. 25得y =23. 25⨯12+102. 25≈381,估计这个城市一年患白血病的儿童数目约为381.
评注:本题涉及的是一个和我们生活息息相关,也是一个愈来愈严峻的问题——环保问题. 本题告诉了我们一个沉痛的事实:现如今,一个城市愈发达,这个城市患白血病的儿童愈多. 原因在于,城市的经济发展大都以牺牲环境为代价的,经济发展造成了大面积的环境污染,空气、水源中含有的大量的有害物质是导致白血病患者增多的罪魁祸首,所以,我们一定要增强自我保护意识和环境保护意识. 二.互联网问题
例2 寒假中,某同学为组织一次爱心捐款,于2010年2月1日在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:
(1)作出散点图,并猜测x 与y 之间的关系; (2)建立x 与y 的关系,预报回归模型并计算残差;
(3)如果此人打算在2008年2月12日(即帖子传播时间共10天)进行募捐活动,根据上述回归模型,估计可去多少人.
分析:先通过散点图,看二者是否具有线性相关关系,若不具有,可通过相关函数变换,转化为线性相关关系.
解:(1)散点图略. 从散点图可以看出x 与y 不具有线性相关关系,同时可发现样本点分布在某一个指数函数曲线y =ke mx 的周围,其中k 、m 是参数;
(2)对y =ke mx 两边取对数,把指数关系变成线性关系. 令z =ln y ,则变换后的样本点分布在直线z =bx +a (a =ln k , b =m ) 的周围,这样就可以利用线性回归模型来建立x 与y 之间的非线性回归方程了,数据可以转化为:
∧
求得回归直线方程为z =0. 620x +1. 133,
∴y =e 0. 620x +1. 133.
(3)截止到2010年2月12日,x =10,此时y =e 0. 620⨯10+1. 133≈1530(人). ∴估计可去1530人.
评注:现如今是网络时代,很多同学都会通过互联网发帖子,所以此类问题为同学们司空见惯. 但如何预测发帖后的效果,这却是个新课题,通过本题你是否已明确.
例2有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少. 为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70个,外国人的54个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.
(1)根据以上数据建立一个2×2的列联表;
(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?
分析:按题中数据建列联表,然后根据列联表数据求出k 值,即可判定.
解:(1)2×2的列联表
∧
∧
(.
124⨯(43⨯33-27⨯21) 2
≈6. 201, 由表中数据得k =
70⨯54⨯64⨯60
因为k >5. 024,所以有理由认为假设“国籍和邮箱名称里是否含有数字无关”是不合理的,即有97. 5的把握认为“国籍和邮箱名称里是否含有数字有关”.
评注:独立性检验类似于反证法,其一般步骤为:第一步:首先假设两个分类变量几乎没有关系(几乎独立);第二步:求随机变量k 的值;第三步. 判断两个分类变量有关的把握(即概率)有多大. 三.文化生活问题
例4 针对时下的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的欢韩剧人数占女生人数的
11
,男生喜欢韩剧的人数占男生人数的,女生喜26
2
. 3
(1)若有950的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人; (2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人. 分析:有95的把握认为回答结果对错和性别有关,说明k >3. 841,没有充分的证据显示回答结果对错和性别有关,说明k ≤2. 706. 设出男生人数,并用它分别表示各类别人数,代入K 2的计算公式,建立不等式求解即可.
解:
(1)若有95的把握认为回答结果的对错和性别有关,则k >3. 841,
3x 5x x x x 2
(⨯-⨯) 226366=3x >3. 841,解得x >10. 24, 由K =
x x 8x ⋅⋅⋅x 22
∵
x x
则男生至少有12, 为整数,∴若有95的把握认为回答结果的对错和性别有关,
26
人;
(2)没有充分的证据显示回答结果的对错和性别有关,则k ≤2. 706,
3x 5x x x x 2
(⨯-⨯) 226366=3x ≤2. 706,解得x ≤7. 216, 由K =
x x 8x ⋅⋅⋅x 22
∵
x x
, 为整数,∴若没有充分的证据显示回答结果的对错和性别有关,则男生至多有26
6人.
评注:这是一个独立性检验的创新问题,解答时要注意理解“至少”、“至多”的含义. 通过上面几例,大家是否已体会到了回归分析和独立性检验思想方法的应用的广泛性和重要性. 其实,这两种思想方法并不神秘,你身边有很多问题可信手拈来,用它们处理,这一点还请同学们多思考、勤尝试.
统计案例的应用就在身边 224100 江苏省盐城市大丰区南阳中学 潘锦明
统计是与生活关系最为密切的一门学科, 统计知识的学习更侧重于体会, 理解统计学的基本概念、方法、原理及其相应的实际意义,突出了统计中分析处理问题的基本思想方法.同学们只有亲自实践并与实际问题进行对比,才能有深刻而真实的体会.
一.环保问题
例1 有人统计了同一个省的6个城市某一年的人均国内生产总值(即人均GDP )和这一年各城市患白血病的儿童数量,如下表:
(1)画出散点图;
(2)求y 对x 的回归直线方程;
(3)如果这个省的某一城市同时期年人均GDP 为12万元,估计这个城市一年患白血病的儿童数目;
分析:利用公式分别求出b , a 的值,即可确定回归直线方程,然后再进行预测. 解:(1)作x 与y 对应的散点图,如右图所示; (2)计算得x =5. 33, y =226. 17,
∧∧
∑
i =1
6
(x i -x ) (y i -y ) =1286. 67
∑
i =1
6
(x i -x ) 2=55. 33,
∧1286. 67
∴b =≈23. 25,a =226. 17-23. 25⨯5. 33≈102. 25,
55. 33∧
∴y 对x 的回归直线方程是y =23. 25x +102. 25;
∧
∧
∧
人均G
(3)将x =12代入y =23. 25x +102. 25得y =23. 25⨯12+102. 25≈381,估计这个城市一年患白血病的儿童数目约为381.
评注:本题涉及的是一个和我们生活息息相关,也是一个愈来愈严峻的问题——环保问题. 本题告诉了我们一个沉痛的事实:现如今,一个城市愈发达,这个城市患白血病的儿童愈多. 原因在于,城市的经济发展大都以牺牲环境为代价的,经济发展造成了大面积的环境污染,空气、水源中含有的大量的有害物质是导致白血病患者增多的罪魁祸首,所以,我们一定要增强自我保护意识和环境保护意识. 二.互联网问题
例2 寒假中,某同学为组织一次爱心捐款,于2010年2月1日在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:
(1)作出散点图,并猜测x 与y 之间的关系; (2)建立x 与y 的关系,预报回归模型并计算残差;
(3)如果此人打算在2008年2月12日(即帖子传播时间共10天)进行募捐活动,根据上述回归模型,估计可去多少人.
分析:先通过散点图,看二者是否具有线性相关关系,若不具有,可通过相关函数变换,转化为线性相关关系.
解:(1)散点图略. 从散点图可以看出x 与y 不具有线性相关关系,同时可发现样本点分布在某一个指数函数曲线y =ke mx 的周围,其中k 、m 是参数;
(2)对y =ke mx 两边取对数,把指数关系变成线性关系. 令z =ln y ,则变换后的样本点分布在直线z =bx +a (a =ln k , b =m ) 的周围,这样就可以利用线性回归模型来建立x 与y 之间的非线性回归方程了,数据可以转化为:
∧
求得回归直线方程为z =0. 620x +1. 133,
∴y =e 0. 620x +1. 133.
(3)截止到2010年2月12日,x =10,此时y =e 0. 620⨯10+1. 133≈1530(人). ∴估计可去1530人.
评注:现如今是网络时代,很多同学都会通过互联网发帖子,所以此类问题为同学们司空见惯. 但如何预测发帖后的效果,这却是个新课题,通过本题你是否已明确.
例2有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少. 为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70个,外国人的54个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字.
(1)根据以上数据建立一个2×2的列联表;
(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?
分析:按题中数据建列联表,然后根据列联表数据求出k 值,即可判定.
解:(1)2×2的列联表
∧
∧
(.
124⨯(43⨯33-27⨯21) 2
≈6. 201, 由表中数据得k =
70⨯54⨯64⨯60
因为k >5. 024,所以有理由认为假设“国籍和邮箱名称里是否含有数字无关”是不合理的,即有97. 5的把握认为“国籍和邮箱名称里是否含有数字有关”.
评注:独立性检验类似于反证法,其一般步骤为:第一步:首先假设两个分类变量几乎没有关系(几乎独立);第二步:求随机变量k 的值;第三步. 判断两个分类变量有关的把握(即概率)有多大. 三.文化生活问题
例4 针对时下的“韩剧热”,某校团委对“学生性别和是否喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的欢韩剧人数占女生人数的
11
,男生喜欢韩剧的人数占男生人数的,女生喜26
2
. 3
(1)若有950的把握认为是否喜欢韩剧和性别有关,则男生至少有多少人; (2)若没有充分的证据显示是否喜欢韩剧和性别有关,则男生至多有多少人. 分析:有95的把握认为回答结果对错和性别有关,说明k >3. 841,没有充分的证据显示回答结果对错和性别有关,说明k ≤2. 706. 设出男生人数,并用它分别表示各类别人数,代入K 2的计算公式,建立不等式求解即可.
解:
(1)若有95的把握认为回答结果的对错和性别有关,则k >3. 841,
3x 5x x x x 2
(⨯-⨯) 226366=3x >3. 841,解得x >10. 24, 由K =
x x 8x ⋅⋅⋅x 22
∵
x x
则男生至少有12, 为整数,∴若有95的把握认为回答结果的对错和性别有关,
26
人;
(2)没有充分的证据显示回答结果的对错和性别有关,则k ≤2. 706,
3x 5x x x x 2
(⨯-⨯) 226366=3x ≤2. 706,解得x ≤7. 216, 由K =
x x 8x ⋅⋅⋅x 22
∵
x x
, 为整数,∴若没有充分的证据显示回答结果的对错和性别有关,则男生至多有26
6人.
评注:这是一个独立性检验的创新问题,解答时要注意理解“至少”、“至多”的含义. 通过上面几例,大家是否已体会到了回归分析和独立性检验思想方法的应用的广泛性和重要性. 其实,这两种思想方法并不神秘,你身边有很多问题可信手拈来,用它们处理,这一点还请同学们多思考、勤尝试.