§2 统计
◆ 基本定义:
(1)总体:在统计中, 所有考查对象的全体叫做全体.
(2) 个体:在所有考查对象中的每一个考查对象都叫做个体. (3) 样本:从总体中抽取的一部分个体叫做总体的样本. (4) 样本容量:样本中个体的数目叫做样本容量.
抽样方法:
(1)简单随机抽样(simple random sampling ):设一个总体的个数为N. 如果通过逐个抽取的方法从中抽取一个样本, 且每次抽取时每个个体被抽到的概率相等, 就称这样的抽样为简单的随机抽样, 简单随机抽样常用的方法有抽签法和随机数表法. (关于制签和随机数表的制作,请参照课本第41页)
(2)系统抽样(systematic sampling):将总体平均分成几个部分,然后按照一定的规则,从每一部分抽取一个个体作为样本。先用随机的方法将总体进行编号,如果N 不能被n 整除就从中用随机数表法剔除几个个体,使得能整除,然后分组,一般是样本容量是多少,就分几组,间隔k =
N
,然后从第一组中用简单实际抽样的方法抽取一个个体,假设编号为 l ,n
然后就可以将编号为
l , l +k , l +2k +... +l +(n -1)k 的个体抽出作为样本,实际就是从每一组抽取与第一组相
同编号的个体。
(3)分层抽样(stratifed sampling):当已知总体是由有差异明显的几部分组成时,常将总体分成几部分,然后按各部分所占的比例进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层.
样本容量越大,估计越精确!
颜老师友情提醒:1. 把每一种抽样的具体步骤看清楚,要求会写过程
2. 个体数N 的总体中抽取一个样本容量为n 的样本,那么在整个抽样过程中每个个体被抽到的概率都相等,且等于
n
. 其实三种抽样的每一个个体都是等几率的被抽到的 N
3. 三种抽样都是不放回的抽样 4. 在具体问题中对于样本,总体,个体应该时代单位的, 如考察一个班级的学生的视力状况,从中抽取20个同学,则个体应该是20名同学的视力,而不是20名同学,样本容量则为20,同样的总体也是全班级同学的视力
两种抽样方法的区别与联系:
★ 典型例题剖析:
例1、一个总体含有6个个体,从中抽取一个样本容量为2的样本,说明为什么在整个抽样过程中每个个体被抽到的概率相等.
解:设任意一个个体为α,那么个体α被抽到分两种情况:
(1)第一次被抽到:根据等可能事件概率得P 1=
1, 6
(2)第二次被抽到:即是个体α第一次没被抽到、第二次被抽到这两件事都发生.
51, 个体α第一次没被抽第二次被抽到的概率是. 65
5
根据相互独立事件同时发生的概率公式, 个体α第二次被抽到的概率是P 2=×
6
11
=.(也可这样分析:根据等可能事件的概率求得,一共取了两次,根据分步原理所有可56
个体α第一次没被抽到的概率是
能结果为6×5=30,个体α第一次没被抽到第二次被抽到这个随机事件所含的可能结果为5×1=5,所以个体α第二次被抽到的概率是P 2=
51=) 306
个体α在第一次被抽到与在第二次被抽到是互斥事件, 根据互斥事件的概率加法公式, 在先后抽取2个个体的过程中, 个体α被抽到的概率P= P1+ P2=
111+=. 663
1) 3
1, “任N
由个体α的任意性, 说明在抽样过程中每个个体被抽到的概率都相等(都等于
点评:注意区分“任一个个体α每次抽取时被抽到的概率”与“任一个个体α在整个抽样过程中个体α被抽到的概率”的区别, 一般地, 如果用简单随机抽样从个体数为N 的总体中抽取一个容量为n 的样本, 那么“任一个个体α每次抽取时被抽到的概率”都相等且等于一个个体α在整个抽样过程中被抽到的概率”为
n . N
例2、(1)在120个零件中,一级品24个,二级品36个,三级品60个,从中抽取一个容量为20的一个样本,
求 ① 每个个体被抽到的概率,
② 若有简单随机抽样方法抽取时,其中个体α第15次被抽到的的概率, ③ 若用分层抽抽样样方法抽取时其中一级品中的每个个体被抽到的概率.
解:① 因为总体个数为120,样本容量为20,则每个个体被抽到的概率P 1= ② 因为总体个数为120,则体α第15次被抽到的的概率P 2= ③ 用分层抽样方法:按比例
201
= 1206
1 120
2011=分别在一级品、二级品、三级品中抽取24×=412066
1141
个,36×=6个,60×=10,所以一级品中的每个个体被抽到的概率为P 3==.
66246
1
注:其实用分层抽样方法抽取时二级品、三级品中每个体被抽到的概率也都为.
6
点评:本题说明两种抽样方法都能保证在抽样过程中,每个个体被抽到的概率都相等. 且为
n . N
例3、某地区有3000人参加今年的高考,现从中抽取一个样本对他们进行分析,每个
考生被抽到的概率为
1
,求这个样本容量. 10
n 1
解:设样本容量为n ,则=,所以n=300.
300010
n
这一结论的逆用. N
点评:“在整个抽样过程中个体α被抽到的概率”为
例4、下列抽取样本的方式是否属于简单随机抽样? 说明理由. (1) 从无限多个个体中抽取50个个体作样本.
(2) 盒子里共有100个零件, 从中选出5个零件进行质量检验. 在抽样操作时, 从中任意拿出一个零件进行质量检验后再把它放回盒子里.
解:(1) 不是简单随机抽样. 由于被抽取样本的总体个数是无限的.
(2) 不是简单随机抽样. 由于不符合“逐个抽取”的原则, 且抽出的结果可能是只有一个零件重复出现.
点评:简单随机抽样的特点:
(1) 它要求被抽取样本的总体个数是有限的. (2) 它是从总体中逐个地进行抽取. (3) 它是一种不放回抽样.
例5、 某校有学生1200人, 为了调查午休对学习成绩的影响情况, 计划抽取一个样本容量为60的样本, 问此样本若采用简单随机抽样将如何进行?
解:可用两种方法: 方法一:(抽签法)
(1)编号: 将1200名学生进行随机编号为1,2, …,1200,(可按学生的学号或按学生的生日进行编号).
(2)制签:做1200个大小、形状相同的号签,分别写上这1200个数,放在个容器里,并进行均匀搅拌.
(3)逐个抽取:连续抽取60个号签,号签对应的同学即为样本. 方法二:(随机数表法)
(1)编号: 将1200名学生进行编号分别为0000,0001,…, 1199,
(2)选数:在课本附表1随机数表中任选一个数作为开始.(如从第11行第7列的数9开始)
(3) 读数:从选定的数开始向右(或向上、向下、向左)读下去,选取介于范围的号码,直到满60个号码为止.
(4) 抽取:抽取与读出的号码相对应的学生进行分析.
点评:抽签法和随机数表法是常见的两种简单随机抽样方法,本问题显然用随机数表法更方便一些,因为总体个数较多. 另外随机数表法编号时, 位数要一样, 首数确定后, 可向左、向右、向上、向下各个确定的方向进行抽取.
例6、某工厂中共有职工3000人, 其中, 中、青、老职工的比例为5∶3∶2,从所有职工中抽取一个样本容量为400的样本,应采取哪种抽样方法较合理?且中、青、老年职工应分别抽取多少人?
解:采用分层抽抽样样方法较为合理. 由样本容量为400, 中、青、老职工的比例为5∶3∶2, 所以应抽取中年职工为400×应抽取青年职工为400×
53
=200人, 应抽取青年职工为400×=120人, 1010
2
=80人. 10
例6. 见课本P 43例1.
点评:因为总体由三类差异较明显的个体构成,所以应采用分层抽抽样样方法进行抽取.
总体分布的估计
ⅰ. 频率分布表:见课本第51页: ★ 例1
1. 注意全距,组距的确定。一般是先查出最大值,最小值,其差值取适当的量作为全距,正常情况下分为十组左右,组距=
全距
,也就是合理分组 组数
2. 分组的时候一般取左闭右开区间,最后一个区间取闭区间,然后填写分组、频数、频率、合计
3. 如果全距不利于分组(如不能被组数整除)就可适当的增大全距,即在左右两端增加相同的量
4. 分组过少,总体的特征不明显;分组过多,总体特征不利于比较
ⅱ. 频率分布直方图:1. 横轴表示数据的内容,每一线段表示一个组的组距,注意横轴要
有单位
2. 纵轴表示的是:
频率
3.每个小矩形的面积都是该组所对应的频率 组距
ⅲ. 频率分布折线图: 1. 由频率分布直方图直接得到,取值区间的两端点分别向外延伸
半个组距并取此组距上再x 轴上的点,然后顺次连接直方图中每一个小矩形上底边的中点,形成折线图 2.当样本容量足够大,分组的组距取得足够小时,折线图取与一条平滑的曲线,称这条曲线为总体分布的密度曲线,而且曲线与横轴围成的面积为1 3. 在总体密度曲线中,总体在区间(a,b )内取值的可能性就是直线x=a , x=b , y=0 和总体密度曲线围成的面积 4. 累计频率分布曲线上任意一点 P (a , b ) 的纵坐标标b 表示的连续型总体,取小于等于 a 的值的可能性
ⅳ. 三者的特点
频率分布表:数据翔实、具体、清晰明了,便于查阅 频率分布直方图:形象直观,对比效果强烈 频率分布折线图:能够反映变化趋势
ⅴ. 茎叶图的特点: 优点——简单易行,杂乱的数据在用茎叶图表示后能直观地反映出数
据的水平状况、稳定程度;所有的数据都可以在茎叶图中找到. 缺点——分析只是粗略的,对差异不大的两组数据不易分析,另外,对位数较多的数据不易操作,数据较多时效果不是很好.
注意点: 1. 对重复出现的数据要重复记录,不能遗漏 2. 茎要从小到大自上而下的排
列,中间用一条竖线隔开 3. 叶也要按照从小到大的顺序排列,对于两组数据的可以用两条竖线把茎和叶隔开,左边的叶最好按照从大到小的顺序排列,右边的叶按照从小到大的顺序排列 4. 茎叶图一般在衡量一位或者两位运动员在比赛时的得分情况
( 例题见课本 P 58 )
总体特征数的估计
反映总体某种特征的量较总体特征数,比如平均数、中位数、方差、众数等
a 1+a 2+. . +. a n 1n
ⅰ. 平均数(average ) 或均值(mean ): a ==∑a i
n n i =1
其原理:最小二乘法 ——设与实验数据近似的值为 x 则它与这n 个实验数据的离差为x -a 1 , x -a 2 , x -a 3 , ..., x -a n 由于上面的离差有正有负,故不易直接相加,就考虑离差的平方和f (x )=(x -a 1) +(x -a 2)+... +(x -a n )
2
2
2
=nx 2-2(a 1+a 2+... +a n )x +a 1+a 2+... +a n
2
2
a 1+a 2+... +a n 1n
所以当x =离差的平方和的函数取得最小,误差也就最小,=∑a i 时,
n n i =1
故而用
a 1+a 2+... +a n
作为这组数据的理想近似值.
n
ⅱ. 平均数的求法: 题目类型有离散型和连续型两种情况
①
x 1+x 2+... +x n 1n x ==∑x i
n n i =1
n
②加权平均数:
x =x 1p 1+x 2p 2+... +x n p n =∑x i p i
i =1
(其中p 1 , p 2 , ... ,这里也是为我们今后将要学习 , p i 为x 1 , x2 , ... , xi 对应的频率)的数学期望作铺垫
见课本 例2 P 64-65 注:特别地,对于连续型的随机变量在分好组后,其
x 1 , x2 , ... , xi 应该取每一组的组中值近似的表示
1n 2
ⅲ. 样本方差(variance ): s =∑x i -x
n i =1
()
2
=[(x 1-x ) +(x 2-x ) +(x 3-x ) +
21n
样本标准差(standard deviation):s = x -x ∑i
n i =1
1n
222
+(x n -x ) 2]
()
说明:1. 平均数、中位数、众数是描述数据集中趋势的统计量
2. 方差、标准差是反映一组数据波动大小或稳定程度或各个数据与平均数的离
散程度的统计量,记住它们的表达形式,在选择题中常出现关于它们的判断
21n 2
3. 一个重要结论:s =∑x i -x
n i =1
2
4. 方差与越大,稳定性越差
5. 关于它们的运算,分连续型和离散型两种情况,见课本 P 67-68 对于离
散型的随机变量也要注意选择组中值
例题:从两块玉米地里各抽取10株玉米苗,分别测得它们的株高如下(单位:cm ):
甲:25 41 40 37 22 14 19 39 21 42 乙:27 16 44 27 44 16 40 40 16 40 根据以上数据回答下面的问题: (1)哪种玉米苗长得高? (2)哪种玉米苗长得齐?
[分析] :看哪种玉米苗长得高,只要比较甲乙两种玉米苗的平均高度即可;要比较哪种玉米苗长得齐,只要比较哪种玉米苗高的方差即可,方差越小,越整齐,因为方差反映的是一组数据的稳定程度
1
(25+41+40+37+22+14+19+39+21+42)=30(cm )10
解:(1)
1
x 乙=(27+16+44+27+44+16+40+40+16+40)=31(cm )
10
x 甲=
x 甲
2
)
222222
⎡()()()()()()25-30+41-30+40-30+37-30+22-30+14-30+⎤12
s 甲=⎢⎥2222
10⎢()()()()19-30+39-30+21-30+42-30⎥⎣⎦
=104. 2cm 2
2
s 乙=
()
12222
2⨯(27-31)+3⨯(16-31)+3⨯(40-31)+2⨯(44-31)=128. 8cm 2 10
[]
()
22 x 甲
评: 1. 特别注意本题中的两问的说法的不同,所以算法就不同2. 一般的说哪组数据齐、
稳定、波动情况等都是通过方差来判断
, xn 的平均数为x 方差为s 2 标准差ⅳ. 几个重要的结论:对于一组数据x 1 , x2 , ...
为s
① 若x i , (i =1, 2 , ... , n ) 都增加a ,则平均数为 x +a 方差为 s 标准差为 s
2
也可以这样解释:同时增加a ,也就是相当数据平移了,不会改变数据的波动程度,所以
方差和标准差都不会变. ②若x i , (i =1, 2 , ... , n ) 都递增a %,则平均数为 (1+a %x 方差为 (1+a %)s 2 标
2
准差为 (1+a %)s
③若x i , (i =1, 2 , ... , n ) 都变为原来的a 倍,则平均数为 a x 方差为 a s 标准差为
2
2
as
例题: 已知x 1 , x2 , ... , xn 的方差为2,则2x 1+3 , 2x 2+3 , ... , 2x n +3 的标准差为 ?
解法1:(公式推导法)
(2x +3)+(2x 2+3)+... +(2x n +3)x 1+x 2+... +x n
=x ∴1=2x +3
n n
1n
∴方差=∑(2x i +3)-2x +3
6i =1
(())
2
1n
=4⨯∑x i -x =4⨯s 2=4⨯2=8
6i =1
()
2
∴标准差=22
解法2:(推理法)
因为数据的每一项都是先2倍后加上3,而加上3对方差没有影响,2倍后则
方差变为原来的4倍,即方差标为8 ,则标准差为 22.
线性回归方程
ⅰ. 变量之间的关系:① 确定的函数关系 ② 相关关系(有一定的关系,但不能用函数表达出来)
ⅱ. 对于一组数据探讨它们满足的关系,可以先画出散点图,看它们的大致趋势,然后选择一种函数进行数据拟合,电脑和计算器一般给出6种拟合函数,也就是说对于一组数据可以用各种函数模型来拟合,只不过拟合度不同而已,当拟合度R 越接近于1则拟合得越好,本教材之研究线性拟合,也就是求线性回归方程 ⅲ. 线性回归分析:理论依据——最小二乘法 见课本 P 72 ⅳ. 设线性回归方程为 y =bx +a ,关键在于求a , b
2
⎡n ⎤⎡n ⎤
n ∑x i y i -⎢∑x i ⎥⎢∑y i ⎥i =1⎣i =1⎦⎣i =1⎦=
b =2n n
⎡⎤2
n ∑x i -⎢∑x i ⎥i =1⎣i =1⎦
n
∑x
i =1
n i =1
n
i
y i -n x y
=
2i
∑(x
i =1
n
n
i
-x y i -y
i
)()
∑x
-n x 2
∑(x
i =1
-x
)
2
a =y -b x
ⅴ. 相关系数: r =
∑x y
i i =1
n
i
-n x y
称为y 与x 的样本相关系数
n
n 2⎫22⎫⎛ ∑x i -n x ⎪ ∑y i -n y 2⎪⎝i =1⎭⎝i =1⎭
当 r >0时, 正相关 ; 当r
r 越接近于0线性相关程度越低
ⅵ. 颜老师说明:
1. 由于公式的复杂,数据有的也较多,所以在具体做题目时可以列出表格来,对应填进去,然后用公式计算,这样就不会产生慌乱的感觉
2. 做题目时要细心,不要乱,在我们高一阶段一般只给出5~6组数据,算起来已经不是很难了
3. 当然这种拟合(我们主要学习线性拟合——就是求线性回归方程)在电脑里都可作出来图像来,而且求出相应的拟合度,有兴趣的同学可以在Excel 软件里试一试
§2 统计
◆ 基本定义:
(1)总体:在统计中, 所有考查对象的全体叫做全体.
(2) 个体:在所有考查对象中的每一个考查对象都叫做个体. (3) 样本:从总体中抽取的一部分个体叫做总体的样本. (4) 样本容量:样本中个体的数目叫做样本容量.
抽样方法:
(1)简单随机抽样(simple random sampling ):设一个总体的个数为N. 如果通过逐个抽取的方法从中抽取一个样本, 且每次抽取时每个个体被抽到的概率相等, 就称这样的抽样为简单的随机抽样, 简单随机抽样常用的方法有抽签法和随机数表法. (关于制签和随机数表的制作,请参照课本第41页)
(2)系统抽样(systematic sampling):将总体平均分成几个部分,然后按照一定的规则,从每一部分抽取一个个体作为样本。先用随机的方法将总体进行编号,如果N 不能被n 整除就从中用随机数表法剔除几个个体,使得能整除,然后分组,一般是样本容量是多少,就分几组,间隔k =
N
,然后从第一组中用简单实际抽样的方法抽取一个个体,假设编号为 l ,n
然后就可以将编号为
l , l +k , l +2k +... +l +(n -1)k 的个体抽出作为样本,实际就是从每一组抽取与第一组相
同编号的个体。
(3)分层抽样(stratifed sampling):当已知总体是由有差异明显的几部分组成时,常将总体分成几部分,然后按各部分所占的比例进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫做层.
样本容量越大,估计越精确!
颜老师友情提醒:1. 把每一种抽样的具体步骤看清楚,要求会写过程
2. 个体数N 的总体中抽取一个样本容量为n 的样本,那么在整个抽样过程中每个个体被抽到的概率都相等,且等于
n
. 其实三种抽样的每一个个体都是等几率的被抽到的 N
3. 三种抽样都是不放回的抽样 4. 在具体问题中对于样本,总体,个体应该时代单位的, 如考察一个班级的学生的视力状况,从中抽取20个同学,则个体应该是20名同学的视力,而不是20名同学,样本容量则为20,同样的总体也是全班级同学的视力
两种抽样方法的区别与联系:
★ 典型例题剖析:
例1、一个总体含有6个个体,从中抽取一个样本容量为2的样本,说明为什么在整个抽样过程中每个个体被抽到的概率相等.
解:设任意一个个体为α,那么个体α被抽到分两种情况:
(1)第一次被抽到:根据等可能事件概率得P 1=
1, 6
(2)第二次被抽到:即是个体α第一次没被抽到、第二次被抽到这两件事都发生.
51, 个体α第一次没被抽第二次被抽到的概率是. 65
5
根据相互独立事件同时发生的概率公式, 个体α第二次被抽到的概率是P 2=×
6
11
=.(也可这样分析:根据等可能事件的概率求得,一共取了两次,根据分步原理所有可56
个体α第一次没被抽到的概率是
能结果为6×5=30,个体α第一次没被抽到第二次被抽到这个随机事件所含的可能结果为5×1=5,所以个体α第二次被抽到的概率是P 2=
51=) 306
个体α在第一次被抽到与在第二次被抽到是互斥事件, 根据互斥事件的概率加法公式, 在先后抽取2个个体的过程中, 个体α被抽到的概率P= P1+ P2=
111+=. 663
1) 3
1, “任N
由个体α的任意性, 说明在抽样过程中每个个体被抽到的概率都相等(都等于
点评:注意区分“任一个个体α每次抽取时被抽到的概率”与“任一个个体α在整个抽样过程中个体α被抽到的概率”的区别, 一般地, 如果用简单随机抽样从个体数为N 的总体中抽取一个容量为n 的样本, 那么“任一个个体α每次抽取时被抽到的概率”都相等且等于一个个体α在整个抽样过程中被抽到的概率”为
n . N
例2、(1)在120个零件中,一级品24个,二级品36个,三级品60个,从中抽取一个容量为20的一个样本,
求 ① 每个个体被抽到的概率,
② 若有简单随机抽样方法抽取时,其中个体α第15次被抽到的的概率, ③ 若用分层抽抽样样方法抽取时其中一级品中的每个个体被抽到的概率.
解:① 因为总体个数为120,样本容量为20,则每个个体被抽到的概率P 1= ② 因为总体个数为120,则体α第15次被抽到的的概率P 2= ③ 用分层抽样方法:按比例
201
= 1206
1 120
2011=分别在一级品、二级品、三级品中抽取24×=412066
1141
个,36×=6个,60×=10,所以一级品中的每个个体被抽到的概率为P 3==.
66246
1
注:其实用分层抽样方法抽取时二级品、三级品中每个体被抽到的概率也都为.
6
点评:本题说明两种抽样方法都能保证在抽样过程中,每个个体被抽到的概率都相等. 且为
n . N
例3、某地区有3000人参加今年的高考,现从中抽取一个样本对他们进行分析,每个
考生被抽到的概率为
1
,求这个样本容量. 10
n 1
解:设样本容量为n ,则=,所以n=300.
300010
n
这一结论的逆用. N
点评:“在整个抽样过程中个体α被抽到的概率”为
例4、下列抽取样本的方式是否属于简单随机抽样? 说明理由. (1) 从无限多个个体中抽取50个个体作样本.
(2) 盒子里共有100个零件, 从中选出5个零件进行质量检验. 在抽样操作时, 从中任意拿出一个零件进行质量检验后再把它放回盒子里.
解:(1) 不是简单随机抽样. 由于被抽取样本的总体个数是无限的.
(2) 不是简单随机抽样. 由于不符合“逐个抽取”的原则, 且抽出的结果可能是只有一个零件重复出现.
点评:简单随机抽样的特点:
(1) 它要求被抽取样本的总体个数是有限的. (2) 它是从总体中逐个地进行抽取. (3) 它是一种不放回抽样.
例5、 某校有学生1200人, 为了调查午休对学习成绩的影响情况, 计划抽取一个样本容量为60的样本, 问此样本若采用简单随机抽样将如何进行?
解:可用两种方法: 方法一:(抽签法)
(1)编号: 将1200名学生进行随机编号为1,2, …,1200,(可按学生的学号或按学生的生日进行编号).
(2)制签:做1200个大小、形状相同的号签,分别写上这1200个数,放在个容器里,并进行均匀搅拌.
(3)逐个抽取:连续抽取60个号签,号签对应的同学即为样本. 方法二:(随机数表法)
(1)编号: 将1200名学生进行编号分别为0000,0001,…, 1199,
(2)选数:在课本附表1随机数表中任选一个数作为开始.(如从第11行第7列的数9开始)
(3) 读数:从选定的数开始向右(或向上、向下、向左)读下去,选取介于范围的号码,直到满60个号码为止.
(4) 抽取:抽取与读出的号码相对应的学生进行分析.
点评:抽签法和随机数表法是常见的两种简单随机抽样方法,本问题显然用随机数表法更方便一些,因为总体个数较多. 另外随机数表法编号时, 位数要一样, 首数确定后, 可向左、向右、向上、向下各个确定的方向进行抽取.
例6、某工厂中共有职工3000人, 其中, 中、青、老职工的比例为5∶3∶2,从所有职工中抽取一个样本容量为400的样本,应采取哪种抽样方法较合理?且中、青、老年职工应分别抽取多少人?
解:采用分层抽抽样样方法较为合理. 由样本容量为400, 中、青、老职工的比例为5∶3∶2, 所以应抽取中年职工为400×应抽取青年职工为400×
53
=200人, 应抽取青年职工为400×=120人, 1010
2
=80人. 10
例6. 见课本P 43例1.
点评:因为总体由三类差异较明显的个体构成,所以应采用分层抽抽样样方法进行抽取.
总体分布的估计
ⅰ. 频率分布表:见课本第51页: ★ 例1
1. 注意全距,组距的确定。一般是先查出最大值,最小值,其差值取适当的量作为全距,正常情况下分为十组左右,组距=
全距
,也就是合理分组 组数
2. 分组的时候一般取左闭右开区间,最后一个区间取闭区间,然后填写分组、频数、频率、合计
3. 如果全距不利于分组(如不能被组数整除)就可适当的增大全距,即在左右两端增加相同的量
4. 分组过少,总体的特征不明显;分组过多,总体特征不利于比较
ⅱ. 频率分布直方图:1. 横轴表示数据的内容,每一线段表示一个组的组距,注意横轴要
有单位
2. 纵轴表示的是:
频率
3.每个小矩形的面积都是该组所对应的频率 组距
ⅲ. 频率分布折线图: 1. 由频率分布直方图直接得到,取值区间的两端点分别向外延伸
半个组距并取此组距上再x 轴上的点,然后顺次连接直方图中每一个小矩形上底边的中点,形成折线图 2.当样本容量足够大,分组的组距取得足够小时,折线图取与一条平滑的曲线,称这条曲线为总体分布的密度曲线,而且曲线与横轴围成的面积为1 3. 在总体密度曲线中,总体在区间(a,b )内取值的可能性就是直线x=a , x=b , y=0 和总体密度曲线围成的面积 4. 累计频率分布曲线上任意一点 P (a , b ) 的纵坐标标b 表示的连续型总体,取小于等于 a 的值的可能性
ⅳ. 三者的特点
频率分布表:数据翔实、具体、清晰明了,便于查阅 频率分布直方图:形象直观,对比效果强烈 频率分布折线图:能够反映变化趋势
ⅴ. 茎叶图的特点: 优点——简单易行,杂乱的数据在用茎叶图表示后能直观地反映出数
据的水平状况、稳定程度;所有的数据都可以在茎叶图中找到. 缺点——分析只是粗略的,对差异不大的两组数据不易分析,另外,对位数较多的数据不易操作,数据较多时效果不是很好.
注意点: 1. 对重复出现的数据要重复记录,不能遗漏 2. 茎要从小到大自上而下的排
列,中间用一条竖线隔开 3. 叶也要按照从小到大的顺序排列,对于两组数据的可以用两条竖线把茎和叶隔开,左边的叶最好按照从大到小的顺序排列,右边的叶按照从小到大的顺序排列 4. 茎叶图一般在衡量一位或者两位运动员在比赛时的得分情况
( 例题见课本 P 58 )
总体特征数的估计
反映总体某种特征的量较总体特征数,比如平均数、中位数、方差、众数等
a 1+a 2+. . +. a n 1n
ⅰ. 平均数(average ) 或均值(mean ): a ==∑a i
n n i =1
其原理:最小二乘法 ——设与实验数据近似的值为 x 则它与这n 个实验数据的离差为x -a 1 , x -a 2 , x -a 3 , ..., x -a n 由于上面的离差有正有负,故不易直接相加,就考虑离差的平方和f (x )=(x -a 1) +(x -a 2)+... +(x -a n )
2
2
2
=nx 2-2(a 1+a 2+... +a n )x +a 1+a 2+... +a n
2
2
a 1+a 2+... +a n 1n
所以当x =离差的平方和的函数取得最小,误差也就最小,=∑a i 时,
n n i =1
故而用
a 1+a 2+... +a n
作为这组数据的理想近似值.
n
ⅱ. 平均数的求法: 题目类型有离散型和连续型两种情况
①
x 1+x 2+... +x n 1n x ==∑x i
n n i =1
n
②加权平均数:
x =x 1p 1+x 2p 2+... +x n p n =∑x i p i
i =1
(其中p 1 , p 2 , ... ,这里也是为我们今后将要学习 , p i 为x 1 , x2 , ... , xi 对应的频率)的数学期望作铺垫
见课本 例2 P 64-65 注:特别地,对于连续型的随机变量在分好组后,其
x 1 , x2 , ... , xi 应该取每一组的组中值近似的表示
1n 2
ⅲ. 样本方差(variance ): s =∑x i -x
n i =1
()
2
=[(x 1-x ) +(x 2-x ) +(x 3-x ) +
21n
样本标准差(standard deviation):s = x -x ∑i
n i =1
1n
222
+(x n -x ) 2]
()
说明:1. 平均数、中位数、众数是描述数据集中趋势的统计量
2. 方差、标准差是反映一组数据波动大小或稳定程度或各个数据与平均数的离
散程度的统计量,记住它们的表达形式,在选择题中常出现关于它们的判断
21n 2
3. 一个重要结论:s =∑x i -x
n i =1
2
4. 方差与越大,稳定性越差
5. 关于它们的运算,分连续型和离散型两种情况,见课本 P 67-68 对于离
散型的随机变量也要注意选择组中值
例题:从两块玉米地里各抽取10株玉米苗,分别测得它们的株高如下(单位:cm ):
甲:25 41 40 37 22 14 19 39 21 42 乙:27 16 44 27 44 16 40 40 16 40 根据以上数据回答下面的问题: (1)哪种玉米苗长得高? (2)哪种玉米苗长得齐?
[分析] :看哪种玉米苗长得高,只要比较甲乙两种玉米苗的平均高度即可;要比较哪种玉米苗长得齐,只要比较哪种玉米苗高的方差即可,方差越小,越整齐,因为方差反映的是一组数据的稳定程度
1
(25+41+40+37+22+14+19+39+21+42)=30(cm )10
解:(1)
1
x 乙=(27+16+44+27+44+16+40+40+16+40)=31(cm )
10
x 甲=
x 甲
2
)
222222
⎡()()()()()()25-30+41-30+40-30+37-30+22-30+14-30+⎤12
s 甲=⎢⎥2222
10⎢()()()()19-30+39-30+21-30+42-30⎥⎣⎦
=104. 2cm 2
2
s 乙=
()
12222
2⨯(27-31)+3⨯(16-31)+3⨯(40-31)+2⨯(44-31)=128. 8cm 2 10
[]
()
22 x 甲
评: 1. 特别注意本题中的两问的说法的不同,所以算法就不同2. 一般的说哪组数据齐、
稳定、波动情况等都是通过方差来判断
, xn 的平均数为x 方差为s 2 标准差ⅳ. 几个重要的结论:对于一组数据x 1 , x2 , ...
为s
① 若x i , (i =1, 2 , ... , n ) 都增加a ,则平均数为 x +a 方差为 s 标准差为 s
2
也可以这样解释:同时增加a ,也就是相当数据平移了,不会改变数据的波动程度,所以
方差和标准差都不会变. ②若x i , (i =1, 2 , ... , n ) 都递增a %,则平均数为 (1+a %x 方差为 (1+a %)s 2 标
2
准差为 (1+a %)s
③若x i , (i =1, 2 , ... , n ) 都变为原来的a 倍,则平均数为 a x 方差为 a s 标准差为
2
2
as
例题: 已知x 1 , x2 , ... , xn 的方差为2,则2x 1+3 , 2x 2+3 , ... , 2x n +3 的标准差为 ?
解法1:(公式推导法)
(2x +3)+(2x 2+3)+... +(2x n +3)x 1+x 2+... +x n
=x ∴1=2x +3
n n
1n
∴方差=∑(2x i +3)-2x +3
6i =1
(())
2
1n
=4⨯∑x i -x =4⨯s 2=4⨯2=8
6i =1
()
2
∴标准差=22
解法2:(推理法)
因为数据的每一项都是先2倍后加上3,而加上3对方差没有影响,2倍后则
方差变为原来的4倍,即方差标为8 ,则标准差为 22.
线性回归方程
ⅰ. 变量之间的关系:① 确定的函数关系 ② 相关关系(有一定的关系,但不能用函数表达出来)
ⅱ. 对于一组数据探讨它们满足的关系,可以先画出散点图,看它们的大致趋势,然后选择一种函数进行数据拟合,电脑和计算器一般给出6种拟合函数,也就是说对于一组数据可以用各种函数模型来拟合,只不过拟合度不同而已,当拟合度R 越接近于1则拟合得越好,本教材之研究线性拟合,也就是求线性回归方程 ⅲ. 线性回归分析:理论依据——最小二乘法 见课本 P 72 ⅳ. 设线性回归方程为 y =bx +a ,关键在于求a , b
2
⎡n ⎤⎡n ⎤
n ∑x i y i -⎢∑x i ⎥⎢∑y i ⎥i =1⎣i =1⎦⎣i =1⎦=
b =2n n
⎡⎤2
n ∑x i -⎢∑x i ⎥i =1⎣i =1⎦
n
∑x
i =1
n i =1
n
i
y i -n x y
=
2i
∑(x
i =1
n
n
i
-x y i -y
i
)()
∑x
-n x 2
∑(x
i =1
-x
)
2
a =y -b x
ⅴ. 相关系数: r =
∑x y
i i =1
n
i
-n x y
称为y 与x 的样本相关系数
n
n 2⎫22⎫⎛ ∑x i -n x ⎪ ∑y i -n y 2⎪⎝i =1⎭⎝i =1⎭
当 r >0时, 正相关 ; 当r
r 越接近于0线性相关程度越低
ⅵ. 颜老师说明:
1. 由于公式的复杂,数据有的也较多,所以在具体做题目时可以列出表格来,对应填进去,然后用公式计算,这样就不会产生慌乱的感觉
2. 做题目时要细心,不要乱,在我们高一阶段一般只给出5~6组数据,算起来已经不是很难了
3. 当然这种拟合(我们主要学习线性拟合——就是求线性回归方程)在电脑里都可作出来图像来,而且求出相应的拟合度,有兴趣的同学可以在Excel 软件里试一试