第一章统计数据的收集与整理
1.1 算术平均数是怎样计算的?为什么要计算平均数?
答:算数平均数由下式计算:是说是样本数据的代表。
,含义为将全部观测值相加再被观测值的
个数除,所得之商称为算术平均数。计算算数平均数的目的,是用平均数表示样本数据的集中点,或
1.2 既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差? 答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。
1.3 标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?
答:变异系数可以说是用平均数标准化了的标准差。在比较两个平均数不同的样本时所得结果更可靠。
1.4 完整地描述一组数据需要哪几个特征数? 答:平均数、标准差、偏斜度和峭度。
1.5 下表是我国青年男子体重(kg )。由于测量精度的要求,从表面上看像是离散型数据,不要忘记,体重是通过度量得到的,属于连续型数据。根据表中所给出的数据编制频数分布表。 66 70 60 67 64 59 66 62 66 62 64 59 38 66 69
69 64 66 68 66 66 68 69 65 67 67 67 62 63 70
64 58 65 62 68 65 64 70 67 71 66 61 67 65 63
65 67 61 63 64 63 65 68 66 69 64 68 65 63 64
64 66 61 70 63 56 71 65 74 65 60 69 65 67 65
66 66 66 65 60 66 61 63 64 65 61 66 69 68 64
68 67 67 64 64 63 63 65 69 75 68 64 65 66 67
65 66 62 65 69 63 61 66 65 62 67 69 67 62 67
62 66 65 62 65 66 64 64 64 69 63 65 65 63 65
64 62 65 66 66 67 64 68 65 68 59 68 72 61 66
69 66 61 62 67 63 67 69 65 68 65 67 66 66 62
61 66 64 63 67 70 69 65 68 65 60 64 67 61 61
61 64 62 68 67 67 70 63 67 63 64 64 64 63 65
68 62 64 65 65 70 66 67 65 66 63 66 61 68 65
66 62 65 68 67 62 64 63 65 66 69 69 64 65 60
57 65 62 57 67 64 65 70 66 65 62 73 66 66 63
66 64 65 67 66 72 64 65 67 62 71 68 63 69 65
69 65 68 66 68 69 63 68 72 61 69 60 63 64 62
66 66 68 68 64 67 70 67 65 68 60 60 66 66 66
65 72 65 63 67 67 64 69 67 65 63 63 66 70 64
答:首先建立一个外部数据文件,名称和路径为:E:\data\exer1-5e.dat。所用的SAS 程序和计算结果如下:
proc format; value hfmt
56-57='56-57' 58-59='58-59' 60-61='60-61' 62-63='62-63' 64-65='64-65' 66-67='66-67' 68-69='68-69' 70-71='70-71' 72-73='72-73' 74-75='74-75'; run;
data weight;
infile 'E:\data\exer1-5e.dat'; input bw @@; run;
proc freq; table bw;
format bw hfmt.; run;
The SAS System
Cumulative Cumulative
BW Frequency Percent Frequency Percent
----------------------------------------------------- 56-57 3 1.0 3 1.0 58-59 4 1.3 7 2.3 60-61 22 7.3 29 9.7 62-63 46 15.3 75 25.0 64-65 83 27.7 158 52.7 66-67 77 25.7 235 78.3 68-69 45 15.0 280 93.3 70-71 13 4.3 293 97.7 72-73 5 1.7 298 99.3 74-75 2 0.7 300 100.0
1.6 将上述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含量为10的两个样本,分别计算它们的平均数和标准差并进行比较。它们的平均数相等吗?标准差相等吗?能够解释为什么吗?
答:用means 过程计算,两个样本分别称为
和
,结果见下表:
The SAS System
Variable N Mean Std Dev
---------------------------------------- Y1 10 64.5000000 3.5039660 Y2 10 63.9000000 3.1780497
----------------------------------------
随机抽出的两个样本,它们的平均数和标准差都不相等。因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。
1.7 从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程
要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?
答:不是简单的随机样本。从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。
1.8 证明
时,前式是否仍然相等?
答:(1)令则
其中
若用或编码
平均数特性之③。
(2)
令
则 平均数特性之②。
用第二种编码方式编码结果,两式不再相等。
1.9 有一个样本:
,设B 为其中任意一个数值。证明只有当
最小。这是平均数的一个重要特性,在后面讲到一元线型回归时还会用到该特性。
答:令
, 为求使p 达最小之B ,令
则
。
1.10 检测菌肥的功效,在施有菌肥的土壤中种植小麦,成苗后测量苗高,共100株,数据如下[1]:
10.0
7.0 10.0 10.0 8.3
6.6 10.0 6.5 8.0 7.8 7.6 10.5 7.8 4.6 6.9
9.3 7.2 6.7 9.5 7.5 7.2 9.9 7.5 8.6 10.0
6.5 8.4 8.6 5.0 3.5
9.1 8.5 7.8 10.5 5.0 7.3 4.5 7.6 4.8 4.9 9.5 8.3 6.0 8.0 6.2
8.5 11.0 7.4 7.4 7.0 6.4 7.0 7.4 9.7 6.4
8.0 10.5 10.6 7.9 8.1 9.6 8.7 7.1 6.1 7.0 9.7 6.2 7.0 8.3 8.4
9.7 8.1 6.7 5.2 5.8
6.6 10.0 5.0 7.7 7.5 7.1 6.3 6.4 11.0 6.7 9.0 8.6 6.4 9.3 6.4
9.6 10.1 7.6 9.4 5.2 6.8 8.0 6.9 7.8 7.5
编制苗高的频数分布表,绘制频数分布图,并计算出该样本的四个特征数。
答:首先建立一个外部数据文件,名称和路径为:E:\data\exr1-10e.dat。SAS 程序及结果如下:
options nodate; proc format; value hfmt
3.5-4.4='3.5-4.4' 4.5-5.4='4.5-5.4' 5.5-6.4='5.5-6.4' 6.5-7.4='6.5-7.4' 7.5-8.4='7.5-8.4' 8.5-9.4='8.5-9.4' 9.5-10.4='9.5-10.4' 10.5-11.4='10.5-11.4'; run;
data wheat;
infile 'E:\data\exr1-10e.dat'; input height @@; run; proc freq; table height;
format height hfmt.; run;
proc capability graphics noprint; var height;
histogram/vscale=count;
inset mean var skewness kurtosis; run;
The SAS System The FREQ Procedure
Cumulative Cumulative
height Frequency Percent Frequency Percent
---------------------------------------------------------------------
3.5-4.4 1 1.00 1 1.00 4.5-5.4 9 9.00 10 10.00 5.5-6.4 11 11.00 21 21.00 6.5-7.4 23 23.00 44 44.00 7.5-8.4 24 24.00 68 68.00 8.5-9.4 11 11.00 79 79.00 9.5-10.4 15 15.00 94 94.00 10.5-11.4 6 6.00 100 100.00
1.11 北太平洋宽吻海豚羟丁酸脱氢酶(HDBH )数据的接收范围频数表[2]如下:(略作调整)
HDBH 数据的接收范围
/(U ·L -1)
根据上表中的数据作出直方图。
答:以表中第一列所给出的数值为组界,直方图如下:
频数 3 11 19 26 22 11 13 6 3 2
1.12 灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹嵴。纹嵴有许多特征,这些特征在胚胎形成之后是终生不变的。人类手指尖的纹型,大致可以分为弓、箕和斗三种类型。在手指第一节的基部可以找到一个点,从该点纹嵴向三个方向辐射,这个点称为三叉点。弓形纹没有三叉点,箕形纹有一个三叉点,斗形纹有两个三叉点,记录从三叉点到箕或斗中心的纹嵴数目称为纹嵴数(finger ridge count, FRC)。将双手十个指尖的全部箕形纹的纹嵴数和/或斗形纹两个纹嵴数中较大者相加,称为总纹嵴数(total finger ridge count, TFRC)。下表给出了大理白族人群总纹嵴数的频数分布
[3]
:
TFRC 分组
中值
频数 2
1 8 29 54
11~30 31~50 51~70 71~90 91~110
20 40 60 80 100
111~130 131~150 151~170 171~190 191~210
120 140 160 180 200
63 68 51 18 6
首先判断数据的类型,然后绘出样本频数分布图,计算样本的四个特征数并描述样本分布形态。
答:总纹脊数属计数数据。
计数数据的频数分布图为柱状图,频数分布图如下:
样本特征数(以TFRC 的中值计算)SAS 程序:
options nodate; data tfrc;
do i=1 to 10; input y @@; input n @@; do j=1 to n; output; end; end; cards; 20 2 40 1 60 8 80 29 100 54 120 63 140 68 160 51 180 18 200 6 ; run;
proc means mean std skewness kurtosis; var y; run;
结果见下表:
The SAS System
Analysis Variable : Y
Mean Std Dev Skewness Kurtosis
------------------------------------------------------ 126.5333333 32.8366112 -0.2056527 -0.0325058
------------------------------------------------------
从频数分布图可以看出,该分布的众数在第七组,即总纹脊数的中值为140的那一组。分布不对
称,平均数略小于众数,有些负偏。偏斜度为-0.2056527,偏斜的程度不是很明显,基本上还可以认为是对称的,峭度几乎为零。
1.13 海南粗榧叶长度的频数分布[4]:
叶长度/mm 2.0~2.2 2.2~2.4 2.4~2.6 2.6~2.8 2.8~3.0 3.0~3.2 3.2~3.4 3.4~3.6 3.6~3.8 3.8~4.0 nag 4.0~4.2 4.2~4.4 4.4~4.6
中值
频数 390 1 434 2 643 3 546 5 692
2.1 2.3 2.5 2.7 2.9
3.1 3.3 3.5 3.7 3.9
5 187 4 333 2 767 1 677 1 137
4.1 4.3 4.5
667 346 181
绘出频数分布图,并计算偏斜度和峭度。
答:表中第一列所给出的数值为组限,下图为海南粗榧叶长度的频数分布图。
计算偏斜度和峭度的SAS 程序和计算结果如下:
options nodate; data length;
do i=1 to 13; input y @@; input n @@; do j=1 to n; output; end; end; cards; 2.1 390 2.3 1434
2.5 2643 2.7 3546 2.9 5692 3.1 5187 3.3 4333 3.5 2767 3.7 1677 3.9 1137 4.1 667 4.3 346 4.5 181 ; run;
proc means n skewness kurtosis; var y; run;
The SAS System
Analysis Variable : Y
n Skewness Kurtosis
--------------------------------- 30000 0.4106458 0.0587006
---------------------------------
样本含量n =30000,是一个很大的样本,样本的偏斜度和峭度都已经很可靠了。偏斜度为0.41,有一个明显的正偏。
1.14 马边河贝氏高原鳅繁殖群体体重分布如下[5]:
体质量/g
中值
雌鱼
雄鱼
2.00~3.00 3.00~4.00 4.00~5.00 5.00~6.00 6.00~7.00 7.00~8.00 8.00~9.00 9.00~10.00 10.00~11.00 11.00~12.00
2.50 3.50 4.50 5.50 6.50 7.50 8.50 9.50 10.50 11.50
1 6 13 30 25
4 7 11 25 25
12.00~13.00
16 21 18 12 3
12.50
2
23 17 16 4
首先判断数据的类型,然后分别绘制雌鱼和雄鱼的频数分布图,计算样本平均数、标准差、偏斜度和峭度并比较两者的变异程度。
答:鱼的体重为度量数据,表中第一列所给出的数值为组限。在下面的分布图中雌鱼和雄鱼的
分布绘在了同一张图上,以不同的颜色表示。
计算统计量的SAS 程序与前面的例题类似,这里不再给出,只给出结果。
雌鱼:
The SAS System
Analysis Variable : Y
N Mean Std Dev Skewness Kurtosis
----------------------------------------------------------- 147 7.2414966 2.1456820 0.2318337 -0.6758677
-----------------------------------------------------------
雄鱼:
The SAS System
Analysis Variable : Y
N Mean Std Dev Skewness Kurtosis
----------------------------------------------------------- 132 6.7803030 1.9233971 -0.1322816 -0.5510332
-----------------------------------------------------------
直观地看,雄鱼的平均体重低于雌鱼。雌鱼有一正偏,雄鱼有一负偏。因此,相对来说雌鱼低体重者较多,雄鱼高体重者较多。但两者都有很明显的负峭度,说明“曲线”较平坦,两尾翘得较高。
1.15 黄胸鼠体重的频数分布[6]:
组界/g 0
频数
10 26 30 22 22
17 16 14
120
总数
≤165
6 4
2
169
绘制频数分布图,从图形上看分布是对称的吗,说明什么问题?
答:下面是频数分布图:
从上图可见,图形不是对称的,有一些正偏。说明在该黄雄鼠群体中,低体重者分布数量,高于高体重者的数量。另外,似乎峭度也有些低。
1.16 25名患者入院后最初的白细胞数量(×103)[7] 如下表:
8 7 10
5 3 14
12 11 4 4 14 5
11 11 5
6 9
8 6
7 6
7 5
12 6
计算白细胞数量的平均数、方差和标准差。
答:用means 过程计算,程序不再给出,只给出运行结果。
The SAS System
Analysis Variable : Y
N Mean Variance Std Dev
------------------------------------------- 25 7.8400000 10.3066667 3.2103998
--------------------------------------------
1.17 细胞珠蛋白基因(CYGB )可能是非小细胞肺癌(NSCLC )的抑制基因之一。一个研究小组研究了该基因的表达、启动子甲基化和等位基因不平衡状态等,以便发现它与肿瘤发病间的关联。下面列出了其中15名患者的基因表达(肿瘤患者/正常对照,T/N),肿瘤患者与正常对照甲基化指数差(MtI T -MtI N )[8]:
样本号357 370 367 316 369 358 303 314 308 310 341 348 323 360 336
T/N0.014 0.019 0.035 0.044 0.054 0.084 0.111 0.135 0.236 0.253 0.264 0.315 0.359 0.422 0.442
MtI T -MtI N 0.419 0.017 0.105 0.333 0.170 0.246 0.242 0.364 0.051 0.520 0.200 0.103 0.167 0.176 0.037
计算以上两项指标的平均数和标准差并计算两者的变异系数,这两个变异系数可以比较吗?为什么?
答:记 T/N为
,MtI T -MtI N 为
,用means 过程计算,SAS 运行的结果见下表:
The SAS System
Variable N Mean Std Dev CV
------------------------------------------------------ Y1 15 0.1858000 0.1505624 81.0346471 Y2 15 0.2100000 0.1465274 69.7749634
------------------------------------------------------
两个变异系数是可以比较的,因为它们的标准差都是用平均数标准化了的,已经不存在不同 单位的影响了。
第一章统计数据的收集与整理
1.1 算术平均数是怎样计算的?为什么要计算平均数?
答:算数平均数由下式计算:是说是样本数据的代表。
,含义为将全部观测值相加再被观测值的
个数除,所得之商称为算术平均数。计算算数平均数的目的,是用平均数表示样本数据的集中点,或
1.2 既然方差和标准差都是衡量数据变异程度的,有了方差为什么还要计算标准差? 答:标准差的单位与数据的原始单位一致,能更直观地反映数据地离散程度。
1.3 标准差是描述数据变异程度的量,变异系数也是描述数据变异程度的量,两者之间有什么不同?
答:变异系数可以说是用平均数标准化了的标准差。在比较两个平均数不同的样本时所得结果更可靠。
1.4 完整地描述一组数据需要哪几个特征数? 答:平均数、标准差、偏斜度和峭度。
1.5 下表是我国青年男子体重(kg )。由于测量精度的要求,从表面上看像是离散型数据,不要忘记,体重是通过度量得到的,属于连续型数据。根据表中所给出的数据编制频数分布表。 66 70 60 67 64 59 66 62 66 62 64 59 38 66 69
69 64 66 68 66 66 68 69 65 67 67 67 62 63 70
64 58 65 62 68 65 64 70 67 71 66 61 67 65 63
65 67 61 63 64 63 65 68 66 69 64 68 65 63 64
64 66 61 70 63 56 71 65 74 65 60 69 65 67 65
66 66 66 65 60 66 61 63 64 65 61 66 69 68 64
68 67 67 64 64 63 63 65 69 75 68 64 65 66 67
65 66 62 65 69 63 61 66 65 62 67 69 67 62 67
62 66 65 62 65 66 64 64 64 69 63 65 65 63 65
64 62 65 66 66 67 64 68 65 68 59 68 72 61 66
69 66 61 62 67 63 67 69 65 68 65 67 66 66 62
61 66 64 63 67 70 69 65 68 65 60 64 67 61 61
61 64 62 68 67 67 70 63 67 63 64 64 64 63 65
68 62 64 65 65 70 66 67 65 66 63 66 61 68 65
66 62 65 68 67 62 64 63 65 66 69 69 64 65 60
57 65 62 57 67 64 65 70 66 65 62 73 66 66 63
66 64 65 67 66 72 64 65 67 62 71 68 63 69 65
69 65 68 66 68 69 63 68 72 61 69 60 63 64 62
66 66 68 68 64 67 70 67 65 68 60 60 66 66 66
65 72 65 63 67 67 64 69 67 65 63 63 66 70 64
答:首先建立一个外部数据文件,名称和路径为:E:\data\exer1-5e.dat。所用的SAS 程序和计算结果如下:
proc format; value hfmt
56-57='56-57' 58-59='58-59' 60-61='60-61' 62-63='62-63' 64-65='64-65' 66-67='66-67' 68-69='68-69' 70-71='70-71' 72-73='72-73' 74-75='74-75'; run;
data weight;
infile 'E:\data\exer1-5e.dat'; input bw @@; run;
proc freq; table bw;
format bw hfmt.; run;
The SAS System
Cumulative Cumulative
BW Frequency Percent Frequency Percent
----------------------------------------------------- 56-57 3 1.0 3 1.0 58-59 4 1.3 7 2.3 60-61 22 7.3 29 9.7 62-63 46 15.3 75 25.0 64-65 83 27.7 158 52.7 66-67 77 25.7 235 78.3 68-69 45 15.0 280 93.3 70-71 13 4.3 293 97.7 72-73 5 1.7 298 99.3 74-75 2 0.7 300 100.0
1.6 将上述我国男青年体重看作一个有限总体,用随机数字表从该总体中随机抽出含量为10的两个样本,分别计算它们的平均数和标准差并进行比较。它们的平均数相等吗?标准差相等吗?能够解释为什么吗?
答:用means 过程计算,两个样本分别称为
和
,结果见下表:
The SAS System
Variable N Mean Std Dev
---------------------------------------- Y1 10 64.5000000 3.5039660 Y2 10 63.9000000 3.1780497
----------------------------------------
随机抽出的两个样本,它们的平均数和标准差都不相等。因为样本平均数和标准差都是统计量,统计量有自己的分布,很难得到平均数和标准差都相等的两个样本。
1.7 从一个有限总体中采用非放回式抽样,所得到的样本是简单的随机样本吗?为什么?本课程
要求的样本都是随机样本,应当采用哪种抽样方法,才能获得一随机样本?
答:不是简单的随机样本。从一个有限总体中以非放回式抽样方法抽样,在前后两次抽样之间不是相互独立的,后一次的抽样结果与前一次抽样的结果有关联,因此不是随机样本。应采用随机抽样的方法抽取样本,具体说应当采用放回式抽样。
1.8 证明
时,前式是否仍然相等?
答:(1)令则
其中
若用或编码
平均数特性之③。
(2)
令
则 平均数特性之②。
用第二种编码方式编码结果,两式不再相等。
1.9 有一个样本:
,设B 为其中任意一个数值。证明只有当
最小。这是平均数的一个重要特性,在后面讲到一元线型回归时还会用到该特性。
答:令
, 为求使p 达最小之B ,令
则
。
1.10 检测菌肥的功效,在施有菌肥的土壤中种植小麦,成苗后测量苗高,共100株,数据如下[1]:
10.0
7.0 10.0 10.0 8.3
6.6 10.0 6.5 8.0 7.8 7.6 10.5 7.8 4.6 6.9
9.3 7.2 6.7 9.5 7.5 7.2 9.9 7.5 8.6 10.0
6.5 8.4 8.6 5.0 3.5
9.1 8.5 7.8 10.5 5.0 7.3 4.5 7.6 4.8 4.9 9.5 8.3 6.0 8.0 6.2
8.5 11.0 7.4 7.4 7.0 6.4 7.0 7.4 9.7 6.4
8.0 10.5 10.6 7.9 8.1 9.6 8.7 7.1 6.1 7.0 9.7 6.2 7.0 8.3 8.4
9.7 8.1 6.7 5.2 5.8
6.6 10.0 5.0 7.7 7.5 7.1 6.3 6.4 11.0 6.7 9.0 8.6 6.4 9.3 6.4
9.6 10.1 7.6 9.4 5.2 6.8 8.0 6.9 7.8 7.5
编制苗高的频数分布表,绘制频数分布图,并计算出该样本的四个特征数。
答:首先建立一个外部数据文件,名称和路径为:E:\data\exr1-10e.dat。SAS 程序及结果如下:
options nodate; proc format; value hfmt
3.5-4.4='3.5-4.4' 4.5-5.4='4.5-5.4' 5.5-6.4='5.5-6.4' 6.5-7.4='6.5-7.4' 7.5-8.4='7.5-8.4' 8.5-9.4='8.5-9.4' 9.5-10.4='9.5-10.4' 10.5-11.4='10.5-11.4'; run;
data wheat;
infile 'E:\data\exr1-10e.dat'; input height @@; run; proc freq; table height;
format height hfmt.; run;
proc capability graphics noprint; var height;
histogram/vscale=count;
inset mean var skewness kurtosis; run;
The SAS System The FREQ Procedure
Cumulative Cumulative
height Frequency Percent Frequency Percent
---------------------------------------------------------------------
3.5-4.4 1 1.00 1 1.00 4.5-5.4 9 9.00 10 10.00 5.5-6.4 11 11.00 21 21.00 6.5-7.4 23 23.00 44 44.00 7.5-8.4 24 24.00 68 68.00 8.5-9.4 11 11.00 79 79.00 9.5-10.4 15 15.00 94 94.00 10.5-11.4 6 6.00 100 100.00
1.11 北太平洋宽吻海豚羟丁酸脱氢酶(HDBH )数据的接收范围频数表[2]如下:(略作调整)
HDBH 数据的接收范围
/(U ·L -1)
根据上表中的数据作出直方图。
答:以表中第一列所给出的数值为组界,直方图如下:
频数 3 11 19 26 22 11 13 6 3 2
1.12 灵长类手掌和脚掌可以握物一侧的皮肤表面都有突起的皮肤纹嵴。纹嵴有许多特征,这些特征在胚胎形成之后是终生不变的。人类手指尖的纹型,大致可以分为弓、箕和斗三种类型。在手指第一节的基部可以找到一个点,从该点纹嵴向三个方向辐射,这个点称为三叉点。弓形纹没有三叉点,箕形纹有一个三叉点,斗形纹有两个三叉点,记录从三叉点到箕或斗中心的纹嵴数目称为纹嵴数(finger ridge count, FRC)。将双手十个指尖的全部箕形纹的纹嵴数和/或斗形纹两个纹嵴数中较大者相加,称为总纹嵴数(total finger ridge count, TFRC)。下表给出了大理白族人群总纹嵴数的频数分布
[3]
:
TFRC 分组
中值
频数 2
1 8 29 54
11~30 31~50 51~70 71~90 91~110
20 40 60 80 100
111~130 131~150 151~170 171~190 191~210
120 140 160 180 200
63 68 51 18 6
首先判断数据的类型,然后绘出样本频数分布图,计算样本的四个特征数并描述样本分布形态。
答:总纹脊数属计数数据。
计数数据的频数分布图为柱状图,频数分布图如下:
样本特征数(以TFRC 的中值计算)SAS 程序:
options nodate; data tfrc;
do i=1 to 10; input y @@; input n @@; do j=1 to n; output; end; end; cards; 20 2 40 1 60 8 80 29 100 54 120 63 140 68 160 51 180 18 200 6 ; run;
proc means mean std skewness kurtosis; var y; run;
结果见下表:
The SAS System
Analysis Variable : Y
Mean Std Dev Skewness Kurtosis
------------------------------------------------------ 126.5333333 32.8366112 -0.2056527 -0.0325058
------------------------------------------------------
从频数分布图可以看出,该分布的众数在第七组,即总纹脊数的中值为140的那一组。分布不对
称,平均数略小于众数,有些负偏。偏斜度为-0.2056527,偏斜的程度不是很明显,基本上还可以认为是对称的,峭度几乎为零。
1.13 海南粗榧叶长度的频数分布[4]:
叶长度/mm 2.0~2.2 2.2~2.4 2.4~2.6 2.6~2.8 2.8~3.0 3.0~3.2 3.2~3.4 3.4~3.6 3.6~3.8 3.8~4.0 nag 4.0~4.2 4.2~4.4 4.4~4.6
中值
频数 390 1 434 2 643 3 546 5 692
2.1 2.3 2.5 2.7 2.9
3.1 3.3 3.5 3.7 3.9
5 187 4 333 2 767 1 677 1 137
4.1 4.3 4.5
667 346 181
绘出频数分布图,并计算偏斜度和峭度。
答:表中第一列所给出的数值为组限,下图为海南粗榧叶长度的频数分布图。
计算偏斜度和峭度的SAS 程序和计算结果如下:
options nodate; data length;
do i=1 to 13; input y @@; input n @@; do j=1 to n; output; end; end; cards; 2.1 390 2.3 1434
2.5 2643 2.7 3546 2.9 5692 3.1 5187 3.3 4333 3.5 2767 3.7 1677 3.9 1137 4.1 667 4.3 346 4.5 181 ; run;
proc means n skewness kurtosis; var y; run;
The SAS System
Analysis Variable : Y
n Skewness Kurtosis
--------------------------------- 30000 0.4106458 0.0587006
---------------------------------
样本含量n =30000,是一个很大的样本,样本的偏斜度和峭度都已经很可靠了。偏斜度为0.41,有一个明显的正偏。
1.14 马边河贝氏高原鳅繁殖群体体重分布如下[5]:
体质量/g
中值
雌鱼
雄鱼
2.00~3.00 3.00~4.00 4.00~5.00 5.00~6.00 6.00~7.00 7.00~8.00 8.00~9.00 9.00~10.00 10.00~11.00 11.00~12.00
2.50 3.50 4.50 5.50 6.50 7.50 8.50 9.50 10.50 11.50
1 6 13 30 25
4 7 11 25 25
12.00~13.00
16 21 18 12 3
12.50
2
23 17 16 4
首先判断数据的类型,然后分别绘制雌鱼和雄鱼的频数分布图,计算样本平均数、标准差、偏斜度和峭度并比较两者的变异程度。
答:鱼的体重为度量数据,表中第一列所给出的数值为组限。在下面的分布图中雌鱼和雄鱼的
分布绘在了同一张图上,以不同的颜色表示。
计算统计量的SAS 程序与前面的例题类似,这里不再给出,只给出结果。
雌鱼:
The SAS System
Analysis Variable : Y
N Mean Std Dev Skewness Kurtosis
----------------------------------------------------------- 147 7.2414966 2.1456820 0.2318337 -0.6758677
-----------------------------------------------------------
雄鱼:
The SAS System
Analysis Variable : Y
N Mean Std Dev Skewness Kurtosis
----------------------------------------------------------- 132 6.7803030 1.9233971 -0.1322816 -0.5510332
-----------------------------------------------------------
直观地看,雄鱼的平均体重低于雌鱼。雌鱼有一正偏,雄鱼有一负偏。因此,相对来说雌鱼低体重者较多,雄鱼高体重者较多。但两者都有很明显的负峭度,说明“曲线”较平坦,两尾翘得较高。
1.15 黄胸鼠体重的频数分布[6]:
组界/g 0
频数
10 26 30 22 22
17 16 14
120
总数
≤165
6 4
2
169
绘制频数分布图,从图形上看分布是对称的吗,说明什么问题?
答:下面是频数分布图:
从上图可见,图形不是对称的,有一些正偏。说明在该黄雄鼠群体中,低体重者分布数量,高于高体重者的数量。另外,似乎峭度也有些低。
1.16 25名患者入院后最初的白细胞数量(×103)[7] 如下表:
8 7 10
5 3 14
12 11 4 4 14 5
11 11 5
6 9
8 6
7 6
7 5
12 6
计算白细胞数量的平均数、方差和标准差。
答:用means 过程计算,程序不再给出,只给出运行结果。
The SAS System
Analysis Variable : Y
N Mean Variance Std Dev
------------------------------------------- 25 7.8400000 10.3066667 3.2103998
--------------------------------------------
1.17 细胞珠蛋白基因(CYGB )可能是非小细胞肺癌(NSCLC )的抑制基因之一。一个研究小组研究了该基因的表达、启动子甲基化和等位基因不平衡状态等,以便发现它与肿瘤发病间的关联。下面列出了其中15名患者的基因表达(肿瘤患者/正常对照,T/N),肿瘤患者与正常对照甲基化指数差(MtI T -MtI N )[8]:
样本号357 370 367 316 369 358 303 314 308 310 341 348 323 360 336
T/N0.014 0.019 0.035 0.044 0.054 0.084 0.111 0.135 0.236 0.253 0.264 0.315 0.359 0.422 0.442
MtI T -MtI N 0.419 0.017 0.105 0.333 0.170 0.246 0.242 0.364 0.051 0.520 0.200 0.103 0.167 0.176 0.037
计算以上两项指标的平均数和标准差并计算两者的变异系数,这两个变异系数可以比较吗?为什么?
答:记 T/N为
,MtI T -MtI N 为
,用means 过程计算,SAS 运行的结果见下表:
The SAS System
Variable N Mean Std Dev CV
------------------------------------------------------ Y1 15 0.1858000 0.1505624 81.0346471 Y2 15 0.2100000 0.1465274 69.7749634
------------------------------------------------------
两个变异系数是可以比较的,因为它们的标准差都是用平均数标准化了的,已经不存在不同 单位的影响了。