统计学思考题

第一章导论

1、统计数据可分为哪几种类型？不同类型的数据各有什么特点？

按照所采用的计量尺度的不同，可以将统计数据分为分类数据、顺序数据和数值型数据。按照统计数据的收集方法，可以将其分为观测数据和实验数据。按照被描述的现象与时间的关系，可以将统计数据分为截面数据和时间序列数据。

分类数据是只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来表述的。顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别，但这些类别是有序的，是用文字来表述的。数值型数据是按数字尺度测量的观察值，其结果表现为具体的数值。现实中处理的大多数都是数值型数据。

2、解释分类数据、顺序数据和数值数据的意义。

对分类数据，我们通常计算出各组的频数或频率，计算其众数和异众比率，进行列联表分析和x 2检验等；对顺序数据，可以计算其中位数和四分位差，计算等级相关系数等；对数值型数据，可以用更多的统计方法进行分析，如计算各种统计量，进行参数估计和检验等 3、举例说明总体、样本、参数、统计量、变量这几个概念。

总体：是包含所研究的全部个体的集合，它通常由所研究的一些个体组成。如多个企业构成的集合，多个居民户构成的集合，多个人构成的集合

样本:是从总体中抽出的一部分元素的集合。如从一批灯泡中随机抽取100个，这100个灯泡就构成了一个样本。

参数：是用来描述总体特征的概括性数字度量，它是研究者想要了解的总体的某种特征值。在统计中，总体参数通常用希腊字母表示，如，总体平均数用u （miu ）表示，总体标准差用（sigma ）表示，总体比例用（pai ）表示，等。

统计量：是用来描述样本特征的概括性数字度量，它是根据样本数据计算出来的一个量，由于抽样是随机的，因此统计量是样本的函数。样本统计量通常用英文字母来表示。如，样本平均数用（x-bar ）表示，样本标准车用s 表示，样本比例用p 表示，等。

变量：是说明现象某种特征的概念。如，商品销售额，受教育程度，产品的质量等级等。 4、变量可分为哪几类？

变量可以分为分类变量、顺序变量、数值型变量，数值型变量根据其取值的不同，又可分为离散型变量和连续型变量。分类变量是说明事物类别的一个名称，顺序变量是说明事物有序类别的一个名称，数值型变量是说明事物数字特征的一个名称。 5、举例说明离散型变量和连续性变量。

离散型变量是只能取可数值的变量，只能取有限个值，而且其取值都以整位数断开，可以一一列举，如，企业量，产品数量；连续型变量是可以在一个或多个区间中取任何值的变量。它的取值是连续不断的，不能一一列举，如，年龄，温度，零件尺寸的误差等。

第二章数据的搜集

1、比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样，什么情况下适合采用非概率抽样。

概率抽样也称随机抽样，是指遵守随机原则进行的抽样，总体中每个单位都有一定的机会被选入样本。它具有以下几个特点：首先，抽样时是按一定的概率以随机抽样原则抽取样本；其次，每个单位被抽中的概率是已知的，或是可以计算出来的；最后，当用样本对总体目标量进行估计时，要考虑到每个样本单位被抽中的概率。

非概率抽样是相对于概率抽样而言的，指抽取样本时不是依据随机原则，而是根据研究目的对数据的要求，采用某种方式从总体中抽出部分单位对其实施调查。

如果调查的目的在于掌握研究对象总体的数量特征，根据调查的结果对总体参数进行评估，得到总体参数的置信区间，就应当采用概率抽样的方法。非概率抽样适合探索性的研究，调查的结果用于发现问题，为更深入的数量分析做好准备。非抽样调查也适合市场调查中概念测试，如产品包装测试、广告测试等。

第三章数据的图表表示

1、分类数据和顺序数据的整理和图示方法各有那些？

分类数据的整理方法有频数和频数分布，图示方法有条形图、帕累托图、饼图、环形图；顺序数据的整理方法有累积频数和累积频率，图示方法有累积频数分布和频率图。 2、数值型数据的分组方法有哪些？简述组距分组的步骤。数据分组的方法有单变量值分组和组距分组。

组距分组的步骤：（1）确定组数，一般数据所分组数不应少于5组且不多于15组；（2）确定各组的组距，组距=（最大值-最小值）/组数，组距宜取5或10的倍数；（3）确定上下限，第一组的下限应低于最小变量值，最后一组的上限应高于最大变量值。 3、直方图与条形图有何区别？

直方图与条形图不同。首先，条形图是用条形的长度表示各类别频数的多少，其宽度则是固定的；直方图是用面积表示各组频数的多少，矩形的高度表示每一组的频数或频率，宽度则表示各组的组距，因此其高度与宽度均有意义。其次，由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形图则是分开排列。最后，条形图主要用于展示分类数据，而直方图则主要用于展示数值型数据。

第四章数据的概括性变量

1、一组数据的分布特征可以从那几个方面进行测度？

一组数据的分布特征可以从三个方面进行测度和描述：一是分布的集中趋势，反映各数据向其中心值靠拢或聚集的程度；二是分布的离散程度，反映各数据远离其中心值的趋势；三是分布的形状，反映数据分布的偏态和峰态。

2、对于比率数据的平均为什么采用几何平均？

3、简述众数、中位数、和平均数的特点和应用场合。

众数是一组数据分布的峰值，不受极端值的影响。其缺点是具有不唯一性，一组数据可能有一个众数，也可能有两个或多个众数，也可能没有众数。众数只有在数据量较多时才有意义，当数据量较少时，不宜采用众数。众数主要适合作为分类数据的集中趋势测度值。

中位数是一组数据中间位置上的代表值，不受数据极端值的影响。当一组数据的分布偏斜程度较大时，使用中位数也许是一个好的选择。中位数主要适合作为顺序数据的集中趋势测度值。

平均数是针对数值型数据计算的，而且利用了全部数据信息，它是实际中应用最广泛的集中趋势测度值。当数据呈对称分布或接近对称分布时，3个代表值相等或接近相等时，这时则应选择平均数作为集中趋势的测度值。但平均数的主要缺点是易受数据极端值的影响，对于偏态分布的数据，平均数的代表性较差。因此，当数据为偏态分布，特别是偏斜程度较大时，可以考虑选择中位数或众数，这时它们的代表性要比平均数好。

4、为什么要计算离散系数？

方差和标准差是反映数据离散程度的绝对值，其数值的大小一方面受原变量值自身水平高低的影响，也就是与变量的平均数大小有关，变量值绝对水平高的，离散程度的测度值自然也就大，绝对水平低的离散程度的测度值自然也就小；另一方面，它们与原变量值的计量单位相同，采用不同计量单位计量的变量值，其离散程度的测度值也就不同。因此，对于平均水平不同或计量单位不同的不同组别的变量值，是不能用标准差直接比较其离散程度的，为消除变量值水平高低和计量单位不同对离散程度测度值的影响，需要计算离散系数。

离散系数也成为变异系数，它是一组数据的标准差与其相应的平均数之比，其计算公式为：v s =s/(x-bar)，

离散系数是测度数据离散程度的相对统计量，主要是用于比较不同样本数据的离散程度。离散系数大，说明数据的离散程度也大；离散系数小，说明数据的离散程度也小。

第五章参数估计

1、怎样理解置信区间？

在区间估计中，由样本统计量所构造的总体参数的估计区间称为置信区间，其中区间的最小值称为置信下限，最大值称为置信上限，由于统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间。 2、解释95%的置信区间

如果抽取了许多不同的样本，比如说抽取了100个样本，根据每一个样本构造一个置信区间，这样，由100个样本构造的总体参数的100个置信区间中，有95%的区间包含了总体参数的真值，而5%则没包含，则95%这个值称为置信水平。一般地，如果将构造置信区间的步骤重复多次，置信区间中包含总体参数真值的次数所占的比例成为置信水平，也称为置信度或置信系数。

第六章假设检验

1、什么是假设检验中的显著性水平？统计显著是什么意思？

通常把（a-er-fa ）称为显著性水平，显著性水平是一个统计专有名词，在假设检验中，它的含义是当原假设正确时却被拒绝的概率或风险，其实这就是前面所说假设检验中犯弃真错误的概率，它是由人们根据检验的要求确定的，通常取0.05或0.01.

2、什么是假设检验中的两类错误？

对于原假设提出的命题，我们需要做出判断，这种判断可以用“原假设正确”或“原假设错误”来表述。当然，这是依据样本提供的信息进行判断的，也就是由部分来推断，总体。因而判断有可能正确，也有可能错误，也就是说，我们面临着犯错误的可能。所犯的错误有两种类型，第一类错误是原假设H 0为真却被我们拒绝了，犯这种错误的概率用（a-er-fa ）表示所以成为其真错误；第二类错误是原假设为伪我们却没有拒绝，犯这类错误的概率用（bei-ta ）表示，所以成为取伪错误。 3、解释假设检验中的P 值。

P 值就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P 值很小，说明这种情况发生的概率很小，而如果出现了，根据小概率原理，我们就有理由拒绝原假设，P 值越小，我们拒绝原假设的理由就越充分。

第七章方差分析

1、什么是方差分析？它研究的是什么？

方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型隐变量是否有显著影响。方差分析是检验多个总体均值是否相等的统计方法，但本质上它所研究的是分类型自变量对数值型因变量的影响。

2、简述方差分析的基本思想。

为了研究分类型自变量对对数值型因变量的影响，需要从对数据误差来源的分析入手，误差主要分为组内误差和组间误差，组内误差只包含随机误差，而组间误差除了包含随机误差，还会包含系统误差。 3、解释组内误差和组间误差的含义。

组内误差（SSE ）：反映组内误差大小的平方和，也称为残差平方和，是由于抽样的随机性所造成的随机误差。它反映了每个样本内各观测值之间的离散状况。

组间误差（SSA ）：反映组间误差大小的平方和，也称为因素平方和，是随机误差和系统误差的总和。它反映了样本均值之间的差异程度。 4、解释则内方差和组间方差的含义。

组间误差和组内误差经过平均后的数值称为均方或方差。组间方差（MSA ）=组间平方和/自由度（SSA/k-1）组内误差（MSE ）=组内平方和/自由度（SSE/n-k） 5、简述方差分析的基本步骤。

1、提出假设；2、构造检验的统计量；（1）计算各样本的均值（2）计算全部观测值的总均值（3）计算各误差平方和（4）计算统计量3、统计决策；4、方差分析表；5、用Excel 进行方差分析。

第八章一元线性回归

1、解释相关关系的含义，说明相关系的特点。

相关关系1）变量间关系不能用函数关系精确表达；2）一个变量的取值不能由另一个变量唯一确定；3）当变量 x 取某个值时，变量 y 的取值可能有几个。 2、相关分析主要解决那些问题？

相关分析就是对两个变量之间线性关系的描述和度量，它要解决的问题包括：（1）变量之间是否存在关系；（2）如果存在关系，它们之间是什么样的关系；（3）变量之间的关系强度如何；（4）样本之间的变量关系是否能代表总体变量之间的关系？

3、解释回归模型、回归方程、估计的回归方程的含义。

回归模型：描述因变量y 如何依赖于自变量x 和误差项ε的方程。回归方程：描述因变量y 的期望值如何依赖于自变量x 的方程。估计的回归方程：根据样本数据求出的回归方程的估计。

4、解释总平方和、回归平方和、残差平方和的含义，并说明它们之间的联系。总平方和（SST ）：是全部观测值Xij 与总均值x-两bar 的误差平方和。残差平方和（SSE ）：反映组内误差大小的平方和。

回归平方和（SSR ）:反映了y 的总变差中由于x 与y 之间的线性关系引起的y 的变化部分。 SST=SSR+SSE

5、解释判定系数（R 2）的含义和作用。

含义：判定系数是对估计的回归方程拟合优度的度量。判定系数等于相关系数的平方，即r2＝(r)2 作用：反映回归直线的拟合程度；R 2越接近1，说明回归方程拟合的越好；R 2越接近0，说明回归方程拟合的越差。

6、在回归分析中，F 检验和t 检验各有什么作用？

F 检验是检验自变量和因变量之间的线性关系是否显著，或者说，它们之间能否用一个线性模型y= 来表示。

t 检验的显著性检验是要检验自变量对因变量的影响是否显著。在一元线性回归模型y=

中，如果白塔1=0，则回归线是一条水平线，表面因变量y 的取值不依赖与自变量x ，即两个变量之间没有线性关系。

7、简述线性关系检验和回归系数检验的具体步骤。

线性关系检验：1、提出假设，H 0:回归系数等于0，两个变量之间的线性关系不显著；2、计算检验统计量F=（SSR/1）/(SSE/(n-2))；3、做出决策，根据显著性水平，分子自由度和分母自由度查F 分布表，找到相应的临界值，比较与F 的大小，判断是否拒绝原假设

回归系数检验：1、提出检验；2、计算检验统计量t ；3、做出决策