什么是统计总体和总体单位?总体的特点是什么?
统计总体又称“调查总体”,简称“总体”,是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体。构成总体的这些个别单位称为总体单位。例如,所有的工业企业就是一个总体,这是因为在性质上每个工业企业的经济职能是相同的,即都是从事工业生产活动的基本单位,这就是说,它们是同性质的。这些工业企业的集合就构成了统计总体。对于该总体来说,每一个工业企业就是一个总体单位。 确定总体与总体单位,必须注意两个方面:
1、构成总体的单位必须是同质的,不能把不同质的单位混在总体之中。例如,研究工人的工资水平,就只能将靠工资收入的职工列入统计总体的范围。同时,也只能对职工的工资收入进行考察,对职工由其他方面取得的收入就要加以排除,这样才能正确反映职工的工资水平。
2、总体与总体单位具有相对性,随着研究任务的改变而改变。同一单位可以是总体也可以是总体单位。例如,要了解全国工业企业职工的工资收入情况,那么全部工厂是总体,各个工厂是总体单位。如果旨在了解某个企业职工的工资收入情况,则该企业就成了总体,每位职工的工资就是总体单位了。
在明确了以上一些基本概念之后,将它们联系起来观察,深入地认识总体,可以看出,统计总体具有同质性、大量性和差异性三个主要特点。
1、同质性
同质性是指总体中的各个单位必须具有某种共同的属性或标志数值。如国有企业总体中每个企业共同标志属性是国家所有。同质性是总体的根本特征,只有个体单位是同质的,统计才能通过对个体特征的观察研究,归纳和揭示出总体的综合特征和规律性。
2、大量性
大量性是指总体中包括的总体单位有足够多的数量。总体是由许多个体在某一相同性质基础上结合起来的整体,个别或很少几个单位不能构成总体。总体的大量性,可使个别单位某些偶然因素的影响——表现在数量上的偏高、偏低的差异——相互抵消,从而显示出总体的本质和规律性。
3、差异性(或称变异性)
差异性是指总体的各单位之间有一个或若干个可变的
品质标志或数量标志,从而表现出的差异。例如,某领域的职工总体中各单位间有男、女的性别属性差异,有20岁、21岁、22岁、23岁、24岁、25岁、26岁等年龄标志数值的差异。
标志表现是又一个重要概念即标志特征在各个单位的具体表现,体现了总体单位的具体时间、地点、条件下运作的结果,一各标志在各个单位的具体表现不同,其分类有:
1)品质标志表现和数量标志表现之分
品质标志和数量标志有什么区别?
品质标志表明总体单位属性方面的特征,其标志表现只能用文字来表现;数量标志表明总体单位数量方面的特征,其标志表现可以用数值表示,即标志值。
抽样调查有哪些特点?有哪些优越性?
抽样调查是一种非全面调查,它是按照随机原则从总体中抽取部分调查单位进行观察用以推算总体数量特征的一种调查方式。
抽样调查的特点:(1)抽样调查是一种非全面调查,但其目的是要通过对部分单位的调查结果来推断总体的数量特征。(2)抽样调查是按照随机原则从全部总体单位中来抽选调查单位。所谓随机原则就是总体中调查单位的确定完全由随机因素来决定,单位中选与不中选不受主观因素的影响,保证总体中每一单位都有同等的中选可能性。
抽样调查方式的优越性体现在经济性、时效性、准确性和灵活性等方面。
抽样调查的作用:能够解决全面调查无法或困难解决的问题;可以补充和订正全面调查的结果;可以应用于生产过程中产品质量的检查和控制;可以用于对总体的某种假设进行检验。
强度相对指标和其它相对指标的主要区别是什么?
主要区别是: ⑴ 其它各种相对指标都属于同一总体内的数量进行对比,而强度相对指标除此之外,也可以是两种性质不同的但又有联系的属于不同总体的总量指标之间的对比。 ⑵ 计算结果表现形式不同。其它相对指标用无名数表示,而强度相对指标主要是用有名数表示。 ⑶ 当计算强度相对指标的分子、分母的位置互换后,会产生正指标和逆指标,而其它相对指标不存在正、逆指标之分。
如何理解权数的意义?
加权算术平均数中的权数,指的就是标志值出现的次数或各组次数占总次数的比重。
变异、变量和变量值这三者之间有什么关系
如果某一标志的具体表现在总体各单位相同,则称该标志为不变标志;如果某一标志的具体表现在各单位不尽相同,则称该标志为可变标志。 可变标志的标志表现由一种状态变到另一种状态,统计上把这种现象或过程称变异。变异是一种普遍现象,有变异才有必要进行统计。 l 变异有属性变异和数量变异之分。属性变异表明质的差别,数量
变异表明量的差别。 不变的数量标志称常量或参数。 可变的数量标志和所有的统计指标称变量。变量的数值表现称变量值,即标志值或指标值。
l 变量按其数值是否连续可分为连续性变量和离散性变量。连续性变量的数值是连续不断的,任意两个变量值之间可以做无数种分割,如工业总产值、商品销售额、身高、体重等,既可用小数表示,也可用整数表示;离散变量的取值可以按一定次序一一列举,如工厂数、工人数、机器台数等,变量值通常用整数表示。
指标是统计指标的简称。从设计形态定义上看,统计指标是反映总体现象数量特征的概念(或名称)。例如,国内生产总值、居民消费水平等。从完成形态定义来说,统计指标是反映总体现象数量特征的概念和具体数值。例如,2002年天津市钢产量为482.58万吨。两种理解都成立。这与通常人们对某项工作的任务数、目标值也称作指标的说法是截然不同的。
统计指标的特点:一是同质事物的可量性,没有质的规定性不能成为统计指标。有了质的规定性而不能用数量来表示也不能成为统计指标。如钢产量有特定的涵义又能用数量表示,才能成为指标;二是量的综合性,统计指标反映的是总体的量,它是许多个体现象的数量综合的结果。如,一名从业人员的劳动报酬不能成为指标,若干名从业人员构成一个总体,其劳动报酬和人均劳动报酬才能成为统计指标.
统计指标是统计的基本要素之一。整个统计工作过程,要围绕或通过指标来进行,统计的职能和作用也要依托各种指标来实现。 统计指标体系是由若干相互联系、相互制约的统计指标组成的一个统计指标系统。客观现象错综复杂,各种现象之间存在相互联系、相互制约的关系,若反映事物的各个方面及其发展变化的整个过程就需要设计和运用一整套指标,或者说一系列指标。如,研究一个地区的工业生产状况,就需要设计和运用由反映生产条件的指标,反映生产过程的指标,反映生产成果和效益的指标等一个结合在一起的统计指标体系。
统计指标和指标体系
统计指标是反映社会经济现象总体综合数量特征的科学概念或范畴。 正确理解统计指标时应注意:①统计指标反映现象总体的数量特征;②一个完整的统计指标应该由总体范围、时间、地点、指标数值和数值单位等内容构成。
统计指标和统计标志是一对既有明显区别又有密切联系的概念。二者的主要区别是:
①指标是说明总体特征的,标志是说明总体单位特征的;
②指标具有可量性,无论是数量指标还是质量指标,都能用数值表示,而标志不一定。数量标志具有可量性,品质标志不具有可量性。 标志和指标的主要联系表现在:
①指标值往往由数量标志值汇总而来;
②在一定条件下,数量标志和指标存在着变换关系。
统计指标按其反映的数量特点不同可分为数量指标和质量指标。 数量指标是反映现象总规模水平或工作总量的指标,也称总量指标,一般通过数量标志值直接汇总而来,用绝对数表示,指标数值均有单位;质量指标是反映现象总体相对水平或工作质量的统计指标,又分为相对指标和平均指标,分别用相对数和平均数表示,它们通常是由两个总量指标对比派生出来的,反映现象之间内在联系和对比关系。
数量指标和质量指标的关系表现在:数量指标是计算质量指标的基础,质量指标往往是相应的数量指标进行对比的结果。
统计指标体系是各种互相联系的指标群构成的整体,用以说明所研究的社会经济现象各方面互相依从和互相制约的关系。一个指标的作用总是有限的,它只能反映现象总体的某一侧面,只有使用指标体系才能反映现象总体全貌。
统计指标体系大体上可分为基本统计指标体系和专题统计指标体系两大类。
五、统计数据的搜集与整理
一、统计数据的搜集
(1)统计数据的概念和类型
利用统计方法进行计算、分析,首先要有统计数据。搜集、整理统计数据是统计工作的基础。统计数据是对客观现象进行计量的结果。 根据对事物计量的精确程度和结果来看,可将统计数据分为分类的数
据、顺序的数据和数值型数据。
分类的数据是对事物进行分类的结果,该类数据表现为类别。有些现象的计量不仅可以将事物分为不同的类别,还可以确定这些类别的优劣或顺序,如可将产品分为一等品、二等品等。有些事物可以使用自然或度量衡单位进行计量,其结果表现为具体的数值,即数值型数据。
(2)统计数据的来源
从统计数据本身的来源看,最初都是来自于直接的调查或试验。但从使用者的角度看,统计数据的来源主要有2个渠道:一是直接的调查或试验,这是统计数据的直接来源,可称之为第一手或直接的统计数据,简称一手数据或直接数据;二是别人调查或试验的数据,这是统计数据的间接来源,可称之为第二手或间接的统计数据,简称二手数据或间接数据。
统计数据的直接来源渠道主要有2个:一是专门调查,二是科学试验。 对于大多数使用者来说,如果能通过直接的调查或试验获得所需的一手数据是最好的,但许多情况下亲自去做调查往往不大可能,这时还可以通过其他渠道获得别人调查或试验的二手数据。
题目:统计总体必须是( )。
A.性质不同的众多个体所组成的集合体
B.性质相同的众多个体所组成的集合体
C.至少有一个主要性质相同的众多个体所组成的集合体
D.至少有一个主要性质不同的众多个体所组成的集合体 答案:(C )
题目:下列关于统计中的基本概念正确的是( )。
A.总体中所含个体的数量称为总体单位
B.差异性是总体形成必须具备的条件
C.只有当总体数量无限时,我们才进行抽样调查
D.标志是反映总体特征或属性的名称
答案:(B )
题目:下列不属于综合指标的是( )。
A.总量指标
B.相对指标
C.平均指标
D.水平指标
答案:(D)
题目:如果搜集到的是总体数据,则经过( )就可以达到探索其内在数量规律性的目
A.推断统计
B.描述统计
C.抽样统计
D.判断统计
答案:(B)
四、标志和变量
(一)标志的概念和种类
标志是反映个体特征或属性的名称。如以居民为个体时,则居民的性别、年龄、民族、文化程度、职业、收入等都是每个居民所具有的标志。
一个总体中的各个体可以有许多标志。标志按是否可用数量表现,分为品质标志和数量标志。 标志按是否变异,分为不变标志和变异标志。 (二)变量的概念和种类
统计研究常遇到的是数量变异标志,为简便起见,将数量变异标志称为变量,变量的具体数值称为变量值或标志值,如年龄这个变量可具体表现为10年、20年、30年等 变量按变量值是否连续,可分为连续型变量和离散型变量。
任意两个变量值之间取值无限的为连续型变量,如身高、住房面积等。任意两个变量值之间取值有限的为离散型变量,如居住人口、住房套数等。连续型变量的变量值需要用测量和计算的方法获得。离散型变量的变量值需要用计数的方法获得,其取值数是有限的,而且只能取整数。 变量还可分为确定性变量和随机变量。
分配数列 一、分配数列的概念
在统计分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为分配数列,也称分布数列或次数分布。
分配数列包括两个要素:一是总体按某标志所分的组;二是各组所占有的总体单位数。
分配数列在统计研究中具有重要意义。分配数列是统计分组结果的主要表现形式,也是统计分析的一种重要方法。它可以表明总体单位在各组的分布特征、结构状况,并在这个基础上来进一步研究标志的构成、平均水平及其变动规律性。
二、分配数列的种类
变量数列又分为单值数列和组距数列。
1、单值数列: 指每个组值只用一个具体的变量值表现的数列。
编制条件: 变量是离散变量 ;变量的不同取值个数较少(同时具备)
【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。
日产量(件)X 工人数(人) f
20
21
22
23
24
25
26 3
5
6
4
3
2
1
合计 24
2、组距数列: 指每个组的变量值用一个区间来表现的变量数列
编制条件: 变量是连续变量; 或:总体单位数较多变量不同取值个数也较多的离散变量。 组距数列又分为等距数列和异距数列。
等距数列: 变量值变动区间的长度相等。
异距数列: 变量值变动区间的长度不完全相等。
相关概念:
组限: 指每组两端表示各组界限的变量值,各组的最小值为下限(low limit) ,最大值为上限(upper limit) 。
组距: 每组变量值变动区间的长度,为上下限之差。
组中值: 每组变量取值范围的中点数值 。
组中值=(上限+下限)∕2
在统计中,变量分配数列编制的步骤是怎样的?
①将原始资料按其数值大小重新排列
只有把得到的原始资料按其数值大小重新排列顺序,才能看出变量分布的集中趋势和特点,为确定全距,组距和组数作准备.
②确定全距
全距是变量值中最大值和最小值的差数.确定全距,主要是确定变量值的变动范围和变动幅度.如果是变动幅度不大的离散变量,即可编制单项式变量数列,如果是变量幅度较大的离散变量或者是连续变量,就要编制组距式变量数列.
③确定组距和组数
前面已经介绍过组距数列有等距和不等距之分,应视研究对象的特点和研究目的而定.
组距的大小和组数的多少,是互为条件和互相制约的.当全距一定时,组距大,组数就少;组距小,组数就多.在实际应用中,组距应是整数,最好是5或10的整倍数.在确定组距时,必须考虑原始资料的分布状况和集中程度,注意组距的同质性,尤其是对带有根本性的质量界限,绝不能混淆,否则就失去分组的意义.
在等距分组条件下,存在以下关系:
组数=全距/组距
④ 确定组限
组限要根据变量的性质来确定.如果变量值相对集中,无特大或特小的极端数值时,则采用闭口式,使最小组和最大组也都有下限和上限;反之,如果变量值相对比较分散,则采用开口式,使最小组只有上限(用
在采用闭口式时,应做到最小组的下限低于最小变量值,最大组的上限高于最大变量值,但不要过于悬殊.
⑤ 编制变量数列
经过统计分组,明确了全距,组距,组数和组限及组限表示方法以后,就可以把变量值归类排列,最后把各组单位数经综合后填入相应的各组次数栏中
分配数列
一、分配数列的概念
在统计分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为分配数列,也称分布数列或次数分布。
分配数列包括两个要素:一是总体按某标志所分的组;二是各组所占有的总体单位数。 分配数列在统计研究中具有重要意义。分配数列是统计分组结果的主要表现形式,也是统计分析的一种重要方法。它可以表明总体单位在各组的分布特征、结构状况,并在这个基础上来进一步研究标志的构成、平均水平及其变动规律性。
二、分配数列的种类 分配数列根据分组标志的性质不同,分为品质分配数列和变量分配数列。 (一)品质数列 品质标志分组所编制的分配数列叫品质分配数列,简称品质数列。见表3-4。
表3-4 某大学在校学生的性别分布情况 性 别
男 性
女 性
合 计 学生人数(人) 11696 1984 13680 学生人数比重(%) 85.5 14.5 100.0
编制品质分配数列, 只要分组标志选择得好, 分组标准定得恰当,则事物性质的差异表现得比较明确,总体中各组的划分较容易。因而品质分配数列一般比较稳定,能准确地反映总体的分布特征。
(二)变量数列
按数量标志分组所编制的分配数列叫变量数列。变量数列又可分为单项式变量数列和组距式变量数列。
1.单项式变量数列
按每个变量值分别列组,所编制的变量数列叫单项式变量数列,又称单项数列。这样的数列组数等于数量标志所包含的变量值的数目。见表3-5,
表3-5 某车间工人看管机器台数分布 按工人看管机器分组 工人数(人) 工人
比重
(%)
18
26
24
12
80 22.5 32.5 30.0 15.0 100.0 5 6 8 10 合 计
单项变量数列一般在变量值不多且变量值的变动范围不大的条件下采用。
2.组距式变量数列
用表示一定变量范围(或距离),以起止的两个变量分别列组,所编制的变量数列叫组距式变量数列,又称组距数列。见表3-6。
表3-6 某企业职工月工资情况 按工资水平分组(元) 按工人数(人) 比重
(%)
100~150
150~200
200~250
250以上
合 计 180 320 400 100 1000 18 32 40 10 100.0
在组距数列中,要弄清以下几个概念:
(1) 组限。表示各组界限的变量值叫组限。组限又分上限和下限。下限是每组最小的变量值,上限是每组最大的变量值。表3-6中100~150元一组,100元和150元是组限,100元为下限,150元为上限。
(2) 组距。每组下限与上限之间的距离叫组距,它等于上限与下限之差,即组距=上限-下限。
(3) 组中值。每组下限与上限之间的中点数值叫组中值,组中值=。上表3—6中的第一组的组距=150-100=50元,组中值= 。
编制组距式变量数列时,往往使用最小组缺下限或最大组缺上限,这样不确定组距的组,称为开口组,表3—6中第四组为开口组。开口组的组距以相邻组的组距作为本组的组距,确定其下限或上限,再计算组中值。表3-6中第四组的组中值为:。 必须指出,组中值代表各组内的一般水平,这种代表有一定的假定性,即假定次数在组内分布是均匀的。
组距变量数列,根据各组的组距是否相等,可分为等距数列和异距数列。等距数列由于组距相等,各组次数的分布不受组距大小的影响,它和消除了组距影响的次数密度的分布是一致的。异距数列各组次数多少受组距不同的影响;组距大次数数值可能大,组距小则次数数值可能小。为了比较要清除此影响,需要计算次数密度。次数密度是单位组距的次数多少,又称为频数密度。 次数密度。表3—6中第一组次数密度为: 。 组距变量数列,一般在变量值较多,且变量值的变动范围较大时采用。
三、变量数列的编制
变量数列有单项变量数列和组距变量数列两种数列。在编制变量数列时, 首先要确定变量数列的形式。 当分组标志的标志值个数不多,且属离散型变量,一般编制单项变量数列,当分组标志的标志值较多,且属连续性变量(离散变量亦可),一般编制组距变量数列。 变量数列的编制步骤如下:
第一步,将调查获得的原始资料按数值大小依次排列。设某班学生统计学考试分数数据排列如下(单位:分):
44、 50、 56、 60、 62
63、 65、 65、 69、 69
69、 70、 73、 74、 76
77、 78、 78、 79、 80
83、 84、 85、 85、 86
87、 88、 89、 90、 91
91、 92、 93、 94、 94
第二步,确定组数和组距。一般是依据对总体内部情况进行定性分析,然后具体确定。但组数的多少和组距的大小是相互制约的。组数越多,组距就越小; 反之组数越少, 组距就越大。对于组数和组距,先确定哪一个,不能机械地规定,而应视具体情况确定。确定组数和组距应注意以下问题:
(1)要能明显地反映出总体的分布特征;
(2)要尽可能分出组与组性质上的差异。
如果对上述资料进行分析 ,决定先确定组数 ,则可依变量值的变动范围(全距)除以组数,即可得到组距。
设R为总体内变量值的变动范围(全距), 它等于总体内最大变量值
值之差,K为组数,i为等组距,则 与最小变量
为了计算方便,组距通常取5或10,或为5和10的倍数。
美国学者斯特吉斯提出,在总体各单位按其标志值分布趋近于正态的情况下,可根据总体单位数(N)来确定分组的组数(n)。确定组数的参考公式为:
第三步,确定组限。当组数、组距确定以后,还需划定各组的数量界限,才可编制组距变量数列。组限的确定,除了应区分事物的性质和反映总体的分布特征外,还应注意下列几点:
1.最小组下限低于最小变量值,最大组上限高于最大变量值;
2.确定组限的形式。由于变量有连续型变量和离散型变量之分,其组限的划分要求也不同。对于连续型变量,划分组限时相邻的组限必须重合,而习惯上规定,各组不包括其上限变量值的单位,即所谓“上组限不在内”的原则。对于离散型变量,划分组限时相邻组的组限必须间断。但是, 在实际工作中, 为了保证不重复不遗漏总体单位,对于离散变量也常常采用连续型变量的组限表示方法。
3.确定开口组和闭口组。当变量出现极大值或极小值时, 可采用开口组,即用××以下或××以上表示。
第四步,将总体各单位分配到各组,计算出各组的次数,便得组距变量数列。
将上述资料编制成组距变量数列表,见表3-7.
.表3-7 某班统计学考试成绩表 按考试分数分组(%) 学生人
数(人) 60
以下
60~70
70~80
80~90
90以上
合 计 3 8 8 9 7 35
组距数列的编制
在编制组距数列的过程中,应根据统计研究的目的来确定作等距分组编等距数列,还是作异距分组编异距数列。如果分组的目的是为了直接比较各组次数分布或分析对比各组的指标,即可采用等距分组,编制等距数列;如果分组的目的在于从数量上区分性质不同的总体,或者有某一特定的目的要求,则应采用异距分组,编制异距数列。另外要正确选择分组标志,要合理确定组数、分组界限。下面以等距式数列的编制,来说明组距数列的编制。例如,按百分制记分,某班30位学生《统计学》考试成绩(分)资料如下:
92 85 78 51 63 88 60 71 87 70
56 97 80 68 77 75 64 72 89 87
98 81 95 83 79 83 76 89 72 86
第一步:将上述资料(成绩:分)按数值的大小顺序排列如下:
51 56 60 63 64 68 70 71 72 72
75 76 77 78 79 80 81 83 83 85
86 87 87 88 89 89 92 95 97 98
经过初步加工,从顺序化的变量值,可以观察到全距和变量值分布的集中趋势,全距=98-51=47分。从变量的排列中看出成绩的分布集中在60—90分之间。
第二步:确定组数和组距 。编制组距数列必须要确定组距和组数,使分组的结果尽可能反映出总体分布的特点。组数的确定和组距有密切联系。组距大则组数少,组距小则组数就多,两者成反比例的变化。组数和组距的确定,一般是先确定组数,再确定组距。组数的确定应该全面分析所反映现象的内容,变量值分布趋势。如上例在60分的数量界限的基础上分为不及格、及格、中等、良好、优秀五个类型,即确定分为5组,则组距(i)=R/K(R为全距,K为组数),即组距=(98-51)/5=9.4,为了计算方便,组距宜取5的倍数,因此组距为10。在具体确定组距时,应使组距能体现组内资料的同质性和组与组资料的差异性。
第三步:确定组限与组中值。确定组限与组中值应遵守以下原则:
①在分布比较集中的变量值确立组距的中心位置,然后再根据组距的大小确定上、下限。尽可能使总体各单位的标志值在组内分布均匀,以满足组中值计算的假定条件。
②确定组限要遵守一个基本原则,即按这样的组限分组后,标志值在各组的变动,能反映事物的质的变化。也就是要使同质的单位在同一组内。第一组的下限不能大于最小变量值,应小于最小变量值,但不宜小得过多。最末一组的上限不得小于最大变量值,应大于最大变量值,但不能过大。在选取各组上、下限时,也应尽可能使组中值恰为整数,以减少计算工作量。 由于变量分为连续型变量与离散型变量,因此,组限的确定也有所不同。对于连续型变量的分组,由于相邻两组的上限与下限通常以同一个数值来表示,每一组的上限同时是下一组的下限,为了避免计算总体单位分配数值的混乱,一般原则是把到达上限值的单位数计入下一组内,一般称为“上组限不在内”原则。如前例50—60分,满了60分,应计入下一组60-70分这一组内。这样做,不仅能使计算方法统一,而且这些数字也往往正是事物发生质变的量的界限,就拿考分来说,事实上是成绩及格与不及格的数量界限;对于离散型变量分组,则相邻两组的上限与下限通常是以两个确定的不同整数值来表示,相邻两组的上下限可以不重合。例如,企业按工人数分组可分为以下各级:200人以下、201~400人、401~600人、601~1000人、1000人以上,这是一般的表示方法。也可以按“上组限不在内”的原则写为重叠式组限,如上面的工人人数分组,也可写成:200人以下、200~400人、400~600人、600~1000人、1000人以上等。
第四步:计算频数,编制变量数列。各组的组限确定后,就应根据资料计算各组变量值所包含的总体单位数,即频数或频率。现将30个学生考试成绩的资料编制变量数列(如下表):
什么是统计总体和总体单位?总体的特点是什么?
统计总体又称“调查总体”,简称“总体”,是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体。构成总体的这些个别单位称为总体单位。例如,所有的工业企业就是一个总体,这是因为在性质上每个工业企业的经济职能是相同的,即都是从事工业生产活动的基本单位,这就是说,它们是同性质的。这些工业企业的集合就构成了统计总体。对于该总体来说,每一个工业企业就是一个总体单位。 确定总体与总体单位,必须注意两个方面:
1、构成总体的单位必须是同质的,不能把不同质的单位混在总体之中。例如,研究工人的工资水平,就只能将靠工资收入的职工列入统计总体的范围。同时,也只能对职工的工资收入进行考察,对职工由其他方面取得的收入就要加以排除,这样才能正确反映职工的工资水平。
2、总体与总体单位具有相对性,随着研究任务的改变而改变。同一单位可以是总体也可以是总体单位。例如,要了解全国工业企业职工的工资收入情况,那么全部工厂是总体,各个工厂是总体单位。如果旨在了解某个企业职工的工资收入情况,则该企业就成了总体,每位职工的工资就是总体单位了。
在明确了以上一些基本概念之后,将它们联系起来观察,深入地认识总体,可以看出,统计总体具有同质性、大量性和差异性三个主要特点。
1、同质性
同质性是指总体中的各个单位必须具有某种共同的属性或标志数值。如国有企业总体中每个企业共同标志属性是国家所有。同质性是总体的根本特征,只有个体单位是同质的,统计才能通过对个体特征的观察研究,归纳和揭示出总体的综合特征和规律性。
2、大量性
大量性是指总体中包括的总体单位有足够多的数量。总体是由许多个体在某一相同性质基础上结合起来的整体,个别或很少几个单位不能构成总体。总体的大量性,可使个别单位某些偶然因素的影响——表现在数量上的偏高、偏低的差异——相互抵消,从而显示出总体的本质和规律性。
3、差异性(或称变异性)
差异性是指总体的各单位之间有一个或若干个可变的
品质标志或数量标志,从而表现出的差异。例如,某领域的职工总体中各单位间有男、女的性别属性差异,有20岁、21岁、22岁、23岁、24岁、25岁、26岁等年龄标志数值的差异。
标志表现是又一个重要概念即标志特征在各个单位的具体表现,体现了总体单位的具体时间、地点、条件下运作的结果,一各标志在各个单位的具体表现不同,其分类有:
1)品质标志表现和数量标志表现之分
品质标志和数量标志有什么区别?
品质标志表明总体单位属性方面的特征,其标志表现只能用文字来表现;数量标志表明总体单位数量方面的特征,其标志表现可以用数值表示,即标志值。
抽样调查有哪些特点?有哪些优越性?
抽样调查是一种非全面调查,它是按照随机原则从总体中抽取部分调查单位进行观察用以推算总体数量特征的一种调查方式。
抽样调查的特点:(1)抽样调查是一种非全面调查,但其目的是要通过对部分单位的调查结果来推断总体的数量特征。(2)抽样调查是按照随机原则从全部总体单位中来抽选调查单位。所谓随机原则就是总体中调查单位的确定完全由随机因素来决定,单位中选与不中选不受主观因素的影响,保证总体中每一单位都有同等的中选可能性。
抽样调查方式的优越性体现在经济性、时效性、准确性和灵活性等方面。
抽样调查的作用:能够解决全面调查无法或困难解决的问题;可以补充和订正全面调查的结果;可以应用于生产过程中产品质量的检查和控制;可以用于对总体的某种假设进行检验。
强度相对指标和其它相对指标的主要区别是什么?
主要区别是: ⑴ 其它各种相对指标都属于同一总体内的数量进行对比,而强度相对指标除此之外,也可以是两种性质不同的但又有联系的属于不同总体的总量指标之间的对比。 ⑵ 计算结果表现形式不同。其它相对指标用无名数表示,而强度相对指标主要是用有名数表示。 ⑶ 当计算强度相对指标的分子、分母的位置互换后,会产生正指标和逆指标,而其它相对指标不存在正、逆指标之分。
如何理解权数的意义?
加权算术平均数中的权数,指的就是标志值出现的次数或各组次数占总次数的比重。
变异、变量和变量值这三者之间有什么关系
如果某一标志的具体表现在总体各单位相同,则称该标志为不变标志;如果某一标志的具体表现在各单位不尽相同,则称该标志为可变标志。 可变标志的标志表现由一种状态变到另一种状态,统计上把这种现象或过程称变异。变异是一种普遍现象,有变异才有必要进行统计。 l 变异有属性变异和数量变异之分。属性变异表明质的差别,数量
变异表明量的差别。 不变的数量标志称常量或参数。 可变的数量标志和所有的统计指标称变量。变量的数值表现称变量值,即标志值或指标值。
l 变量按其数值是否连续可分为连续性变量和离散性变量。连续性变量的数值是连续不断的,任意两个变量值之间可以做无数种分割,如工业总产值、商品销售额、身高、体重等,既可用小数表示,也可用整数表示;离散变量的取值可以按一定次序一一列举,如工厂数、工人数、机器台数等,变量值通常用整数表示。
指标是统计指标的简称。从设计形态定义上看,统计指标是反映总体现象数量特征的概念(或名称)。例如,国内生产总值、居民消费水平等。从完成形态定义来说,统计指标是反映总体现象数量特征的概念和具体数值。例如,2002年天津市钢产量为482.58万吨。两种理解都成立。这与通常人们对某项工作的任务数、目标值也称作指标的说法是截然不同的。
统计指标的特点:一是同质事物的可量性,没有质的规定性不能成为统计指标。有了质的规定性而不能用数量来表示也不能成为统计指标。如钢产量有特定的涵义又能用数量表示,才能成为指标;二是量的综合性,统计指标反映的是总体的量,它是许多个体现象的数量综合的结果。如,一名从业人员的劳动报酬不能成为指标,若干名从业人员构成一个总体,其劳动报酬和人均劳动报酬才能成为统计指标.
统计指标是统计的基本要素之一。整个统计工作过程,要围绕或通过指标来进行,统计的职能和作用也要依托各种指标来实现。 统计指标体系是由若干相互联系、相互制约的统计指标组成的一个统计指标系统。客观现象错综复杂,各种现象之间存在相互联系、相互制约的关系,若反映事物的各个方面及其发展变化的整个过程就需要设计和运用一整套指标,或者说一系列指标。如,研究一个地区的工业生产状况,就需要设计和运用由反映生产条件的指标,反映生产过程的指标,反映生产成果和效益的指标等一个结合在一起的统计指标体系。
统计指标和指标体系
统计指标是反映社会经济现象总体综合数量特征的科学概念或范畴。 正确理解统计指标时应注意:①统计指标反映现象总体的数量特征;②一个完整的统计指标应该由总体范围、时间、地点、指标数值和数值单位等内容构成。
统计指标和统计标志是一对既有明显区别又有密切联系的概念。二者的主要区别是:
①指标是说明总体特征的,标志是说明总体单位特征的;
②指标具有可量性,无论是数量指标还是质量指标,都能用数值表示,而标志不一定。数量标志具有可量性,品质标志不具有可量性。 标志和指标的主要联系表现在:
①指标值往往由数量标志值汇总而来;
②在一定条件下,数量标志和指标存在着变换关系。
统计指标按其反映的数量特点不同可分为数量指标和质量指标。 数量指标是反映现象总规模水平或工作总量的指标,也称总量指标,一般通过数量标志值直接汇总而来,用绝对数表示,指标数值均有单位;质量指标是反映现象总体相对水平或工作质量的统计指标,又分为相对指标和平均指标,分别用相对数和平均数表示,它们通常是由两个总量指标对比派生出来的,反映现象之间内在联系和对比关系。
数量指标和质量指标的关系表现在:数量指标是计算质量指标的基础,质量指标往往是相应的数量指标进行对比的结果。
统计指标体系是各种互相联系的指标群构成的整体,用以说明所研究的社会经济现象各方面互相依从和互相制约的关系。一个指标的作用总是有限的,它只能反映现象总体的某一侧面,只有使用指标体系才能反映现象总体全貌。
统计指标体系大体上可分为基本统计指标体系和专题统计指标体系两大类。
五、统计数据的搜集与整理
一、统计数据的搜集
(1)统计数据的概念和类型
利用统计方法进行计算、分析,首先要有统计数据。搜集、整理统计数据是统计工作的基础。统计数据是对客观现象进行计量的结果。 根据对事物计量的精确程度和结果来看,可将统计数据分为分类的数
据、顺序的数据和数值型数据。
分类的数据是对事物进行分类的结果,该类数据表现为类别。有些现象的计量不仅可以将事物分为不同的类别,还可以确定这些类别的优劣或顺序,如可将产品分为一等品、二等品等。有些事物可以使用自然或度量衡单位进行计量,其结果表现为具体的数值,即数值型数据。
(2)统计数据的来源
从统计数据本身的来源看,最初都是来自于直接的调查或试验。但从使用者的角度看,统计数据的来源主要有2个渠道:一是直接的调查或试验,这是统计数据的直接来源,可称之为第一手或直接的统计数据,简称一手数据或直接数据;二是别人调查或试验的数据,这是统计数据的间接来源,可称之为第二手或间接的统计数据,简称二手数据或间接数据。
统计数据的直接来源渠道主要有2个:一是专门调查,二是科学试验。 对于大多数使用者来说,如果能通过直接的调查或试验获得所需的一手数据是最好的,但许多情况下亲自去做调查往往不大可能,这时还可以通过其他渠道获得别人调查或试验的二手数据。
题目:统计总体必须是( )。
A.性质不同的众多个体所组成的集合体
B.性质相同的众多个体所组成的集合体
C.至少有一个主要性质相同的众多个体所组成的集合体
D.至少有一个主要性质不同的众多个体所组成的集合体 答案:(C )
题目:下列关于统计中的基本概念正确的是( )。
A.总体中所含个体的数量称为总体单位
B.差异性是总体形成必须具备的条件
C.只有当总体数量无限时,我们才进行抽样调查
D.标志是反映总体特征或属性的名称
答案:(B )
题目:下列不属于综合指标的是( )。
A.总量指标
B.相对指标
C.平均指标
D.水平指标
答案:(D)
题目:如果搜集到的是总体数据,则经过( )就可以达到探索其内在数量规律性的目
A.推断统计
B.描述统计
C.抽样统计
D.判断统计
答案:(B)
四、标志和变量
(一)标志的概念和种类
标志是反映个体特征或属性的名称。如以居民为个体时,则居民的性别、年龄、民族、文化程度、职业、收入等都是每个居民所具有的标志。
一个总体中的各个体可以有许多标志。标志按是否可用数量表现,分为品质标志和数量标志。 标志按是否变异,分为不变标志和变异标志。 (二)变量的概念和种类
统计研究常遇到的是数量变异标志,为简便起见,将数量变异标志称为变量,变量的具体数值称为变量值或标志值,如年龄这个变量可具体表现为10年、20年、30年等 变量按变量值是否连续,可分为连续型变量和离散型变量。
任意两个变量值之间取值无限的为连续型变量,如身高、住房面积等。任意两个变量值之间取值有限的为离散型变量,如居住人口、住房套数等。连续型变量的变量值需要用测量和计算的方法获得。离散型变量的变量值需要用计数的方法获得,其取值数是有限的,而且只能取整数。 变量还可分为确定性变量和随机变量。
分配数列 一、分配数列的概念
在统计分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为分配数列,也称分布数列或次数分布。
分配数列包括两个要素:一是总体按某标志所分的组;二是各组所占有的总体单位数。
分配数列在统计研究中具有重要意义。分配数列是统计分组结果的主要表现形式,也是统计分析的一种重要方法。它可以表明总体单位在各组的分布特征、结构状况,并在这个基础上来进一步研究标志的构成、平均水平及其变动规律性。
二、分配数列的种类
变量数列又分为单值数列和组距数列。
1、单值数列: 指每个组值只用一个具体的变量值表现的数列。
编制条件: 变量是离散变量 ;变量的不同取值个数较少(同时具备)
【例】己知某车间有24名工人,他们的日产量(件)分别是:20,23,20,24,23,21,22,25,26,20,21,21,22,22,23,22,22,24,25,21,22,21,24,23.要求根据以上资料编制变量数列。
日产量(件)X 工人数(人) f
20
21
22
23
24
25
26 3
5
6
4
3
2
1
合计 24
2、组距数列: 指每个组的变量值用一个区间来表现的变量数列
编制条件: 变量是连续变量; 或:总体单位数较多变量不同取值个数也较多的离散变量。 组距数列又分为等距数列和异距数列。
等距数列: 变量值变动区间的长度相等。
异距数列: 变量值变动区间的长度不完全相等。
相关概念:
组限: 指每组两端表示各组界限的变量值,各组的最小值为下限(low limit) ,最大值为上限(upper limit) 。
组距: 每组变量值变动区间的长度,为上下限之差。
组中值: 每组变量取值范围的中点数值 。
组中值=(上限+下限)∕2
在统计中,变量分配数列编制的步骤是怎样的?
①将原始资料按其数值大小重新排列
只有把得到的原始资料按其数值大小重新排列顺序,才能看出变量分布的集中趋势和特点,为确定全距,组距和组数作准备.
②确定全距
全距是变量值中最大值和最小值的差数.确定全距,主要是确定变量值的变动范围和变动幅度.如果是变动幅度不大的离散变量,即可编制单项式变量数列,如果是变量幅度较大的离散变量或者是连续变量,就要编制组距式变量数列.
③确定组距和组数
前面已经介绍过组距数列有等距和不等距之分,应视研究对象的特点和研究目的而定.
组距的大小和组数的多少,是互为条件和互相制约的.当全距一定时,组距大,组数就少;组距小,组数就多.在实际应用中,组距应是整数,最好是5或10的整倍数.在确定组距时,必须考虑原始资料的分布状况和集中程度,注意组距的同质性,尤其是对带有根本性的质量界限,绝不能混淆,否则就失去分组的意义.
在等距分组条件下,存在以下关系:
组数=全距/组距
④ 确定组限
组限要根据变量的性质来确定.如果变量值相对集中,无特大或特小的极端数值时,则采用闭口式,使最小组和最大组也都有下限和上限;反之,如果变量值相对比较分散,则采用开口式,使最小组只有上限(用
在采用闭口式时,应做到最小组的下限低于最小变量值,最大组的上限高于最大变量值,但不要过于悬殊.
⑤ 编制变量数列
经过统计分组,明确了全距,组距,组数和组限及组限表示方法以后,就可以把变量值归类排列,最后把各组单位数经综合后填入相应的各组次数栏中
分配数列
一、分配数列的概念
在统计分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为分配数列,也称分布数列或次数分布。
分配数列包括两个要素:一是总体按某标志所分的组;二是各组所占有的总体单位数。 分配数列在统计研究中具有重要意义。分配数列是统计分组结果的主要表现形式,也是统计分析的一种重要方法。它可以表明总体单位在各组的分布特征、结构状况,并在这个基础上来进一步研究标志的构成、平均水平及其变动规律性。
二、分配数列的种类 分配数列根据分组标志的性质不同,分为品质分配数列和变量分配数列。 (一)品质数列 品质标志分组所编制的分配数列叫品质分配数列,简称品质数列。见表3-4。
表3-4 某大学在校学生的性别分布情况 性 别
男 性
女 性
合 计 学生人数(人) 11696 1984 13680 学生人数比重(%) 85.5 14.5 100.0
编制品质分配数列, 只要分组标志选择得好, 分组标准定得恰当,则事物性质的差异表现得比较明确,总体中各组的划分较容易。因而品质分配数列一般比较稳定,能准确地反映总体的分布特征。
(二)变量数列
按数量标志分组所编制的分配数列叫变量数列。变量数列又可分为单项式变量数列和组距式变量数列。
1.单项式变量数列
按每个变量值分别列组,所编制的变量数列叫单项式变量数列,又称单项数列。这样的数列组数等于数量标志所包含的变量值的数目。见表3-5,
表3-5 某车间工人看管机器台数分布 按工人看管机器分组 工人数(人) 工人
比重
(%)
18
26
24
12
80 22.5 32.5 30.0 15.0 100.0 5 6 8 10 合 计
单项变量数列一般在变量值不多且变量值的变动范围不大的条件下采用。
2.组距式变量数列
用表示一定变量范围(或距离),以起止的两个变量分别列组,所编制的变量数列叫组距式变量数列,又称组距数列。见表3-6。
表3-6 某企业职工月工资情况 按工资水平分组(元) 按工人数(人) 比重
(%)
100~150
150~200
200~250
250以上
合 计 180 320 400 100 1000 18 32 40 10 100.0
在组距数列中,要弄清以下几个概念:
(1) 组限。表示各组界限的变量值叫组限。组限又分上限和下限。下限是每组最小的变量值,上限是每组最大的变量值。表3-6中100~150元一组,100元和150元是组限,100元为下限,150元为上限。
(2) 组距。每组下限与上限之间的距离叫组距,它等于上限与下限之差,即组距=上限-下限。
(3) 组中值。每组下限与上限之间的中点数值叫组中值,组中值=。上表3—6中的第一组的组距=150-100=50元,组中值= 。
编制组距式变量数列时,往往使用最小组缺下限或最大组缺上限,这样不确定组距的组,称为开口组,表3—6中第四组为开口组。开口组的组距以相邻组的组距作为本组的组距,确定其下限或上限,再计算组中值。表3-6中第四组的组中值为:。 必须指出,组中值代表各组内的一般水平,这种代表有一定的假定性,即假定次数在组内分布是均匀的。
组距变量数列,根据各组的组距是否相等,可分为等距数列和异距数列。等距数列由于组距相等,各组次数的分布不受组距大小的影响,它和消除了组距影响的次数密度的分布是一致的。异距数列各组次数多少受组距不同的影响;组距大次数数值可能大,组距小则次数数值可能小。为了比较要清除此影响,需要计算次数密度。次数密度是单位组距的次数多少,又称为频数密度。 次数密度。表3—6中第一组次数密度为: 。 组距变量数列,一般在变量值较多,且变量值的变动范围较大时采用。
三、变量数列的编制
变量数列有单项变量数列和组距变量数列两种数列。在编制变量数列时, 首先要确定变量数列的形式。 当分组标志的标志值个数不多,且属离散型变量,一般编制单项变量数列,当分组标志的标志值较多,且属连续性变量(离散变量亦可),一般编制组距变量数列。 变量数列的编制步骤如下:
第一步,将调查获得的原始资料按数值大小依次排列。设某班学生统计学考试分数数据排列如下(单位:分):
44、 50、 56、 60、 62
63、 65、 65、 69、 69
69、 70、 73、 74、 76
77、 78、 78、 79、 80
83、 84、 85、 85、 86
87、 88、 89、 90、 91
91、 92、 93、 94、 94
第二步,确定组数和组距。一般是依据对总体内部情况进行定性分析,然后具体确定。但组数的多少和组距的大小是相互制约的。组数越多,组距就越小; 反之组数越少, 组距就越大。对于组数和组距,先确定哪一个,不能机械地规定,而应视具体情况确定。确定组数和组距应注意以下问题:
(1)要能明显地反映出总体的分布特征;
(2)要尽可能分出组与组性质上的差异。
如果对上述资料进行分析 ,决定先确定组数 ,则可依变量值的变动范围(全距)除以组数,即可得到组距。
设R为总体内变量值的变动范围(全距), 它等于总体内最大变量值
值之差,K为组数,i为等组距,则 与最小变量
为了计算方便,组距通常取5或10,或为5和10的倍数。
美国学者斯特吉斯提出,在总体各单位按其标志值分布趋近于正态的情况下,可根据总体单位数(N)来确定分组的组数(n)。确定组数的参考公式为:
第三步,确定组限。当组数、组距确定以后,还需划定各组的数量界限,才可编制组距变量数列。组限的确定,除了应区分事物的性质和反映总体的分布特征外,还应注意下列几点:
1.最小组下限低于最小变量值,最大组上限高于最大变量值;
2.确定组限的形式。由于变量有连续型变量和离散型变量之分,其组限的划分要求也不同。对于连续型变量,划分组限时相邻的组限必须重合,而习惯上规定,各组不包括其上限变量值的单位,即所谓“上组限不在内”的原则。对于离散型变量,划分组限时相邻组的组限必须间断。但是, 在实际工作中, 为了保证不重复不遗漏总体单位,对于离散变量也常常采用连续型变量的组限表示方法。
3.确定开口组和闭口组。当变量出现极大值或极小值时, 可采用开口组,即用××以下或××以上表示。
第四步,将总体各单位分配到各组,计算出各组的次数,便得组距变量数列。
将上述资料编制成组距变量数列表,见表3-7.
.表3-7 某班统计学考试成绩表 按考试分数分组(%) 学生人
数(人) 60
以下
60~70
70~80
80~90
90以上
合 计 3 8 8 9 7 35
组距数列的编制
在编制组距数列的过程中,应根据统计研究的目的来确定作等距分组编等距数列,还是作异距分组编异距数列。如果分组的目的是为了直接比较各组次数分布或分析对比各组的指标,即可采用等距分组,编制等距数列;如果分组的目的在于从数量上区分性质不同的总体,或者有某一特定的目的要求,则应采用异距分组,编制异距数列。另外要正确选择分组标志,要合理确定组数、分组界限。下面以等距式数列的编制,来说明组距数列的编制。例如,按百分制记分,某班30位学生《统计学》考试成绩(分)资料如下:
92 85 78 51 63 88 60 71 87 70
56 97 80 68 77 75 64 72 89 87
98 81 95 83 79 83 76 89 72 86
第一步:将上述资料(成绩:分)按数值的大小顺序排列如下:
51 56 60 63 64 68 70 71 72 72
75 76 77 78 79 80 81 83 83 85
86 87 87 88 89 89 92 95 97 98
经过初步加工,从顺序化的变量值,可以观察到全距和变量值分布的集中趋势,全距=98-51=47分。从变量的排列中看出成绩的分布集中在60—90分之间。
第二步:确定组数和组距 。编制组距数列必须要确定组距和组数,使分组的结果尽可能反映出总体分布的特点。组数的确定和组距有密切联系。组距大则组数少,组距小则组数就多,两者成反比例的变化。组数和组距的确定,一般是先确定组数,再确定组距。组数的确定应该全面分析所反映现象的内容,变量值分布趋势。如上例在60分的数量界限的基础上分为不及格、及格、中等、良好、优秀五个类型,即确定分为5组,则组距(i)=R/K(R为全距,K为组数),即组距=(98-51)/5=9.4,为了计算方便,组距宜取5的倍数,因此组距为10。在具体确定组距时,应使组距能体现组内资料的同质性和组与组资料的差异性。
第三步:确定组限与组中值。确定组限与组中值应遵守以下原则:
①在分布比较集中的变量值确立组距的中心位置,然后再根据组距的大小确定上、下限。尽可能使总体各单位的标志值在组内分布均匀,以满足组中值计算的假定条件。
②确定组限要遵守一个基本原则,即按这样的组限分组后,标志值在各组的变动,能反映事物的质的变化。也就是要使同质的单位在同一组内。第一组的下限不能大于最小变量值,应小于最小变量值,但不宜小得过多。最末一组的上限不得小于最大变量值,应大于最大变量值,但不能过大。在选取各组上、下限时,也应尽可能使组中值恰为整数,以减少计算工作量。 由于变量分为连续型变量与离散型变量,因此,组限的确定也有所不同。对于连续型变量的分组,由于相邻两组的上限与下限通常以同一个数值来表示,每一组的上限同时是下一组的下限,为了避免计算总体单位分配数值的混乱,一般原则是把到达上限值的单位数计入下一组内,一般称为“上组限不在内”原则。如前例50—60分,满了60分,应计入下一组60-70分这一组内。这样做,不仅能使计算方法统一,而且这些数字也往往正是事物发生质变的量的界限,就拿考分来说,事实上是成绩及格与不及格的数量界限;对于离散型变量分组,则相邻两组的上限与下限通常是以两个确定的不同整数值来表示,相邻两组的上下限可以不重合。例如,企业按工人数分组可分为以下各级:200人以下、201~400人、401~600人、601~1000人、1000人以上,这是一般的表示方法。也可以按“上组限不在内”的原则写为重叠式组限,如上面的工人人数分组,也可写成:200人以下、200~400人、400~600人、600~1000人、1000人以上等。
第四步:计算频数,编制变量数列。各组的组限确定后,就应根据资料计算各组变量值所包含的总体单位数,即频数或频率。现将30个学生考试成绩的资料编制变量数列(如下表):