第2章
2.1 解:(1) 这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号
为1~64的这些单元中每一个单元被抽到的概率都是
1100
。
(2)这种抽样方法不是等概率的。利用这种方法,在每次抽取样本单元时,尚未被抽中
的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是抽中的编号为36~63的每个单元的入样概率都是
1100
2100
,而尚未被
。
000~(3)这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号为20 21 000中的每个单元的入样概率都是
11000
,所以这种抽样是等概率的。
2.3 解:首先估计该市居民日用电量的95%的置信区间。根据中心极限定理可知,在大
_
间为⎡-zα
⎣
=
-E_
近似服从标准正态分布, Y的1-α=95%的置信区
+zα
=⎡-+。
⎣
而V()=
⎡⎣
1-fn
22
S中总体的方差S是未知的,用样本方差s来代替,置信区间
2
为⎢-_
,+⎤⎥。 ⎦
由题意知道,y=9.5,s2=206,而且样本量为n=300,N=50000,代入可以求得
_
v(y)=
1-fn
s=
2
1-30050000
300
⨯206=0.6825。将它们代入上面的式子可得该市居民
日用电量的95%置信区间为⎡⎤。 ⎣7.8808,11.1192⎦
_
下一步计算样本量。绝对误差限d和相对误差限r的关系为d=rY。 根据置信区间的求解方法可知
__
⎧_⎫P⎨y-Y≤rY⎬≥1-α⇒P⎩⎭⎩
_
≤
⎫
⎪≥1-α ⎭
⎛_
rY =()
zα2⎝
2
≤Zα根据正态分布的分位数可以知道
P⎩
_
2
⎫
⎪⎪
≥1-α,所以V⎬⎪⎪⎭⎤⎥⎥。 ⎥⎥⎦
⎫⎪。⎪⎭
⎛
1⎫2 rY⎛1
也就是 -⎪S=
zα2nN⎝⎭
⎝
_
⎫
⎪⇒n=1⎪⎭
2
⎡⎛_⎫⎢ rY⎪1⎭⎢+⎝
22
⎢Nzα/2S⎢⎣
2
把y=9.5,s=206,r=10%,N=50000代入上式可得,n=861.75≈862。所以样
本量至少为862。
2.4 解:总体中参加培训班的比例为P,那么这次简单随机抽样得到的P的估计值p
的方差V
(p)=
1-fn
NN-1
P(1-P),
在大样本的条件下近
似服从标准正态分布。在本题中,样本量足够大,从而可得P的1-α=
95%的置信区间为⎡p-zα
⎣
p+zαV
。 是未知的,我们使用它的估计值
而这里的
(p)
^
V
(p)=v(p)=
1-fn-1
p(1-p)=9.652⨯10
-5
。所以总体比例P的1-α=95%的置信区间
可以写为
⎡p-zα
⎣
p+zα
,将p=0.35,n=200,N=10000代入可得置
信区间为⎡0.2844,0.4156⎤。
⎣⎦
2.5 解:利用得到的样本,计算得到样本均值为=2890/20=144.5,从而估计小
_
区的平均文化支出为144.5元。总体均值Y的1-α=95%的置信区间为
⎡-zα
⎣
+zα
,用v()=
1-fn1-fn
s来估计样本均值的方差Vs=
2
2
()。
6
计算得到s2=826.0,25则6v()=zα
2
1-20
0.1
⨯826.0=25
,
37.172
=1.96⨯代入数值后计算可得总体均值的95%的置信区间为=11.95,
[132.55,156.45]。
2.6 解:根据样本信息估计可得每个乡的平均产量为1 120吨,该地区今年的粮食总
^
_
产量Y的估计值为Y=350y=350⨯1120=3.92⨯105(吨)。
⎛^⎫N
总体总值估计值的方差为V Y⎪=
⎝⎭
2
(1-f)
n
2
总体总值的1-α=95%的置信区间
S,
⎡^
为⎢Y-zα
⎢⎣f=
nN
2
^
Y+zα^
52
,把Y=3.92⨯10,S=25600,n=50,N=350, ,zα
2
=1.96代入,可得粮食总产量的1-α=95%的置信区间为
⎡377629,406371⎤。 ⎣⎦
2.7 解:首先计算简单随机抽样条件下所需要的样本量,把
2
⎛1⎫d
+2N=1000,d=2,1-α=95%,S=68带入公式n0=1 ,最后可得2⎪zα/2S⎭⎝N
2
n0=61.3≈62。
如果考虑到有效回答率的问题,在有效回答率为70%时,样本量应该最终确定为
n=n070%=88.57≈89。
2.8 解:去年的化肥总产量和今年的总产量之间存在较强的相关性,而且这种相关关
系较为稳定,所以引入去年的化肥产量作为辅助变量。于是我们采用比率估计量的形式来估计今年的化肥总产量。去年化肥总产量为X=2135。利用去年的化肥总产量,今年的化肥
_
^
^
总产量的估计值为YR=RX=
y
_
X=2426.14吨。
1-fn
x
2.9 解:本题中,简单估计量的方差的估计值为v()=
s=37.17。
2
利用比率估计量进行估计时,我们引入了家庭的总支出作为辅助变量,记为X。文化支出属于总支出的一部分,这个主要变量与辅助变量之间存在较强的相关关系,而且它们之间的关系是比较稳定的,且全部家庭的总支出是已知的量。
_
_
^
_
文化支出的比率估计量为yR=RX=
_
_
y
_
__
通过计算得到=2890/20=144.5,而X,
x
^
x=1580,则R=
y
_
1580
x
现在考虑比率估计量的方差,在样本量较大的条件下,
MSE(R)≈
2
2x
=
144.5
_
。 =0.0915,文化支出的比率估计量的值为yR=146.3(元)
V
(R)≈
1-fn
(S
2
-2RρS⋅Sx+RSx),通过计算可以得到两个变量的样
2
2
4
^
s=9.95⨯81,0Y和X之间的相关系数的估计值为ρ=0.974,本方差为s=826,
⎛_⎫
代入上面的公式,可以得到比率估计量的方差的估计值为v yR⎪=1.94。这个数值
⎝⎭
比简单估计量的方差估计值要小很多。全部家庭的平均文化支出的1-α=95%的置信区间为
⎡R-zα
⎣
R+zα
=⎡R-
R+,
⎣把具体的数值代入可得置信区间为[143.57,149.03]。
⎛_⎫⎛_⎫V yR⎪v yR⎪
1.94⎝⎭⎝⎭
≈==0.052,这是比估接下来比较比估计和简单估计的效率,
V()v()37.17
计的设计效应值,从这里可以看出比估计量比简单估计量的效率更高。
2.10 解:利用简单估计量可得=
∑y
i
2n=1630/10=163,样本方差为s=212.222,
N=120,样本均值的方差估计值为v()=
1-fn
s=
2
1-10/120
10
⨯212.222=19.4537。
利用回归估计的方法,在这里选取肉牛的原重量为辅助变量。选择原重量为辅助变量是
合理的,因为肉牛的原重量在很大程度上影响着肉牛的现在的重量,二者之间存在较强的相
^
关性,相关系数的估计值为ρ=0.971,而且这种相关关系是稳定的,这里肉牛的原重量的数值已经得到,所以选择肉牛的原重量为辅助变量。
^
^
回归估计量的精度最高的回归系数β的估计值为β=ρ
ssx
=0.971⨯
14.56810.341
=1.368。
_
现在可以得到肉牛现重量的回归估计量为ylr
_
_
⎛_⎫
=+β X-x⎪,代入数值可以得到
⎝⎭
^
ylr=159.44。
⎛_⎫⎛_⎫1-f22
回归估计量ylr的方差为V ylr⎪≈MSE ylr⎪≈S(1-ρ),方差的估计值为
n⎝⎭⎝⎭
^2⎫^2⎫⎛_⎫1-f2⎛⎛_⎫1-f2⎛
s 1-ρ⎪=1.112,显然v ylr⎪=s 1-ρ⎪,代入相应的数值, v ylr⎪=
nn⎝⎭⎝⎭⎝⎭⎝⎭
_
⎛_⎫
有v ylr⎪
⎝⎭
的精度要好于简单估计量。
第3章
3.1 解:在分层随机抽样中,层标志的选择很重要。划分层的指标应该与抽样调查中最关心的调查变量存在较强的相关性,而且把总体划分为几个层之后,层应该满足:层内之间的差异尽可能小,层间差异尽可能大。这样才能使得最后获得的样本有很好的代表性。对几种分层方法的判断如下:
(1)选择性别作为分层变量,是不合适的。首先,性别这个变量与研究最关心的变量(不同职务,职称的人对分配制度改革的态度)没有很大的相关性;其次,用性别作为分层变量后,层内之间的差异仍然很大,相反,层之间的差异不是很大,因为男性和女性各自内部的职务,职称也存在很大的差别;最后,选择性别作为分层变量后,需要首先得到男性和女性的抽样框,这样会更加麻烦,也会使抽样会变得更加复杂。
(2)按照教师、行政管理人员和职工进行分层,是合适的。这种分层的指标与抽样调查研究中最关心的变量高度相关,而且按照这种方法分层后,可以看出层内对于分配制度改革的态度差异比较小,因为他们属于相同的阶层,而层之间的态度的差异是比较大的。这样选取出来的样本具有很好的代表性。
(3)按照职称(正高、副高、中级、初级和其他)分层,也是合理的。理由与(2)相同,这样进行分层的变量选择与调查最关心的变量是高度相关的,分层后的层满足分层的要求。所以,按照职称进行分层是合理的。
(4)按照部门进行分层,是合理的。因为学校有很多院、系或者所,直接进行简单随机抽样,有可能样本不能很好地代表各个院系,最关心的变量与部门也存在一定的相关性。这样分层后,每个层的总体数目和抽取的样本量都较小,最终的样本的分布比较均匀,比简单随机抽样更加方便实施。
3.2 解:设计的方案如下:
第一种方案:可以按照不同的专业进行分层,但是考虑到如果在每层都抽取,不能保证每个新生的入样概率相等,因为每个专业的人数比例未知,8个人的样本量无法在每个层之
间进行分配。所以采取如下方法:对所有的新生按照专业的先后顺序进行编号,使得每个专业的人的编号在一起,然后随机选取出一个号码,然后选取出这个号码所在的专业,选取出这个专业,再在这个专业的所有新生中按照简单随机抽样的方法选取出8个人。这样就可以保证每个人入选的概率是相等的。
第二种方案:也可以按照性别进行分类,对他们进行编号,为1~800,使得男生的编号都在一起,女生的编号也都在一起,然后随机选取出一个号码,然后看这个号码所对应的性别,然后从这个性别的所有人中按照简单随机抽样的方法选取出8个新生。这样就可以保证所有的新生的入样概率是相同的。
第三种方案:随机地把所有的人分成8组,而且使得每组的人都是100个人,这样分组完成后,每个组的新生进行编号为1~100,然后随机抽取出一个号码,再从所有的小组中抽取出号码所对应的新生,从而抽取出8个人。
_
_
_
3.3 解:(1) 首先计算出每层的简单估计量,分别为y1=11.2,y2=25.5,y3=20,其中,N1=256,N2=420,N3=168,N=844,则每个层的层权分别为;
W1=
N1N
=0.3033,W2=
N2N
=0.4976,W3=
N3N
=0.1991
_
_
则利用分层随机抽样得到该小区居民购买彩票的平均支出的估计量yst=
_
_
∑W
h
yh,代入数
值可以得到yst=
∑W
h
yh=20.07。
3
⎛_⎫
购买彩票的平均支出的的估计值的方差为V yst⎪=
⎝⎭⎛_⎫
为v yst⎪=
⎝⎭
3
∑Wh
h=1
2
1-fhnh
Sh,此方差的估计值
2
∑Wh
h=1
2
1-fhnh
2
sh,根据数据计算可以得到每层的样本方差分别为:
2
s1=94.4,s2=302.5,s1=355.556
22
⎛_⎫
其中n1=n2=n3=10,代入数值可以求得方差的估计值为v yst⎪=9.4731,则估计的标
⎝⎭
⎛_⎫
准差为s yst⎪=
⎝⎭==3.08。
(2)由区间估计可知相对误差限满足
__
⎧⎫P⎨st-Y≤rY⎬≥1-α⇒P≤⎩⎭
⎩
2
⎫
⎪≥1-α
⎭
_
_
所以
=zα2,V
(st)
⎛_
rY= zα2⎝
⎫
⎪。 ⎪⎭
3
样本均值的方差为V(st)=到在置信度为αn=
V
∑W
h=1
2h
1-fh
nh
S=
2h
1
∑n
WhSh
22
ωh
-
1N
∑W
S,从而可以得hh
2
,相对误差限为r=
条件下的样本量为
∑W
(st)+
2
h
Shh
2
∑W
⎛
rYzα⎝
_
2
2h
Shh
2
1N
∑W
h
Sh
2
1⎫+⎪
N⎭
2
。
h
∑W
Sh
2
①对于比例分配而言,有Wh=ωh成立,那么n=
∑W
⎛
rYzα⎝
_
22
h
Sh
2
,把相应
1⎫+⎪
N⎭
∑W
h
Sh
2
的估计值和数值1-α=95%,r=10%代入后可以计算得到样本量为n=186,相应的在各层的样本量分别为n1=56.4≈57,n2=92.6≈93,n3=186-n1-n2=36。
②按照内曼分配时,样本量在各层的分配满足ωh=WhSh
∑W
h
Sh,这时样本量的计
算公式变为n=
(∑WhSh)
⎛
rYZα⎝
_
2
1⎫+⎪
N⎭
2
,把相应的数值代入后可得n=175,在各层中
h
∑W
Sh
2
的分配情况如下:n1=33,n2=87,n3=186-n1-n2=66。
3.4 解:(1) 首先计算得到每层中在家吃年夜饭的样本比例为
p1=0.9,p2=0.9333,p3=0.9,p4=0.8667,p5=0.9333,p6=0.9667,那么根据每一
6
层的层权,计算得到该市居民在家吃年夜饭的样本比例为pst=每
V
∑W
h=1
h
ph=92.4%。
一层中在
Nh
家吃年夜饭的样本比例的方差为
(ph)=
1-fh
nh
Nh-1
Ph(1-Ph)=
Nh-nhPh(1-Ph)Nh-1
6
nh
,则该市居民在家吃年夜饭的比例
的方差,在Nh-1≈Nh的条件下,V
Ph(1-Ph)nh
6
(pst)=∑Wh2V(ph)=
h=1
1N
2
6
∑
h=1
Nh(Nh-nh)
2
Nh-1
≈
∑Wh(1-fh)
2
h=1
Ph(1-Ph)nh
,而其中每层的吃年夜饭的样本比例的方差的估计
Nh-nhph(1-ph)Nh
nh-1
值为v(ph)=
1-fh
nh
nhnh-1
ph(1-ph)=
,则样本比例的方差的估计值
66
2h
2
为v(pst)=
∑Wv(ph)=∑Wh(1-fh)
h=1
h=1
ph(1-ph)nh-1
,把相应的数值代入计算可得方差的
估计值为v(pst)=3.9601⨯10
-4
,从而可以得到该估计值的标准差为s(pst)=0.0199。
(2)利用上题的结果,n=
V
∑W
(pst)+
2h
Shh
2
1N
=Shh
2
∑W
2
h
Shh1N
2
,这里的方Shh
2
∑W
(rP
Zα
)
2
+
∑W
差是Sh2=
NhNh-1
Ph(1-Ph),在Nh-1≈Nh的条件下,近似有Sh=Ph(1-Ph)。
2
①比例分配的条件下,有Wh=ωh成立,那么n=
∑W
Shh1N
2
,把相应的
h
(rP
zα
)
2
+
∑W
S
2h
估计值和数值代入可以求得最终的样本量应该是n=2663,样本量在各层的分配是n1=479.34≈479,n2=559.23≈559,n3=372.83≈373,n4=239.67≈240,
n5=426.08≈426,n6=585.86≈586。
②内曼分配条件下,ωh=WhSh
∑W
h
Sh,则n=
(∑WhSh)
2
(rP
Zα
2
)
2
+
1N
,代入相
h
∑W
Sh
2
应的估计值和数值可以计算得到样本量为n=2565,在各层中样本量的分配为n1=536,n2=520,n3=417,n4=304,n5=396,n6=392。
3.5 解:总体总共分为10个层,每个层中的样本均值已经知道,层权也得到,从而可
10
以计算得到该开发区居民购买冷冻食品的平均支出的估计值为st=
∑W
h=1
h
h=75.79。
下一步计算平均支出的95%的置信区间,首先计算购买冷冻食品的平均支出的估计值⎛_⎫
的方差,其中V yst⎪=
⎝⎭⎛_⎫
的估计值为v yst⎪=
⎝⎭
10
10
∑Wh
h=1
2
2
1-fhnh
2
Sh,但是每层的方差是未知,则样本平均支出的方差
2
∑Wh
h=1
1-fhnh
sh,每个层的样本标准差已知,题目中已经注明各层的
⎛_⎫
抽样比可以忽略,计算可以得到v yst⎪=
⎝⎭
10
∑Wh
h=1
2
1-fhnh
sh≈59.8254。则这个开发区的居
2
民购买冷冻食品的平均支出1-α=95置信区间
为
⎡
⎢-zα⎢⎣
2
+zα2
=
⎡⎢-+
⎢⎣代入数值后,可得最终的置信区间为[60.63,90,95]。
3.6 解:首先计算简单随机抽样的方差,根据各层的层权和各层的总体比例可以得到
3
总体的比例为P=
∑W
h=1
h
Ph=0.28,则样本量为100的简单随机样本的样本比例的方差为
V
(p)=
1-fn
S,不考虑有限总体校正系数,V
2
(p)≈
1n
S,其中S
22
=
NN-1
P(1-P),
在N-1≈N的条件下,通过简单随机抽样得到的样本比例的方差为
V
(p)=
1-fn
S
2
≈
1n
P(1-P)=2.016⨯10
-3
Sh,但是因为不考虑有 nhn
2
通过分层抽样得到的样本比例的方差为V
(pst)=∑Wh2
NhN
1-fhnh
限总体校正系数,而且抽样方式是比例抽样,所以有
WhSh
n
2
=Wh=ωh=
2
成立,样本比例的
NhNh-1
Ph(1-Ph),
方差近似为V(pst)=
∑
=
1n
∑WhSh。对于每一层,分别有Sh=
2
2
在Nh-1≈Nh的条件下,近似的有Sh=Ph(1-Ph)成立,有
S1=0.09,S2=0.16,S3=0.24
2
2
2
样本量应该满足n=
∑W
V
h
Sh
2
(pst)
,同时这里要求分层随机抽样得到的估计的方差和简单抽
样的方差是相同的,V
(pst)=V(p),层权分别为W1=0.2,W2
h
=0.3,W3=0.5,代入数值,
W∑n=可以计算得到最终的样本量为
V
Sh
2
(pst)
=
0.1862.016⨯10
-3
=92.26≈93。
3.7解:事后分层得到的总体均值的估计量和估计量的方差分别为
E(pst)=Y,EVar(pst)≈ 1-fn
_
()
∑WhSh+
2
1n
2
2
∑(1-Wh)Sh,估计量的方差的估计值v(pst)=
1-fn
∑W
h
sh+
2
1n
2
∑(1-W)s
h
2h
。
对于几种说法的判断如下:
(1)事后分层比简单随机抽样产生更加精确的结果,这个说法是错误的。从事后分层得到估计量的方差的估计值来看,它的方差不一定比简单随机抽样的要小,而且从事后分层得到的样本是利用简单随机抽样的方法得到的,只是在计算估计量和估计量的方差时是按照分层随机抽样来处理,而且事后分层要求层权是已知的,但是当层权未知从而利用样本来估计层权时,就会产生偏差,事后分层不见得比简单随机抽样产生更精确的结果。
(2)事后分层比按比例分配产生更精确的结果,这个说法是错误的。从事后分层得到的估计量的方差的估计值可以看出,它的第一项就是按照比例分层抽样得到的估计量方差的估计值,公式中的第二项表示的是按事后分层时各层样本量与按照比例分层时各层样本量发生偏差所引起的方差的增量。
(3)事后分层的最优分配产生更精确的结果,这种说法是错误的。事后分层在样本量足够大的条件下是与比例分层相当的,但是在一般条件下,事后分层的精度仍然低于比例分层的,那么事后分层的精度也会高于最优分配的精度。
(4)在抽样时不能得到分层变量,这个说法是正确的。事后分层在抽样时,是利用简单随机抽样的方法,在抽样时不涉及按照变量进行分层,至于按变量进行分层,是在抽样完成后,然后根据具体的变量来对样本进行分层。
(5)它的估计量的方差与真正按照比例分层随机抽样的方差差不多,只有在样本量足够大的条件下才成立。在样本量足够大的条件下,从事后分层的方差的计算公式可以看出,它的第二项会趋于0,这时事后分层的估计量的方差和分层随机抽样的方差差不多。
3.8 解:(1) 根据简单随机抽样的公式,登记原始凭证的差错率的估计值为p=
3100
=
3%,在考虑到f≈0,N≈N-1的条件下,登记的原始凭证的差错率的估计量的方差近似
为
V
(p)=
1-fn
S
2
=
1-fn1n
NN-1
P(1-P)≈
n
1
P(1-P)
1n
p(1-p)=2.91⨯10
-4
则估计量的方差的估计值为v(p)=p(1-p),计算得v(p)=
,
则原始凭证的差错率的估计的标准差为s(p)
==1.71⨯10
-2
。
(2)这里,每个层的层权是事先知道的,那么利用事后分层来计算登记原始凭证的差
2
错率的估计值为ppst=
∑Whph=2.68%,在这里p1=
h=1
143
=2.33%,p2=3.51%。
1-fn
利用事后分层得到的原始凭证的差错率的估计量的方差的估计值为v(ppst)=
1n
∑Whsh+
2
1n
2
2
∑(1-Wh)sh,在不考虑有限校正系数的条件下,又可以写为v(ppst)=
∑Wh
nhnh-1
ph(1-ph)+
1n
2
∑
(1-Wh)
nhnh-1
ph(1-ph),其中W1=0.7,W2=0.3,
n1=43,n2=57,可以得到v(ppst)=2.6895⨯10-4,则相应的标准差为s(ppst)=
1.64⨯10
-2
。
3.9 解:(1)所有可能的样本的数量为C32⨯C32=9,所有的样本如下:
{(3,0),(5,3),(8,6),(15,9)},{(3,0),(5,3),(8,6),(25,15)},{(3,0),(5,3),(25,15),(15,9)},
{(3,0),(10,6),(8,6),(15,9)},{(3,0),(10,6),(8,6),(25,15)},{(3,0),(10,6),(25,15),(15,9)}, {(5,3),(10,6),(8,6),(15,9)},{(5,3),(10,6),(8,6),(25,15)},{(5,3),(10,6),(25,15),(15,9)}
(2)我们用9个样本中的一个来计算,假定抽中的样本为{(5,3),(10,6),(8,6),(25,15)}。
_
首先按照分别比估计来估计Y,首先可以得到分层后的辅助变量的总体均值分别为
_
_
_
_
_
_
X1=6,X2=16。在这个样本中,经计算得到x1=7.5,x2=16.5,y1=4.5,y2=10.5,
^
^
__
R1=0.6,R2=0.64,而且W1=W2=0.5,则根据分别比估计可得Y的估计值为yRS=
_
∑W
h
yRh=∑WhRhXh=6.891。
_
Λ_
利用联合比估计时,首先计算得到辅助变量的总体均值X=11,然后利用样本得到的
_
_
Λ
主要变量和辅助变量的样本均值为yst=7.5,xst=12,Rc=7.5=0.625,则利用联合比
_
_
Λ
_
估计得到的Y的估计值为yRC=RcX=6.875。
在计算分别比估计和联合比估计的偏差,这里的方法是利用所有可能的样本,然后计算出比估计和联合估计的估计值,按照与上面相同的计算方法,计算得到其他样本时比估计和联合估计值(按照上面的样本的排列顺序)为:
_
_
_
_
_
_
yRS1=6.342,yRC1=6.387,yRS2=6.216,yRC2=6.439,yRS3=5.925,yRC3=6.188,
_
_
_
_
_
_
yRS4=6.602,yRC4=6.243,yRS5=6.476yRC5=6.457,yRS6=6.185,yRC6=6.227,
_
_
_
_
_
_
yRS7=7.017,yRC7=6.947,yRS8=6.6,yRC8=6.6,yRS9=6.891,yRC9=6.875
⎛_⎫1
分别计算可得E yRS⎪=
⎝⎭9
9_
∑
h=1
yRSh
⎛_⎫1
=6.473,E yRC⎪=
⎝⎭9
9_
∑
h=1
yRCh=6.485,而且可以
⎛_⎫⎛_⎫
计算得到var yRC⎪=0.076,var yRS⎪=0.121。总体的实际均值为Y=39/6=6.5。则
⎝⎭⎝⎭⎛_⎫_⎛_⎫
分别比估计和联合比估计的偏差分别为E yRS⎪-Y=6.473-6.5=-0.027,E yRC⎪-
⎝⎭⎝⎭
_
_
Y=6.485-6.5=-0.015。
⎛_⎫_⎛_⎫_
E yRC⎪-Y=0.015
的偏差要小。
接下来计算分别比估计和联合比估计的均方误差。在这里样本量很小,不可以利用教材中的近似公式。
⎛_⎫⎛_⎫⎛⎛_⎫_⎫
MSE yRS⎪=var yRS⎪+ E yRS⎪-Y⎪=0.121+0.000729=0.122
⎝⎭⎝⎭⎝⎝⎭⎭⎛_⎫⎛_⎫⎛⎛_⎫_⎫
MSE yRC⎪=var yRC⎪+ E yRC⎪-Y⎪=0.076+0.00025=0.0763
⎝⎭⎝⎭⎝⎝⎭⎭
⎛_⎫⎛_⎫
MSE yRC⎪=0.0763
⎝⎭⎝⎭
22
(3)从分别比估计和联合比估计的偏差和均方误差可以看出,联合比估计的偏差和均方
误差都要小于分别比估计,也就是说在本题中,联合比估计要比分别估计好。在本题中,各层的比率和总体的比率相差基本差不多,从整个样本出发进行的联合比估计比基于每层的分别比估计更好一些,偏差更小,均方误差也更小。
第2章
2.1 解:(1) 这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号
为1~64的这些单元中每一个单元被抽到的概率都是
1100
。
(2)这种抽样方法不是等概率的。利用这种方法,在每次抽取样本单元时,尚未被抽中
的编号为1~35以及编号为64的这36个单元中每个单元的入样概率都是抽中的编号为36~63的每个单元的入样概率都是
1100
2100
,而尚未被
。
000~(3)这种抽样方法是等概率的。在每次抽取样本单元时,尚未被抽中的编号为20 21 000中的每个单元的入样概率都是
11000
,所以这种抽样是等概率的。
2.3 解:首先估计该市居民日用电量的95%的置信区间。根据中心极限定理可知,在大
_
间为⎡-zα
⎣
=
-E_
近似服从标准正态分布, Y的1-α=95%的置信区
+zα
=⎡-+。
⎣
而V()=
⎡⎣
1-fn
22
S中总体的方差S是未知的,用样本方差s来代替,置信区间
2
为⎢-_
,+⎤⎥。 ⎦
由题意知道,y=9.5,s2=206,而且样本量为n=300,N=50000,代入可以求得
_
v(y)=
1-fn
s=
2
1-30050000
300
⨯206=0.6825。将它们代入上面的式子可得该市居民
日用电量的95%置信区间为⎡⎤。 ⎣7.8808,11.1192⎦
_
下一步计算样本量。绝对误差限d和相对误差限r的关系为d=rY。 根据置信区间的求解方法可知
__
⎧_⎫P⎨y-Y≤rY⎬≥1-α⇒P⎩⎭⎩
_
≤
⎫
⎪≥1-α ⎭
⎛_
rY =()
zα2⎝
2
≤Zα根据正态分布的分位数可以知道
P⎩
_
2
⎫
⎪⎪
≥1-α,所以V⎬⎪⎪⎭⎤⎥⎥。 ⎥⎥⎦
⎫⎪。⎪⎭
⎛
1⎫2 rY⎛1
也就是 -⎪S=
zα2nN⎝⎭
⎝
_
⎫
⎪⇒n=1⎪⎭
2
⎡⎛_⎫⎢ rY⎪1⎭⎢+⎝
22
⎢Nzα/2S⎢⎣
2
把y=9.5,s=206,r=10%,N=50000代入上式可得,n=861.75≈862。所以样
本量至少为862。
2.4 解:总体中参加培训班的比例为P,那么这次简单随机抽样得到的P的估计值p
的方差V
(p)=
1-fn
NN-1
P(1-P),
在大样本的条件下近
似服从标准正态分布。在本题中,样本量足够大,从而可得P的1-α=
95%的置信区间为⎡p-zα
⎣
p+zαV
。 是未知的,我们使用它的估计值
而这里的
(p)
^
V
(p)=v(p)=
1-fn-1
p(1-p)=9.652⨯10
-5
。所以总体比例P的1-α=95%的置信区间
可以写为
⎡p-zα
⎣
p+zα
,将p=0.35,n=200,N=10000代入可得置
信区间为⎡0.2844,0.4156⎤。
⎣⎦
2.5 解:利用得到的样本,计算得到样本均值为=2890/20=144.5,从而估计小
_
区的平均文化支出为144.5元。总体均值Y的1-α=95%的置信区间为
⎡-zα
⎣
+zα
,用v()=
1-fn1-fn
s来估计样本均值的方差Vs=
2
2
()。
6
计算得到s2=826.0,25则6v()=zα
2
1-20
0.1
⨯826.0=25
,
37.172
=1.96⨯代入数值后计算可得总体均值的95%的置信区间为=11.95,
[132.55,156.45]。
2.6 解:根据样本信息估计可得每个乡的平均产量为1 120吨,该地区今年的粮食总
^
_
产量Y的估计值为Y=350y=350⨯1120=3.92⨯105(吨)。
⎛^⎫N
总体总值估计值的方差为V Y⎪=
⎝⎭
2
(1-f)
n
2
总体总值的1-α=95%的置信区间
S,
⎡^
为⎢Y-zα
⎢⎣f=
nN
2
^
Y+zα^
52
,把Y=3.92⨯10,S=25600,n=50,N=350, ,zα
2
=1.96代入,可得粮食总产量的1-α=95%的置信区间为
⎡377629,406371⎤。 ⎣⎦
2.7 解:首先计算简单随机抽样条件下所需要的样本量,把
2
⎛1⎫d
+2N=1000,d=2,1-α=95%,S=68带入公式n0=1 ,最后可得2⎪zα/2S⎭⎝N
2
n0=61.3≈62。
如果考虑到有效回答率的问题,在有效回答率为70%时,样本量应该最终确定为
n=n070%=88.57≈89。
2.8 解:去年的化肥总产量和今年的总产量之间存在较强的相关性,而且这种相关关
系较为稳定,所以引入去年的化肥产量作为辅助变量。于是我们采用比率估计量的形式来估计今年的化肥总产量。去年化肥总产量为X=2135。利用去年的化肥总产量,今年的化肥
_
^
^
总产量的估计值为YR=RX=
y
_
X=2426.14吨。
1-fn
x
2.9 解:本题中,简单估计量的方差的估计值为v()=
s=37.17。
2
利用比率估计量进行估计时,我们引入了家庭的总支出作为辅助变量,记为X。文化支出属于总支出的一部分,这个主要变量与辅助变量之间存在较强的相关关系,而且它们之间的关系是比较稳定的,且全部家庭的总支出是已知的量。
_
_
^
_
文化支出的比率估计量为yR=RX=
_
_
y
_
__
通过计算得到=2890/20=144.5,而X,
x
^
x=1580,则R=
y
_
1580
x
现在考虑比率估计量的方差,在样本量较大的条件下,
MSE(R)≈
2
2x
=
144.5
_
。 =0.0915,文化支出的比率估计量的值为yR=146.3(元)
V
(R)≈
1-fn
(S
2
-2RρS⋅Sx+RSx),通过计算可以得到两个变量的样
2
2
4
^
s=9.95⨯81,0Y和X之间的相关系数的估计值为ρ=0.974,本方差为s=826,
⎛_⎫
代入上面的公式,可以得到比率估计量的方差的估计值为v yR⎪=1.94。这个数值
⎝⎭
比简单估计量的方差估计值要小很多。全部家庭的平均文化支出的1-α=95%的置信区间为
⎡R-zα
⎣
R+zα
=⎡R-
R+,
⎣把具体的数值代入可得置信区间为[143.57,149.03]。
⎛_⎫⎛_⎫V yR⎪v yR⎪
1.94⎝⎭⎝⎭
≈==0.052,这是比估接下来比较比估计和简单估计的效率,
V()v()37.17
计的设计效应值,从这里可以看出比估计量比简单估计量的效率更高。
2.10 解:利用简单估计量可得=
∑y
i
2n=1630/10=163,样本方差为s=212.222,
N=120,样本均值的方差估计值为v()=
1-fn
s=
2
1-10/120
10
⨯212.222=19.4537。
利用回归估计的方法,在这里选取肉牛的原重量为辅助变量。选择原重量为辅助变量是
合理的,因为肉牛的原重量在很大程度上影响着肉牛的现在的重量,二者之间存在较强的相
^
关性,相关系数的估计值为ρ=0.971,而且这种相关关系是稳定的,这里肉牛的原重量的数值已经得到,所以选择肉牛的原重量为辅助变量。
^
^
回归估计量的精度最高的回归系数β的估计值为β=ρ
ssx
=0.971⨯
14.56810.341
=1.368。
_
现在可以得到肉牛现重量的回归估计量为ylr
_
_
⎛_⎫
=+β X-x⎪,代入数值可以得到
⎝⎭
^
ylr=159.44。
⎛_⎫⎛_⎫1-f22
回归估计量ylr的方差为V ylr⎪≈MSE ylr⎪≈S(1-ρ),方差的估计值为
n⎝⎭⎝⎭
^2⎫^2⎫⎛_⎫1-f2⎛⎛_⎫1-f2⎛
s 1-ρ⎪=1.112,显然v ylr⎪=s 1-ρ⎪,代入相应的数值, v ylr⎪=
nn⎝⎭⎝⎭⎝⎭⎝⎭
_
⎛_⎫
有v ylr⎪
⎝⎭
的精度要好于简单估计量。
第3章
3.1 解:在分层随机抽样中,层标志的选择很重要。划分层的指标应该与抽样调查中最关心的调查变量存在较强的相关性,而且把总体划分为几个层之后,层应该满足:层内之间的差异尽可能小,层间差异尽可能大。这样才能使得最后获得的样本有很好的代表性。对几种分层方法的判断如下:
(1)选择性别作为分层变量,是不合适的。首先,性别这个变量与研究最关心的变量(不同职务,职称的人对分配制度改革的态度)没有很大的相关性;其次,用性别作为分层变量后,层内之间的差异仍然很大,相反,层之间的差异不是很大,因为男性和女性各自内部的职务,职称也存在很大的差别;最后,选择性别作为分层变量后,需要首先得到男性和女性的抽样框,这样会更加麻烦,也会使抽样会变得更加复杂。
(2)按照教师、行政管理人员和职工进行分层,是合适的。这种分层的指标与抽样调查研究中最关心的变量高度相关,而且按照这种方法分层后,可以看出层内对于分配制度改革的态度差异比较小,因为他们属于相同的阶层,而层之间的态度的差异是比较大的。这样选取出来的样本具有很好的代表性。
(3)按照职称(正高、副高、中级、初级和其他)分层,也是合理的。理由与(2)相同,这样进行分层的变量选择与调查最关心的变量是高度相关的,分层后的层满足分层的要求。所以,按照职称进行分层是合理的。
(4)按照部门进行分层,是合理的。因为学校有很多院、系或者所,直接进行简单随机抽样,有可能样本不能很好地代表各个院系,最关心的变量与部门也存在一定的相关性。这样分层后,每个层的总体数目和抽取的样本量都较小,最终的样本的分布比较均匀,比简单随机抽样更加方便实施。
3.2 解:设计的方案如下:
第一种方案:可以按照不同的专业进行分层,但是考虑到如果在每层都抽取,不能保证每个新生的入样概率相等,因为每个专业的人数比例未知,8个人的样本量无法在每个层之
间进行分配。所以采取如下方法:对所有的新生按照专业的先后顺序进行编号,使得每个专业的人的编号在一起,然后随机选取出一个号码,然后选取出这个号码所在的专业,选取出这个专业,再在这个专业的所有新生中按照简单随机抽样的方法选取出8个人。这样就可以保证每个人入选的概率是相等的。
第二种方案:也可以按照性别进行分类,对他们进行编号,为1~800,使得男生的编号都在一起,女生的编号也都在一起,然后随机选取出一个号码,然后看这个号码所对应的性别,然后从这个性别的所有人中按照简单随机抽样的方法选取出8个新生。这样就可以保证所有的新生的入样概率是相同的。
第三种方案:随机地把所有的人分成8组,而且使得每组的人都是100个人,这样分组完成后,每个组的新生进行编号为1~100,然后随机抽取出一个号码,再从所有的小组中抽取出号码所对应的新生,从而抽取出8个人。
_
_
_
3.3 解:(1) 首先计算出每层的简单估计量,分别为y1=11.2,y2=25.5,y3=20,其中,N1=256,N2=420,N3=168,N=844,则每个层的层权分别为;
W1=
N1N
=0.3033,W2=
N2N
=0.4976,W3=
N3N
=0.1991
_
_
则利用分层随机抽样得到该小区居民购买彩票的平均支出的估计量yst=
_
_
∑W
h
yh,代入数
值可以得到yst=
∑W
h
yh=20.07。
3
⎛_⎫
购买彩票的平均支出的的估计值的方差为V yst⎪=
⎝⎭⎛_⎫
为v yst⎪=
⎝⎭
3
∑Wh
h=1
2
1-fhnh
Sh,此方差的估计值
2
∑Wh
h=1
2
1-fhnh
2
sh,根据数据计算可以得到每层的样本方差分别为:
2
s1=94.4,s2=302.5,s1=355.556
22
⎛_⎫
其中n1=n2=n3=10,代入数值可以求得方差的估计值为v yst⎪=9.4731,则估计的标
⎝⎭
⎛_⎫
准差为s yst⎪=
⎝⎭==3.08。
(2)由区间估计可知相对误差限满足
__
⎧⎫P⎨st-Y≤rY⎬≥1-α⇒P≤⎩⎭
⎩
2
⎫
⎪≥1-α
⎭
_
_
所以
=zα2,V
(st)
⎛_
rY= zα2⎝
⎫
⎪。 ⎪⎭
3
样本均值的方差为V(st)=到在置信度为αn=
V
∑W
h=1
2h
1-fh
nh
S=
2h
1
∑n
WhSh
22
ωh
-
1N
∑W
S,从而可以得hh
2
,相对误差限为r=
条件下的样本量为
∑W
(st)+
2
h
Shh
2
∑W
⎛
rYzα⎝
_
2
2h
Shh
2
1N
∑W
h
Sh
2
1⎫+⎪
N⎭
2
。
h
∑W
Sh
2
①对于比例分配而言,有Wh=ωh成立,那么n=
∑W
⎛
rYzα⎝
_
22
h
Sh
2
,把相应
1⎫+⎪
N⎭
∑W
h
Sh
2
的估计值和数值1-α=95%,r=10%代入后可以计算得到样本量为n=186,相应的在各层的样本量分别为n1=56.4≈57,n2=92.6≈93,n3=186-n1-n2=36。
②按照内曼分配时,样本量在各层的分配满足ωh=WhSh
∑W
h
Sh,这时样本量的计
算公式变为n=
(∑WhSh)
⎛
rYZα⎝
_
2
1⎫+⎪
N⎭
2
,把相应的数值代入后可得n=175,在各层中
h
∑W
Sh
2
的分配情况如下:n1=33,n2=87,n3=186-n1-n2=66。
3.4 解:(1) 首先计算得到每层中在家吃年夜饭的样本比例为
p1=0.9,p2=0.9333,p3=0.9,p4=0.8667,p5=0.9333,p6=0.9667,那么根据每一
6
层的层权,计算得到该市居民在家吃年夜饭的样本比例为pst=每
V
∑W
h=1
h
ph=92.4%。
一层中在
Nh
家吃年夜饭的样本比例的方差为
(ph)=
1-fh
nh
Nh-1
Ph(1-Ph)=
Nh-nhPh(1-Ph)Nh-1
6
nh
,则该市居民在家吃年夜饭的比例
的方差,在Nh-1≈Nh的条件下,V
Ph(1-Ph)nh
6
(pst)=∑Wh2V(ph)=
h=1
1N
2
6
∑
h=1
Nh(Nh-nh)
2
Nh-1
≈
∑Wh(1-fh)
2
h=1
Ph(1-Ph)nh
,而其中每层的吃年夜饭的样本比例的方差的估计
Nh-nhph(1-ph)Nh
nh-1
值为v(ph)=
1-fh
nh
nhnh-1
ph(1-ph)=
,则样本比例的方差的估计值
66
2h
2
为v(pst)=
∑Wv(ph)=∑Wh(1-fh)
h=1
h=1
ph(1-ph)nh-1
,把相应的数值代入计算可得方差的
估计值为v(pst)=3.9601⨯10
-4
,从而可以得到该估计值的标准差为s(pst)=0.0199。
(2)利用上题的结果,n=
V
∑W
(pst)+
2h
Shh
2
1N
=Shh
2
∑W
2
h
Shh1N
2
,这里的方Shh
2
∑W
(rP
Zα
)
2
+
∑W
差是Sh2=
NhNh-1
Ph(1-Ph),在Nh-1≈Nh的条件下,近似有Sh=Ph(1-Ph)。
2
①比例分配的条件下,有Wh=ωh成立,那么n=
∑W
Shh1N
2
,把相应的
h
(rP
zα
)
2
+
∑W
S
2h
估计值和数值代入可以求得最终的样本量应该是n=2663,样本量在各层的分配是n1=479.34≈479,n2=559.23≈559,n3=372.83≈373,n4=239.67≈240,
n5=426.08≈426,n6=585.86≈586。
②内曼分配条件下,ωh=WhSh
∑W
h
Sh,则n=
(∑WhSh)
2
(rP
Zα
2
)
2
+
1N
,代入相
h
∑W
Sh
2
应的估计值和数值可以计算得到样本量为n=2565,在各层中样本量的分配为n1=536,n2=520,n3=417,n4=304,n5=396,n6=392。
3.5 解:总体总共分为10个层,每个层中的样本均值已经知道,层权也得到,从而可
10
以计算得到该开发区居民购买冷冻食品的平均支出的估计值为st=
∑W
h=1
h
h=75.79。
下一步计算平均支出的95%的置信区间,首先计算购买冷冻食品的平均支出的估计值⎛_⎫
的方差,其中V yst⎪=
⎝⎭⎛_⎫
的估计值为v yst⎪=
⎝⎭
10
10
∑Wh
h=1
2
2
1-fhnh
2
Sh,但是每层的方差是未知,则样本平均支出的方差
2
∑Wh
h=1
1-fhnh
sh,每个层的样本标准差已知,题目中已经注明各层的
⎛_⎫
抽样比可以忽略,计算可以得到v yst⎪=
⎝⎭
10
∑Wh
h=1
2
1-fhnh
sh≈59.8254。则这个开发区的居
2
民购买冷冻食品的平均支出1-α=95置信区间
为
⎡
⎢-zα⎢⎣
2
+zα2
=
⎡⎢-+
⎢⎣代入数值后,可得最终的置信区间为[60.63,90,95]。
3.6 解:首先计算简单随机抽样的方差,根据各层的层权和各层的总体比例可以得到
3
总体的比例为P=
∑W
h=1
h
Ph=0.28,则样本量为100的简单随机样本的样本比例的方差为
V
(p)=
1-fn
S,不考虑有限总体校正系数,V
2
(p)≈
1n
S,其中S
22
=
NN-1
P(1-P),
在N-1≈N的条件下,通过简单随机抽样得到的样本比例的方差为
V
(p)=
1-fn
S
2
≈
1n
P(1-P)=2.016⨯10
-3
Sh,但是因为不考虑有 nhn
2
通过分层抽样得到的样本比例的方差为V
(pst)=∑Wh2
NhN
1-fhnh
限总体校正系数,而且抽样方式是比例抽样,所以有
WhSh
n
2
=Wh=ωh=
2
成立,样本比例的
NhNh-1
Ph(1-Ph),
方差近似为V(pst)=
∑
=
1n
∑WhSh。对于每一层,分别有Sh=
2
2
在Nh-1≈Nh的条件下,近似的有Sh=Ph(1-Ph)成立,有
S1=0.09,S2=0.16,S3=0.24
2
2
2
样本量应该满足n=
∑W
V
h
Sh
2
(pst)
,同时这里要求分层随机抽样得到的估计的方差和简单抽
样的方差是相同的,V
(pst)=V(p),层权分别为W1=0.2,W2
h
=0.3,W3=0.5,代入数值,
W∑n=可以计算得到最终的样本量为
V
Sh
2
(pst)
=
0.1862.016⨯10
-3
=92.26≈93。
3.7解:事后分层得到的总体均值的估计量和估计量的方差分别为
E(pst)=Y,EVar(pst)≈ 1-fn
_
()
∑WhSh+
2
1n
2
2
∑(1-Wh)Sh,估计量的方差的估计值v(pst)=
1-fn
∑W
h
sh+
2
1n
2
∑(1-W)s
h
2h
。
对于几种说法的判断如下:
(1)事后分层比简单随机抽样产生更加精确的结果,这个说法是错误的。从事后分层得到估计量的方差的估计值来看,它的方差不一定比简单随机抽样的要小,而且从事后分层得到的样本是利用简单随机抽样的方法得到的,只是在计算估计量和估计量的方差时是按照分层随机抽样来处理,而且事后分层要求层权是已知的,但是当层权未知从而利用样本来估计层权时,就会产生偏差,事后分层不见得比简单随机抽样产生更精确的结果。
(2)事后分层比按比例分配产生更精确的结果,这个说法是错误的。从事后分层得到的估计量的方差的估计值可以看出,它的第一项就是按照比例分层抽样得到的估计量方差的估计值,公式中的第二项表示的是按事后分层时各层样本量与按照比例分层时各层样本量发生偏差所引起的方差的增量。
(3)事后分层的最优分配产生更精确的结果,这种说法是错误的。事后分层在样本量足够大的条件下是与比例分层相当的,但是在一般条件下,事后分层的精度仍然低于比例分层的,那么事后分层的精度也会高于最优分配的精度。
(4)在抽样时不能得到分层变量,这个说法是正确的。事后分层在抽样时,是利用简单随机抽样的方法,在抽样时不涉及按照变量进行分层,至于按变量进行分层,是在抽样完成后,然后根据具体的变量来对样本进行分层。
(5)它的估计量的方差与真正按照比例分层随机抽样的方差差不多,只有在样本量足够大的条件下才成立。在样本量足够大的条件下,从事后分层的方差的计算公式可以看出,它的第二项会趋于0,这时事后分层的估计量的方差和分层随机抽样的方差差不多。
3.8 解:(1) 根据简单随机抽样的公式,登记原始凭证的差错率的估计值为p=
3100
=
3%,在考虑到f≈0,N≈N-1的条件下,登记的原始凭证的差错率的估计量的方差近似
为
V
(p)=
1-fn
S
2
=
1-fn1n
NN-1
P(1-P)≈
n
1
P(1-P)
1n
p(1-p)=2.91⨯10
-4
则估计量的方差的估计值为v(p)=p(1-p),计算得v(p)=
,
则原始凭证的差错率的估计的标准差为s(p)
==1.71⨯10
-2
。
(2)这里,每个层的层权是事先知道的,那么利用事后分层来计算登记原始凭证的差
2
错率的估计值为ppst=
∑Whph=2.68%,在这里p1=
h=1
143
=2.33%,p2=3.51%。
1-fn
利用事后分层得到的原始凭证的差错率的估计量的方差的估计值为v(ppst)=
1n
∑Whsh+
2
1n
2
2
∑(1-Wh)sh,在不考虑有限校正系数的条件下,又可以写为v(ppst)=
∑Wh
nhnh-1
ph(1-ph)+
1n
2
∑
(1-Wh)
nhnh-1
ph(1-ph),其中W1=0.7,W2=0.3,
n1=43,n2=57,可以得到v(ppst)=2.6895⨯10-4,则相应的标准差为s(ppst)=
1.64⨯10
-2
。
3.9 解:(1)所有可能的样本的数量为C32⨯C32=9,所有的样本如下:
{(3,0),(5,3),(8,6),(15,9)},{(3,0),(5,3),(8,6),(25,15)},{(3,0),(5,3),(25,15),(15,9)},
{(3,0),(10,6),(8,6),(15,9)},{(3,0),(10,6),(8,6),(25,15)},{(3,0),(10,6),(25,15),(15,9)}, {(5,3),(10,6),(8,6),(15,9)},{(5,3),(10,6),(8,6),(25,15)},{(5,3),(10,6),(25,15),(15,9)}
(2)我们用9个样本中的一个来计算,假定抽中的样本为{(5,3),(10,6),(8,6),(25,15)}。
_
首先按照分别比估计来估计Y,首先可以得到分层后的辅助变量的总体均值分别为
_
_
_
_
_
_
X1=6,X2=16。在这个样本中,经计算得到x1=7.5,x2=16.5,y1=4.5,y2=10.5,
^
^
__
R1=0.6,R2=0.64,而且W1=W2=0.5,则根据分别比估计可得Y的估计值为yRS=
_
∑W
h
yRh=∑WhRhXh=6.891。
_
Λ_
利用联合比估计时,首先计算得到辅助变量的总体均值X=11,然后利用样本得到的
_
_
Λ
主要变量和辅助变量的样本均值为yst=7.5,xst=12,Rc=7.5=0.625,则利用联合比
_
_
Λ
_
估计得到的Y的估计值为yRC=RcX=6.875。
在计算分别比估计和联合比估计的偏差,这里的方法是利用所有可能的样本,然后计算出比估计和联合估计的估计值,按照与上面相同的计算方法,计算得到其他样本时比估计和联合估计值(按照上面的样本的排列顺序)为:
_
_
_
_
_
_
yRS1=6.342,yRC1=6.387,yRS2=6.216,yRC2=6.439,yRS3=5.925,yRC3=6.188,
_
_
_
_
_
_
yRS4=6.602,yRC4=6.243,yRS5=6.476yRC5=6.457,yRS6=6.185,yRC6=6.227,
_
_
_
_
_
_
yRS7=7.017,yRC7=6.947,yRS8=6.6,yRC8=6.6,yRS9=6.891,yRC9=6.875
⎛_⎫1
分别计算可得E yRS⎪=
⎝⎭9
9_
∑
h=1
yRSh
⎛_⎫1
=6.473,E yRC⎪=
⎝⎭9
9_
∑
h=1
yRCh=6.485,而且可以
⎛_⎫⎛_⎫
计算得到var yRC⎪=0.076,var yRS⎪=0.121。总体的实际均值为Y=39/6=6.5。则
⎝⎭⎝⎭⎛_⎫_⎛_⎫
分别比估计和联合比估计的偏差分别为E yRS⎪-Y=6.473-6.5=-0.027,E yRC⎪-
⎝⎭⎝⎭
_
_
Y=6.485-6.5=-0.015。
⎛_⎫_⎛_⎫_
E yRC⎪-Y=0.015
的偏差要小。
接下来计算分别比估计和联合比估计的均方误差。在这里样本量很小,不可以利用教材中的近似公式。
⎛_⎫⎛_⎫⎛⎛_⎫_⎫
MSE yRS⎪=var yRS⎪+ E yRS⎪-Y⎪=0.121+0.000729=0.122
⎝⎭⎝⎭⎝⎝⎭⎭⎛_⎫⎛_⎫⎛⎛_⎫_⎫
MSE yRC⎪=var yRC⎪+ E yRC⎪-Y⎪=0.076+0.00025=0.0763
⎝⎭⎝⎭⎝⎝⎭⎭
⎛_⎫⎛_⎫
MSE yRC⎪=0.0763
⎝⎭⎝⎭
22
(3)从分别比估计和联合比估计的偏差和均方误差可以看出,联合比估计的偏差和均方
误差都要小于分别比估计,也就是说在本题中,联合比估计要比分别估计好。在本题中,各层的比率和总体的比率相差基本差不多,从整个样本出发进行的联合比估计比基于每层的分别比估计更好一些,偏差更小,均方误差也更小。