多元方差分析

多元方差分析

张伟平 [email protected] Oﬃce: 东区管理科研楼 1006 Phone: 63600565 课件 http://staff.ustc.edu.cn/~zwp/ 论坛 http://fisher.stat.ustc.edu.cn

简介

1.1 1.2 1.3 1.4 多总体均值的比较 . . . . . . . . . . . . . . . 单因素多元方差分析 . . . . . . . . . . . . . . 1.2.1 1.3.1 1 3

处理效应的同时置信区间 . . . . . . . 13 效应差异的同时置信区间 . . . . . . . 26

双因素多元方差分析 . . . . . . . . . . . . . . 19 轮廓分析中的应用 . . . . . . . . . . . . . . . 28

Previous Next First Last Back Forward

1.1

多总体均值的比较

• 常常需要对 g 个 p 维总体 (或者处理) 的均值进行比较 (g ≥ 2). 从 g 个总体中随机抽样得到独立样本 (或者随机的将 nk 个体分配到第 k 个处理): 总体 1: X11 , X12 , . . . , X1n1 总体 2: X21 , X22 , . . . , X2n2 . . . 总体 g: Xg1 , Xg2 , . . . , Xgng • 感兴趣的问题是:g 个总体的均值向量是否相同? 若不同, 均值向量的哪些分量显著不同? • 一元/多元方差分析 (ANOVA/MANOVA) 就是解决此类问题的主要工具. Previous Next First Last Back Forward 1

• 如果所有的 nk − p 都很大 (k = 1, . . . , g ), 则对 g 个总体/处理的均值进行比较时常假设 – Xk1 , Xk2 , . . . , Xknk i.i.d p元分布 (µk , Σk ), k = 1, 2, . . . , g – g 个总体的样本单元之间相互独立 • 当样本量较小时, 我们一般需要更多的假设: – Xk1 , Xk2 , . . . , Xknk i.i.d ∼ Np (µk , Σk ), k = 1, 2, . . . , g – Σ1 = · · · = Σ g – g 个总体的样本单元之间相互独立

Previous Next First Last Back Forward

1.2 单因素多元方差分析

• 当实验仅涉及一个因素, 该因素有不同的水平 (处理), 个体完全随机分配到因素的各水平下来研究各水平的平均差异时, 称为单因素方差分析 (One-way ANOVA). • 对 g 个处理的均值进行比较, 常用的想法是对样本波动性按照来源进行分解: 1. 因为处理的平均值差异带来的波动性 (组间波动性) 2. 因为测量误差或同一处理组内个体的差异 (组内波动性) 一元 Anova(完全随机化设计) 对 p = 1, 我们回顾一下单因素一元方差分析方法. 此时 • 第 k 组样本 Xk1 , Xk2 , . . . , Xknk i.i.d ∼ N1 (µk , σ 2 ), k = 1, 2, . . . , g Previous Next First Last Back Forward 3

• 各组样本之间相互独立 • 感兴趣的假设是 H0 : µ1 = · · · µg H1 : ∃k ̸= l, s.t. µk ̸= µl 想法 • 将均值表达/分解为 µk = µ + τk , 其中 µ 表示总平均, τk = µk − µ 表示第 k 个总体的效应, 为保证可识别性, 常施加限制 ∑ k τk = 0 或 τg = 0 之类的. • 样本 Xkj ∼ N (µ + τk , σ 2 ), j = 1, . . . , nk ; k = 1, . . . , g. 即

2 Xkj = µ + τk + ekj , e′ kj s i.i.d ∼ N (0, σ )

为保证可识别性, R默认令 τ1 = 0, SAS默认令 τg = 0. • 此时考虑的零假设等价于 H0 : τ1 = · ·

· = τk = 0 这等价于要对回归系数进行检验 Previous Next First Last Back Forward 4

• 似然比检验方法是可行的, 但习惯上常使用方差分解的想法来导出检验统计量. • 方差分析由上述分解, 基于样本可以进行类似的分解: xkj = x ¯ + (¯ xk − x ¯) + (xkj − x ¯k )

观测值 = 总的样本平均 + 估计的处理效应 + 残差这等价于 xkj − x ¯ Overall variability 其中 x ¯=

1 n

(¯ xk − x ¯) Between-group var. ∑

(xkj − x ¯k ) Within-group var.

∑

k,j

xkj 为 µ 的估计, n =

nk , x ¯k =

1 nk

∑

xkj ,

τ ˆk = (¯ xk − x ¯) 为 τk 的估计, (xkj − x ¯k ) 为 ekj 的估计.

Previous Next First Last Back Forward

• 对假设检验问题 H0 : τ1 = · · · = τk = 0, 通过评定处理效应相对于残差对样本波动性的贡献程度来进行. 波动性可以通过平方和 (SS, sum of squares) 来度量, 因此 ∑

k,j

(xkj

SStot = SStr + SSres ∑ ∑ −x ¯)2 = nk (¯ xk − x ¯ )2 + (xkj − x ¯ k )2

k k,j

• 从而当 F =

SStr /(g − 1) > Fg−1,n−g (α) SSres /(n − g ) Sum of Degree of freedom(df) g−1 n−g n−1 6 MS SStrt /(g − 1) SSres /(n − g )

时拒绝零假设 H0 . 计算上常表示为下面的方差分析表: Source of variation Treatments Residual Total squares(SS) SStrt SSres SStot

Previous Next First Last Back Forward

多元方差分析 (MANOVA) 现在将前面讨论的 Anova 推广到观测 Xkj 为 p 元向量场合, 此时的方差分析方法即称为多元方差分析法 (MANOVA). 假设(完全随机化设计) • 第 k 组样本 Xk1 , Xk2 , . . . , Xknk i.i.d ∼ Np (µk , Σ), k = 1, 2, . . . , g • 各组样本之间相互独立 • 感兴趣的假设是 H0 : µ1 = · · · µg H1 : ∃k ̸= l, s.t. µk ̸= µl 类似于一元场合, 我们有 • 总体模型可以表示为 Xkj = µ + τ k + ekj , 其中 e′ kj s i.i.d ∼ Np (0, Σ) 其中为保证参数识别性, 假设 ∑

nk τ k = 0 或者其他约束. 7

Previous Next First Last Back Forward

• 样本波动性分解 ¯ = (X ¯k −X ¯ ) + (Xkj − X ¯ k) Xkj − X 于是总平方和与交叉乘积 ∑

k,j

¯ )(Xk,j − X ¯ )′ = (Xkj − X T +

∑

¯k −X ¯ )(X ¯k −X ¯ )′ nk ( X B

∑

k,j

(Xkj

¯ k )(Xkj − X ¯ k )′ −X W

• 相应的自由度

g ∑ i=1

ni − 1 = (g − 1) +

g (∑ i=1

ni − g

)

Previous Next First Last Back Forward

• 从而对假设 H0 : τ 1 = · · · = τ g = 0, Wilk’s Λ∗ 检验统计量 ( 和似然比检验等价) Λ∗ = |W | |B + W|

• 从而当 B 相对于 W 比较 “小”, 则 Λ∗ 将靠近 1, 否则 Λ∗ 比较小. • 因此当 Λ∗ 较小时候拒绝 H0 . • 统计量 Λ∗ 的精确分布在一些特殊情况下可以得出, 但对一般场合难以得出.

Previous Next First Last Back Forward

变量个数 (p) p=1 p=2 p≥1 p≥1

处理个数 (g ) g≥2 g≥2 g=2 g=3

( g −1

∼ Fg−1,n−g ∗ ) √ ∗ 1

− Λ √ ∼ F2(g−1),2(n−g−1) ∗ ( )( Λ∗ ) n−p−1 1−Λ ∼ Fp,n−p−1 ∗ ( p )( Λ√ ) ∗ n−p−2 1− Λ √ ∼ F2p,2(n−p−2) p Λ∗

n−g −1 g −1 Λ )(

多元正态抽样 ( )( ) ∗

n−g 1−Λ

• 对较大的 n, 在 H0 下, Bartlett 证明了 ( p + g) − n−1− log Λ∗ 2

χ2 p(g −1)

因此水平 α 检验的拒绝域为 ( p + g) − n−1− log Λ∗ > χ2 p(g −1) (α) 2 • 其他检验注意到 Λ∗ = |W||B + W|−1 = |BW−1 + I |−1 Previous Next First Last Back Forward 10

– Lawley-Hotelling trace 水平 α 检验拒绝域为

2 nT0 = tr(BW−1 ) > χ2 gp (α)

– Pillai trace V = tr[B(B + W)−1 ] – Roy’s largest root 检验统计量为 BW−1 的最大特征根. 应该使用哪个检验? • Wilk’s Λ∗ 等价于似然比检验 • 如果所有检验都导致相同的结果, 使用 Wilk’s Λ∗ • 如果四种检验导致不同的结果, 需要找出原因. • 从模拟研究 (功效和稳健性) 角度 – Wilk’s, Lawley-Hotelling 和 Pillai 检验的功效是近似的. Roy’s 统计量只有在 g 个处理差异非常大时功效较高, 其他情况则相比其他三种方法的功效较低. Previous Next First Last Back Forward 11

– Pillai’s trace 对轻微偏离多元正态稳健些; 当所有特征根近似相等时候, 功效最大. • 当原始数据偏离正态分布严重时, 使用这些检验方法则需要先对原始数据进行正态化变换.

Previous Next First Last Back Forward

1.2.1 处理效应的同时置信区间

• 当零假设 “H0 : 所有处理效应无平均差异” 被拒绝后, 常常感兴趣哪些处理效应的平均差异导致零假设被拒绝. 因此需要考虑成对比较问题. • Bonferroni 方法可以用来建立差异 τ k − τ l 的同时置信区间, 可以通过这些置信区间是否包含 0 来找出有差异的处理对. ¯k −X ¯, • 记 τki 为 τ k 的第 i 个分量. 由于 τ k 的估计为 τ ˆk = X 因此 ¯ ki − X ¯i τ ˆki = X ¯ ki − X ¯ li , 注意 X ¯k 和 • 从而差异 τki − τli 的估计为 τ ˆki − τ ˆli = X ¯ Xl 相互独立, 因此 ¯ ki ) + V ar(X ¯ li ) = V ar(ˆ τki − τ ˆli ) = V ar(X ( 1 1) + σii nk nl 13

Previous Next First Last Back Forward

• 注意 W =

∑

k (nk

− 1)Sk , 其中 (nk − 1)Sk ∼ Wp (nk − 1, Σ)

且 S1 , . . . , Sg 相互独立. 因此 W ∼ Wp (n − g, Σ). 从而 σii 的估计可以由 W 的第 i 个对角元 wii 得到 σ ˆii = • 由 t 分布定义 (ˆ τki − τ ˆli ) − (τki − τli ) √( ∼ tn−g ) wii 1 1 + nl n−g nk • 因此 τki − τli , i = 1, . . . , p; l

Previous Next First Last Back Forward

其他感兴趣的假设 • 除了 “没有处理效应” 这一感兴趣的假设外, 我们可能还会感兴

趣其他形式的假设, 例如 H0 :Ck β g×p = 0 比较处理比较变量两者混合

H0 :β g×p Mp×q = 0

H0 :Ck β g×p Mp×q = 0

• 例如, 假设对 g = 3 个处理组中的每个个体测量 p = 2 个变量, 令 τ′ 3 = [τ31 , τ32 ] = 0, 此时   β=  τ11 τ21 µ1 µ2   τ12   τ22

Previous Next First Last Back Forward

• 比较处理效应 [ Cβ = 0 0 1 1 0 −1 ]    τ11  τ21 µ1 µ2 τ12 τ22   =  [ τ11 τ11 − τ21 τ12 τ12 − τ22 ]

– 在限制条件 τ 3 = 0 下, β 的第一行为处理 3 的平均响应 – C 的第一行表示了处理 3 和处理 1 的平均响应差异, – C 的第二行表示了处理 1 和处理 2 的平均响应差异 • 比较每个处理组的变量平均    [ ] µ1 µ2 µ1 − µ2    1   βM =  =  τ11 τ12  −1  τ11 − τ12 τ21 τ22 τ21 − τ22 – 第一行表示了处理 3 组的两个变量平均差异, Previous Next First Last Back Forward 16

   

– 第二行表示了处理 1 组的两个变量平均差异; – 第三行表示了处理 2 组的两个变量的平均差异 • 我们也可以仅感兴趣第一个变量  [ ] µ1 µ2  0 1 0  τ11 τ12 C βM = 0 1 −1  τ21 τ22

   

[

1 0

] =

[

τ11 τ11 − τ21

]

– 第一行表示了处理 3 和处理 1 在第一个变量上的响应平均差异; – 第二行表示了处理 1 和 2 在第一个变量上的响应平均差异

Previous Next First Last Back Forward

• 以及 [

C βM =

0 0

1 1

0 −1

]

   τ11  τ21 µ1 µ2 τ12 τ22

    ]

[

1 −1

]

[ =

τ11 − τ21 (τ11 − τ21 ) − (τ12 − τ22 )

– 第一行表示处理 3 和 1 在第一个变量上的平均响应差异减去处理 3 和 2 在第二个变量上的平均响应差异 – 第二行表示处理 1 和 2 在第一个变量上的平均响应差异减去处理 1 和 2 在第二个变量上的平均响应差异

Previous Next First Last Back Forward

1.3 双因素多元方差分析

• 考虑有两个因子的试验设计, 假设因子 A 有 g 个不同水平, 因子 B 有 b 个不同的水平, ngb 个个体被随机分配到各水平组合上, 使得每个水平组合下有 n 个个体. • 若记 Xlkr 表示第 r 个个体在因子 A 的第 l 个水平, 因子 B 的第 k 个水平下的 p × 1 测量值, 则类似于单因素方差分析, 将 Xlkr 表示为 Xlkr = µ + αl + β k + γ lk + elkr , e′ lkr s i.i.d ∼ Np (0, Σ) 其中 l = 1, . . . , g, k = 1, . . . , b 以及 r = 1, . . . , n. • 为保证参数可识别性, 常限定 ∑

αl =

∑

βk =

∑

γ lk =

∑

γ lk = 0 19

Previous Next First Last Back Forward

• αl 表示因子 A 第 l 个水平的效应, β k 表示因子 B 第 k 个水平的效应, γ lk 表示因子 A 的第 l 个水平与因子 B 的第 k 个水平的交互效应:(a) 存在交互效应 (b) 不存在交互效应

• 当存在交互效应时候, 因子的效应不再是可加的. 一个因子的效应可能依赖于另一因子的效应. • 对观测值 Xlkr , 可类似分解 ¯ = (X ¯ l· −X ¯ )+(X ¯ ·k −X ¯ )+(X ¯ lk −X ¯ l· −X ¯ ·k +X ¯ )+(Xlkr −X ¯ lk ) Xlkr −X

Previous Next First Last Back Forward

• 其中

∑ ¯ = 1 X Xlkr , ngb

l,k,r

∑ ¯ l· = 1 X Xlkr nb

k,r

∑ ¯ ·k = 1 Xlkr , X ng

l,r

∑ ¯ lk = 1 Xlkr X n r

• 从而平方和与交叉积 ∑

l,k,r

¯ )(Xlkr − X ¯ )′ = (Xlkr − X + + + ∑ ∑ ∑

l,k,r l,k k

∑

¯ l· − X ¯ )(X ¯ l· − X ¯ )′ bn(X

¯ ·k − X ¯ )(X ¯ ·k − X ¯ )′ gn(X ¯ lk − X ¯ l· − X ¯ ·k + X ¯ )(X ¯ lk − X ¯ l· − X ¯ ·k + X ¯ )′ n(X ¯ lk )(Xlkr − X ¯ lk )′ (Xlkr − X

Previous Next First Last Back Forward

即 SSPtot = SSPA + SSPB + SSPAB + SSPres 相应的自由度 gbn − 1 = (g − 1) + (b − 1) + (g − 1)(b − 1) + gb(n − 1) 交互效应存在与否假设 • 通常总是先检验交互效应, 再检验因子的主效应. • 首先考虑假设 H0 : 不存在交互效应 H1 : 存在交互效应. 即 H0 : γ11 = γ12 = · · · = γgb = 0 H1 : 至少一个 γlk ̸= 0 • Wilk’s Λ 统计量 Λ∗ = |SSPres | |SSPAB + SSPres | 22

Previous Next First Last Back Forward

因此渐近水平 α 检验据拒绝域为 [ ] 1 − bg (n − 1) − (p +1 − (g − 1)(b − 1)) log Λ∗ > χ2 (g −1)(b−1)p (α) 2 • 如果拒绝零假设, 表明存在交互效应, 此时因子 A 和 B 的主效应缺乏清晰的解释. 从实用角度来看, 再作进一步的多元检验是不明智的. 一种推荐的做法是逐个考虑 p 个一元双因素方差分析, 来检查交互效应在那些变量上存在. 在那些不存在交互效应的一元方差分析检验中, 响应变量可以解释为 “对两因子的主效应是可加的”. • 当零假设没有被拒绝时候, 下一步则经常考虑两个因子是否具有可加效应.

Previous Next First Last Back Forward

因子是否具有可加效应的假设 • 假设 H0 : 没有因子 A 效应 H1 : 存在一些因子 A 效应, 可表示为 H0 : α1 = · · · = αg = 0 H1 : at least one αk ̸= 0 • Wilk’s Λ 统计量为 Λ∗ = |SSPres | |SSPA + SSPres |

因此渐近水平 α 检验据拒绝域为 [ ] 1 − bg (n − 1) − (p + 1 − (g − 1)) log Λ∗ > χ2 p(g −1) (α) 2 • 类似, 对因子 B , 假设 H0 : 没有因子 B 效应 H1 : 存在一些因子 B 效应, 可表示为 H0 : β 1 = · · · = β b = 0 H1 : at least one β k ̸= 0 Previous Next First Last Back Forward 24

• Wilk’s Λ 统计量为 Λ∗ = |SSPres | |SSPB + SSPres |

因此渐近水平 α 检验据拒绝域为 [ ] 1 − bg (n − 1) − (p + 1 − (b − 1)) log Λ > χ2 p(b−1) (α) 2

Previous Next First Last Back Forward

1.3.1 效应差异的同时置信区间

• 当交互效应是可忽略的时候, 我们可以集中在

因子 A 和 B 各自分量的差值上. • 对因子 A 的 g (g − 1)/2 个水平差对 αlj − αmj , l

且相互独立, 从而 αlj − αmj 的的 1 − α Bonferroni 同时置信 ( )√ 2E α jj pg (g − 1) vbn

¯ l·j −X ¯ m ·j 其中 v = gb(n−1), Ejj 为 SSPres 的 (j, j ) 对角元. X ¯ l· − X ¯ m· 的第 j 元. 为 p × 1 向量 X

Previous Next First Last Back Forward

• 类似地, 对因子 B 的 b(b − 1)/2 个水平差对 βkj − βqj , l

Previous Next First Last Back Forward

1.4

轮廓分析中的应用

• 轮廓分析是等价于 MANOVA 的一类方法, 轮廓分析使用图来对不同组进行比较. • 考虑四种处理施加于两组对象, µ′ 1 = [µ11 , µ12 , µ13 , µ14 ] 表示第一组四种处理的平均值. 如下图 . 这种折线图就称为总体 1 的轮廓 (Proﬁle). 对每个总体都可以构造其轮廓.

′ • 以两总体为例, 记 µ′ 1 = [µ11 , µ12 , µ13 , µ14 ] 和 µ2 = [µ21 , µ22 , µ23 , µ24 ]

Previous Next First Last Back Forward

分别为两总体对 p 种处理的平均值. 则对假设 H0 : µ1 = µ2 的检验可以根据轮廓分析的想法分成如下几步: – (1) 两轮廓是否平行? 等价地, 假设 H01 : µ1i − µ1i−1 = µ2i − µ2i−1 , i = 2, 3, . . . , p 是否可以接受? – (2) 假如两轮廓是平行的, 那么它们是否重合? 等价地, 假设 H02 : µ1i = µ2i , i = 1, . . . , p 是否可以接受? – (3) 假设两轮廓是重合的, 它们是水平的吗? 即所有均值是否等于同一常数? 等价地, 假设 H03 : µ11 = · · · = µ1p = µ21 = · · · = µ2p 是否可以接受? • 如果对这三个步骤中的任何一个否定, 则表明存在显著差异.

Previous Next First Last Back Forward

两轮廓是否平行的检验 • 对 (1), 假设 H01 可以等价表示为其中 C 为 (p − 1) × p 对比阵: 

−1 1 −1 . . . 0 0 1 . . . 0 0 0 . . . 0 ··· ··· . . . . . . 0 0 . . . −1 0 0 . . . 1

      

H01 : Cµ1 = Cµ2 ,

 0   C= .  . . 

• 若从两个同方差 -协方差的正态总体中分别得到独立观测样本 X1j , j = 1, . . . , n1 和 X2i , i = 1, . . . , n2 . 则记 “新的” 样本为 C X1j 和 C X2i , 则假设 H01 为两样本均值检验问题. • 从而两个同方差 -协方差的正态总体的平行轮廓水平 α 检验的拒绝域为 [ ]−1 ¯1 −X ¯ 2 ))′ ( 1 + 1 )CSp C ′ ¯1 −X ¯ 2 )) > c

2 T 2 = (C (X (C (X n1 n2 Previous Next First Last Back Forward 30

其中 c2 =

(n1 +n2 −2)(p−1) Fp−1,m1 +n2 −p (α). n1 +n2 −p

Sp 为两组样本协

方差矩阵混合下的样本协方差矩阵: Sp = n1 − 1 n2 − 1 S1 + S2 n1 + n2 − 2 n1 + n2 − 2

两轮廓是否重合的检验 • 当两个轮廓平行时候, 只有当 1′ µ1 = 1′ µ2 时候, 两个轮廓才会重合. • 因此等价地, 第 (2) 步中的假设 H02 可以等价表示为 H02 : 1′ µ1 = 1′ µ2

Previous Next First Last Back Forward

• 因此对两个同方差 -协方差, 假设 H02 的水平 α 检验拒绝域为 [ ]−1 ¯1 −X ¯ 2 ))′ ( 1 + 1 )1′ Sp 1 ¯1 −X ¯ 2 )) T 2 = (1′ (X (1′ (X n1 n2   ′ ¯ ¯ 2) 1 ( X − X 1  > t2 = √ n1 +n2 −2 (α/2) = F1,n1 +n2 −2 (α). 1 1 ′ ( n1 + n2 )1 Sp 1 两轮廓重合时是否水平的检验 • 当两个轮廓重合时候, 则所有样本来自同一总体. 下一步研究所有变量的均值是否相同. • 当 H01 和 H02 被接受时候, 可以用 n1 + n2 个观测样本来估计其公共均值向量 µ: ¯ = X ∑ ∑ 1 [ X1j + X2i ] n1 + n2 j i 32

Previous Next First Last Back Forward

• 如果公共轮是水平的, 则第 (3) 步中的假设 H03 可以等价表示为 H03 : Cµ = 0 • 因此假设 H03 的水平 α 检验拒绝域为 ¯ ′ C ′ [CSC ′ ]−1 C X > c2 (n1 + n2 )X 其中 c2 =

(n1 +n2 −1)(p−1) Fp−1,m1 +n2 −p+1 (α), n1 +n2 −p+1

S 为基于所有

n1 + n2 个观测样本值的样本协方差矩阵.

Previous Next First Last Back Forward

多元方差分析

张伟平 [email protected] Oﬃce: 东区管理科研楼 1006 Phone: 63600565 课件 http://staff.ustc.edu.cn/~zwp/ 论坛 http://fisher.stat.ustc.edu.cn

简介

1.1 1.2 1.3 1.4 多总体均值的比较 . . . . . . . . . . . . . . . 单因素多元方差分析 . . . . . . . . . . . . . . 1.2.1 1.3.1 1 3

处理效应的同时置信区间 . . . . . . . 13 效应差异的同时置信区间 . . . . . . . 26

双因素多元方差分析 . . . . . . . . . . . . . . 19 轮廓分析中的应用 . . . . . . . . . . . . . . . 28

Previous Next First Last Back Forward

1.1

多总体均值的比较

Previous Next First Last Back Forward

1.2 单因素多元方差分析

2 Xkj = µ + τk + ekj , e′ kj s i.i.d ∼ N (0, σ )

为保证可识别性, R默认令 τ1 = 0, SAS默认令 τg = 0. • 此时考虑的零假设等价于 H0 : τ1 = · ·

· = τk = 0 这等价于要对回归系数进行检验 Previous Next First Last Back Forward 4

观测值 = 总的样本平均 + 估计的处理效应 + 残差这等价于 xkj − x ¯ Overall variability 其中 x ¯=

1 n

(¯ xk − x ¯) Between-group var. ∑

(xkj − x ¯k ) Within-group var.

∑

k,j

xkj 为 µ 的估计, n =

nk , x ¯k =

1 nk

∑

xkj ,

τ ˆk = (¯ xk − x ¯) 为 τk 的估计, (xkj − x ¯k ) 为 ekj 的估计.

Previous Next First Last Back Forward

k,j

(xkj

SStot = SStr + SSres ∑ ∑ −x ¯)2 = nk (¯ xk − x ¯ )2 + (xkj − x ¯ k )2

k k,j

• 从而当 F =

SStr /(g − 1) > Fg−1,n−g (α) SSres /(n − g ) Sum of Degree of freedom(df) g−1 n−g n−1 6 MS SStrt /(g − 1) SSres /(n − g )

时拒绝零假设 H0 . 计算上常表示为下面的方差分析表: Source of variation Treatments Residual Total squares(SS) SStrt SSres SStot

Previous Next First Last Back Forward

nk τ k = 0 或者其他约束. 7

Previous Next First Last Back Forward

• 样本波动性分解 ¯ = (X ¯k −X ¯ ) + (Xkj − X ¯ k) Xkj − X 于是总平方和与交叉乘积 ∑

k,j

¯ )(Xk,j − X ¯ )′ = (Xkj − X T +

∑

¯k −X ¯ )(X ¯k −X ¯ )′ nk ( X B

∑

k,j

(Xkj

¯ k )(Xkj − X ¯ k )′ −X W

• 相应的自由度

g ∑ i=1

ni − 1 = (g − 1) +

g (∑ i=1

ni − g

)

Previous Next First Last Back Forward

• 从而对假设 H0 : τ 1 = · · · = τ g = 0, Wilk’s Λ∗ 检验统计量 ( 和似然比检验等价) Λ∗ = |W | |B + W|

Previous Next First Last Back Forward

变量个数 (p) p=1 p=2 p≥1 p≥1

处理个数 (g ) g≥2 g≥2 g=2 g=3

( g −1

∼ Fg−1,n−g ∗ ) √ ∗ 1

− Λ √ ∼ F2(g−1),2(n−g−1) ∗ ( )( Λ∗ ) n−p−1 1−Λ ∼ Fp,n−p−1 ∗ ( p )( Λ√ ) ∗ n−p−2 1− Λ √ ∼ F2p,2(n−p−2) p Λ∗

n−g −1 g −1 Λ )(

多元正态抽样 ( )( ) ∗

n−g 1−Λ

• 对较大的 n, 在 H0 下, Bartlett 证明了 ( p + g) − n−1− log Λ∗ 2

χ2 p(g −1)

– Lawley-Hotelling trace 水平 α 检验拒绝域为

2 nT0 = tr(BW−1 ) > χ2 gp (α)

Previous Next First Last Back Forward

1.2.1 处理效应的同时置信区间

Previous Next First Last Back Forward

• 注意 W =

∑

k (nk

− 1)Sk , 其中 (nk − 1)Sk ∼ Wp (nk − 1, Σ)

Previous Next First Last Back Forward

其他感兴趣的假设 • 除了 “没有处理效应” 这一感兴趣的假设外, 我们可能还会感兴

趣其他形式的假设, 例如 H0 :Ck β g×p = 0 比较处理比较变量两者混合

H0 :β g×p Mp×q = 0

H0 :Ck β g×p Mp×q = 0

• 例如, 假设对 g = 3 个处理组中的每个个体测量 p = 2 个变量, 令 τ′ 3 = [τ31 , τ32 ] = 0, 此时   β=  τ11 τ21 µ1 µ2   τ12   τ22

Previous Next First Last Back Forward

• 比较处理效应 [ Cβ = 0 0 1 1 0 −1 ]    τ11  τ21 µ1 µ2 τ12 τ22   =  [ τ11 τ11 − τ21 τ12 τ12 − τ22 ]

   

[

1 0

] =

[

τ11 τ11 − τ21

]

– 第一行表示了处理 3 和处理 1 在第一个变量上的响应平均差异; – 第二行表示了处理 1 和 2 在第一个变量上的响应平均差异

Previous Next First Last Back Forward

• 以及 [

C βM =

0 0

1 1

0 −1

]

   τ11  τ21 µ1 µ2 τ12 τ22

    ]

[

1 −1

]

[ =

τ11 − τ21 (τ11 − τ21 ) − (τ12 − τ22 )

Previous Next First Last Back Forward

1.3 双因素多元方差分析

αl =

∑

βk =

∑

γ lk =

∑

γ lk = 0 19

Previous Next First Last Back Forward

• 其中

∑ ¯ = 1 X Xlkr , ngb

l,k,r

∑ ¯ l· = 1 X Xlkr nb

k,r

∑ ¯ ·k = 1 Xlkr , X ng

l,r

∑ ¯ lk = 1 Xlkr X n r

• 从而平方和与交叉积 ∑

l,k,r

¯ )(Xlkr − X ¯ )′ = (Xlkr − X + + + ∑ ∑ ∑

l,k,r l,k k

∑

¯ l· − X ¯ )(X ¯ l· − X ¯ )′ bn(X

¯ ·k − X ¯ )(X ¯ ·k − X ¯ )′ gn(X ¯ lk − X ¯ l· − X ¯ ·k + X ¯ )(X ¯ lk − X ¯ l· − X ¯ ·k + X ¯ )′ n(X ¯ lk )(Xlkr − X ¯ lk )′ (Xlkr − X

Previous Next First Last Back Forward

• Wilk’s Λ 统计量为 Λ∗ = |SSPres | |SSPB + SSPres |

因此渐近水平 α 检验据拒绝域为 [ ] 1 − bg (n − 1) − (p + 1 − (b − 1)) log Λ > χ2 p(b−1) (α) 2

Previous Next First Last Back Forward

1.3.1 效应差异的同时置信区间

• 当交互效应是可忽略的时候, 我们可以集中在

因子 A 和 B 各自分量的差值上. • 对因子 A 的 g (g − 1)/2 个水平差对 αlj − αmj , l

且相互独立, 从而 αlj − αmj 的的 1 − α Bonferroni 同时置信 ( )√ 2E α jj pg (g − 1) vbn

¯ l·j −X ¯ m ·j 其中 v = gb(n−1), Ejj 为 SSPres 的 (j, j ) 对角元. X ¯ l· − X ¯ m· 的第 j 元. 为 p × 1 向量 X

Previous Next First Last Back Forward

• 类似地, 对因子 B 的 b(b − 1)/2 个水平差对 βkj − βqj , l

Previous Next First Last Back Forward

1.4

轮廓分析中的应用

′ • 以两总体为例, 记 µ′ 1 = [µ11 , µ12 , µ13 , µ14 ] 和 µ2 = [µ21 , µ22 , µ23 , µ24 ]

Previous Next First Last Back Forward

两轮廓是否平行的检验 • 对 (1), 假设 H01 可以等价表示为其中 C 为 (p − 1) × p 对比阵: 

−1 1 −1 . . . 0 0 1 . . . 0 0 0 . . . 0 ··· ··· . . . . . . 0 0 . . . −1 0 0 . . . 1

      

H01 : Cµ1 = Cµ2 ,

 0   C= .  . . 

2 T 2 = (C (X (C (X n1 n2 Previous Next First Last Back Forward 30

其中 c2 =

(n1 +n2 −2)(p−1) Fp−1,m1 +n2 −p (α). n1 +n2 −p

Sp 为两组样本协

方差矩阵混合下的样本协方差矩阵: Sp = n1 − 1 n2 − 1 S1 + S2 n1 + n2 − 2 n1 + n2 − 2

Previous Next First Last Back Forward

(n1 +n2 −1)(p−1) Fp−1,m1 +n2 −p+1 (α), n1 +n2 −p+1

S 为基于所有

n1 + n2 个观测样本值的样本协方差矩阵.

Previous Next First Last Back Forward

相关内容

热门内容

标签