固定效应和随机效应

方差分析(写成英文我就认识了。。analysis of variance (ANOVA) )主要有三种模型：即固定效应模型（fixed effects model），随机效应模型（random effects model），混合效应模型（mixed effects model）。

所谓的固定、随机、混合，主要是针对分组变量而言的。

固定效应模型，表示你打算比较的就是你现在选中的这几组。例如，我想比较3种药物的疗效，我的目的就是为了比较这三种药的差别，不想往外推广。这三种药不是从很多种药中抽样出来的，不想推广到其他的药物，结论仅限于这三种药。“固定”的含义正在于此，这三种药是固定的，不是随机选择的。

随机效应模型，表示你打算比较的不仅是你的设计中的这几组，而是想通过对这几组的比较，推广到他们所能代表的总体中去。例如，你想知道是否名牌大学的就业率高于普通大学，你选择了北大、清华、北京工商大学、北京科技大学4所学校进行比较，你的目的不是为了比较这4所学校之间的就业率差异，而是为了说明他们所代表的名牌和普通大学之间的差异。你的结论不会仅限于这4所大学，而是要推广到名牌和普通这样的一个更广泛的范围。“随机”的含义就在于此，这4所学校是从名牌和普通大学中随机挑选出来的。

固定效应和随机效应 - luckyaeo - 启程

混合效应模型就比较好理解了，就是既有固定的因素，也有随机的因素。

一般来说，只有固定效应模型，才有必要进行两两比较，随机效应模型没有必要进行两两比较，因为研究的目的不是为了比较随机选中的这些组别。

固定效应和随机效应的选择是大家做面板数据常常要遇到的问题，一个常见的方法是做huasman检验，即先估计一个随机效应，然后做检验，如果拒绝零假设，则可以使用固定效应，反之如果接受零假设，则使用随机效应。但这种方法往往得到事与愿违的结果。另一个想法是在建立模型前根据数据性质确定使用那种模型，比如数据是从总体中抽样得到的，则可以使用随机效应，比如从N个家庭中抽出了M个样本，则由于存在随机抽样，则建议使用随机效应，反之如果数据是总体数据，比如31个省市的Gdp，则不存在随机抽样问题，可以使用固定效应。同时，从估计自由度角度看，由于固定效应模型要估计每个截面的参数，因此随机效应比固定效应有较大的自由度.

固定效应模型

固定效应模型（fixed effects model）的应用前提是假定全部研究结果的方向与效应大小基本相同，即各独立研究的结果趋于一致，一致性检验差异无显著性。因此固定效应模型适用于各独立研究间无差异，或差异较小的研究。

固定效应模型是指实验结果只想比较每一自变项之特定类目或类别间的差异及其与其他自变项之特定类目或类别间交互作用效果，而不想依此推论到同一自变项未包含在内的其他类目或类别的实验设计。例如：研究者想知道教师的认知类型在不同教学方法情境中，对儿童学习数学的效果有何不同，其中教师和学生的认知类型，均指场地依赖型和场地独立型，而不同的教学方法，则指启发式、讲演式、编序式。当实验结束时，研究者仅就两种类型间的交互作用效果及类型间的差异进行说明，而未推论到其他认知类型，或第四种教学方法。象此种实验研究模式，即称为固定效果模式。与本词相对者是随机效应模型（random effect model）、混合效应模型（mixed effect model）。

随机效应模型 random effects models

随机效应模型(random effects models)是经典的线性模型的一种推广，就是把原来（固定）的回归系数看作是随机变量，一般都是假设是来自正态分布。如果模型里一部分系数是随机的，另外一些是固定的，一般就叫做混合模型（mixed models）。

虽然定义很简单，对线性混合模型的研究与应用也已经比较成熟了，但是如果从不同的侧面来看，可以把很多的统计思想方法综合联系起来。概括地来说，这个模型是频率派和贝叶斯模型的结合，是经典的参数统计到高维数据分析的先驱，是拟合具有一定相关结构的观测的典型工具。

随机效应最直观的用处就是把固定效应推广到随机效应。注意，这时随机效应是一个群体概念，代表了一个分布的信息 or 特征，而对固定效应而言，我们所做的推断仅限于那几个固定的（未知的）参数。例如，如果要研究一些水稻的品种是否与产量有影响，如果用于分析的品种是从一个很大的品种集合里随机选取的，那么这时用随机效应模型分析就可以推断所有品种构成的整体的一些信息。这里，就体现了经典的频率派的思想-任何样本都来源于一个无限的群体(population)。

同时，引入随机效应就可以使个体观测之间就有一定的相关性，所以就可以用来拟合非独立观测的数据。经典的就有重复观测的数据，多时间点的记录等等，很多时候就叫做纵向数据(longitudinal data)，已经成为很大的一个统计分支。

上述两点基本上属于频率派，分析的工具也很经典，像极大似然估计，似然比检验，大样本的渐近性等。但是，应该注意到把固定的参数看做是随机变量，可是贝叶斯学派的观念。当然，mixed models 不能算是完全的贝叶斯模型，因为贝叶斯学派要把所有的未知的参数都看作是随机的。所以有人把它看做是半贝叶斯的 or 经验贝叶斯的。在这个模型上，我们可以看到两个学派很好的共存与交流，在现代的统计方法里两种学派互相结合的例子也越来越多。

众所周知，随机效应有压缩(shrinkage)的功能, 而且可以使模型的自由度(df) 变小。这个简单的结果，对现在的高维数据分析的发展起到了至关重要的作用。事实上，随机效应模型就是一个带惩罚(penalty)的一个线性模型，有引入正态随机效应就等价于增加的一个二次惩罚。有趣的是，著名的岭回归(ridge regression) 就是一个二次惩罚，它的提出解决了当设计矩阵不满秩时最小二乘估计（LSE）无法计算以及提高了预测能力。于是，引入随机效应或者二次惩罚就可以处理当参数个数p 大于观测个数n的情形，这是在分析高维数据时必须面对的问题。当然，二次惩罚还有一个特性，如：计算简便，能选择相关的predictors，对前面的几个主成分压缩程度较小等。

根据面板数据的特性，在回归模型的设定的有效性问题上，我们需要检验混合估计模型、固定效应模型（Fixed-Effect Model）以及随机效应模型（Random-Effect Model）的有效性[1]，其中固定效应又包括个体固定效应和时间固定效应（如果同时具备个体固定效应和时间固定效应，则称之为双向固定效应）。对于混合估计模型和固定效应模型，我们可以使用F检验来判别其有效性；对于混合估计模型和随机效应模型，通常可以用LM检验判别其有效性；对于固定效应模型和随机效应模型，通常用Hausman检验判断其适用性。有关模型设定和检验的细节可以参考Baltagi（2005）

所以，你需要分别检验是否加入时间固定效应、是否需要加入个体固定效应。

[1] 简言之，混合估计模型就是假定所有公司年度都具有相同的截距项；固定效应模型假定截距项随公司和年度而变；随机效应模型不但假定截距项随公司和年度而变，而且假定这些不同的截距项和其它解释变量不相关。更为具体的模型设定问题可以参见李子奈、叶阿忠（2000），Wooldridge（2003），以及Baltagi（2005）。