临床研究的样本量估算及其影响因素

临床研究是一种有计划的科研活动，样本量估算是这项活动中具有挑战性的工作之一。在临床研究工作中，我经常遇到研究者一见面就问我“你看我的研究样本量多少合适？”，往往我会被直接问懵。因为临床研究千奇百怪，什么研究方向都有，大家不可能都是一个相同的样本量！还有一些人非常坚持，不论什么研究，必须算出样本量，不然他就觉得研究设计不对。针对上述两个问题，作一讨论。

1、所有的临床研究都需要计算样本量吗？

按照临床研究的三阶段模式，临床研究可以分为探索性临床研究、培育性临床研究和验证性临床研究，也有地方将临床研究仅分为探索性和确证性两种。

探索性临床研究可以是研究者的一个设想，也可以是前期临床工作中的偶然发现，研究的主要任务是初步验证而不是“盖棺定论”，探索这一方向是否值得进一步研究即可。探索性研究可以不使用统计学公式去估算样本量，但需要对所选用的样本量进行充分的说明，体现其合理性。如针对某全新的手术方式开展的早期探索，在没有足够的疗效和安全性的数据之下，可能3-5例研究对象就足够了。

培育性研究是在探索性研究的基础上进一步深入和细化，寻找待研究问题的规律所在。培育性研究可以不采用统计学公式估算样本量，但应该在研究方案中明确说明所选取样本量大小的理由，当然培育性也可以估算样本量。

验证性研究又是在培育性研究的基础之上采用合理的方法、严格的控制去验证规律的可靠性。验证性研究往往需要估算样本量，且有学者认为验证性研究样本量估算的把握度（Power）至少90%才合适。

看了上面的一些内容，您还觉得所有研究都需要计算样本量吗？

2、样本量估算的参数都有哪些？

样本量估算也跟算命一样，它们都是对未来事件的预测。我们知道算命是需要一些信息的，比如生辰八字。那么样本量估算也需要信息，所有我们在找统计人员去估算的样本量的时候一定要给他提供一些您的研究的相关信息。下面逐一介绍：

（1）研究设计类型

比如本研究是横断面调查，就想去了解一下我国人群的某病患病率。又如本研究是一个自身前后对照研究，想看看用药前后疗效如何。或者本研究是一个两组的RCT，想比较不同组之间的差别。还有本研究是一个生存分析，相比较不同组的生存差异。又或者本研究是一个三组的比较……，等等。不同的研究设计类型，其样本量估算方法是不同的。

（2）研究主要终点指标及其预期数值

在研究设计之初，我们应该是有想法的，知道本研究需要探索哪些指标。哪些又是重要探索的主要终点指标，哪些是次要终点指标。在样本量计算时我们明确主要终点指标及其预期的数值。比如这是一个疗效的RCT研究，主要终点指标就是治疗有效率，预期估计A组的有效率是56%，B组的有效率是78%。又如这是一个自身前后对照研究，预期估计干预后某主要终点指标下降情况为2.56±0.45。那么这个预期估计又怎么来呢，我们说最好是预实验的结果，次之是文献报告的结果，最次的是专家咨询的结果。

（3）犯错误的概率

这包括Ⅰ类错误和Ⅱ类错误，Ⅰ类错误的概率α一般取0.05；Ⅱ类错误的概率大小β，等于1减把握度（power），一般取0.1或0.2。Ⅰ类错误α是指你没有接受正确的H0的概率，也就是你拒绝了正确的H0的概率，这个概率当然是越小越好。但是我们往往取这个值为0.05，也就是小概率事件的发生概率。Ⅱ类错误β是指你没有拒绝错误的H0的概率，也就是你接受了错误的H0的概率，这个概率当然也是越小越好。一般我们取0.1或0.2，也就是说当H0真的不成立，如果让你重复100次研究，你的研究结果可以有10-20次接受H0。反过来说，就是你的每一次研究都有80%-90%的把握拒绝假的H0。

（4）界值的大小

我们知道假设检验有以0为参照差异性检验和以界值δ为参照的等效、优效和非劣效检验。界值是指研究者设定的为了某一目的而存在的数值大小，比如研究者假定A药非劣效于B药，取非劣效界值为10 mmol/L，也就是如果研究结果显示A药的疗效比B药差10 mmol/L以内，都认为A药非劣效与B药。优效性研究也是一样。

（5）其他参数

其他参数包括单侧或双侧检验、抽样方法的不同以及失访率等。抽样方法除了完全随机抽样以外，还有整群抽样、多阶段抽样等，这些都需要对样本量进行适当的调整。除此之外，还需要考虑研究的失访情况。