临床试验设计中样本含量的理解_李河

2012年12月第12卷第6期

循证医学

The Journal of Evidence-Based Medicine

Dec．2012Vol．12No．6

循证医学中的医学统计学问题··

临床试验设计中样本含量的理解

李

河1，

李

卫2，

杨学宁1，

吴一龙

（1．广东省人民医院、广东省医学科学院，广州510080；

2．中国医学科学院国家心血管病中心医学研究统计中心，北京100037）

［关键词］临床试验设计；专业设计；统计设计；生物统

理论上讲，样本含量的估计原则是在保证“研究结果”具有一定可信度（1－α）［或可信区间（confidence interval ，CI ）］及把握度（1－β）的前提下，估算出能够达到“主要研究目标”所需要的“研究对象最小例数”，以便通过样本研究结果来推断总体特征（通过样本统计量推断总体参数）。如果考虑到失访（或丢失、脱落），可以据不同情况增加

计学；样本含量［中图分类号］［文献标识码］［文章编号］

R195．1A

1671－5144（2012）06－0374－03

How to Read the Sample-Size in A Clinical Trial Design ／／LI He 1，LI Wei 2，YANG Xue-ning 1，WU Yi-long 1

Key words ：clinical trial design ；subject design ；statistical design ；biostatistics ；sample-size

Authors ’address ：1．Guangdong General Hospital ，Guangdong Academy of Medical Sciences ，Guangzhou 510080，China ；2．Medical Research Center of Statistics ，National Cardiovascular Disease Center ，

Chinese Academy of Medical Sciences ，

Beijing 100037，China

10％～20％的样本量，但是这一比例不能够太大。如

果失访率超过20％时，可能需要对失访原因、状况等进行分析，在对研究结果下结论时，当需慎重，有时失访率太高常会导致研究失败。

影响样本含量估计的因素如下：

（1）检验水准α（α为Ⅰ类错误，要区分单侧检验或双侧检验，即可信区间CI ）。如果在研究设计中对控制Ⅰ类错误的要求高、即检验水准α取小值（可信区间CI 取小范围），则样本含量估计值会增大。通常双侧检验比单侧检验所需要的样本含量大。一般取α＝0．05或0．01。

（2）检验效能1－β（β为Ⅱ类错误，为单侧，1－

我们知道，临床试验的设计包括“专业设计”和“统计设计”两部分内容，统计设计中需要面对的重要问题之一就是“样本含量”估计问题，究竟需要招募多少例“研究对象”才能够真正达到“样本含量”的要求（统计学要求和临床专业要求），又能够达到检验效能（power of a test ，或把握度1－β）的要求呢？或者说，我们在理解他人的医学科研设计及发表论文中的样本含量大小时，如何能够解读其中的样本含量估算秘密？其样本含量估算正确吗？其研究结果可信吗？可靠性有多高？如何保证在足够的最小样本量和可靠性前提下，能够科学、合理、有效回答“主要研究问题”，达到“主要研究目标”是需要我们临床医学工作者需要认真对待的问题。

β即把握度）。相对而言，Ⅱ类错误的控制较Ⅰ类

错误的控制要求低，故一般取β＝0．20或0．10。当

Ⅱ类错误取小值时，则样本含量估计值会增大。一

般情况下，我们常期望有较大机率得出“主要研究结果”具有统计学意义的结论，故常取β＝0．20，也就是取把握度1－β＝80％。

（3）研究总体参数（目标总体参数）。如定量变量总体均数μ和总体变异度σ（总体标准差）或σ2（总体方差）的估计值（或目标值）。定性变量总体率π和总体变异度π（1－π）（总体方差）的估计值（或目标值）。一般情况下总体变异度越大需样本含量越大。总体变异度越大时，如果样本含量不足，可能导致研究结果稳定性不佳，甚至影响研究样本的代表性，而影响研究结果的外推（样本→研

［作者简介］李河（1963－），男，内蒙古商都人，主任医师，医学博士，主要研究方向为流行病学与医学统计学在临床医学科研中应用、心血管病的二级预防研究。

李河，等．临床试验设计中样本含量的理解

375

究总体→目标总体），直接降低研究结果的临床实际应用价值。

（4）一般而言，我们常常希望检测到有意义的

统计学检验原理。需要注意的是在临床试验（clinical trial ）设计中，我们更要采用成熟定论的统计学方法。

（9）研究组与对照组的样本分配比例。临床试验设计中常用的样本分配比例有“试验组∶对照组”

δ估计值（δ为容许误差，可以是绝对容许误差或

相对容许误差）。在这里有意义的δ估计值（容许误差）可以理解为，要求在临床医学专业上认为有意义的效果“差值”（或研究因素在临床医学专业上有意义的“效果”或“效应”）。一般情况下，设定的容许误差δ越小则需要样本含量越大。需要注意的是，有时效果“差值”有统计学意义，但不一定有临床医学专业意义。

（5）临床试验设计类型。不同的研究设计类型对样本含量的大小会有影响。一般而言平衡设计较非平衡设计需要样本含量小，配对设计或配比设计需要样本含量小，析因设计或拉丁方设计需要样本含量小，可能单中心设计较多中心设计需要样本含量小（在中心效应有统计学意义时，情况可能更为突出），而需要分层设计的研究需要的样本量大等。

（6）主要研究目标（涉及主要研究目的、主要研究问题、主要研究变量）。如果在研究设计中需要考虑完成几个主要研究目标（2个或3个），通常需要考虑增大样本含量。但是主要研究目标不能设置过多。

（7）主要研究终点（可以理解为能够实现主要研究目标的最重要的研究指标、研究变量，如定量变量、定性变量、时间依赖型变量）。在研究设计中选定不同类型的研究变量，对样本含量的大小有影响。可能与主要研究变量的总体参数及其人群分布特征等有关。如将主要研究变量设定为不同类型（如设定为定量变量、二分类变量、时间依赖型变量等），将影响样本含量大小。设定为不同类型主要研究变量，可能影响其变异性、稳定性、将采用的统计学处理方法，从而影响样本含量的估计。另外在研究设计中设定“研究终点”的个数也会影响样本含量大小。一般应该选择一个最有意义的最重要的终点变量来进行样本含量估计。如果考虑2个或以上终点变量，可能需要分别计算

＝“4∶1、3∶1、2∶1、1∶1”（一般来说研究效率最高的样

本分配比例为1∶1，其可以达到相对最小样本量）。临床试验中也常取研究组例数多于对照组例数，如此考虑可以有更多机会观察新疗法的副作用及不良反应，有更多机会采用新疗法，获得新疗法更多的临床经验，有时也会有更多病人受益等。但研究组与对照组的样本分配比例一般不大于4∶1，因为分配比例大于4∶1时，只可少量减少对照组研究对象例数，但往往会明显增大总研究例数，而对研究效率的增加作用有限。

（10）研究数据的期望变异性大小。主要涉及组内变异、组间变异。有时还需要考虑到平均测量误差等。如果事先对其缺乏认识，可以查阅参考以往研究文献、总结日常常规性资料，最好是进行预试验（pilot study ），以便能够获得初步数据信息。对期望变异的估计将直接影响样本含量估计，因为期望变异估计值会被直接应用在样本含量估计公式中。

（11）对照组期望结果。对照组期望结果的大小（如对照组中危险因素暴露率、对照组研究事件阳性率等），也会影响样本含量的估计，也与对照组的主要研究变量的总体参数、人群分布特征等有关。

（12）依据的理论分布原理不同，也会影响样本含量估计。如以二项分布或Poisson 分布原理进行的“差异性检验”，其统计学公式有其应用条件，所以如此进行的样本大小估计，同样也要注意相应的应用条件。

（13）招募率。招募率高低会直接影响临床试验期限（病例招募期、临床试验期），需要注意的是在实际工作中“招募率”常常被高估，工作中也常有招募期限被延长的情况发生。对于“事件时间依赖”数据（time-to-event data ）的样本量大小估计问题，研究对象招募率（recruitment rate ）、招募期限（recruitment period ）、随访时间（follow up length ）、某时点对照组事件发生率都会影响样本含量大小估计。

（14）依从性问题。如果“非依从性”＝a％，需要调整样本含量n c ＝n×1002／（100－a）2。脱落问题：如

n 1、n 2或n 3，以便考虑取其最大者。但同样主要研

究终点不可设置过多。

（8）对研究数据拟采用的统计学处理分析方法。我们需要在研究设计阶段明确将来要采用的统计学分析方法，采用不同的统计学方法也会影响样本含量大小，因为样本含量估计方法有赖于

376

（100－b），或调整样本含量n c ＝n×（100＋b）／100。

循证医学2012年第12卷第6期

果“脱落率”＝b％，需要调整样本含量n c ＝n×100／

（15）在生存分析数据的研究设计中，总研究期的长短和完成研究对象入组期的长短都会影响样本含量大小估计。

（16）需要注意的是，在实际工作中如果估计得到的样本含量n 大（n 有时很大），致使在实际研究工作中难以实施，这时可以考虑取：α＝0．10，β＝

发现“有意义差异”（差异未见统计学意义）。从理论上讲，应该以能够发现有临床专业意义的“最小差异”为希望检测到的有意义的δ估计值，当得出巨大样本量时，可以考虑取“中间差异”来进行样本含量估计。取“期望差异”越大，不能发现“有意义差异”的概率越大（当存在“真差异”时）。

例如，拟进行一项临床试验，评价“新药”与“标药”抗肺癌疗效，据文献“标药”3年生存率＝

0．20，也可以把“差异”即δ的估计值取大些，如取δ＝10％相对误差。研究组与对照组的样本分配比

例取小些（如1∶1）。也可以考虑对研究对象进行限制、以便降低研究总体中的“个体变异”性（但会影响研究结果外推）。或可以调整改变“研究终点”变量，但同时需要考虑将采用的统计学分析方法，如有的研究者把“二分类变量”调整为“事件时间依赖变量”。但也有研究者一般不建议取α＞0．05和／或β＞0．20，而是建议增加“研究中心”数，以便有可能取得足够的研究样本含量。

一般情况下，样本含量越大，研究结果准确性越高，也可以说结果越趋近总体参数真值。然而“样本含量越大越好”的想法也不尽然，我们常需要在“小样本”与“大样本”间找到相对合适的“平衡点”。因为样本含量的太小，常导致检验效能（把握度1－β）降低，导致假阴性结果出现，难以得出正确的结果；也就是会导致“没有足够理由证明哪种处理好”，这样的研究其实是一种资源浪费。样本含量太大，往往导致人力、物力、财力、时间的浪费，而且常常由于盲目追求大样本量可能导致更多混杂因素（confounding factor ）的产生，导致更大（或多）的偏倚（bias ）发生；有时也可能因为样本含量太大，结果太准确，超出实际需求，而招募了太多的超出需求的研究对象的研究同样是一种资源浪费。

我们都希望临床试验有“好结果”，即在两种处理“真正有差异时，现有研究统计量能够发现这一差异（差异有统计学意义）”。然而只有“差异”足够大、而且有临床专业意义的“差异”才有临床价值、才有实际意义。但有的研究者一厢情愿地以“期望差异”去计算样本量，如果过度乐观于新疗法，过度高估“差异”，就会导致样本含量被低估的情况发生；结果是常导致一个低功效研究（underpowered study ）的发生，在本应该能够发现“有意义差异”（差异有统计学意义，特别是在差异有临床专业意义）时，反而由于样本含量太小未能

45％，现“预试验”估计“新药”3年生存率＝65％，如

果整个临床试验期设为5年，而研究“病例招募”在前2年内完成，样本量N＝？

据指数分布原理，来完成生存研究（有截尾数据，censored ）两生存率比较样本含量估计。设定

L 1、L 2分别为两肺癌组3年生存率（L 表示事件率λ），u α＝u0．05，

u β＝u0．10，T 为整个临床试验期时间5

年，T 0为在整个临床试验期时间的前2年（完成病人招募），N 为两组总样本量，采用SAS 软件计算两组需要观察的总病例数为N＝220例（每组110例）。数理统计公式：

2（u α＋u β）2［F （L 1）＋F （L 2）］N ＝

（L 1－L2）2e －L（T－T0）－e－LT

F （L ）＝L 21－

! "

－1

预计每组需要观察到多少“死亡病例”时研究能够有结论？设定M 1、M 2分别为两组病例中位生存时间，T 为非中心参数（其值可查数理统计表），结果为当取α＝0．05，β＝0．10时，采用SAS 软件计算预计每组观察到93例死亡病例时研究可以有结论；取α＝0．05，β＝0．20时，预计每组观察到70例死亡病例时研究可以有结论。数理统计公式：

N ＝

（ln （M 2／M 1））2

我们知道，高质量的临床试验需要从研究设计阶段开始就有生物统计学工作者参加，并且自始至终地参加，其中样本含量估计与检验效能估算是需要在科研设计阶段就必须认真对待的问题，对确保临床试验研究的成功非常重要。因为临床试验设计包含“专业设计”和“统计设计”两部分内容，而“统计设计”对于保证研究结果的“重现性、可靠性、科学性”具有非常重要的意义。“统计设计”是对资料搜集、整理、分析全部过程的合理安排，其主要内容包含研究设计类型选择、研究对象选择（抽样随机化）、样本大小估计、研究对象分配（分组随机化）、对照组设置、试

（下转第384页）

384

循证医学2012年第12卷第6期

内、外肿物。肺部＋全腹部CT 增强可了解是否有转移灶。治疗原则主要是手术睾丸切除。精原细胞瘤对放疗敏感，非精原细胞瘤对放疗不敏感，以化疗为主。分期、危险分组对预后、治疗影响很大。

对照2012NCCN 指南中晚期睾丸肿瘤的分期和危险因素，该患者为Ⅲb 期、中危组。现最困惑的是初诊睾丸病理为卵黄囊瘤，而后来腹膜后肿物诊断为畸胎瘤。2个不同的病理类型，考虑原因：初诊时可能不是单一的病理类型，卵黄囊瘤对化疗敏感，经过化疗后纤维化；恶性转良性，病理科曾出现过原发灶恶性而转移灶良性的病例。成熟型畸胎瘤对儿童而言是良性，对成人而言却是恶性。结合临床，该患者腹膜后肿物病理诊断为成熟型畸胎瘤，恶性。

陈晓明：睾丸卵黄囊瘤与腹部畸胎瘤的化疗方案是否相同？

张华：方案一样。

高惠冰：术后有残留，患者是否需要继续治疗？刘全芳：术后腹部CT 增强示腹膜后仍有淋巴结，不一定是肿瘤残留，可能是术后炎性增生，建议行PET ／CT 检查证实。

杨衿记：是否还有标准的三线方案？

高惠冰：没有，继续2次VeIP 化疗，疗效评价为疾病稳定。

马冬：卵黄囊瘤的预后差，一线4周期化疗后部分缓解，加2周期继续缩小的患者，能否继续使

用一线BEP 方案化疗至6～8周期？再手术的效果会怎样？

刘全芳：有必要再看看睾丸的病理，跟腹膜后肿物是不同的。二线评估依据不是很足，现在不知道腹膜后淋巴结是否残留。建议一线化疗后继续2周期原方案化疗。

郑登云：生殖细胞肿瘤是可治愈的肿瘤之一，晚期非精原细胞瘤予以铂类为主的治疗，治愈率可达80％，标准治疗方案是PEB 方案4周期。对于可治愈的肿瘤处理上需积极一点，特别是年轻患者，要争取获得最好的疗效。治疗在规范化的同时还要个体化，多学科综合治疗也是取得最好疗效的重要一环。本例患者一开始采用BEP 标准方案化疗4周期，疗效明显但未能达到完全缓解，根据指南改用VIP 方案是合理、规范的。外科干预为我们解决了很多问题，这样的多学科合作可以做得更好。

陈晓明：今天讨论的病例的处理是较成功的。诊断方面，肺部病灶反复出现片状影，可能是在治疗过程中患者抵抗力下降，出现炎症，或药物引起的，需全面考虑，争取病理证实。腹腔肿物两次病理诊断不一致，在决策治疗方案时需要和病理医师再沟通。治疗方面也较成功，按NCCN 指南，在一线治疗4周期后继续缩小，是按指南更改方案或个体化继续使用原方案，这值得大家继续探讨。

［收稿日期］

2012－09－23

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

（上接第376页）验因素安排（试验顺序安排随机

［5］Friede T ，Kieser M．Sample size reassessment in non-

化）、确定研究变量及相应统计分析方法等。不同的“专业设计”和“统计设计”所对应的样本含量估计问题不同，对应的统计学分析方法不同。

［参

［1］［2］［3］［4］

［6］

inferiority trials．Internal pilot study designs with ANCOVA

［J ］．Methods Inf Med ，2011，50（3）：237－243．

Boyd KA ，Briggs AH ，Fenwick E ，et al．Power and sample size for cost-effectiveness analysis ：fFN neonatal screening ［J ］．Contemp Clin Trials ，2011，32（6）：893－901．

考文献］

［7］Navaneethan SD ，Palmer SC ，Smith A ，et al．How to design a randomized controlled trial ［J ］．2010，15（8）：732－739．

Nephrology

（Carlton ），

方积乾．卫生统计学［M ］．第7版．北京：人民卫生出版社，

2012．

方积乾．医学统计学与电脑实验［M ］．第4版．上海：上海科学技术出版社，2012．

胡良平．SAS 实验设计与统计分析［M ］．北京：人民卫生出版社，2010．

［9］［8］

Jun M ，Zoungas S ，Perkovic V ，et al．How to read a report of a randomized controlled trial ［J ］．Nephrology （Carlton ），2010，15（2）：153－157．

Skorupski KA ，Hammond GM ，Irish AM ，et al．Prospective randomized clinical trial assessing the efficacy of Denamarin for prevention of CCNU-induced hepatopathy in tumor-bearing dogs ［J ］．J Vet Intern Med ，2011，25（4）：838－845．

Sinclair JC ，Haynes RB．Selecting participants that raise a

clinical trial ’s population attributable fraction can increase the treatment effect within the trial and reduce the required sample size ［J ］．J Clin Epidemiol ，2011，64（8）：893－902．

［收稿日期］2012－10－16

2012年12月第12卷第6期

循证医学

The Journal of Evidence-Based Medicine

Dec．2012Vol．12No．6

循证医学中的医学统计学问题··

临床试验设计中样本含量的理解

李

河1，

李

卫2，

杨学宁1，

吴一龙

（1．广东省人民医院、广东省医学科学院，广州510080；

2．中国医学科学院国家心血管病中心医学研究统计中心，北京100037）

［关键词］临床试验设计；专业设计；统计设计；生物统

计学；样本含量［中图分类号］［文献标识码］［文章编号］

R195．1A

1671－5144（2012）06－0374－03

How to Read the Sample-Size in A Clinical Trial Design ／／LI He 1，LI Wei 2，YANG Xue-ning 1，WU Yi-long 1

Key words ：clinical trial design ；subject design ；statistical design ；biostatistics ；sample-size

Chinese Academy of Medical Sciences ，

Beijing 100037，China

10％～20％的样本量，但是这一比例不能够太大。如

果失访率超过20％时，可能需要对失访原因、状况等进行分析，在对研究结果下结论时，当需慎重，有时失访率太高常会导致研究失败。

影响样本含量估计的因素如下：

（2）检验效能1－β（β为Ⅱ类错误，为单侧，1－

β即把握度）。相对而言，Ⅱ类错误的控制较Ⅰ类

错误的控制要求低，故一般取β＝0．20或0．10。当

Ⅱ类错误取小值时，则样本含量估计值会增大。一

般情况下，我们常期望有较大机率得出“主要研究结果”具有统计学意义的结论，故常取β＝0．20，也就是取把握度1－β＝80％。

李河，等．临床试验设计中样本含量的理解

375

究总体→目标总体），直接降低研究结果的临床实际应用价值。

（4）一般而言，我们常常希望检测到有意义的

统计学检验原理。需要注意的是在临床试验（clinical trial ）设计中，我们更要采用成熟定论的统计学方法。

（9）研究组与对照组的样本分配比例。临床试验设计中常用的样本分配比例有“试验组∶对照组”

δ估计值（δ为容许误差，可以是绝对容许误差或

＝“4∶1、3∶1、2∶1、1∶1”（一般来说研究效率最高的样

（14）依从性问题。如果“非依从性”＝a％，需要调整样本含量n c ＝n×1002／（100－a）2。脱落问题：如

n 1、n 2或n 3，以便考虑取其最大者。但同样主要研

究终点不可设置过多。

376

（100－b），或调整样本含量n c ＝n×（100＋b）／100。

循证医学2012年第12卷第6期

果“脱落率”＝b％，需要调整样本含量n c ＝n×100／

（15）在生存分析数据的研究设计中，总研究期的长短和完成研究对象入组期的长短都会影响样本含量大小估计。

（16）需要注意的是，在实际工作中如果估计得到的样本含量n 大（n 有时很大），致使在实际研究工作中难以实施，这时可以考虑取：α＝0．10，β＝

例如，拟进行一项临床试验，评价“新药”与“标药”抗肺癌疗效，据文献“标药”3年生存率＝

0．20，也可以把“差异”即δ的估计值取大些，如取δ＝10％相对误差。研究组与对照组的样本分配比

45％，现“预试验”估计“新药”3年生存率＝65％，如

果整个临床试验期设为5年，而研究“病例招募”在前2年内完成，样本量N＝？

据指数分布原理，来完成生存研究（有截尾数据，censored ）两生存率比较样本含量估计。设定

L 1、L 2分别为两肺癌组3年生存率（L 表示事件率λ），u α＝u0．05，

u β＝u0．10，T 为整个临床试验期时间5

2（u α＋u β）2［F （L 1）＋F （L 2）］N ＝

（L 1－L2）2e －L（T－T0）－e－LT

F （L ）＝L 21－

! "

－1

N ＝

（ln （M 2／M 1））2

（下转第384页）

384

循证医学2012年第12卷第6期

陈晓明：睾丸卵黄囊瘤与腹部畸胎瘤的化疗方案是否相同？

张华：方案一样。

杨衿记：是否还有标准的三线方案？

高惠冰：没有，继续2次VeIP 化疗，疗效评价为疾病稳定。

马冬：卵黄囊瘤的预后差，一线4周期化疗后部分缓解，加2周期继续缩小的患者，能否继续使

用一线BEP 方案化疗至6～8周期？再手术的效果会怎样？

［收稿日期］

2012－09－23

!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

（上接第376页）验因素安排（试验顺序安排随机

［5］Friede T ，Kieser M．Sample size reassessment in non-

化）、确定研究变量及相应统计分析方法等。不同的“专业设计”和“统计设计”所对应的样本含量估计问题不同，对应的统计学分析方法不同。

［参

［1］［2］［3］［4］

［6］

inferiority trials．Internal pilot study designs with ANCOVA

［J ］．Methods Inf Med ，2011，50（3）：237－243．

Boyd KA ，Briggs AH ，Fenwick E ，et al．Power and sample size for cost-effectiveness analysis ：fFN neonatal screening ［J ］．Contemp Clin Trials ，2011，32（6）：893－901．

考文献］

［7］Navaneethan SD ，Palmer SC ，Smith A ，et al．How to design a randomized controlled trial ［J ］．2010，15（8）：732－739．

Nephrology

（Carlton ），

方积乾．卫生统计学［M ］．第7版．北京：人民卫生出版社，

2012．

方积乾．医学统计学与电脑实验［M ］．第4版．上海：上海科学技术出版社，2012．

胡良平．SAS 实验设计与统计分析［M ］．北京：人民卫生出版社，2010．

［9］［8］

Jun M ，Zoungas S ，Perkovic V ，et al．How to read a report of a randomized controlled trial ［J ］．Nephrology （Carlton ），2010，15（2）：153－157．

Sinclair JC ，Haynes RB．Selecting participants that raise a

［收稿日期］2012－10－16

临床试验设计中样本含量的理解_李河

相关内容

热门内容

标签