编者按: 多数随机对照临床试验(RCT)的目的是确定一种新的干预是否优于对照组,即优效性试验(Superiority Trial)。而非劣效研究的目的证明新的干预组不差于对照组。由于证明两种干预措施效果的绝对的一致性(两组之间的差值=0),理论上需要无穷大的样本,因此,事实上非劣效性试验的目的是证实新的干预措施不如对照组的程度,不超过事先指定的基于主要研究终点的一个较小的量。这个量被称为非劣效性界值(non-inferiority margin),或称为Δ。等效性研究与此相似,要求新的干预组与对照组之间在主要研究终点上的差异在-Δ和Δ之间。实际上真正的双侧的等效性设计在临床试验中很少用到,首先是这样样本量要求更大,其次对于新的干预组可能优于对照组的程度,设置最大值的意义十分有限,甚至画蛇添足。因此在现实中大家经常看到的只有非劣效研究设计。
非劣效研究的目的是证明新的干预跟标准治疗比疗效类似,或者略差,但是差距没有超过具有临床意义的程度(非劣效性界值),而同时新的干预措施在可获得性、成本、用药的便捷程度、安全性或者生活治疗方面具有优势。后面的非疗效相关的优势,是开展非劣效研究的重要前提,如果没有这些优势,仅仅证明新的干预措施的疗效不劣于标准治疗,也不足以使新的干预措施获批或者被指南推荐。非劣效研究由于其特殊的目的,在研究设计、实施、分析和解读等方面对研究者提出了新的挑战。
非劣效研究的设计
对于非劣效研究,要求存在一个已经被证实过有效的或者已经约定俗成广泛使用的标准治疗,在这种情况下,基于安慰剂或者最佳支持治疗的对照研究在伦理学上是无法接受的。在非劣效研究中人群的入组要求和主要研究终点,应当尽量与证实标准治疗疗效的关键三期临床的入组人群要求和主要研究终点保持一致。例如标准治疗A药是在HER2阳性晚期乳腺癌患者一线治疗中,显著延长了患者的PFS,那么新的药物B药,如想要证明不劣于A药,在研究设计中必须入组未接受过治疗的HER2阳性晚期乳腺癌患者,主要研究终点设为PFS。
非劣效界值的选择
非劣效界值通常表示为主要研究终点的差值。非劣效界值的选择是非劣效研究设计成败的关键,如果Δ过大,超过了临床普遍接受的范围,即使研究结果是阳性,研究结果也很难被广泛接受;如果Δ过小,那么需要的样本量会非常大,研究可能无法进行。因此Δ的选择在临床上和统计学方面一定要合理,需要经过临床专家和统计学家的共同讨论确定。但是无论Δ如何确定,都不能超过有临床意义的差异范围,例如标准治疗组相对于安慰剂,可以降低死亡风险30%(HR=0.70),在设置与标准治疗组进行非劣效比较的试验的界值时,Δ不能超过30%,否则就不能保证试验药物的效果优于安慰剂,通常取标准治疗与安慰剂差异的一半(15%)比较合适。总之,Δ的选择直接决定了非劣效研究的成败,需要综合考虑临床意义、安全性、成本和可接受程度等诸多方面决定。
非劣效研究的分析和结果解读
虽然统计学家已经提出了针对非劣效研究直接进行检验的方法,根据P值(此处的P值不同于传统的差异性检验的P值,不可混为一谈)就可以判断非劣效研究是否达到统计学意义(P for noninferiority <0.05,非劣效终点达到,研究阳性),但是基于非劣效研究的特性,目前更加推荐的方法是报道主要研究终点差值的双侧95%的可信区间(或者单侧的97.5%的可信区间,两者在统计学上是等价的),来判断非劣效研究是否成功。如果是以生存数据作为主要研究终点,通常是通过HR的双侧95%的可信区间的上限来判定,没有超过1+Δ,那么就可以认定新的干预组在主要研究终点上不劣于标准治疗。还是以前面的A药和B药为例,假如研究B药是否不劣于A药,非劣效界值设为0.2;最终HR=1.02,95% CI, 0.87-1.16。由于1.16<1.20,可以认定B药不劣于A药,两者的效果的最佳估计是HR=1.02.如果是连续变量(血压水平,住院天数等),则是看差值的95%的可信区间的上限是否超过Δ,例如Pegfilgrastim vs Filgrastim的非劣效研究中,主要研究终点是4级以上中心粒细胞减少症的持续时间,非劣效界值设定为1天,最终结果两组之间的差值是0.03天,95%可信区间是-0.36-0.30,上限是0.30<预设的非劣效界值1天,达到了非劣的主要研究终点。
非劣效研究和优效性研究的转换
一旦非劣效研究达到了非劣效终点,那么还可以进一步研究是否达到了优效。判断的标准是两组之间的主要研究终点的差值的可信区间上限是否小于0,以生存指标为主要研究终点的研究则是看HR的可信区间是否<1。例如,在非劣效研究中,如果A药与B药比较,HR=0.82,95% CI, 0.67-0.96,由于95%可信区间上限<1,可以认定B药不但非劣于A药,而且效果优于A药。但是在优效性研究中,一旦没有达到研究终点,不可以在事后继续研究是否达到非劣效。优效性研究不能转化为非劣效研究,主要由于两个原因:非劣效研究的样本量大于优效性研究的样本量,因此优效性研究没有足够的统计学效能(Power)来下非劣效的结论,其次,非劣效研究的界值必须事先设置,在没有达到优效的情况下转为非劣效,需要在已知研究结果的情况下再确定非劣效界值,有操纵数据的嫌疑。
Mecapegfilgrastim vs Filgrastim研究
本研究旨在评估与Filgrastim相比,Mecapegfilgrastim(硫培非格司亭)减少中性粒细胞减少症的有效性和安全性。考虑到长效升白针可以减少注射次数,提高给药的便利性和患者的依从性,因此本研究设计为非劣效研究。研究的主要研究终点是化疗第一个周期中≥3级的中性粒细胞减少的持续时间。非劣效界值设定为1天,该非劣效界值的设定与Pegfilgrastim对比Filgrastim等多个类似研究的非劣效界值设定一致。判断研究是否达到非劣效研究终点的标准是两组之间第一个周期中≥3级的中性粒细胞减少的持续时间的差值的95%可信区间上限是否超过1.
研究结果:Mecapegfilgrastim100 μg/kg 组中性粒细胞减少症≥3级的平均持续时间为1.06(95%可信区间:0.65-1.26天), Mecapegfilgrastim 6 mg组为1.23(95%可信区间0.84-1.88天),Filgrastim组为2.06(95%可信区间:1.66-2.46天)。Mecapegfilgrastim 100 μg/kg组和Filgrastim组的平均差异为–1.00(95%置信区间:–1.52,–0.48)。Mecapegfilgrastim 6 mg组和Filgrastim组的平均差异为-0.83(95%置信区间:-1.36,-0.30)。Mecapegfilgrastim两个剂量组相比于Filgrastim组的差值的可信区间上限不但都小于1天的非劣效界值,而且小于0,因此在主要研究终点上不但到了非劣,而且进一步达到了优效的结论。
从统计学的角度看,作为一个长效升白针, 在具有减少注射次数,提高给药的便利性和患者的依从性等明显优势的情况下,Mecapegfilgrastim达到了主要研究终点——化疗第一个周期中≥3级的中性粒细胞减少的持续时间——这一重要疗效指标上的优效,两个剂量组分别减少了1天和0.83天,而且在多个重要的次要研究终点(包括第一个化疗周期的3级以上中性粒细胞减少症的发生率,4级中性粒细胞减少症的发生率和持续时间等)相比于对照组也有明显的降低。是目前唯一一个在三期临床当中,非劣效设计后做优效检验成功的长效升白药物。
2023年2月14日,硫培非格司亭获得CDE批准修订说明书,明确抗肿瘤药物给药后24小时即可使用,为国内唯一说明书规定可在给药后24小时使用的长效G-CSF,可极大地帮助患者减少用药等待时间和成本,减少病床负担。因此本研究认为新型长效升白针 mecapegfilgrastim的疗效提供了坚实的证据,将为预防化疗诱导的中性粒细胞减少症的临床实践提供新的选择。

梁斐
复旦附属中山医院
生物统计室 统计师
复旦大学循证医学中心成员
中国初级卫生保健基金会肿瘤临床转化委员会 常委
国家卫健委医生临床研究能力提升项目专家顾问
CSCO青年委员会统计小组成员
上海抗癌协会癌症预防与筛查委员会委员
以第一作者(含共一)或通讯作者在JCO, Annals of Oncology, JNCI, European Journal of Cancer 等杂志发表SCI论著15篇,累计影响因子超过150
以第一作者在NEJM, Lancet, Lancet Oncology, JCO 发表Letter 8篇
JNCI, Clinical Cancer Research, Theranostics审稿人
作为统计师参与数十项研究者发起的临床研究,相关成果发表于Lancet Oncology,The Lancet Gastroenterology & Hepatology, JCO, Annals of Surgery等杂志
主要研究方向:临床试验设计及统计,临床研究方法学