牛津通识读本:癌症 [10]
一期试验
研发出候选药物,并完成必要的临床前试验程序之后,下一步就是在人类对象身上进行试验了。从逻辑上讲,这个步骤被叫作一期试验。对于降压药等很多药物而言,这个试验将在“正常”的志愿者身上进行,一般是有报酬的。总的来说,这些人都是健康的青年男子(而不是女人,因为存在对胎儿造成意外伤害的风险)。对于往往毒性很强并有致癌可能的癌症药物而言,这显然不是合适的做法,因而一期试验通常都在那些穷尽了所有标准治疗方案的患者身上进行。一期试验的经典形式是:最初有三位患者接受保守的低剂量治疗并观察其效果。如果没有产生不可接受的毒性,再安排另外三位患者接受更高剂量的治疗,以此类推。显然,大多数药物最终总会达到那个有不可接受的副作用出现的剂量(术语称之为“剂量限制性毒性”,或DLT)。如果一位患者经历了DLT,就会有更多的患者接受同等剂量的治疗。如果六位患者中有两名或更多的人经历DLT,那么就达到了该药物的“最大耐受剂量”(MTD),试验就此结束。MTD 之下的剂量将会用来做进一步的研究。
经典的一期试验的优点就是操作简单,但显然也有局限性。首先,不同的患者对可能的剂量限制性副作用的易感性不同。如果试验中有太多容易出现副作用的患者,最大耐受剂量的预测值就会过低,反之亦然。其次,并非所有的药物都需要用最大耐受剂量。例如,阻断激素受体的药物只需足够的剂量便可阻断目标。超过此剂量的任何过量施药都只会增加毒性而毫无益处。因此,对于这类药物的试验,就有必要明确规定所需的终点,以避免参与者经受不必要的药物毒性。
一期试验的主要问题与患者的需求有关。在大多数情况下,这些研究都发生在那些穷尽了所有标准治疗方案,显然迫切需要进一步可行疗法的患者身上。就其本质而言,一期试验使用的药物一般低于其可能的治疗范围,因此获益的机会也较低。此外,参与一项研究的最后六位患者中,至少有两位将会接受过高的剂量,经历严重的副作用。最后,进入一期试验的大多数药物都因为无法预见的问题而不能施用足够的剂量,或者干脆对目标肿瘤没有任何疗效,因而实际上无甚治疗价值。因此,大多数患者需要把进入一期试验主要看作是为他人奉献的行为,实际情况也的确如此,参与试验的很多患者会说:“好吧,如果这能在我死后帮助其他的人,那也值了。”尽管如此,伦理委员会和医生们仍必须小心保护脆弱绝望的患者免受这些试验的伤害。
二期试验
如果某种药剂在一期中表现出色——换句话说,副作用既可控也可接受,通常还有证据表明对肿瘤有积极影响,那么接下来就会进入二期试验。二期研究的目标是更详细地研究药效。药物将以一期确定的最佳剂量进行试验,参与其中的是一群经评估有可能从中获益的患者。这显然与一期不同,剂量不足或过量的风险大大减少了,但仍然存在,原因就如上文所述,一期确定剂量的机制存在着局限性。此外,由于选择患者的依据是有无可能获益,参与者的风险/获益率要高得多。一般来说,有多达40或50位患者会进入二期试验,在更加明确、通常也更适合的患者人群中,最终目标是药物的功效,当然也包括安全性。
如何定义药效是个大问题。一般来说,能使肿瘤缩小的药剂便可被定义为有效,这样就产生了一系列标准化的定义方法,来定义肿瘤缩小多少才算是值得尝试的反应。最广泛使用的方法是RECIST(实体瘤临床疗效评价标准)系统,该系统首次发表于2000年,并在2009年1月进行了更新。疾病应答可以宽泛地分为如下类别:
● 完全缓解:所有可评估的病灶都消失了;
● 部分缓解:所有可评估的病灶按预先明确的程度而缩小了;
● 病情稳定:变化不足以归于另一类别;
● 病情进展:病灶按预先明确的程度恶化,或有新的肿瘤病灶出现。
这一评估系统的基本原则很简单,实际应用却很复杂。和很多事情一样,魔鬼就在细节之中——以下是一份(并不全面的)棘手问题清单,说明了问题的困难程度:
● 肿瘤应该增长多大才算得上病情进展?
● 它应该缩小多少才算得上对治疗产生了反应?
● 某些肿块缩小而其他肿块却没有,该当如何?
● 何时进行应答测量(太早会报告不足;太晚则患者有可能开始复发)?
● 骨骼或胸膜(肺脏周围的内膜)等组织没有离散的肿块可供测量,如何评估那里的肿瘤病灶?
最后一点是主要感染骨骼的前列腺癌等疾病特有的问题。因此,尽管治疗反应仍是一项重要的药物活性测试,人们如今却越来越多地使用第二组测量方法——其依据是患者需要多长时间病情才会开始恶化,术语称之为“进展时间”。事实证明,这对与肾脏有关的癌症等病的靶向分子新疗法来说尤其重要。这种病的大肿块常常会缩小,但程度低于通常的RECIST标准。在复核这些患者的扫描影像时,肿瘤的外观明显改变了,核心部分的“活性”似乎也不如从前——切除肿块后发现中间有坏死组织,就证明了这一点。与此同时,与肿瘤有关的症状往往也得到了改善。因此,对这些患者来说,“稳定”病情的时间延长了,成为一个非常有意义的结果。病情进展的延缓因而经常被用作评估某种药剂活性的方法。最后,当然可以根据对整体存活时间的影响来评估药效。这种方法在二期中不太常被用作主要结果,原因有很多,其中最主要的就是时间——毕竟,最终目标是尽快确定哪些药剂可以进入三期的批准试验。
三期试验
如果某种药剂在二期表现出令人鼓舞的活性,其毒性也可接受,那么就会进入三期试验,将该药剂与当前的治疗标准进行比较。如果该药剂是一种新药,这一般还会涉及制药公司与诸如英国药物和保健产品监管署(MHRA)、欧洲药品管理局(EMA)及美国食品药品监督管理局(FDA)等监管机构一起对试验进行讨论。这些机构会对适当的对照组疗法以及获得批准必须达到的结果给出意见。对照组可能是现有的一种药物或组合药物,也可能是所谓的“最佳支持治疗”。如果没有明确的标准疗法,就会选择后一个选项——患者接受临床医师认为合适的任何缓解措施。
三期试验的标志性特点是,患者的治疗方案是随机分派的。这保证了患者在不同的试验组别之间平均分配,由于预后更好或更坏的患者被集中在一个试验组里而造成结果差异的风险也会被降至最低。虽然这一设计在科学上很有道理,并被视为评估方法的“黄金标准”,但万事均有其局限性。
首先,同时也最明显的是,当对照组是最佳支持治疗或更糟糕的安慰剂药物时,患者会不愿意参与,这是可以理解的。此时显然需要细致的解释和支持,特别是要解释清楚如果没有其他经过证实的替代疗法,那么试验之外的疗法与对照组无异。然而,三期试验常常不是将新药物与安慰剂进行比较,而是与当前标准疗法比较。这在临床上一般更容易解释,因为每个人都接受了治疗,而新药可能不如旧药——这些只有试验完成之后才会知道。就算对照组是安慰剂,这也绝非在假设新药必定更优——药物无异于安慰剂的试验实例有很多,甚至效果更差的例子也不是没有——它可能既有毒性又无药效。
其次,大多数新药只会略强于现有的药物,因而试验各组之间的差异可能会很小。为了检测微小的差异,有必要扩大样本容量,以确保结果在统计学上的置信度。鉴于统计学是一门饱受嘲笑、中伤和误解的科学,用一个简单的例子来说明样本容量为何要大是很有帮助的。假设我们想评估用来抛出的那枚硬币是两面平衡还是有所偏重。如果我们抛了一次,则要么得到正面,要么得到反面(忽略硬币立住的可能性!)。如果我们再抛一次,并得到同样的结果,我们得到(比方说)100%的正面,0%的反面。但根据这样的样本容量没人能说这枚硬币有一面更重。假如我们继续下去,抛了10次——6次正面,4次反面——我们有把握说这枚硬币两面不一样重吗?大概没有。然而,如果我们抛了100次,60次正面,40次反面,或是抛了1 000次,600次正面,400次反面,我们就会越来越有把握说这枚硬币真的有偏重。把问题反过来问就更难了:如果我们得到501次对499次,可以说这枚硬币有偏重吗?大概还是不会。但510次对490次呢?520次对480次又如何?两个数字要有多相近,才可以说差异大概是巧合,而不是因为硬币有偏重?就连600次对400次这样大的差异也可以是一枚公正的硬币发生的巧合,但可能性很低。因此,一个试验的统计方案非常关键,它会明确规定需要多少患者,才能在试验开始前可靠地检测出被认为具有临床重要性的最小差异。对于测试晚期癌症新药的试验来说,至少要按照三个月存活期的平均改善情况来测试。正如我们抛硬币的例子那样,这有可能是碰巧,因此,试验统计学家会计算需要多少患者来可靠地显示(或排除)这种差异——通常(在很大程度上任意地)定义为20次中出现少于1次的偶然结果。
大多数现代试验都会设立一个委员会[通常称作“独立数据监察委员会”(IDMC)或“数据与安全监察委员会”(DSMC)],独立监察不断累积的结果。该委员会的设置主要是为了保护患者,例如,如果有不可预知的毒性问题,试验会尽早停止。在试验过程的后期,如果提前