牛津通识读本:癌症 [11]
试验的终点充满争议。试验所费不赀,每每在1亿美元以上,因而制药公司希望它们能尽可能规模小、进程快。与此相反,监管者希望有最可靠的结果衡量指标,因而希望延长随访时间或扩大样本规模。社会大众的需求在两者之间。我们都希望有更好的药物,如果患上癌症,恨不得立刻能用上它们。同样,我们也希望它们是安全的。此外,试验的规模越大、时间越长,制药公司为了抵消更高的研发成本,就会提高药价——参见第五章对这个主题的详细讨论。随着卫生预算的增加,降低药价的压力就会上升,使得贫困国家的癌症患者获取新药越来越受限。为了摆脱这种矛盾的紧张关系,研究者日益致力于寻找所谓的“替代”终点,旨在尽早选择一个可以准确预测试验最终结果的终点。二期试验的应答率就是替代终点的一个例子,用于选择一种药物投入三期研究。问题在于,应答率和监管者要求的那种终点(如存活率改善)之间的相关,并没有好到足以让二期的高应答率直接促成药物获批。同样的情况一般也适用于随机试验中应答率之间的比较。
为了避免使用基于存活率的比较(那显然耗时很长),研究者必须证明,某种早期的指标能够可靠地预测最终的结果。上文提到的“延缓进展时间”就是一例。这指的是肿瘤以预先明确的数量生长或扩散所需的时间,通常用来作为早期乳腺癌的调查试验的一个终点。在某些疾病的环境中,例如前列腺癌中的PSA,候选标记并不可靠,前列腺癌的药物目前仍然需要证明存活率有所提高才能获得批准。当前,前列腺癌的研究正在评估一种应答的新方法,即计算循环系统中的肿瘤细胞数量。一般来说,这些数字都极其微小——关键的临界水平是每7.5毫升血液中有大约5个——这就像是在数千万个血细胞的巨大草堆中寻找区区数根缝衣针。当前很多疾病像前列腺癌一样,被困在整体存活率的终点前,如果这样的检测获得了批准,就可以大大加快癌症药物研发的步伐。因为试验时间缩短,成本更低,获得批准后,同样也会降低药物的价格。
现有治疗的比较
上文描述的一期到三期的方案可以广泛地适用于任何新技术或新药物的组合,然而,不同国家的要求也各不相同。现有药物新组合的比较试验往往是由英国癌症研究中心或美国国家癌症研究所这样的学术组织进行的。使用上面的模板会得到能够影响实践的可靠结果,一般来说也是推进医疗实践的黄金标准。但这个系统在手术技术、放疗设备、其他设备以及生物标记物等方面的明确性就差多了。例如,机器人手术等新技术是作为渐进式改进事物被引入的。这些“改进”被看作是不言而喻的,而实际上或许根本不是那回事。例如,将开放式手术与机器人辅助手术进行比较:进入身体的途径就不相同;外科医生的双手与组织之间的触觉联系在机器人辅助手术中消失了;止血或肠穿孔等并发症或许会引发不同程度的风险,可能需要从机器人辅助转换到开放式的传统手术上来;外科医生在培训的情况下,手术时间可能会更长,如此等等。显然,这些因素中的每一个都完全有可能对结果产生重大影响。此外,还有成本的大问题。一台手术机器人的成本超过100万英镑,每年还需要10万到15万英镑的运营成本。就算结果更好一些,比方说出院时间提前一些,又值得付出多少代价呢?
人们或许以为在例如前列腺切除手术中采用这样的技术也有同样的试验要求,就像前列腺癌新药的研发所需的试验那样,而结果一样或更好。但这样的试验从未进行过,而外科机器人已经在全世界各大手术中心运作起来了,尤其是在美国。为何存在这样巨大的差异呢?本质上,新设备只需在其设计目的上表现出安全性与适用性即可。在变化的确很小并且是渐进式改进的情况下,进行一次大型试验来证明一种新的手术刀略好一些,这种做法显然不切实际,大概也毫无意义。变化在某个时间点就不再是渐进式的了,在我看来,手术机器人正是这方面的一个好例子,而我们仍把这些机器人看作一种稍有改善的手术刀。特别是在美国,购买一台手术机器人成为医院营销的重要噱头:它是一种标志性的工具,哪个开拓进取的机构不想拥有它呢?在医疗系统为成本上升焦头烂额之际,解决这个问题很可能变得越来越重要。当然,可以想见,新技术实际上节约了成本。坚持使用机器人,声称学习过程缩短,住院天数变少,并发症发生率降低可以抵消投入资金和运营成本,这种说法并非不合情理。然而,就目前而言,我们还是不甚清楚。
类似的争论也适用于成像和其他诊断检查。同样,这里也有一个显而易见之事无须研究证明的问题:成像更加清晰的扫描很可能比模糊的好!然而,仔细考察就会发现,实际情况更加复杂。比方说,影响决策的一个关键因素是肿瘤是否已扩散到某个特定的器官。一般来说,如果某个已知有风险区域的扫描显示不正常,这很可能代表疾病存在。然而反之并非如此:扫描结果为阴性可能意味着阴性,也可能意味着疾病低于检测阈值。这已经由第三章讨论的假设肝脏扫描说明。这种问题的一个好例子是在淋巴结处检测肿瘤。由于淋巴结是正常的组织,而淋巴结里的肿瘤与正常组织的密度相近(因此成像的外观也相近),所以成像只能告诉我们淋巴结的大小是正常还是异常——通常来说,临界尺寸是5毫米左右。显然,如果有一个4毫米的肿瘤病灶占据了大部分淋巴结,那么它看起来就会很“正常”。
图22 扫描影像上肿瘤应答的示例
假设为淋巴结疾病研发出了一种更好的成像检查,该如何评估它呢?这样的检查会与外科设备同属一种监管方法:需要证明其针对所要达到的目的是否安全和适用。安全性一目了然——一期和二期的常规路线显然就很奏效,但我们如何证明“目的适用性”呢?答案是某种形式的临床试验,但终点的问题非常复杂——我们需要检测出多少个含有小型恶性肿瘤的“正常”淋巴结才算有价值呢?可以错过多少个?如何评估“真”阳性率和“真”阴性率?是否该转向更广泛的临床结果,而不是计算淋巴结的数量——比方说,与标准的治疗方式相比,这项检查的应用是否会导致更好的临床结果,例如患者的存活时间更长了?
在新扫描仪器的购置成本非常高的情况下,在成像技术上,这些也都是非常麻烦的问题。就连对新的造影剂这种加强现有扫描仪器的技术来说,这些问题也很严重,全球对此都没有一致的单一解决方案。
类似的争论也适用于诊断检查。同样,乍看之下,问题似乎很简单——如果有一种血液检查与癌症相关,就应该把它作为临床决策的基础之一。但如果我们查阅文献,就会发现有很多检查都与疾病存在与否相关,但鲜有在实际中用于临床的——何以至此?关于这个问题,最主要的答案是该检查必须对已知的内容给出额外的信息。例如,有大量的尿液检查与膀胱癌相关,但英国没有使用其中的任何一个。膀胱癌疑似患者需要做膀胱镜检查来确认诊断。可用的尿液检查不够可靠,不足以让患者免于膀胱镜检查。一旦检查了膀胱,如果发现肿瘤,就需要活组织检查。同样,这些检查的可靠性也不足以排除活检的需要。此外,切除活检也是治疗的一部分,因此无论这项检查有多优秀,患者仍需手术。预后的判断如何呢?同样,尿液检查很好,但又不像被切除肿瘤的病理学研究那么好,所以它还是没有给出额外信息。鉴于以上所述,诊断过程的检查适用与否在于它对结果的影响——该项检查是否可以免去侵入性治疗,或预测哪些治疗方案是最佳的?这需要进行大规模试验,就像为药物获批而进行的那些,也解释了为什么辅助临床决策的既有检查或标记物少之又少。
有不少标记物与疾病密切相关,可以在出现临床症状或扫描结果发生明显变化之前,用来预测临床事件。这样的标记物包括前列腺癌中的PSA、卵巢癌中的CA125,以及睾丸癌中的AFP和HCG等等。就算存在良好的标记物,也不一定能用它们来取代其他的临床评估方法。例如,尽管PSA的变化大致能够反映病情的变化,可以影响临床结果的某些治疗(名为双膦酸盐类的骨骼强化药物就是一个很好的例子),对PSA含量的影响却很小,虽说它有助于防止癌症对骨骼造成损伤。更加惊人的是,最近对卵巢癌和标记物作用进行的一次大规模研究得出了非常反直觉的结果。血液中CA125含量的上升准确预测了临床上的复发。人们或许以为尽早治疗复发会比等到症状发展时再治疗要好。该研究比较了标记物驱动型治疗的策略(就是标记物含量一旦升高,就开始对复发进行治疗)与临床上的症状驱动型治疗。总共有大约1 500名女性参与了这项研究,在检测更严密的女性中更早地采取治疗并未影响其存活时间。更惊人的是,接受临床驱动型治疗的女性,其生活质量和焦虑程度更好一些——因此,密切检测和早期治疗的总体效果实际上较差。
当前研究的一大焦点是个体化治疗,也就是识别标记物,从而根据个人的具体情况来调整治疗。描述肿瘤特点的方式有很多——通过其DNA的突变、蛋白质表达的模式、观察各种酶的活性等等。然而,尽管识别与不同结果相关的模式相对容易,但从以上讨论中可以明显看出,这并不足以改变治疗。为了证明其临床价值,需要临床试验将候选的标记物驱动型策略与标准的治疗方法进行比较。正如上文卵巢癌的例子所表明的那样,就算有优秀的标记物也无法确保一定能得到期待的结果。可能会出现的另一个问题是,正在研发中的候选标记物数量可能超出了研究团队进行试验的能力,甚或多出很多倍。此外,标记物实际上把一种疾病从一种同质体变成了彼此不同的若干子实体。因为优秀的试验需要大量参与者,这使得进行试验变得更加困难,因为该疾病实际上变得更加罕见了。肾癌最近出现的变化可以证明这一点。不久前,研究者描述了一些病理上的变体,但在靶向小分子出现之前,这些变体并未给治疗方案带来什么影响。如上文讨论的那样,肾透明细胞癌的异常情况(约占总数的70%)催生了新的治疗方法。那么剩下的30%该当如何?这30%是由几种不同的亚型组成的,因为每一种都实在罕见,试验如今变得困难起来。结果,我们实际上不清楚该如何处理这些亚型。这些所谓的“孤儿”疾病会越来越常见,并且因为试验数据对指导治疗用处不大而问题重重,试验