Reader's Club

Home Category

牛津通识读本:分子 [18]

By Root 1591 0
。从更宽泛的方面来讲,化学家已经熟知了给分子编程让它们表现特定行为的思路;可以把性质编织到分子结构体中,就像对机器人编程、写入一系列指令那样。莱恩说:“其前景……是一种关于信息化物质的更广泛的科学。”这样的化学是真真正正的一种崭新的科学,在许多方面都与传统的制造实用物质的化学截然不同。这种科学是关于更加积极的“演化”的,而不再仅关乎消极的“存在”。它正在发生着,但我们还不知道它会带我们走向何方。

细胞从何而来

每一部书都用一种特定的语言写成,基因组也不例外。基因的语言是种简单的编码,它包含的字符是四种核苷酸分子,这些核苷酸分子就是DNA分子珠链上的珍珠(参见第42页)。每个核苷酸分子包含一个所谓的碱基,信息就编码在碱基当中。DNA中有四种碱基:腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶(分别记作A、C、G、T)。DNA是核苷酸单元组成的线状聚合物,所以编码的信息就可以表示成四种字母组成的线状字符串。字符串可能会包含如下的一段:

GTGGATTGACATGATAGAAGCACTCTACTATATTC

只包含四种字母的字母表看似非常局限,不适于书写复杂的信息。但如果我们将这个序列看作一种密码,而不是严格地看作一种字母表,那么你想要多复杂它都能做得到。比如,我们可以将每个罗马字母表示成若干碱基的序列:GTG表示“a”,GAT表示“b”,等等等等。长度为三的四字符序列一共有64种,多于整个字母表的字母数量。使用这样的密码,我们就可以用AGCT的字符序列来书写《圣经》。

《圣经》里的信息对细胞来说没什么用,细胞需要的是能够用来制造蛋白质的信息。蛋白质长链如何折叠是由它的氨基酸序列所决定的(参见第41页),因此氨基酸序列就唯一地规定了制造蛋白质所需的“信息”。DNA编制这种信息所用的密码正如我们前面所提示的:三个碱基一组代表一种氨基酸。这就是遗传密码。注

人们至今尚未完全理解一个特定的蛋白质序列会如何折叠它的链。也就是说,我们还不能够仅凭基因的序列就推断基因的功能(虽然我们有时可以大致猜到)。人类基因组的第一幅草图里面还充满着目的不明的基因。

不过细胞中信息流动的原理我们完全理清了。DNA是关于蛋白质信息的手册。我们可以认为每个染色体都是独立的一章,每个基因则是这一章中的一个单词(它们可是非常长的单词!),基因中的每个碱基三元组是单词中的一个字母。而蛋白质就是单词翻译出的另一种语言,新语言的每个字母是一个氨基酸。一般而言,只有当基因语言翻译出来以后我们才能理解它的含义。

DNA是一种双链的聚合物:两条链彼此扭曲盘旋,形成双螺旋。每条链都是一个核苷酸长串,信息就编码在里面。但两条链并非全同。这条链上的碱基可以和那条链上的碱基之间形成氢键(参见第41页),两条链就像拉链一样通过氢键相互嵌合。虽然所有的碱基都能形成氢键,但它们有特定的结合选择,A和T相结合,G和C相结合。所以DNA双螺旋包含的是互补的序列:每当A出现在这条链上,T就出现在那条链上,依此类推。这就意味着每个基因都写成了两个版本,以镜像的语言彼此呼应。

碱基这种两两成对的特性是它们的形状所决定的。碱基A和碱基G是相似的分子,C和T也是相似的分子。于是A-T组合体与C-G组合体的形状和大小大致相同。碱基对在两条螺旋链的内侧连接,像螺旋楼梯的台阶。只有台阶的尺寸都一致,两条链才能平顺地盘旋下去。若A与G结合就会鼓出一块,发生扭曲变形,破坏两条链的结合。同样,若C与T结合就会陷下去一块。另外,台阶中氢键的位置决定了A-C和G-T的组合也是不成立的。因此,其实是搭档间吻合的互补性造就了碱基两两成对的偏好。

生物信息流动的一个关键要点是:数据的传输通过分子识别过程进行,确保信息的每一部分都得到正确的解读。

当细胞分裂时,DNA会进行复制,也就是基因组得到复制。因为两条链完全互补,所以它们都可以作为模板来组装新链。如果A总是优先与T配对,且依此类推,一条“赤裸的”单链就能引导游离的单个核苷酸按正确的顺序连成一线,形成一条互补链。

为了扮好模板的角色,双链首先会在特殊的酶的作用下拆成两条单链。然后沿着暴露的单链,互补链就被组装起来;称作DNA聚合酶的酶就催化了新核苷酸的加入。于是两组新的双螺旋都各含原先双螺旋中的一条链。

尽管酶能够帮助这一过程进行,但复制过程所必要的信息都已写入DNA模板当中了。1980年代初,加利福尼亚州索尔克研究所的莱斯利·奥格尔和同事们展示了在没有酶辅助的条件下,单体核苷酸也能够基于互补核苷酸的模板组装成聚合物。例如,一段八个C组成的RNA核苷酸序列,可以作为模板组装起八个G的核苷酸序列。不过奥格尔也不得不在其中做一点手脚,用的G核苷酸是通过加入活性化学基团“激化”过的,于是帮助它们连接起来。

这种模板辅助的聚合本身并不是复制:新链与模板是互补的,而不是全同的。第一例真正的人工分子复制是在1986年由德国化学家君特·冯·凯德罗夫斯基报告的。他使用同样的模板组装过程,但选择的是自补的模板,即自己与自己形成互补。他的模板是个含六核苷酸的DNA分子,序列为CCGCGG。因为双螺旋两条链的头尾方向关系是头对尾、尾对头,两者逆向对接,所以模板的互补序列与自身完全相同。君特·冯·凯德罗夫斯基从两种三核苷酸的片段出发,组装成模板的互补链,其中同样需要活化帮助它们连接起来(如图38)。

图38 长度为6的核酸中的分子复制

谬误和冗余

在出版这本书的某个阶段,我会从出版社收到校样——最终成书页面的初级版本,由我提供的原稿编辑而来。(但愿)它将会是我所写内容多多少少较为忠实的转录。但毫无疑问,其中总会散布着零星的小错,可能是打字错误,也可能是文件读取故障导致的。作者们对此习以为常,因为要复制一份很长且很复杂的信息总难免引入一些错误。

基因的转录(DNA复制为RNA)和翻译(RNA复制为蛋白质序列)过程同样如此。分子也不能永远都完美地识别,偶尔会有一个错误的核苷酸或氨基酸插入链中。大概每20个蛋白质中就有一个的制造过程出现差错。

这要紧吗?总的来看并不要紧。我和出版社不太可能在这本书付印之前找出所有打字错误。但很可能里面的错误都不太严重,不至于让你无法理解我的意思。类似地,在蛋白质中,链的大部分都是充当脚手架的作用,只是为了将个别要执行催化任务的氨基酸残基放在正确的位置上。所以发生在脚手架上的各处错误可能都不严重。有时一个错误也可能会导致产生的分子完全失效,但细胞对于任意特定任务会制造不止一种酶分子,而往往会造出几十种甚至上百种酶分子来执行这个任务,所以即使有一两种废品也没关系。

我这里所讲的是随机性错误。而系统性错误就要严重得多,它产生在生物信息流的上游位置,更靠近于信息存储的根源位置。若RNA分子转录有错,就会产生出上百个错误的蛋白质。因此,会有一些酶专门仔细检查转录过程中有没有产生复制差错,把错误的频率降低至大约万分之一。

但即使是转录中的错误也很少会造成很严重的后果,毕竟RNA分子很短命,细胞也总能造出更多的RNA来。而DNA里出现错误就糟了,因为一旦错误产生就没办法再去纠正。若基因中一个核苷酸放错位置,这段基因产生的RNA以及这些RNA再产生的蛋白质就都会含有相似的错误。更糟的是,由这个基因有错的细胞中分裂出去的后代所有细胞都继承了相同的缺陷。如果配子——精子或卵子细胞——带有基因缺陷,那么缺陷将传播至该配子所繁衍出的所有后代上。这就是为什么DNA复制时需要“校对”酶来极端认真地审核,它会保证平均每10亿个碱基中混入错误的数量不大于一。若缺少了这些校对分子,每产生一个新细胞就会得到大约1000个有缺陷的基因。

能遗传下去的错误,即制造配子时DNA复制发生的错误,就称作突变。一旦突变产生,它们就会沿着系谱树从亲代一直传到后代。突变是一些基因相关疾病的原因,如囊性纤维化疾病等;突变还会导致一些基因相关的易感体质,如易感癌症和心脏病等。尽管突变会导致这些可怕的后果,但它同时也是生命中的调味料。实际上,正是有了基因突变,才会有了我们人类的存在。如果在早期地球上热汤之中的低级单细胞生命体从不偶然发生突变,总能不带任何错误地复制相同的DNA,那么就不会有进化,也就不会出现更复杂的生命。

当出版社给我寄来校样时,文本必然会发生一点变化。校样中常出现一些我当初并没有写过的词语。但这并不是错误,而是完全合理的。它们其实是编辑所作的改动,而且我能肯定新的文本比我的原文更易于阅读和理解。

在1970年代中期,人们惊讶地发现基因同样也需要编辑。从DNA模板上直接脱离下来的RNA转录副本并不适于翻译成蛋白质,它含有很多无用的信息。这些“初级RNA转录副本”更像是语句中被随机插入了其他的语句碎片。RNA分子需要进行大量的编辑,才能表达清楚的信息,适于翻译。

这些插入的无用信息称作内含子,有时它们甚至会占据基因的大部分空间。它们并不用来编码蛋白质,所以也称为非编码序列。酶会在RNA初级转录副本中剪掉内含子,然后将编码区(称为外显子)的两段拼接起来。

“细胞之书”中遍布着杂乱的内容和无聊的重复,而上述只是其中一种形式。人们认为,整个人类基因组中只有百分之二到三的部分是用来编码蛋白质的。有的序列发生重复是有理由的。每个人的染色体都以TTAGGG重复约2500次结尾。这些片段称为端粒,人们认为它是用来保持染色体稳定的。细胞每分裂一次,它们就会被截短一次,这种侵蚀在老化过程中发挥了作用。但也有很多其他的重复序列并不具备有用的功能。转位子是一种能在基因组上跳来跳去的重复序列,每离开一处时就会留下一些副本。人们认为,这是一种居住在我们体内最核心处的基因寄生物,它们唯一的目的就是复制自己。内含子可能就是丧失了移动能力的远古转位子残余。

剪切、拼接、复制以及合成核酸的蛋白质机制为我们提供了基因生物技术的重要工具,让我们能够操纵基因组。比如限制酶就是能够识别特定DNA

Return Main Page Previous Page Next Page

®Reader's Club