现在大家说起基因编辑的时候,往往会自然而然地将其与CRISPR/Cas9画上等号。诚然,CRISPR系统的发现与应用极大地改变和推进了基因编辑技术的发展,但是作为一名原教旨主义者,我还是希望更多的人能够关注基因编辑最初的目标,以及一代代科学家为此作出的不懈奋斗。

新技术使我们有希望自由编辑基因
        在步入正题之前,我们不妨先来讨论一下,要对特定基因序列进行编辑需要哪些条件?

        首先,得要想办法精准定位到我们想要编辑的位点,然后使用有合适的酶进行编辑,最后再把DNA上切开的口子缝上。直至今日,科学家已经发现了很多核酸内切酶,只要稍加调整,对DNA进行切割还是很容易完成的;另外,细胞有着至少三种不同的DNA修复机制,只要对此稍加利用,缝上断裂的DNA双链也不是很困难的事情。那么问题的关键自然就落在了如何精确定位。从ZFP到TALE再到CRISPR,其本质其实都是带着核酸酶找到我们想要编辑的位点的向导,他们之间也并不是新一代完全取代上一代的关系,而是各有利弊。ZFP至今依然活跃在基因编辑的最前线,只不过由于时间和资金的成本原因,他的表现并不如CRISPR那么亮眼罢了。

ZFP
        ZFP的全称是锌指蛋白(Zinc Finger Protein),命名的原因是他的蛋白中包含了锌原子,以及蛋白的形状就像一根手指,插进DNA双螺旋的大沟(major groove)里。锌指蛋白的发现与转录因子(TF,Transcription Factor)是脱不开钩的,刚刚学完生物化学或者遗传学的生物系小伙伴们应该对它非常熟悉了。转录因子能够结合到DNA上的启动子(promoter)上,然后招募包括RAN聚合酶在内的一系列蛋白,从而开启转录的进程。

        转录因子有很多种,它们主要分为两类,一类是以TFⅡA为代表的普遍转录因子,它们与RNA聚合酶Ⅱ(RNA pol Ⅱ)共同组成转录起始复合体时,转录才能在正确的位置开始;另一类被称为组织细胞特异性转录因子,它们在特异的组织细胞中,或是受到一些类固醇激素/生长因子或其它刺激后,开始表达某些特定蛋白质时,才需要的一类转录因子。一个比较经典的例子是山中伸弥用来诱导iPSC的四个关键因子,Oct3/4,Sox2、c-Myc和Klf4,这几个因子也同样是转录因子,它们的组合表达可以诱导出细胞的全能性。

        与TFⅡA类似的,有一种转录因子叫做TFⅢA,是与RNA转录酶Ⅲ合作开启转录的,有记性比较好的小伙伴应该还记得,RNA pol Ⅲ的主要功能是负责转录rRNA的一部分,具体来说就是其中的5S RNA部分。这里就有一个很神奇的问题,TFⅢA是如何从数十亿碱基对中找到它要转录的这一段序列的呢?答案呼之欲出, TFⅢA一定有精确定位某段序列的能力。

        TFⅢA蛋白中含有数个DNA识别模块,每一个这样的模块由大于三十个氨基酸以及游离的锌离子组成,氨基酸残基围绕在锌离子周围,形成了一根根像手指一般的结构,而每一根这样的锌手指,恰好可以识别并结合特定的3个DNA碱基序列。TFⅢA中有9个串联起来但彼此独立的锌手指,使它可以识别一段长度为27个碱基的DNA序列,而27个碱基的序列在整个基因组中出现重复的概率就几乎为零了。

锌指蛋白的结构示意图
        由于一个锌指蛋白可以识别三个碱基,所以如果想做到基因序列的全覆盖的话,理论上来说是不是只要找到64种识别不同序列的锌手指便可以了呢?然而现实的问题是,尽管我们确实已经找到了这么多,甚至是远超需求量的数目的锌指蛋白,如何将他们顺利串联起来却成了一个难题。如果把几个锌手指拆开再重新组合起来的话,它们很有可能和相邻的人打起架来。有人发现,锌手指的立体结构比三个碱基的长度略大一些,换句话说,这根手指会向三个碱基的前后分别延长出去一小段,覆盖到临近的碱基上。必须通过严格的筛选比对,挑选出彼此相安无事的锌指蛋白,才能最终建立起一段可以识别目标序列的锌指蛋白序列。

        之后又由于专利和技术垄断之类的问题,ZFP的研究停滞了整整20年,从20世纪末ZFP的功能被发现,直到今天,真正熟悉了解ZFP的人并不多。所以尽管ZFP的出现让许多生物学家一时间非常兴奋,基因治疗的时代却并没有如期而至。相关原因有兴趣的朋友可以去了解一下“Sangamo公司”。由于这些内容与文章正题关系不大,这里就不作赘述了。

        这里接下去要讲的是,在ZFP研究一筹莫展的时候,又有一项新的技术诞生了。

TALE
        TALE的全称是Transcription Activator-Like Effector,即转录激活因子样效应蛋白。TALE的发现可以说是一次意外的收获,它是在一种植物寄生细菌中发现的,这种细菌可以利用宿主的营养和资源来满足自身生存和繁衍的需要,它能够将自己的一些蛋白注射到植物的细胞内,这些蛋白拥有和转录因子相似的功能,可以让植物启动某些蛋白质的合成,从而使自己得以获取更多的养分。

        不难想象,这种蛋白一定具有与转录因子相似的DNA精准定位的功能,否则它便无法特异性启动植物的某几个基因。随后的研究发现,在这种蛋白中,有一个由34个氨基酸构成的模块重复出现了17.5次,他们彼此之间的氨基酸序列差别非常细微。与ZFP不同的是,ZFP用30个氨基酸组成一个对应三碱基的DNA识别结构域,而TALE蛋白用34个氨基酸组成一个精准对应一个碱基的DNA识别结构域。同时,相比ZFP,TALE有一个决定性的优点,就是可模块化,通过删减、添加、自由组合不同的TALE蛋白,就可以轻易地定位任意长度、任意序列的DNA片段,这就省去了ZFP所必须的筛选和组合的步骤。

        当然,TALE的缺点也是很显而易见的,那就是它实在是太大只了。对于基因治疗而言,唯一可行的外源DNA递送方法就是病毒侵染法,即通过病毒将编码目的蛋白的DNA序列带进细胞中,利用细胞自身的转录和翻译机制表达目的蛋白。我们可以来做一点简单的计算,想要精准定位基因组中一段独一无二的DNA序列,大约需要21个碱基的长度,如果用ZFP来实现这21个碱基的定位的话,就需要7个ZFP蛋白,也就是210个氨基酸,编码这么多氨基酸则需要630个碱基的长度;但如果用TALE来定位的话,就需要用到21个TALE蛋白,相当于714个氨基酸,2142个碱基的长度。由于病毒所能够运送的DNA序列长度是有限的,使用TALE非常考验病毒的携带能力,往往导致不得不压缩核酸内切酶的大小。

        有人可能会问,如果我不是做基因治疗,只是想在细胞内瞬时表达TALE的话呢?无论是用脂质体转染法还是电穿孔法,只要你转染的是蛋白质,那么转染效率就不可避免地与蛋白质大小成反比。换句话说,你要转染进细胞的蛋白质越大,你一次能转进去的蛋白的量就越少,因此DNA的切割效率自然也就越低。

        不过,幸运的是,科学家们并没有来得及为这个问题烦恼多久,更新一代的DNA定位技术就问世了,那就是我们最最熟悉的CRISPR。

CRISPR
        CRISPR是Clustered Regularly Interspaced Short Palindromic Repeats的缩写,真不明白生物学家在命名的时候脑子都是怎么想的,翻译过来的话就是“成簇的规律间隔的短回文重复序列”,不过一般没人会这么叫所以还是简称CRISPR吧。其实CRISPR很早就被人们发现了,只不过在相当长的一段时间里都没能搞清楚它的功能,更不用说将其用作DNA定位的工具了。

        故事的开端得要回溯到1987年,一群日本的科学家发现,大肠杆菌的基因组DNA上有一些奇怪的重复结构,一段长29个碱基的序列重复出现了五次,并且每次重复之间都被插入了32个碱基,这32个碱基看起来杂乱无章,与完全相同的五段碱基形成鲜明对比。在当时,人们对DNA的认知还很初步,认为DNA只具有编码蛋白质或者调节蛋白质表达这两种功能,但CRISPR序列看起来与这两者都无关。困惑的科学家们只好将其当作无用的DNA序列,放置在一边了。直到后来这样的序列在越来越多的细菌中找到,人们才再次开始怀疑,这段神秘的序列是不是有着什么极其重要的功能。

        到了2005年,科学家已经找到了来自60余种细菌的4500多段CRISPR序列,通过将它们进行比对,他们获得了极其令人意外的结果,有某88段DNA序列在不同的细菌中出现了多次,而且它们并不是CRISPR中的重复序列,而是在两端重复序列中的看似杂乱无章的DNA序列!更有意思的是,这些序列与病毒的DNA序列有着高度的相似性。

        得到这样的数据以后,一个生物学家的第一反应很可能就是,会不会是病毒入侵细菌之后,将自己的DNA整合进了细菌的基因组。因为有不少逆转录病毒(比如最著名的HIV病毒就是一种逆转录病毒),就具有将自己的DNA整合进宿主基因组的能力。然而他们在细菌基因组中发现的这一小段DNA并不足以制造出完整的病毒来。于是一种更有说服力的解释是,这段序列或许是经过细菌的小心处理过后才夹进了重复序列中的。最终,在2007年,有人证明,在细菌中人工添加一段CRISPR序列可以帮助其抵挡某种对应病毒的入侵,这才终于理解了这段秘制序列的作用。

        其实研究到了这里就已经足够震撼了,毕竟人们在此之前一直以为免疫系统是高等动物的专利,谁能想到一个单细胞生物仅靠一段DNA序列就能完成对病毒的抵抗呢?然而事情显然并不会到这里就结束了,ZFP和TALE的发现已经给了我们太多的提示,如果细菌可以根据自己基因组中的一段DNA序列,来抵抗拥有相同或相似序列的病毒,那么在这之中就一定存在一种DNA靶向机制。

向导RNA带领Cas9到达目的DNA片段
        随后,向导RNA与CRISPR associate protein(Cas蛋白)也被发现。2014年,Jennifer,一位美国的生物化学家,首先阐明了CRISPR/Cas9系统的工作原理,证明它可以根据一段向导RNA的指引,找到对应的DNA序列,并将其切开。同时,他们还开发出了根据CRISPR系统来精准编辑目的基因的技术。随后不久,MIT的华人生物学家张锋又证明了这一系统同样可以在包括人在内的哺乳动物细胞中使用。自此,一个以CRISPR为主角的全新的基因编辑时代到来了。

        为什么CRISPR这两年的发展会如此迅猛,甚至到达了ZFP和TALE当年完全不能企及的高度呢?关键还是在于CRISPR的便利性。还记得我们做的计算吗?ZFP和TALE需要用成百上千个碱基的长度来完成定位系统的组装,而CRISPR则只需要与目的基因一一对应的一段向导RNA即可完成这个任务,将基因定位的工作的工作量一下子削减到了原来的1/100。

        CRISPR/Cas系统的另一个优势在于,Cas9蛋白自己本身就具有核酸内切酶的活性,而非ZFP和TALE那样只能定位到目的DNA上,得要另外结合一个核酸内切酶才能组成一个完整的基因编辑工具。

        当然CRISPR也有着不小的缺点,最常为人称道的莫过于脱靶效应。这是由于CRISPR原本作为免疫系统的一部分,它的靶基因是病毒的DNA序列,因此为了防止病毒出现一些细微的变异,即使目的基因与向导RNA存在几个碱基的差异,它依然会毫不犹豫地将其切断。也就是说,一段与你目标DNA序列相似但无关的序列,也有可能会被切断并产生基因突变,而这无疑是生物学家不想看到的。CRISPR的另一个限制在于它对PAM序列的要求,目标DNA的最后几个碱基并不是与向导RNA结合,而是与Cas蛋白结合,因此结合序列的最后几个碱基是必须完全符合,而非可以自由选择的。例如Cas9的PAM就是NGG,N代表任意碱基,只有目的基因能够符合PAM序列的情况下,Cas9蛋白才能与它有效结合并进行切割,否则DNA切割率便会十分低(但并不是完全没有)。

        另外还有一些CRISPR有可能触发机体免疫反应的担忧,但是这些困难并不足以使生物学家对CRISPR和基因编辑的热情减少一丝一毫,各种改良版的CRISPR和以CRISPR为基础的各种技术如今依然在以相当快的节奏不断涌出。一个宏伟的大基因编辑时代已然到来。

        我在文章开头就试图传达这样一个概念,基因编辑技术是从DNA定位系统发展而来的,而当我们有了DNA定位系统,可以做到的事情显然不仅限于基因编辑。如果说基因编辑只是暴力地在DNA上切开一道口子,然后让其自生自灭,寄希望于引入一个随机突变的话,基于DNA定位系统的其他工具则更类似对DNA进行精细的手术。

        前文中也已提到,CRISPR/Cas9系统是一个自带核酸内切酶的工具,但是我们完全可以通过蛋白质工程的手段,将Cas9蛋白的酶切位点失活,然后再连上一个具有其他功能的蛋白,我们就可以对特定DNA序列进行一些精细的操作。例如对单个碱基的修改,或者是对表观遗传修饰的修改(无论是DNA甲基化还是组蛋白修饰)。

        除此之外,Cas9蛋白只是与CRISPR序列一起发挥作用的蛋白之一,另外还有许多其他的Cas蛋白,它们各自拥有非常独特的特性,比如Cas13可以切割靶向的RNA,Cas12a则可以切割单链的DNA。CRISPR技术的两位奠基人,Jennifer和张锋分别基于这两种蛋白的特性,开发出了被称为DETECTR和SHERLOCK的两种新技术,可以用来检测血液中的游离DNA,从而快速筛查特定病毒的感染情况。