深度解读当今生命科学领域明星技术——基因魔剪
工欲善其事,必先利其器。方法技术从来都是科学进步的推动力,在生命科学领域更是如此。基因组编辑技术是通过人工核酸酶介导的基因组定点修饰技术。这种技术原则上能在任何物种基因组的任何位置上进行设计切除,从而能在内源性序列上引入特异性修改。人工核酸酶介导的基因组编辑(genome editing with engineered nucleases)技术入选2011年的Nature Methods最受关注的技术成果。2013年的Science、Nature Biotechnology等杂志上,接连报道规律成簇间隔短回文重复序列/规律成簇间隔短回文重复序列关联蛋白(clustered regularly interspaced palindromic repeat/CRISPR-associated protein, CRISPR/Cas)系统成为基因组编辑的一个简单通用工具。这一系列基因组编辑新技术的研究和利用,进一步将靶向基因操纵推向高潮,使得多个基因敲除、敲入变得更为简单、高效,将令动物育种、干细胞定向分化、遗传疾病定点修复等在未来数年内得到迅猛发展。
什么是CRISPR/CAS系统?
CRISPR是指规律成簇间隔短回文重复序列(clustered regularly interspaced short palindromic repeat),Cas即CRISPR相关蛋白(CRISPR-associated protein)。CRISPR/Cas9基因组编辑系统是由细菌和古细菌中存在的Ⅱ型CRISPR/Cas获得性免疫系统经人工改造而成。该系统介导的基因组编辑技术也叫做RNA指导的核酸内切酶(RNA-guided endonuclease, RGEN)系统。与ZFN和TALEN技术相比,该技术在设计、合成与筛选上更为简便、快捷,具有极大的时间和成本优势;不同于ZFN和TALEN技术的是,CRISPR/Cas9基因组编辑系统可以在一个细胞内同时进行多个基因的编辑,因此大大提高了对基因组的编辑效率。
CRISPR序列是由一个前导区(leader)、多个高度保守重复序列(repeat)和彼此完全不相同的间隔序列(spacer)组成,后两者在前导区后交替出现,三者串连组成完整的CRISPR序列(图1)。前导区长度通常在300~500bp,富含AT碱基,在细菌的种内该序列非常保守,但在种间却差异显著。重复序列的长度一般在23~50bp,平均长度约为31bp。重复序列在同一个CRISPR位点中是高度保守的,一般只存在1~3个碱基的差异。但是微生物种间,甚至同一种微生物的基因组上不同位置的CRISPR位点之间,重复序列的保守性却是非常差的,序列差异很大。通过对目前已知的CRISPR序列中所有的重复序列进行分析发现,重复序列包含回文结构,因此转录后能形成发夹样的二极结构,非常稳定。分布在重复序列之间的间隔序列一般由17~84bp组成,平均长度在36bp左右。间隔序列的保守性非常差,即便在同一个CRISPR位点中,也基本上没有相同的间隔序列。重复序列的高度保守,间隔序列的完全不一致,实际上是与CRISPR序列的特殊功能高度相关的。
图1 CRISPR位点的结构图
Cas蛋白的基因一般情况下位于CRISPR位点下游,但是有时也会分散分布在基因组中。Cas蛋白是实现CRISPR功能的重要执行者,是一个较大的多态性家族蛋白。目前对Cas蛋白的分类并不统一,其中一种是根据cas基因序列的保守程度,分为共有型核心cas基因、类型依赖型cas基因和重复序列相关未知蛋白(repeat-associated mysterious protein, RAMP)组件基因三类。
在这三种类型的cas基因中,共有型核心cas基因的蛋白质功能已经基本得到验证。例如,Cas1和Cas2蛋白主要负责获得新的间隔序列段。Cas3蛋白则具有解旋酶和核酸酶的功能,负责对目的基因进行剪切。类型依赖型Cas蛋白及重复序列相关未知蛋白的功能目前尚不明确,只有一小部分蛋白质功能已知。另外,很多Cas蛋白并不是单独作用的,而是组合成复杂的蛋白复合体来发挥作用(图2)。
图2 Ⅰ型、Ⅱ型、Ⅲ型CRISPR/Cas系统中的Cas蛋白 (改自Bhaya et al., 2011)
分别源于大肠杆菌(Escherichia coli)、嗜热链球菌(Streptococcus thermophilus)及嗜热古细菌(Pyrococcus furiosus)三种类型CRISPR/Cas系统中共有的cas1和cas2基因标为蓝色,每种类型独有的蛋白质(Ⅰ型,cas3;Ⅱ型,cas9;Ⅲ型,cas10)标为红色,紫色标记的蛋白质是类型依赖型Cas蛋白基因(如cas4、cas5、cas6、cas7)
CRISPR/CAS系统有哪些功能?
CRISPR/Cas系统所执行功能的发现,实际上得益于测序技术和生物信息的发展及大量病毒、细菌质粒序列信息的积累。CRISPR序列1987年就被发现,但一直到2005年才有研究团队推测并证明了它的生物学功能。
CRISPR/Cas系统实际上是古细菌和细菌在长期进化过程中形成的特异性免疫系统,能够以类似真核生物RNAi的方式为细菌提供免疫保护,特异性地阻止由噬菌体感染、质粒接合和转化所造成的基因插入,因此也被称为CRISPR干扰。CRISPR/Cas系统的作用过程主要包括3个阶段:适应、表达和干扰。
以抵抗噬菌体感染为例。3个阶段如下(图3)。
适应——新间隔序列的获得
当噬菌体DNA进入基因组中带有CRISPR系统的细菌内时,该宿主体内的CRISPR相关蛋白复合体会迅速与外源DNA结合,然后通过Cas1和Cas2等蛋白质的作用,将该外源DNA切割成长度在17~48bp不等的小片段,然后在相关蛋白的作用下,将其中的一个小片段整合至CRISPR前导区与第一个重复序列之间,形成一个新的间隔序列(图3)。与这个区间同源的病毒DNA序列就叫做原间隔(proto-spacer)。
每一次插入活动都紧随着重复序列的复制,进而形成一个新的重复-间隔单元。这样就使得该细菌中的CRISPR位点中保存了此种噬菌体的序列信息,为适应性免疫奠定了结构基础。并且研究发现,CRISPR系统里,宿主菌对噬菌体的抵抗力与CRISPR位点上间隔序列的个数相关。间隔序列的个数越多,宿主菌的抵抗力就越强。
表达——表达并加工crRNA
CRISPR位点中,间隔序列所包含的信息能保护宿主不受特定噬菌体的攻击。Kunin等的研究表明,整段CRISPR序列由位于前导序列末端的启动子启动转录,转录成包含多个重复序列和间隔序列的crRNA(CRISPR RNA)前体(pre-crRNA)。之后在核心蛋白Cas1-Cas4蛋白组成的蛋白复合物的作用下,pre-crRNA在特异性位点被剪切开,变成更小的crRNA,即成熟的crRNA。需要注意的是,被剪切开的特异性位点被认为是位于间隔序列的第8个碱基处,但也有研究认为特异性位点是在重复序列上。
图3 CRISPR/Cas系统作用机制(改自Bhaya et al., 2011)
第一阶段:新间隔序列的获得。源于噬菌体或者质粒的双链DNA被整合到宿主CRISPR序列的前导序列之后。CRISPR序列包含多个独特的、被重复序列分隔的间隔序列(图中标数字的彩色框,数字越大表明整合上去的时间越短)。间隔序列的获得至少需要Cas1和Cas2蛋白的帮助。第二阶段:表达并加工crRNA。pre-CRISPR RNA(pre-crRNA)被RNA聚合酶转录出来,经过Cas蛋白的加工,切割成小crRNA(图中的发夹结构,彩色部分代表间隔序列),每个crRNA包含一个单独的间隔序列和部分重复序列。第三阶段:crRNA破坏入侵核酸。crRNA包含的间隔序列与侵入的外源DNA(噬菌体或者质粒)配对互补,启动由Cas蛋白进行的切割反应
随后,crRNA与Cas蛋白复合物相互作用,组合成一个具有特殊功能的复合物crRNP(crRNA-Cas ribonucleoprotein),在下一阶段发挥作用(图3)。
干扰-crRNA破坏入侵核酸组合好的crRNP将会利用crRNA的匹配作用,在宿主体内寻找与其互补的噬菌体DNA片段,并与其特异性结合。此后蛋白复合体发挥作用,将噬菌体DNA双链剪短,导致其降解,从而达到特异性地阻止噬菌体感染的目的(图3)。需要特别指出的是,在识别外源DNA时,原间隔序列附近有一段被称为原间隔相邻基序(proto-spacer adjacent motif, PAM)的短序列,非常保守(图4)。它在crRNA对外源基因的识别中发挥着重要作用,也是利用CRISPR/Cas系统进行基因组编辑必须遵守的规则。PAM并不是普遍的,有一些特殊的CRISPR系统不含有该基序。
图4 CRISPR/Cas系统的原间隔序列、间隔序列及原间隔相邻基序(改自Bhaya et al., 2011)A. 病毒双链DNA(灰色部分)、原间隔序列(绿色部分)、PAM区(红色部分)。 B. 新插入间隔区(蓝色部分)的宿主DNA。C. RNA聚合酶转录的pre-crRNA(转录起始位点未显示),以及成熟后的crRNA,橙色位置为成熟时的加工位点。D. crRNA与外源DNA完全匹配时,在原间隔内部启动切割,这一过程中,需要CASCADE 复合体及Cas3蛋白。 E. 在crRNA与外源DNA不完全匹配时,切割不会启动
目前广泛使用的CRISPR/Cas基因组编辑系统基本上都是Ⅱ型CRISPR系统。最为经典的Ⅱ型CRISPR系统中,包含4个基因组成的基因簇,分别是cas9、cas1、cas2及csn2。另外还有两条tracrRNA 及多个间隔序列和重复序列相互间隔的CRISPR序列。Ⅱ型CRISPR系统对外源双链DNA进行定点切割的过程分为以下几步(图5)。
图5 Ⅱ型CRISPR系统介导的DNA双链断裂(Cong et al., 2013)
1)CRISPR系统转录出pre-crRNA及tracrRNA。
2)tracrRNA根据碱基互补配对原则与pre-crRNA形成二聚体,在相关蛋白的作用下,pre-crRNA被加工为成熟的crRNA。
3)成熟的crRNA-tracrRNA二聚体指导Cas9蛋白对外源基因中的靶序列进行识别。识别过程是通过crRNA上的间隔序列与外源DNA上的原间隔序列的互补配对,以及PAM区的辅助配对实现的。
4)Cas9蛋白中的DNA剪切结构域在外源基因固定的位置切开DNA双链。
Ⅱ型CRISPR系统最先是由Jinek等开始改造,他们将crRNA-tracrRNA双链RNA二聚体改造成单链嵌合体,并且改造后的单链嵌合体能够发挥与双链二聚体相同的作用(图6),这条人工改造的单链RNA被命名为指导RNA(guide RNA, gRNA)。这一改造的出现,为人工构建CRISPR/Cas9系统并使用其进行基因组编辑打下了基础。另外在该研究中,他们还发现Ⅱ型CRISPR系统中,Cas9蛋白包含的HNH核酸酶结构域负责切割外源DNA与间隔序列互补的链,而RuvC结构域负责切割外源DNA的另一条链。
图6 单链CRISPR系统(改自Jinek et al., 2012)
此后,CRISPR在基因组编辑领域中大显身手,在很短的时间内,多个研究团队都成功地将CRISPR /Cas9系统应用在了真核细胞中的基因组编辑中(表1)。与ZFN系统和TALEN系统相比,CRISPR /Cas9系统对于各种复杂程度的基因组都具有更高的修饰能力。另外,CRISPR /Cas9系统的构建更为简单。而且Cas9蛋白可以方便地将核酸酶改造为切口酶(nickase)。只需要在Cas9蛋白中引入一个单氨基酸突变(D10A),核酸切割域的功能就变为切割单链DNA,能够更精确地控制CRISPR /Cas9系统的打靶效果,大大降低脱靶的概率。综合以上三方面,CRISPR /Cas9系统将会是基因组编辑技术的最有力的工具。
表1 CRISPR/Cas9基因组编辑系统在基因组编辑方面的应用
CRISPR/CAS在人类细胞方面的应用
由于CRISPR/Cas9基因组编辑技术具有简便、快捷的特点,科学家们也看到了它在技术应用上的极大潜力。在很短的时间内,CRISPR/Cas9系统就在多个物种的基因组编辑、基因表达调控等方面得到了大量的应用(表1、表2)。
表2 TALEN技术与CRISPR/Cas9技术的比较(Wei et al., 2013)
CRISPR/Cas9基因组编辑技术在人类细胞中的应用效果已被多个研究小组证实(表1)。这些研究涉及多种不同类型细胞(包括癌细胞和诱导性多能干细胞)、多个不同基因位点(包括已经通过ZFN或者TALEN成功进行修饰的基因位点,如CCR5、AAVS1等)及各种修饰方式(包括基因敲除、同源重组、定点整合、多基因同时敲除等),充分说明了该技术在人类细胞基因组编辑中的强大作用。
麻省理工学院的Cong等最先利用CRISPR/Cas9基因组编辑技术在人类细胞上实现了EMX1、PVALB双基因的同时敲除,其中EMX1基因的敲除效率为27%、PVALB基因的敲除效率为7.3%;另外,通过同时导入靶向同一个基因的两个不同位点的gRNA,实现了对EMX1基因的长度为196bp的片段删除,删除效率为1.6%。哈佛医学院的Mali等在人类的诱导性多能干细胞中实现了CRISPR/Cas9系统介导的基因组编辑。在他们的研究中,CRISPR/Cas9系统在人诱导性多能干细胞中对AAVS1位点的打靶效率为2%~4%。