导读
Circular RNA(circRNA)是一类新的非编码RNA,具有共价连接的闭环结构,由反向剪接(backsplice,或称为首位剪接,head-to-tail splice)事件产生。CircRNA在组织中广泛表达,结构稳定、能够抑制RNase R酶的降解,并且一些circRNA具有发育阶段特异性和物种间的保守性。目前发现一些circRNA在细胞质中充当miRNA海绵,或作为RNA结合蛋白(RNA binding protein, RBP)的隔绝子,或作为核内翻译的调控子,是基因表达调控网络的重要参与者。目前已发现circRNA可能在动脉粥样硬化、神经退行性疾病、朊病毒疾病和癌症中发挥重要作用。
历史回顾
CircRNA早在1970s就已经在RNA病毒中被发现,到1990s首次在人类细胞中发现DCC能转录成circRNA,但其研究随后湮没了长达二十多年——人们认为绝大部分RNA都是线性的,因此,circRNA被认为是遗传意外或实验人工产物。直到2012年,斯坦福大学医学院的分子生物学家Julia Salzman及其同事发现了人类细胞中有大量的circRNA表达;接着,在2013年,nature刊登了两篇关于circRNA充当分子海绵的重要研究,表明这些circRNA分子在生物体中可能发挥着重要作用;而circRNA在线虫、小鼠和人类等生物体中广泛表达进一步论证了它在生物学通路中扮演着重要角色。
分子特征
反向剪接
与线性分子(如mRNA)经典的前向剪接模式(上游供体的3’端与下游受体的5’端连接)不同,circRNA是由反向剪接(剪接供体的3’端与上游受体的5’端共价连接)产生。因此,circRNA没有poly(A)尾。
分子组成
circRNA主要来自编码基因的外显子,也可能来自编码基因的内含子、基因间区、UTR区域或非编码RNA基因位点。CircRNA可能仅仅由一个外显子构成,也可能由多个外显子构成;由外显子和内含子构成的circRNA被称为EIciRNA,一般定位在核中;还有一类仅由内含子构成,称为ciRNA。
可变环化
和线性分子一样,circRNA的同一个基因位点可能由于剪接位点等因素的改变产生多个转录本。例如不同于经典的U2剪接体(spliceosome)的U12剪接体对circRNA基因进行的剪接事件。
不可翻译
几乎没有circRNA可以被翻译,虽然有研究人员发现个别circRNA具有开放阅读框,例如Perriman和Ares报道了一个环状mRNA包含一个简单的绿色荧光蛋白(GFP)的开放阅读框。迄今为止,真核细胞中只有一个已知的外源病毒circRNA编码HDV,还没发现有内源性circRNA能编码蛋白质。
细胞内非常稳定
外显子circRNA在细胞中非常稳定,在大多数物种中存活半衰期超过了48h(mRNA半衰期只有10h)。然而,外显子circRNA在血清中不稳定,半衰期不超过15s,可能由于环化RNA的核酸外切酶的存在。
识别
目前已储存了大量的RNA-seq数据(特别是Illuminal平台),通过开发生物信息学工具合理地利用这些资源识别circRNA是必要的。CircRNAs没有poly(A)尾,因此,poly(A)选择的数据不适合用于识别circRNA分子,用来作为假阳性对照;circRNA是环化分子,对RNase R酶降解抑制,因此,RNase R酶处理后的数据往往能识别的circRNAs为真实的分子,用来作为真阳性对照。
以下列出了目前识别circRNA分子的一些方法和工具:
生化方法
CircleSeq
一种全基因组识别circRNA的生化方法,利用RNase R获得酶抑制的RNA,然后测序,并用MapSplice比对算法识别backsplice序列。CircleSeq也识别套索,RNase R会删除套索的尾巴。该方法已经在古生菌和哺乳动物中实现,所发现的外显子circRNA也得到了证实。
计算方法
1.find_circ
2013年随着Circular RNAs are a large class of animal RNAs with regulatory potency这篇文章发布的。对于circRNA,成环的剪接位点不能直接mapping会基因组。因此,首先,通过mapping筛选出这些未比对的reads;然后取这些reads两头的20bp,重新mapping到基因组上;接着,利用开发的方法检测这些短序列是否是circRNA的短序列。
2.MapSplice
3.Segemehl
利用segemehl直接mapping ,寻找backsplice,然后人工判断
4.CIRCexplorer
随2014年上海生科院的Complementary Sequence-Mediated Exon Circularization发表问世。CIRICexplorer巧妙运用fusion gene这个思路去检测circRNA。首先,过滤出tophat无法mapping的reads,然后用tophat-fusion mapping这些reads到基因组上;接着,利用基因注释,确定精确donor和acceptor的位置;最后对circRNA进行注释。
5.circRNAFinder
6.CIRI
由北京生科院发表的工具,对sam格式中的CIGAR值进行分析,扫描PCC信号(paired chiastic clipping signals),进而识别circRNAs。该方法操作简单,但消耗内存比较大。
7.KNIFE
Known and Novel IsoForm Explorer. 发表于Statistically based splicing detection for circular and linear isoforms from RNA-Seq data,是一种统计学识别真实circRNA的方法。该方法与finc_circ以及CIRI进行了比较,具有更强的敏感性和更高的准确性。
8. NCLscan
这些方法的详情及使用说明请自行搜索,以下是网友关于这些方法的讨论的连接
1. [url]http://yulijia.net/cn/论文笔记/2015/08/07/circRNA-tools.html[/url]
2. https://www.biostars.org/p/127785/
假阳性探讨(主要针对环状外显子RNA)
Backsplice序列不仅仅是由circRNA形成产生,还可能由其他机制获得,例如反转录酶模板替换(reverse transcriptase template switching)、串联复制(tandem duplication)和RNA反式剪接(RNA trans-splicing)。如图
一些方法可以区分真实circRNA与这些假阳性(图b)
生物起源
虽然已经有数千个circRNAs被识别,例如circBase收集了几篇文章发现的大量circRNAs,然而这些circRNAs的生物起源我们却知之甚少。CircRNAs的junction(即供体与受体相连)附近被发现具有经典的剪切信号,那么剪接体(spliceosome,进行RNA剪接时形成的多组分复合物,主要由小分子核RNA和蛋白质组成)可能参与产生circRNA分子。然而,研究表明,circRNA表达并不总是与同源基因所产生的线性RNA表达相关,这说明剪接体能够区分前向间接(forword splicing,例如mRNA的生成)和后向间接(backsplicing,例如circRNA分子的剪接)。但目前对实现剪接体区分的机制还不能被了解,尽管如此,对于RNA环化的机制已有一定的研究,目前已经发现了三种共存的环化机制。这三种机制都是基于将相关的剪切位点并列在一起,至于如何实现拉近剪切位点的距离三者存在差异。见模式图
1. 第一种机制是内含子配对驱使环化形成:成环外显子侧翼的内含子包含反向互补motifs,它们的配对形成了茎的限制性结构,却导致剪接位点临近促进了环化。
2. 绑定到了成环外显子的侧翼内含子的motif上的RBPs发生配对,导致剪接位点临近而促进了环化
3. RBPs诱导circRNAs形成的另一种潜在方式是通过诱导外显子跳跃(exon skipping)——一个转录本的一个或多个外显子被跳过而剪接出线性转录本,留下一个包含外显子的套索;该套索包含被跳跃的外显子,被剪接体识别并且连接。
4. 补充模式
区分外显子circRNA与RNA套索非常重要。套索RNA大所诉是内含子的,在分支点是2’-5’碳连接。套索RNA比之前所预料的更加稳定,这些RNA的3’尾端被降解后,留下环状分子——称为intronic circRNA(ciRNAs)。反转录酶跨过2’-5’junction分支点时,会有一个或多个没有模板的碱基产生,这很容易被测序检测到。同时,套索很容易被分支酶消除。
功能
miRNA Sponge
目前有两个circRNAs——ciRS-7/CDR1as和Sry发现能够结合miR-7和miR-138:ciRS-7/CDR1as包含超过70个miR-7的结合位点,能够抑制miR-7的活性,在脑中特别是小脑中高表达;Sry被发现在小鼠睾丸中高表达,通过体外荧光报告试验表明能够抑制miRNA活性,包含16个可能的miR-138的结合位点。
到目前为止,被证实作为miRNA的sponge的circRNA只有CDR1as和Sry,因此,人们开始怀疑是否circRNA真能作为miRNA sponge。但研究表明许多circRNA被预测有大量miRNA的结合位点,并且还在果蝇中发现了高度保守的miRNA结合位点;另外,有研究发现circRNA所预测的miRNAs结合位点的SNP密度较低,这与3’UTR上miRNA种子位点类似,也支持了circRNA能作为miRNA sponge的证据
蛋白质decoy或trap
CircRNA能作为蛋白质的decoy,例如果蝇中mbl位点转录的circRNA——circMBl包含MBL蛋白质的结合位点。MBL能够诱导circMbl生成,从而抑制了MBL前体mRNA的生成,进而限制了MBL蛋白质继续产生,反过来抑制了circMbl的生成。因此,circMbl似乎是MBL自调控环路中的一员。
Chao等人发现小鼠的formin(Fmn)基因可以生成circRNA,该circRNA包含翻译起始位点,能够作为一个mRNA trap——留下非编码的线性转录本而减少了Fmn蛋白质表达水平。Jeck和Sharpless发现在人类成纤维细胞中许多单外显子的circRNAs都包含翻译起始位点。这些发现表明,circRNAs可以通过隔绝翻译起始位点作为mRNA trap从而调控蛋白质的表达。
转录调控子
EIciRNAs最近被报道通过与U1 snRNP和RNA聚合酶II在宿主基因的启动子上互作能增强宿主基因的转录。
CircRNA与疾病
1. 朊病毒疾病
在HEK293细胞中,朊病毒蛋白PrPC的稳定过表达能够诱导ciRS-7/CDR1as的表达,说明CDR1as可能涉及朊病毒疾病。
2. 肌强直性营养不良
MBL功能缺失会引起退行性疾病——肌强直性营养不良,而MBL的转录本circMbl与线性转录本mbl会发生转录竞争,这样circMbl可能与肌强制性营养不良相关。
3. miRNA参与的疾病
1)miR-7参与了大量通路和疾病包括作为alpha突触核蛋白和泛素蛋白激酶A的直接调控子,CDR1as已经涉及到了帕金森病、阿尔兹海默症以及脑发育。
2)miR-7具有致癌和肿瘤抑制子的性质,CDR1as/miR-7可能涉及到了癌症的发生发展。Li等人已表明cir-ITCH的表达在食管鳞状细胞癌中较正常低表达,因此可能与miRNA(例如miR-7/miR-17/miR-214)互作发生抑癌作用,并上调ITCH的表达从而降解泛素介导的Dvl2并减少致癌基因c-myc的表达——该过程抑制了Wnt信号通路。
4. 癌症
研究12配对的正常与结肠直肠癌的RNA-seq数据发现circRNA在癌组织中表达整体下降。通过芯片研究发现,在胰腺导管癌中circRNAs的表达特征发生了紊乱。
研究人员还发现circRNA has_circ_002059在胃癌中表达下调,表明可能是一个潜在的biomarker。
5. 心血管疾病
Burd等人发现了环状分子cANRIL(INK4位点中环状反义非编码RNA,来自INK4A-ARF位点)。在粥样动脉硬化血管疾病中,接近INK4/ARF(CDKN2a/b)位点的9p21.3上存在的SNPs可能调控ANRIL剪接以及cANRIL产物。CANRIL表达与INK4/ARF转录以及动脉粥样硬化血管疾病相关。
6. Biomarker
人们研究果蝇circRNAs发现它们可以作为衰***iomarker,同时研究人类唾液中的circRNAs推测其能作为疾病的生物标记。
参考文献
[1] Detecting and Characterizing circular RNAs
[2] Circular RNAs Identification, biogenesis and function
[3] Circular RNA A new star of noncoding RNAs