【生物信息学第二版】非编码RNA与复杂疾病

上传人:桔**** 文档编号:577964796 上传时间:2024-08-23 格式:PPT 页数:190 大小:36.60MB
返回 下载 相关 举报
【生物信息学第二版】非编码RNA与复杂疾病_第1页
第1页 / 共190页
【生物信息学第二版】非编码RNA与复杂疾病_第2页
第2页 / 共190页
【生物信息学第二版】非编码RNA与复杂疾病_第3页
第3页 / 共190页
【生物信息学第二版】非编码RNA与复杂疾病_第4页
第4页 / 共190页
【生物信息学第二版】非编码RNA与复杂疾病_第5页
第5页 / 共190页
点击查看更多>>
资源描述

《【生物信息学第二版】非编码RNA与复杂疾病》由会员分享,可在线阅读,更多相关《【生物信息学第二版】非编码RNA与复杂疾病(190页珍藏版)》请在金锄头文库上搜索。

1、生物信息学生物信息学第十二章第十二章非编码非编码RNA与与复杂疾病复杂疾病北京大学北京大学崔庆华崔庆华哈尔滨医科大学哈尔滨医科大学李霞、徐娟李霞、徐娟生物信息学生物信息学人类基因组的蛋白质编码区的总和占总基因组人类基因组的蛋白质编码区的总和占总基因组长度为长度为12,那么其他,那么其他98的基因组有什的基因组有什么功能么功能呢(呢(junkdna)?)?(1)42的基因组是插入编码序列的的基因组是插入编码序列的内含子序列内含子序列;人类基因平均每个基因有人类基因平均每个基因有7个内含子。但这个内含子。但这么冗长的内含子序列有什么生物学功能呢么冗长的内含子序列有什么生物学功能呢?(2)其他)其他

2、55%的基因组的功能是什么?的基因组的功能是什么?【注:注:90%以上的基因组都是转录的!以上的基因组都是转录的!】人类基因组草图带给科学家们的困惑人类基因组草图带给科学家们的困惑人类基因组绝大部分都被转录成人类基因组绝大部分都被转录成RNA,细胞内非编码细胞内非编码RNA的数量是编码的数量是编码RNA的上百倍。这促使许多科学家的上百倍。这促使许多科学家认为认为生物体复杂性被隐藏在它们所输出的非编码生物体复杂性被隐藏在它们所输出的非编码RNA内,而非编码序列内内,而非编码序列内。non-codingRNA,ncRNA不能翻译成蛋白的功能性不能翻译成蛋白的功能性RNA分子分子Housekeepi

3、ngnon-codingRNAtRNAs、rRNAs、snRNAsetc.Regulatorynon-codingRNAsmallnon-codingRNAsiRNA、miRNA、piRNAetc.Longnon-codingRNA(lncRNA,200nt)第一节第一节 引言引言 Section1Introduction随着随着ncRNA在复杂疾病中的研究深入,研究者发现在复杂疾病中的研究深入,研究者发现其在疾病的发生发展过程中起着巨大的作用,其功能其在疾病的发生发展过程中起着巨大的作用,其功能异常能够导致各种人类复杂疾病的发生。这将使异常能够导致各种人类复杂疾病的发生。这将使ncRNA可能

4、成为疾病诊断、预后的新的生物学标记可能成为疾病诊断、预后的新的生物学标记(biomark),并为更进一步理解复杂疾病的发病机),并为更进一步理解复杂疾病的发病机理提供了新的手段。理提供了新的手段。第二节第二节 非编码非编码RNARNA与其靶基因与其靶基因 Section2Non-codingRNAsandTargets(一)(一)miRNAmiRNA的发现的发现一、一、miRNAmiRNA概述概述miRNAwasfirstdiscoveredin1993byVictorAmbrosatHarvard(lin-4)ThesecondmiRNALet-7wasdiscoveredin2000byF

5、rankSlackasapostdocatHarvard (GaryRuvkunlab)ThediscoveryofmiRNAsVictorAmbrosGaryRuvkunmicroRNAshadbeenneglectedforsomanyyearsbecauseoftheirsmallsize.Theunderlyingreasonis:peopleneverdreamthatsmallRNAswillhaveimportantbiologicalroles.ThenumberoftheidentifiedmiRNAsisgrowingrapidlyinrecentyears.Release

6、21(July2014)ofthemiRBasedatabasehaveadded4196newhairpinsequencesand5441newmatureproductsRelease20contains24521entriesrepresentinghairpinprecursormiRNAs,expressing30424maturemiRNAproducts,in206species.ThesemiRNAsarefromprimates,rodents啮齿类啮齿类,birds,fish,worms,flies,plantsandviruses.Thedataarefreelyava

7、ilabletoallthroughthewebinterfaceathttp:/www.mirbase.org/.Sincearound2007,theoverwhelmingmajorityofmicroRNAsdepositedinmiRBasehavebeenpredictedfromsmallRNAdeepsequencingexperiments.miRNAmiRNA的生物合成过程的生物合成过程maturemiRNAPrecursormiRNAPrimarymiRNAmiRNAgene转录转录剪切剪切剪切剪切miRNA(二)(二)miRNAmiRNA的生物合成的生物合成RNApol

8、yII/IIIDroshaDicer几百几百几千碱基几千碱基约约70 90碱基碱基约约22碱基碱基miRNA例子例子ThemiRNAgenesandStructureofpri-miRNAsPri-miRNAsbearthe5capand3poly(A)tails(三)(三)miRNAmiRNA的特点、作用机制及分类的特点、作用机制及分类microRNAmicroRNA命名规则命名规则hsa-miR-181a-2*hsa人,人,mus小鼠,小鼠,rat大鼠大鼠let,lin,mir,miR,181:编号,按注册顺序:编号,按注册顺序a:与已注册的:与已注册的miRNA序列高度同源序列高度同源2

9、:由不同染色体上的由不同染色体上的DNA序列转录加工而成的具序列转录加工而成的具有相同成熟体序列的有相同成熟体序列的miRNA,则在后面加上阿拉伯则在后面加上阿拉伯数字以区分数字以区分*:如果一个前体的:如果一个前体的2个臂分别产生个臂分别产生miRNA,则根据则根据克隆实验克隆实验,在表达水平较低的在表达水平较低的miRNA后加后加“*”;或进行如下命名或进行如下命名hsa-miR-188-5p(或(或hsa-miR-188-3p)5p:表示从:表示从5端的臂加工而来;端的臂加工而来;3p:表示从:表示从3端的臂加工而来端的臂加工而来hsa-mir-188二级结构 hsa-miR-188-5

10、phsa-miR-188-3p5 3 miRNA/miRNA-starVS-5p/-3pthedominantstrandcouldchangeindifferentbiologicalsettingsleadingtodifferentnamesdescribingthesamemolecule5parm(placenta)tothe3parm(heart,liver,andkidney)物理位置特点物理位置特点miRNA基因以基因以单单拷拷贝贝、多拷、多拷贝贝和基因簇等多种形和基因簇等多种形式存在于基因式存在于基因组组中。中。miRNA簇(簇(miRNAclusters)是指在染色体上彼)

11、是指在染色体上彼此紧密相邻的两个或者多个此紧密相邻的两个或者多个miRNA构成的构成的miRNA群群miRNA倾向于成簇出现在染色体上;通常定义倾向于成簇出现在染色体上;通常定义50kb的距离为一簇的距离为一簇同一簇中的同一簇中的miRNA倾向是共表达的倾向是共表达的miRNAmiRNA一般特点一般特点 miRNA miRNA家族家族/ /簇簇序列(特别是种子序列)高度同源的序列(特别是种子序列)高度同源的miRNA被归为被归为一个一个miRNA家族家族同一家族中的同一家族中的miRNA并不一定是成簇的。并不一定是成簇的。seedmiRNAmiRNA的一般特点的一般特点序列特点序列特点非编码性

12、非编码性成熟的成熟的miRNA5端为单一磷酸基团,端为单一磷酸基团,3端为端为羟基羟基,这一特点使它与大多数寡核苷酸和功能这一特点使它与大多数寡核苷酸和功能RNA的降解片段区别开来;的降解片段区别开来;表达特点表达特点miRNA具有时序性以及组织特异性具有时序性以及组织特异性在特定的时间,组织中才会表达在特定的时间,组织中才会表达保守性特点保守性特点在物种间高度保守在物种间高度保守miRNAmiRNA的作用机制的作用机制 通过和靶基因通过和靶基因3UTR(3非翻译区)结合非翻译区)结合导致导致RNA诱导的沉默复合体(诱导的沉默复合体(RNA-inducedsilencingcomplex,简称

13、简称RISC)降解降解其靶其靶mRNA或或阻碍阻碍其靶的其靶的翻译翻译。RISC转录后层面转录后层面调控基因表达调控基因表达二、基于序列的二、基于序列的miRNAmiRNA靶基因预测方法靶基因预测方法miRNA靶基因预测遵循的基本原则靶基因预测遵循的基本原则miRandaTargetScanThreeClassesofmiRNATargetSites(Brenneckeetal.PlosBiology2005)(一)(一)miRNAmiRNA靶基因预测遵循的原则和基本步骤靶基因预测遵循的原则和基本步骤 miRNA的的“种种子子区区”与与mRNA的的3UTR序序列列碱碱基基互补互补靶点在多物种间

14、的序列保守性靶点在多物种间的序列保守性miRNA与与mRNA形成双链结构的热力学稳定性形成双链结构的热力学稳定性靶靶基基因因二二级级结结构构和和靶靶点点外外的的序序列列对对靶靶基基因因预预测测的的影响影响遵循的原则遵循的原则miRNAmiRNA靶靶位点预测的难点:位点预测的难点:miRNA与与靶位点的不完全互不配对靶位点的不完全互不配对基本步骤基本步骤在在3UTR上探寻和上探寻和miRNA“种子区种子区”完全互补的完全互补的序列;序列;计算计算miRNA和这些序列结合产生的自由能下降值,和这些序列结合产生的自由能下降值,对靶点进行筛选;对靶点进行筛选;对靶点进行物种间序列比对,利用物种保守性进

15、对靶点进行物种间序列比对,利用物种保守性进一步筛选。一步筛选。 (三)(三)TargetScanTargetScan主要考虑物种间保守的主要考虑物种间保守的miRNA靶基因,靶基因,并且在并且在TargetScan中首次提出了中首次提出了“种子匹配种子匹配”(seedmatch)的概念。)的概念。http:/www.targetscan.org/TargetScan算法的基本步骤算法的基本步骤在在TargetScan算算法法中中,“种种子子匹匹配配”被被定定义义为为miRNA5端端的的第第28位位碱碱基基与与mRNA3UTR上上的的一一段段7nt(nucleotide)序序列列完完全全互互补补

16、,miRNA上上的的这这7个核苷酸被称为个核苷酸被称为miRNA“种子区种子区”。从从种种子子区区开开始始向向miRNA两两侧侧寻寻找找互互补补碱碱基基,允允许许G-U配配对对,直直到到出出现现碱碱基基错错配配为为止止。在在物物种种保保守守方方面面,TargetScan算算法法发发现现随随着着物物种种数数目目的的增增多多,预预测测的的靶靶基基因因数数目目逐逐渐渐减减少少,但但预预测测结结果果的的准准确确率率得得到提高。到提高。三、基于表达信息预测三、基于表达信息预测miRNAmiRNA靶基因靶基因 Huang等人利用在等人利用在88个组织中同时检测了个组织中同时检测了miRNA和和mRNA表达

17、的数据,并结合贝叶斯方法开发了靶基表达的数据,并结合贝叶斯方法开发了靶基因预测算法因预测算法GenMiR+,得到了,得到了104个人类个人类miRNA的高精度靶基因,并通过实验证实了预测的的高精度靶基因,并通过实验证实了预测的let-7b靶靶基因,结果表明,与基于序列的方法相比,利用相基因,结果表明,与基于序列的方法相比,利用相同样本中同时检测同样本中同时检测miRNA和和mRNA的表达谱可以更的表达谱可以更准确的预测准确的预测miRNA靶基因。靶基因。(Huang,UsingexpressionprofilingdatatoidentifyhumanmicroRNAtargets.Nat.M

18、ethods.)四、基于高通量测序结果预测四、基于高通量测序结果预测miRNAmiRNA靶基因靶基因ArgonauteCLIP-SeqRIP-CLIPpSILACDegradome-SeqAgobindsinaternary三元的三元的complextobothmiRNAandmRNA,withsufficientlyclosecontactstoallowUV-crosslinkingtoeitherRNA;mRNAtagswillbeintheimmediatevicinityofmiRNAbindingsites.ArgonauteCLIP-SeqArgonauteCLIP-SeqArg

19、onauteCLIP-Seq,又称为又称为HITS-CLIP(ultravioletcross-linkingandimmune-precipitationandandhigh-throughputsequencing),),即紫外交联免疫共沉淀与高通量测序偶联技术。即紫外交联免疫共沉淀与高通量测序偶联技术。CLIP技术是研究技术是研究RNA结合蛋白结合蛋白(或者(或者RNA)体)体内结合靶标的新技术。内结合靶标的新技术。通过紫外交联将通过紫外交联将RNA结合蛋白结合蛋白与与体内结合的体内结合的RNA分子分子进行固定,用进行固定,用Ago蛋白的抗体蛋白的抗体免疫共沉淀免疫共沉淀之之后酶解未受蛋

20、白保护的后酶解未受蛋白保护的RNA,可以获得,可以获得Ago蛋白蛋白直接结合直接结合的的RNA序列。序列。针对针对AGO蛋白的蛋白的CLIP-seq技术能够在全基因组范围技术能够在全基因组范围内鉴定与内鉴定与AGO蛋白结合的小蛋白结合的小RNA及其及其mRNA靶标。靶标。Chi,SW,Zang,JB,Mele,A,Darnell,RB.2009.ArgonauteHITS-CLIPdecodesmicroRNA-mRNAinteractionmaps.Nature.460:479-86。FurthermoreHITS-CLIPreadsdonotpreciselypinpointtheposi

21、tionofcrosslinkingbetweentheRNAandprotein,andthuscanonlyidentifyatargetedregion(100-nt)asopposedtoaspecifictargetsite.2010年,年,GeneW.Yeo采用采用AGO-CLIPseq技术在技术在线虫中鉴定了线虫中鉴定了Argonaute的结合位点,发现其不仅的结合位点,发现其不仅结合结合mRNA的的3UTR区域区域,也会结合编码,也会结合编码外显子外显子区域区域,还发现,还发现Argonaute大量结合的区域对于大量结合的区域对于miRNA的功能非常重要,揭示了其新的自我调控的

22、功能非常重要,揭示了其新的自我调控的功能。的功能。要想获得检测区域被哪个要想获得检测区域被哪个miRNA调控,还需结合调控,还需结合预测算法预测算法五、整合已有知识预测五、整合已有知识预测miRNAmiRNA靶基因靶基因 在在当当前前的的miRNA靶靶基基因因预预测测研研究究中中,研研究究人人员员逐逐渐渐意意识识到到单单一一依依靠靠序序列列信信息息或或表表达达信信息息已已不不能能继继续续提高提高miRNA靶基因预测效能。靶基因预测效能。整整合合功功能能信信息息、蛋蛋白白质质互互作作信信息息、表表达达信信息息、序序列列信信息息以以及及当当前前实实验验证证实实的的miRNA靶靶基基因因等等已已有有

23、资资源预测源预测miRNA靶基因十分必要。靶基因十分必要。miRNA靶点优化算法靶点优化算法六、六、lncRNAlncRNA概述及靶基因识别概述及靶基因识别lncRNA定义定义lncRNA特点特点lncRNA作用机制作用机制DefinitionoflncRNALongnon-codingRNAs(longncRNAs,lncRNAs)arenon-proteincodingtranscriptslongerthan200nucleotides(Perkel2013).lncRNAsaretranscriptsthatare200nucleotidesinlengthanddonothaveth

24、epotentialtoencodeforproteinsexceedinglengthsof30aminoacids(MercerTR.Nat.Rev.Genet.2009,LiXMed.Res.Rev.2012).ThissomewhatarbitrarylimitdistinguisheslongncRNAsfromsmallregulatoryRNAssuchasmiRNAs,siRNAs,piRNAs,snoRNAs,andothershortRNAs.LargescaleRNA-seqindicatethatlncRNAnumberintheorderoftensofthousan

25、dsinmammals.9277manuallyannotatedgenesproducing14880transcripts(GENCODEv7).Thenumberofproteincodinggenesinourgenomehasbeenreviseddownwardmultipletimeswhereasthenumberofknownnonproteincodingtranscriptshasincreasedexponentiallyoverthepastdecade.FeaturesoflncRNAsFeaturesoflncRNAslncRNAsaregeneratedbyth

26、esametranscriptionalmachineryasareothermRNAslncRNAsarewithsimilarhistone-modificationprofiles,splicingsignals.H3K4me3,H3K36me3lncRNAsarepredominantlylocalizedinthechromatinandnucleus,andafractionappeartobepreferentiallyprocessedintosmallRNAs.lncRNAexpressionTissue-specificlncRNAsexpressedinthebrain.

27、conservationManysmallRNAs,suchasmiRNAsorsnoRNAs,exhibitstrongconservationacrossdiversespecies(Bentwich2005).Incontrast,ingenerallncRNAslackstrongconservation,whichisoftencitedasevidenceofnon-functionality(Brosius2005;Struhl2007).DespitelowconservationoflongncRNAsingeneral,itshouldbenotedthatmanylong

28、ncRNAsstillcontainstronglyconservedelements生化鉴定和功能研究尚处于起步阶段生化鉴定和功能研究尚处于起步阶段,目前仅有目前仅有大约大约100多种已知功能的多种已知功能的lncRNAs。AsofDecember2012,127LncRNAshavebeenfunctionallyannotatedinLncRNAdb(adatabaseofliteraturedescribedLncRNAs)()(Amral2011).lncRNA通过通过表观遗传学调控、转录调控、转录表观遗传学调控、转录调控、转录后调控、蛋白活性调控后调控、蛋白活性调控等多种方式调控相

29、关基因等多种方式调控相关基因的作用的作用LncRNAasScaffoldforTranscriptionRepressionHOTAIRandPRC2lncRNAasmiRNADecoyPolisenoetal,Nat2011lncRNAlncRNA研究存在的问题研究存在的问题lncRNA的定义的定义200nt,过于武断,过于武断lncRNA的命名原则:目前根据功能、结构、作用的命名原则:目前根据功能、结构、作用方式等命名方式等命名lncRNA相关数据库的内容不够全,注释内容不够相关数据库的内容不够全,注释内容不够丰富丰富lncRNA生物学功能的阐明生物学功能的阐明lncRNA功能预测的工具不

30、多功能预测的工具不多区分功能性和非功能性非编码转录本区分功能性和非功能性非编码转录本种类和功能复杂,使不同的种类和功能复杂,使不同的lncRNA研究结果研究结果之间的借鉴意义并不高之间的借鉴意义并不高七、七、ncRNAncRNA数据资源数据资源ncRNA常常用数据库用数据库miRBase是一个集是一个集miRNA序列、注释信息以及预测序列、注释信息以及预测的靶基因数据为一体的数据库,是目前存储的靶基因数据为一体的数据库,是目前存储miRNA信息最主要的公共数据库之一信息最主要的公共数据库之一网址:网址:http:/www.mirbase.org/(一)(一)miRBasemiRBase数据库数

31、据库TarBase是一个目前使用广泛的存储实验检测的是一个目前使用广泛的存储实验检测的miRNA与靶基因间关系的数据库,涵盖多种实验与靶基因间关系的数据库,涵盖多种实验方法检测的超过方法检测的超过65000个个miRNA与靶基因关系对。与靶基因关系对。其网址为:其网址为:http:/diana.cslab.ece.ntua.gr/tarbase/(二)(二)TarBaseTarBase数据库数据库TarBaseTarBase数据库界面介绍数据库界面介绍(三)(三)microRNA.orgmicroRNA.org数据库数据库microRNA.org数据库数据库包含包含miRNA靶基因以及表达谱数

32、据靶基因以及表达谱数据网址:网址:http:/www.microrna.org/microrna/home.domiRNA靶基因数据靶基因数据主要是利用主要是利用miRanda算法预测得来算法预测得来miRNA表达谱数据表达谱数据来自一个针对人类主要器官和细胞系的小来自一个针对人类主要器官和细胞系的小RNA库测序计划库测序计划(四)(四)lncRNAlncRNA相关数据库相关数据库因为因为lncRNA是一个非常新的研究领域,是一个非常新的研究领域,lncRNA在在疾病中的作用的研究还是起步阶段,数据量还不够疾病中的作用的研究还是起步阶段,数据量还不够大,因此,相关的数据库也是处于起步阶段,相关

33、大,因此,相关的数据库也是处于起步阶段,相关数据库还不多,也不够丰富。数据库还不多,也不够丰富。第三节第三节 非编码非编码RNARNA多态和复杂疾病多态和复杂疾病 Section3Non-codingRNAPolymorphismsandComplexDiseasemiRNA多多 态态 ( miRNA polymorphisms) 是是 影影 响响miRNA功功能能的的多多态态,可可能能发发生生在在miRNA形形成成和和行行使使功功能能的的任任一一个个过过程程,以以插插入入、删删除除、扩扩增增或或染染色色体体异异位位的的形形式式出出现现,最最终终导导致致miRNA绑绑定定位位点点或或者者功功能

34、能的的缺失(获得)缺失(获得),是人类基因组一类新的功能多态。,是人类基因组一类新的功能多态。不不仅仅会会影影响响miRNA的的产产生生和和表表达达,而而且且会会影影响响miRNA与靶基因的结合从而影响靶基因的表达与靶基因的结合从而影响靶基因的表达。介绍介绍影响蛋白质影响蛋白质参与参与miRNA合成合成与成熟,与成熟,导致新导致新的的miRNA生成生成和靶基因的调控。和靶基因的调控。一、位于一、位于miRNAmiRNA基因内部影响基因内部影响miRNAmiRNA生物学形成的多态生物学形成的多态在染色体基因组水平上单个核苷酸变异引起的在染色体基因组水平上单个核苷酸变异引起的miRNA序列多态性对

35、序列多态性对miRNA的转录、形成、输出和的转录、形成、输出和调控具有重要影响。调控具有重要影响。Saunders,M.A.等对人类等对人类474个个miRNAs的的SNPs进行系进行系统的分析发现单核苷酸多态在统的分析发现单核苷酸多态在miRNA序列内的密度序列内的密度低于其周围的侧翼序列。低于其周围的侧翼序列。49个个pre-miRNA内存在内存在65个个SNPs位点,其中位点,其中3个个miRNAs的种子序列存在的种子序列存在SNPs。(一)位于(一)位于pri/pre-miRNApri/pre-miRNA基因序列内部基因序列内部Saunders,M.A.和和Duan等人利用生物信息学的

36、方法等人利用生物信息学的方法研究发现在研究发现在pri/pre-miRNA内部存在单核苷酸多态。内部存在单核苷酸多态。位于位于pri/pre-miRNA内部的多态会影响内部的多态会影响miRNA的表的表达,产生新的达,产生新的miRNA以及影响以及影响miRNA与靶基因的结与靶基因的结合,甚至与疾病的风险相关。合,甚至与疾病的风险相关。1.影响影响miRNA的表达的表达Duan等人在研究等人在研究miR-125时发现,该基因位点存在时发现,该基因位点存在SNP,含有,含有miR-125a-G/U两种等位,其中两种等位,其中miR-125a-U能够显著影响能够显著影响DGCR8与与pri-miR

37、NA-125a的的结合与剪接,使成熟的结合与剪接,使成熟的miR-125a生成减少,使生成减少,使miR-125a对靶基因对靶基因Lin-128的翻译抑制作用减弱。的翻译抑制作用减弱。2.产生新的产生新的miRNAmiR-146a前体会产生前体会产生miR-146a(正链)和(正链)和miR-146a*(负链)两种(负链)两种miRNA。在。在miR-146a前体的茎环前体的茎环上存在的上存在的SNP(rs2910164)不仅会影响)不仅会影响miR-146a的表的表达,而且会导致达,而且会导致miR-146a*C和和miR-146a*G两种两种miRNA的产生。的产生。(二)位于成熟的(二)

38、位于成熟的miRNAmiRNA序列内部序列内部成熟的成熟的miRNA与与mRNA的的3UTR区域结合对区域结合对mRNA进进行转录后调控。行转录后调控。miRNA与与mRNA结合的区域包括两部分:结合的区域包括两部分:种子区域种子区域,这一部分区域要求与,这一部分区域要求与mRNA严格匹配;严格匹配;种子区域附近的种子区域附近的3端方向,允许一定的程度的错配端方向,允许一定的程度的错配位于成熟位于成熟miRNA序列的这些多态会影响对靶基因的调序列的这些多态会影响对靶基因的调控,消除、弱化、增强或者产生新的结合靶点。控,消除、弱化、增强或者产生新的结合靶点。目前的研究发现,位于目前的研究发现,位

39、于miRNA种子区域的多态不仅种子区域的多态不仅会影响靶结合位点,还影响会影响靶结合位点,还影响miRNA的表达。的表达。例如例如位于位于miR-125a种子区域的多态显著的抑制了种子区域的多态显著的抑制了pri/pre-miRNA过程,导致过程,导致miRNA表达的减少。表达的减少。二、二、 miRNA miRNA靶点的多态靶点的多态miRNA靶点的多态性靶点的多态性靶基因上靶基因上影响影响miRNA与靶基结合与靶基结合的序列多态性。的序列多态性。这些多态性位点这些多态性位点可以可以影响影响miRNA对靶基因表达的对靶基因表达的调控。调控。越来越多研究发现越来越多研究发现与多种疾病的发病风险

40、与多种疾病的发病风险有关有关。miRNA靶点多态可分为:靶点多态可分为:miRNA结合位点上的多态性结合位点上的多态性miRNA结合位点上下游的多态性结合位点上下游的多态性miRNAmiRNA结合位点上(或上下游)的多态性与疾病结合位点上(或上下游)的多态性与疾病与疾病相关的与疾病相关的miRNA结合位点上的多态性举例结合位点上的多态性举例位于整联蛋白基因位于整联蛋白基因-4(IGBT-4)miRNA结合位点结合位点的的SNP(rs743553)与乳腺癌发病密切相关)与乳腺癌发病密切相关(Brendle等)。等)。位于位于GEMIN3基因基因miRNA结合位点的结合位点的SNP(rs19741

41、4)与膀胱癌发病密切相关()与膀胱癌发病密切相关(Yang等)等)。位于靶点附近的多态位点可能会改变位于靶点附近的多态位点可能会改变mRNA的二级结的二级结构从而影响构从而影响miRNA与靶基因的结合;或影响与靶基因的结合;或影响miRNA与与3UTR上其他调控元件的协同作用上其他调控元件的协同作用(间接影响间接影响)例如,例如,HLA-G基因基因3UTR区的区的SNP影响影响miR-148a,miR-148b和和miR-152与与HLA-G结合,从而与哮喘结合,从而与哮喘的发病风险相关(的发病风险相关(Zheng等)。等)。五、五、lncRNAlncRNA多态与复杂疾病多态与复杂疾病近些年,

42、高通量技术近些年,高通量技术(如如GWAS,全基因组关联分析,全基因组关联分析)已经确定大量和疾病相关的已经确定大量和疾病相关的SNP。因此,如果该因此,如果该SNP是位于一个是位于一个lncRNA上的话,很可能上的话,很可能是该是该SNP影响了该影响了该lncRNA的功能,从而和疾病有关。的功能,从而和疾病有关。乳头状甲状腺癌乳头状甲状腺癌(papillarythyroidcarcinoma,PTC)相关的风险相关的风险SNP(rs944289)位于一个位于一个lncRNA(PTCSC3)的上游的上游3.2kb处,这个风险处,这个风险SNP可以影响该可以影响该lncRNA的表达,并阐明了这个

43、的表达,并阐明了这个SNP通过影响通过影响lncRNA功能导致乳头状甲状腺癌发功能导致乳头状甲状腺癌发生的致病机制。生的致病机制。例子例子数据资源数据资源 miRNASNPmiRNA-relatedSNPstheirpotentialtargetlossandgaininformationdbSMR数据库数据库http:/miracle.igib.res.in/polyreg/一个分析基因一个分析基因3UTR上的上的SNP对对miRNA与靶点与靶点结合关系影响的数据库。结合关系影响的数据库。PolymiRTS数据库数据库http:/compbio.utmem.edu/miRSNP/整合了序列多

44、态性位点数据、表型数据和基因表整合了序列多态性位点数据、表型数据和基因表达谱数据,来挖掘潜在的可以用于解释表达数量达谱数据,来挖掘潜在的可以用于解释表达数量性状位点和表型数量性状位点效应的性状位点和表型数量性状位点效应的miRNA靶基靶基因的结合区域上的多态性位点,并把这些多态称因的结合区域上的多态性位点,并把这些多态称作作PolymiRTS。lincSNPlincSNP数据库简介数据库简介 LincSNP是是一一个个整整合合的的数数据据库库,为为了了识识别别和和注注释释人人类类lncRNA上疾病相关的上疾病相关的SNP而构建的全面的综合数据库。而构建的全面的综合数据库。目目前前该该数数据据库

45、库中中包包括括大大约约140,000疾疾病病相相关关的的SNP,这这些些SNP位位于于大大约约5000个个人人类类的的lncRNA周周围围。这这个个数数据据库库也也包包含含了了注注释释的的,实实验验证证实实的的SNP-lncRNA-疾疾病病的的关关联联数数据据以以及及疾疾病病相相关关的的lncRNA数数据据,并并提提供供了了友友好好的界面和有效的工具获得疾病相关的的界面和有效的工具获得疾病相关的SNP以及以及lncRNA。LincSNP数据库(数据库(http:/ 非编码非编码RNARNA表达谱与复杂疾病表达谱与复杂疾病Section4Non-codingRNAExpressionProfil

46、eandComplexDisease癌症的本质归结为各种原因引起的基因结构和功癌症的本质归结为各种原因引起的基因结构和功能的异常能的异常一、一、ncRNAncRNA表达谱识别癌症相关表达谱识别癌症相关ncRNAncRNA致癌基因致癌基因的高表达的高表达抑癌基因抑癌基因的低表达的低表达miRNA和和lncRNA作为两类重要的基因调控子,其表作为两类重要的基因调控子,其表达变化将会对靶基因的活动产生深远的影响达变化将会对靶基因的活动产生深远的影响复杂疾病的诊断和治疗研究中必定会引入复杂疾病的诊断和治疗研究中必定会引入miRNA及及lncRNA(一)一)miRNAmiRNA表达表达谱谱1.ncRNA

47、的特征的特征低丰度、组织特异性、发育阶段特异性、疾病状低丰度、组织特异性、发育阶段特异性、疾病状态特异性态特异性2.ncRNA表达检测技术表达检测技术Northern印迹、克隆(印迹、克隆(cloning)、定量)、定量PCR扩扩增、增、SAGE技术、磁珠技术和寡核苷酸芯片技术、技术、磁珠技术和寡核苷酸芯片技术、新一代测序技术新一代测序技术miRNA表达谱表达谱microRNA芯片制作和分析流程芯片制作和分析流程制作芯片制作芯片差异表达差异表达miRNA数据分析数据分析miRNA表达谱表达谱预处理预处理1.ncRNA表达数据来源表达数据来源GeneExpressionOmnibus(GEO)数

48、据库、)数据库、ArrayExpress数据库、数据库、SequenceReadArchive(SRA)2.miRNA表达谱数据标准化表达谱数据标准化中值处理中值处理mRNA表达表达谱数据标准化方法并不能简单地应谱数据标准化方法并不能简单地应用于用于miRNA表达表达谱数据,目前仍没有统一有效谱数据,目前仍没有统一有效的标准化方法可用的标准化方法可用于于miRNA表达表达谱谱smallRNAseqlibrarypreparation(Directional)ApipelineforsmallRNAannotation(seeinGEDGalaxy)Sequence reads (fasta f

49、ormat)Bowtiepre-miRNA (miRBase)Unmatched readsUnmatched readsTransposonsUnmatched readsGenesUnmatched readsUnmatched readsRemaining unmatched sequencesBowtieBowtieNon coding RNAsBowtieBowtieBowtieIntergenic regionsViruses, transgenes, etchierarchicalannotationofsequence datasetsMatched reads(fasta)R

50、ead CountMatched reads(fasta)Read CountMatched reads(fasta)Read CountMatched reads(fasta)Read CountMatched reads(fasta)Read CountMatched reads(fasta)Read Count丰度数据(丰度数据(countcount)预处理)预处理数据过滤数据过滤-去除低质量的或噪声数据点,去除序列标签去除低质量的或噪声数据点,去除序列标签匹配性差的表达值匹配性差的表达值重复数据合并重复数据合并加和加和,代表同一个基因的标签的,代表同一个基因的标签的tag(或完全相同读

51、段)的表达数目相加(或完全相同读段)的表达数目相加缺失数据的处理缺失数据的处理一般不补缺失值,因为一般不补缺失值,因为0是有意义的,是有意义的,可以发现某种条件下不表达的基因可以发现某种条件下不表达的基因数据标准化数据标准化RPM(ReadsPerMillionreads)miRNA表达谱表达谱M个个miRNAN1个疾病样本、个疾病样本、N2个正常样本个正常样本利用表达谱寻找复杂疾病利用表达谱寻找复杂疾病相关相关miRNAmiRNA差异表达分析差异表达分析寻找异常表达寻找异常表达miRNAFoldchange、T-test、ANOVA、SAM等等低通量实验证实低通量实验证实生物学证实生物学证实

52、Target genesmiRNA功能功能1功能功能n功能功能2功能注释功能注释/功能富集功能富集表型表型miRNA功能预测和病理假设功能预测和病理假设miRNA表达的失调和许多复杂疾病相关,比如心血表达的失调和许多复杂疾病相关,比如心血管类疾病和癌症等管类疾病和癌症等miRNAmiRNA与癌症与癌症miRNA表达谱的基因组范围研究指出原发癌中存在表达谱的基因组范围研究指出原发癌中存在miRNA的表达变化的表达变化特异的特异的miRNA表达谱与特定类型的癌症有关,提示表达谱与特定类型的癌症有关,提示其有用于诊断的潜能其有用于诊断的潜能癌症的本质归结为各种原因引起的基因结构和功能的癌症的本质归结

53、为各种原因引起的基因结构和功能的异常异常致癌基因的高表达致癌基因的高表达抑癌基因的低表达抑癌基因的低表达某些某些miRNA作用靶基因是重要的癌通路组成部分,作用靶基因是重要的癌通路组成部分,参与了癌基因网络调控参与了癌基因网络调控miRNAmiRNA表达表达的变化认为是发生癌症的共同特征的变化认为是发生癌症的共同特征oncogenicmiRNAs(oncomiRs)ProliferationInvasion metastasis Angiogenesis ApoptosisOncogenicmiRNAsTumor SuppressormiRNAsCancer表达降低表达降低表达升高表达升高mi

54、r-17-92clusterasoncogenicmiRNAsc-MYCmir-17Promotestemcellpropertiesmir-17-92clusterislocatedataamplifiedregionDNAinB-celllymphomas.Here,wehaveshownthatonemiRNApolycistronisnotonlythesubjectoftumour-specificamplification,butthatitisalsooverexpressedintumoursandtumourcelllines,andcanactasanoncogeneinv

55、ivo.Adetailed,mechanisticunderstandingofhowthisnon-codingRNAclusteractsasanoncogeneisatpresenthamperedbythelackofavalidatedbiochemicalstrategyforidentifyingmiRNAtargets.mir-17-92clusterastumoursuppressorc-MYC17-5p,20aE2F1mir-17ProliferationGrowthLoss-of-heterozygosityofthechromosomalregionencompassi

56、ngthemir-17cluster(13q31)hasbeenobservedinhumanmalignancies.NegativeregulationofE2F1translationbymiR-17-5pandmiR-20aprovidesamechanismtodampenthisreciprocalactivation,promotingtightlycontrolledexpressionofc-MycandE2F1geneproducts.Itsuggeststhatthemir-17cluster,bydecreasingE2F1expression,tightlyregul

57、atesc-Myc-mediatedcellularproliferation. ItisthuslikelythatthesemiRNAsinfluencecellproliferationandtumorigenesisinacell-typespecificmanner,dependingonthemilieuoftargetmRNAsthatareexpressed.与癌症相关的与癌症相关的miRNAJournal of Thoracic Oncology:December2011-Volume6癌症中的癌症中的ncRNAncRNA表达表达ncRNA表达谱可作为特定癌症的表型标签表达谱

58、可作为特定癌症的表型标签癌症中的癌症中的ncRNA表达变化是因还是果,需要对表达变化是因还是果,需要对ncRNA功能的进一步研究功能的进一步研究二、二、ncRNAncRNA表达谱分类人类癌症表达谱分类人类癌症许多研究已经表明编码蛋白的转录本许多研究已经表明编码蛋白的转录本(mRNA)可可以有效地区分各种癌症。这些与癌症相关的转录本以有效地区分各种癌症。这些与癌症相关的转录本作为一种可靠的生物学标记(作为一种可靠的生物学标记(biomark)已被广泛应)已被广泛应用于各种癌症的分型研究。用于各种癌症的分型研究。我们将采用我们将采用Lu等人发表于等人发表于2005年年nature期刊期刊miRNA

59、表达谱数据来探索基于表达谱数据来探索基于miRNA表达水平的癌症分类。表达水平的癌症分类。首先首先GEO数据库数据库GSE2564获取所有相关数据,其中包获取所有相关数据,其中包括括334个样本的原始个样本的原始miRNA表达数据,预处理后的表达数据,预处理后的miRNA表达数据,探针信息,样本信息等。该表达谱表达数据,探针信息,样本信息等。该表达谱数据包含用两个芯片平台检测的数据包含用两个芯片平台检测的334个样本的个样本的miRNA表达谱。表达谱。所采用的预处理过程包括基于控制探针的标准化,修所采用的预处理过程包括基于控制探针的标准化,修正表达强度偏低的探针,删除所有控制探针,以及对正表达

60、强度偏低的探针,删除所有控制探针,以及对表达值进行以表达值进行以2为底的对数转换。为底的对数转换。采用层次聚类方法采用层次聚类方法平均链路算法,皮尔森相关系数可以明显看出具平均链路算法,皮尔森相关系数可以明显看出具有共同组织发育起源的样本被聚到一起。有共同组织发育起源的样本被聚到一起。除了上述所用除了上述所用到到218个样本,个样本,该数据还包括该数据还包括了检测自了检测自73个个急性淋巴细胞急性淋巴细胞白血病患者骨白血病患者骨髓样本的髓样本的miRNA表达水表达水平。平。利用利用t检验方法对正常组织与肿瘤组织的检验方法对正常组织与肿瘤组织的miRNA表达表达水平进行比较,并使用随机扰动的方法

61、为每个水平进行比较,并使用随机扰动的方法为每个miRNA产生一个产生一个p值,最后对值,最后对p值进行值进行bonferroni校正。校正。2012年年8月月28日日GenomeBiology,斯坦福大学医,斯坦福大学医学院研究人员进行首个大型的癌症学院研究人员进行首个大型的癌症lncRNA表达谱分表达谱分析。对析。对64个肿瘤样品高通量个肿瘤样品高通量RNA-seq测序,在各种肿测序,在各种肿瘤类型之间找出差异表达的瘤类型之间找出差异表达的1065个个lncRNA(图图12-13)。因此。因此lncRNA可以成为生物标志物。可以成为生物标志物。图图12-13lncRNA表达谱分类人类癌症表达

62、谱分类人类癌症GliomageneexpressiondatausedinthisstudywereobtainedfromthepubliclyavailableGEO.AffymetrixHG-U133Plus2.0platform2448lncRNAtranscriptswithcorrespondingAffymetrixprobeIDsSignificanceAnalysisofMicroarrayswasusedtodeterminethedifferentiallyexpressedlncRNAs2-fold,FDR10%DifferentiallyexpressedlncRNA

63、probesetsbetweennormalbrainsandgliomasAtotalof129lncRNAprobesets(correspondingto102lncRNAs)identifiedassignificantlydifferentbetweennormalbraintissuesandgliomasbySAM.Blue-normalbraintissues;yellow-gliomasamples.三三、ncncRNARNA表达表达谱与谱与mRNAmRNA表达谱的整合分析表达谱的整合分析随随着着检检测测技技术术的的不不断断发发展展,生生物物学学资资源源的的大大量量涌涌现现,

64、生生物物信信息息学学研研究究者者已已经经不不仅仅仅仅局局限限于于使使用用一一种种数数据资源据资源整合整合整合多种类型的生物数据(如各种表达谱数据、互作整合多种类型的生物数据(如各种表达谱数据、互作网络、调控网络、网络、调控网络、SNP数据、表型数据等)来解决数据、表型数据等)来解决特定复杂的生物医学问题特定复杂的生物医学问题剖析重大疾病相关剖析重大疾病相关miRNA的调控机制和功能的调控机制和功能生物学证实生物学证实Target genesmiRNA功能功能1功能功能n功能功能2表型表型背景信息背景信息?HITS-CLIPItisclearthatmiRNAshavemanydifferent

65、targetsdozensinsomecases,hundredsinothersbutdependingonthecellsinvolved,itseemslikelythatonlyasmallnumberofthemhaveacrucialroleincancerpathogenesis.nature reviews genetics (2009)预测疾病背景下预测疾病背景下miRNAmiRNA调控的靶基因调控的靶基因数据数据mRNA表达谱表达谱miRNA表达谱表达谱miRNA-mRNA靶向关系靶向关系皮尔森相关系数皮尔森相关系数AhubmiRNAsignaturepredictssur

66、vivalinglioma前提假设前提假设miRNAsimplicatedinaspecifictumorphenotypewillshowaberrantregulationoftheirtargetgenesAkeydifferencefromothermethodsisthatweidentifieddysregulatednetworkedges(regulations)insteadofdysregulatednodes(miRNAs)toassembledisease-relatedsignatures.miRNAfamily的协同失调作用的协同失调作用包含三个包含三个miRNA家

67、族家族mir-125,mir-181和和mir-145家族家族最小的后验概率为最小的后验概率为77.4%,表明这些,表明这些miRNA和前列腺和前列腺癌相关癌相关这些基因富集的功能有这些基因富集的功能有pathwaysinprostatecancer,celladhesionandapoptosis等等 第五节第五节 复杂疾病非编码复杂疾病非编码RNARNA的计算识别的计算识别Section5ComputationalIdentificationofComplexDiseasesAssociatedNon-codingRNAs一、概述一、概述二、复杂疾病相关二、复杂疾病相关miRNAmiRNA

68、的的计算计算识别识别三、复杂疾病相关三、复杂疾病相关lncRNAlncRNA的的计算计算识别识别四、复杂疾病相关非编码四、复杂疾病相关非编码RNARNA数据资源数据资源一、概述一、概述系统地识别疾病相关的系统地识别疾病相关的ncRNA是在分子水平上理解是在分子水平上理解ncRNA诱导疾病的发病机制的前体,是为疾病诊断,诱导疾病的发病机制的前体,是为疾病诊断,治疗和预防设计有关特定分子工具的关键。治疗和预防设计有关特定分子工具的关键。通过实验方法通常只局限于单一或者少量的通过实验方法通常只局限于单一或者少量的ncRNA,难以从系统的角度研究疾病相关的,难以从系统的角度研究疾病相关的ncRNA。计

69、算生物学的方法成为解决这一问题的关键,为未计算生物学的方法成为解决这一问题的关键,为未来实验设计提供优先的对象。来实验设计提供优先的对象。基于基于miRNA-靶基因预测靶基因预测基于基于miRNA调控网络预测调控网络预测miRNA协同与复杂疾病协同与复杂疾病二、复杂疾病相关二、复杂疾病相关miRNAmiRNA的的计算计算识别识别基于基于miRNA-miRNA-靶基因预测靶基因预测虽然许多靶预测算法预测虽然许多靶预测算法预测miRNA靶基因,但是预测出靶基因,但是预测出来的来的miRNA靶基因列表具有很高的假阳性。靶基因列表具有很高的假阳性。Liu等人提出一个简单的算法识别癌症中异常调控等人提出

70、一个简单的算法识别癌症中异常调控miRNA-靶基因对,这些互作满足:靶基因对,这些互作满足:1)种子序列的完美匹配且在物种间具有保守性;种子序列的完美匹配且在物种间具有保守性;2)miRNA和靶基因在癌症样本中显著差异表达;和靶基因在癌症样本中显著差异表达;3)miRNA和靶基因在表达上呈现显著逆向相关。和靶基因在表达上呈现显著逆向相关。识别癌症相关的关键识别癌症相关的关键miRNA-靶互作成为一把理解靶互作成为一把理解miRNA在癌症发生在癌症发生机制机制的关键钥匙的关键钥匙Xiao等人通过阅读大量文献,构建已知癌症相关的等人通过阅读大量文献,构建已知癌症相关的miRNA-靶互作对,发现癌症

71、相关的关键靶互作对,发现癌症相关的关键miRNA-靶靶互作互作与与非疾病相关非疾病相关miRNA-靶互作靶互作相比:相比:癌症相关的关键癌症相关的关键miRNA-靶互作拥有更多的靶互作拥有更多的miRNA绑定位点绑定位点(尤其是尤其是8-mer结合位点结合位点)、更可靠的结合作用、更高的表达相关性和更广更可靠的结合作用、更高的表达相关性和更广泛的功能覆盖度泛的功能覆盖度ThePCmtImodel优化癌症相关的优化癌症相关的keymiRNAtargetinteractionsmiRNA-靶互作不同的特征,包括整合序列、表靶互作不同的特征,包括整合序列、表达和功能等多方面的基因组信息达和功能等多方

72、面的基因组信息SVM分类器分类器李等人提出了一种计算的方法,可以通过计算李等人提出了一种计算的方法,可以通过计算miRNAs靶基因和癌症基因之间的功能一致性得分靶基因和癌症基因之间的功能一致性得分(FCS)来衡量来衡量miRNAs和癌症之间的关联性。和癌症之间的关联性。miRNA通过控制一些在分子网络中起关键作用的编通过控制一些在分子网络中起关键作用的编码基因从而调控整个分子网络。码基因从而调控整个分子网络。miRNA倾向调控信号蛋白、代谢酶、互作网络倾向调控信号蛋白、代谢酶、互作网络HUB(互作关系多的蛋白互作关系多的蛋白)等一系列网络中起关等一系列网络中起关键作用的基因。键作用的基因。被被

73、miRNA靶向的基因也倾向被转录因子调控。靶向的基因也倾向被转录因子调控。miRNA1疾病疾病1miRNA2miRNA3疾病疾病2疾病疾病3miRNA1miRNA2miRNA3疾病疾病1疾病疾病2疾病疾病3ABC重大疾病中的重大疾病中的miRNA协同调控作用协同调控作用重大疾病中的重大疾病中的miRNA协同调控作用协同调控作用重大疾病中的重大疾病中的miRNA协同调控作用协同调控作用Nucleic Acids Research. Vol. 39, No. 3 825836, February 2011 miRNAmiRNA synergistic network: construction v

74、ia co-regulating functional modules and disease miRNA topological features*Juan Xu, Chuan-Xing Li, Yong-Sheng Li, Jun-Ying Lv, Ye Ma, Ting-Ting Shao, Liang-De Xu, Ying-Ying Wang, Lei Du, Yun-Peng Zhang, Wei Jiang, Chun-Quan Li, Yun Xiao and Xia Li*College of Bioinformatics Science and Technology, Ha

75、rbin Medical University, Harbin 150081, China被引用被引用81次,包括次,包括PNAS,Genomeresearch,FrontiersinGenetics,NucleicAcidsResearch,三、复杂疾病相关三、复杂疾病相关lncRNAlncRNA的的计算计算识别识别近些年,近些年,RNA-seq等高通量技术确定了大量等高通量技术确定了大量lncRNA的表达谱。的表达谱。组织特异的组织特异的lncRNA可以很容易的预测为和其特异表可以很容易的预测为和其特异表达的组织相关的疾病有关。对于非组织特异达的组织相关的疾病有关。对于非组织特异lncRN

76、A,则可以构建其和编码基因的共表达网络。,则可以构建其和编码基因的共表达网络。根据根据lncRNAlncRNA基因组位置预测基因组位置预测与与miRNA一样,一样,lncRNA和其临近的蛋白编码基因、和其临近的蛋白编码基因、miRNA等功能分子也具有功能相关性,因此,有相当等功能分子也具有功能相关性,因此,有相当大概率参与共同疾病。大概率参与共同疾病。LncRNADisease集成了该方法,通过输入目前集成了该方法,通过输入目前lncRNA的基因组位置,的基因组位置,LncRNADisease自动搜索和自动搜索和其临近或重叠的基因或其临近或重叠的基因或miRNA,并通过,并通过OMIM、HMDD等数据库确定该等数据库确定该lncRNA可能相关的人类疾病。可能相关的人类疾病。四、复杂疾病相关非编码四、复杂疾病相关非编码RNARNA数据资源数据资源

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号