文档详情

UCSC-操作步骤

cl****1
实名认证
店铺
DOCX
835.35KB
约31页
文档ID:466319997
UCSC-操作步骤_第1页
1/31

启动子区具有丰富的转录因子结合位点(transcription factor binding sites,TFBS),启动子序列基本上是由这些短序列组合而成,重要在TSS上游1kb的范畴内在TSS附近-60bp到+40bp是核心启动子 区,它对于精确转录是必须的最小单元对于一种已知基因的启动子可以在NCBI上查到其转录起始位点,并通过网上软件初步分析该基因启动子的大体序列及一 些顺式调控元件(分析时应把涉及整个基因涉及在内).ﻫ常用的预测工具有:软件神经网络启动子预测器 (NNPP,),ﻫPromoter scan (), ﻫDragon Promoter Finder (), Promoter2.0 Prediction Server () Soft Berry (), ﻫ网上还提供了某些常用基因的数据库:真核启动子数据库第85版(The Eukaryotic Promoter Database Current Release 85 ,EPD,)ﻫ转录起始位点数据库:,小鼠等常用生物的基因转录起始位点及该基因启动子的也许状况ﻫ通过初步分析后,还应通过实验的措施加以确认.涉及PCR步查法(对于某些短的启动子来说).如果预测目的启动子为长启动子,PCR步查较难时,也可采用 筛选基因组文库的措施,筛选阳性克隆子并送长的克隆去测序。

对某些核心的顺式调空元件可以通过凝胶阻滞实验(蛋白基因作用)来加以确认查询启动子的更多措施:1. UCSC(1)网址:在Genome里选择物种,例如human,search里输入你的基因名PTEN,点击Goﻫ(2)浮现新的页面,看到“Known Gene Names”下面的PTEN了吧,点它(3)又回到了和(1)类似的页面,此时,点击sequenceﻫ(4)浮现一种新的页面,选中promoter,同步可以输入数值修改具体的序列区域,例如Promoter including bases upstream and 100 downstream,即表达启动子-~+100区域ﻫ(5)点击“get sequence”,浮现页面中最上面的序列“>uc001kfb.1 (promoter 100) PTEN - phosphatase and tensin homolog”就是你要的人PTEN启动子-~+100区域的序列了 2、Ensembl(1)网址:在“Search Ensembl“标题下search后的下拉框中选中物种名homo sapiens(人),for框中输入基因名PTEN,点击Go(2)浮现的新页面中比较乱,但不要管它,直接寻找“Ensembl protein coding gene ”字样的,对,也就是第二个,点击它ﻫ(3)新浮现的页面也很乱,但是仍然不用管它,看到左侧有点肉色(实在不懂得怎么描述了)的那些选项了吗,对,就是“Your Ensembl”下面那一堆,在里面找“Genomic sequence”,点它ﻫ(4)目前的界面就一目了然了,在“5' Flanking sequence”中输入数值拟定启动子长度(默觉得600),例如1000,点击update;(5)浮现的序列中,标为红色的就是基因的外显子,红色之间黑色的序列就是内含子,而第一种红色自然就是第一外显子了,那么从开始的碱基始终到第一种红色的碱基间自然就是启动子-1000~+1的序列啦ﻫ这样,你不仅查到了启动子,连它的外显子、内含子序列也所有搞定了 ﻫ3、SIB-EPD(1)网址:ﻫ(2)具体使用措施大同小异,就是输入物种名、基因名,限定启动子序列区域ﻫ但是有了前两个,我想已经足够用了,个人感觉SIB-EPD的库容量太小,诸多基因查不到 总结一下:ﻫﻫﻫﻫensembl一般也和NCBI的一致,你的状况也许例外。

这就不清晰了ensembl有七个外显子也许有它自己的理由此外,NCBI的基因中gene库中同步有ensembl和genbank的链接,不如从这个链接看看此外,还可以看一看这个基因在物种间的同源性,以及其他物种有几种外显子,做为参照综合考虑一下  给你提供几种启动子区域查找的网站,慢慢摸索会学到更多的 果蝇的PROMOTER 2.0  ﻫ一般拟定启动子的算法可以提成两种,一种根据启动子区多种转录信号,如TATA 盒、CCAAT 盒,结合对这些保守信号及信号间保守的空间排列顺序的辨认进行预测如PROMOTER 2.0, 用神经网络措施拟定TATA 盒、CCAAT盒、加帽位点(cap site) 和GC 盒(GCbox) 的位置和距离, 辨认含TATA 盒的启动子 ﻫPROMOTER SCAN  ﻫ根据转录因子结合部位在基因组中分布的不平衡性,将转录因子结合部位分布密度与TATA 盒的权重矩阵(weight matrix) 结合起来,从基因组DNA中辨认出启动子区[3 ] 但上述程序预测的假阳性率较高,PROMOTER 210 每23kb 浮现一种假阳性;PRO2MOTER SCAN 平均每19kb 浮现一种假阳性。

 PromoterInspector  另一种措施根据启动子区序列的特性进行预测Promo2terInspector 从一组训练序列中提取出启动子区的环境特性,并将外显子、内含子和3’端非翻译区的特性与启动子区加以辨别,从而在基因组中拟定启动子位置初来乍到,发个技术贴了!!1、获取目的基因的mRNA序列,并且在NCBI的数据库中查获转录起始点2、截取转录起始点为中心,上下约各1000bp,若在此范畴内浮现CDS,可到翻译起始点终结ﻫ3、运用软件进行分析PromoterInspector  PromoterScan  ﻫPromoter 2.0  NNPP  ﻫEMBOSS Cpgplot  CpG Islands Prediction ﻫ本人是采用多种软件结合的措施,由于proscan和promoter 2.0的假阳性率较高,仅作为参照,而promoterinspector的特异性较高,成果比较可信同步,运用CpG岛预测,作为辅助参照4、最后,可以找到小鼠的同源区,进行同源性比较,启动子区域一定是高保守区5、到此,可以初步预测启动子区域的范畴了ﻫ请高手多多指教!!启动子预测:ﻫ转录因子预测:此处亦有好多,自己挑吧!ﻫ如下内容转自ﻫ启动子及转录因子结合位点数据库及预测工具ﻫPROMOTER FINDING AND ANALYSIS PROGRAMS ON THE INTERNET -------------------------------------------------------------------------------- ﻫTRANSPLORER (TRANScription exPLORER) Dnanalyze (TF mapping) Dragon Promoter Finder 1.2 (TSS finder and promoter region analysis) ﻫFunSiteP 2.1 ﻫHCtata (TATA signal prediction) McPromoter Ver.3 ﻫMatInspector (Search for TF binding sites) ModelGenerator and ModelInspector ﻫNNPP2.1 (TSS finder) PromoterInspector (Strand non-specific promoter region finder) ﻫPromoter2.0 (TSS finder) ﻫPromoter Scan II (Promoter region prediction) ﻫRGSiteScan Signal Scan (Search for Eukaryotic Transcriptional Elements) TESS (Search for Transcription Elements) ﻫTFSEARCH (Predicts TF binding sites based on TRANSFAC data) ﻫTRANSFAC (TF database and a number of associated programs) ﻫTSSG and TSSW PROMOTER 2.0  ﻫ一般拟定启动子的算法可以提成两种,一种根据启动子区多种转录信号,如TATA 盒、CCAAT 盒,结合对这些保守信号及信号间保守的空间排列顺序的辨认进行预测。

如PROMOTER 2.0, 用神经网络措施拟定TATA 盒、CCAAT盒、加帽位点(cap site) 和GC 盒(GCbox) 的位置和距离, 辨认含TATA 盒的启动子 ﻫPROMOTER SCAN  根据转录因子结合部位在基因组中分布的不平衡性,将转录因子结合部位分布密度与TATA 盒的权重矩阵(weight matrix) 结合起来,从基因组DNA中辨认出启动子区[3 ] 但上述程序预测的假阳性率较高,PROMOTER 210 每23kb 浮现一种假阳性;PRO2MOTER SCAN 平均每19kb 浮现一种假阳性 ﻫPromoterInspector  另一种措施根据启动子区序列的特性进行预测Promo2terInspector 从一组训练序列中提取出启动子区的环境特性,并将外显子、内含子和3’端非翻译区的特性与启动子区加以辨别,从而在基因组中拟定启动子位置 ﻫFirstEF  ﻫ近来尚有某些程序将上述措施与CpG 岛(CpG islands) 信息相结合CpG岛是一段200 bp 或更长的DNA 序列,核苷酸G + C 的含量较高,并且CpG双核苷酸的浮现频率占G+ C 含量的50 %以上。

许多脊椎动物的启动子区都与CpG岛的位置重叠FirstEF ( http :/ / rulai1cshl1org/ tools/ FirstEF/ ) 搜索通过5’UTR 定位技术构建的第一外显子数据库,辨认第一剪切点(first splicing donor site) ,结合CpG 岛信息,拟定启动子区这种措施使预测的敏感性和特异性都明显提高该程序预测含CpG岛的启动子的敏感性和特异性都高于90 % ,预测不含CpG岛的启动子的精确性相对略低 TRRD 数据库  收录了真核基因调控区构造和基因体现方式的信息,每个条目相应一种基因 ﻫ应用权重矩阵数据库搜索转录因子结合部位的程序涉及 ﻫSIGNAL SCAN  ﻫMatInspector  转录因子搜索程序( transcriptional factor search , ﻫTF2 SEARCH )  ﻫ等等尽管基于PWM 的搜索比较敏感,但它最大的缺陷就是假阳性率过高,在预测的成果中有诸多结合部位并不真正具有生物学功能 ﻫCOMPEL 数据库  经实验拟定的复合元件不多,COMPEL 数据库中收录了近200 条经实验拟定的复合元件的信息。

如果转录因子结合部位的预测成果中涉及复合元件,显然比单个元件更有也许具有生物学功能Co - Bind 程序通过建立两个转录因子结合部位的PWM 及其复合伙用的模型,可以预测序列中的复合元件尚有某些程序运用COMPEL 数据库中已知的复合元件去搜索基因组序列 Consensus ftp://beagle.colorado.edu/pub/consensus/ ﻫAlignACE  等是用来搜索高含量基序(overrepresented motif finding) 的某些算法,可以对一组基因簇中的基因调控区进行比较,以发现其中存在的高含量的基序,调控元件也许就存在于这些基序之中。

下载提示
相似文档
正为您匹配相似的精品文档