[生物学]第三章-生物信息数据库-检索及其应用(3)

上传人:woxinch****an2018 文档编号:45288366 上传时间:2018-06-15 格式:PPT 页数:109 大小:6.65MB
返回 下载 相关 举报
[生物学]第三章-生物信息数据库-检索及其应用(3)_第1页
第1页 / 共109页
[生物学]第三章-生物信息数据库-检索及其应用(3)_第2页
第2页 / 共109页
[生物学]第三章-生物信息数据库-检索及其应用(3)_第3页
第3页 / 共109页
[生物学]第三章-生物信息数据库-检索及其应用(3)_第4页
第4页 / 共109页
[生物学]第三章-生物信息数据库-检索及其应用(3)_第5页
第5页 / 共109页
点击查看更多>>
资源描述

《[生物学]第三章-生物信息数据库-检索及其应用(3)》由会员分享,可在线阅读,更多相关《[生物学]第三章-生物信息数据库-检索及其应用(3)(109页珍藏版)》请在金锄头文库上搜索。

1、GenBank数据库检索及其应用 Entrez检索功能马飞南京师范大学比较基因组学与生物信息学实验室提纲核酸数据库核酸数据库核酸序列数据库检索入口核酸序列数据库检索入口核酸序列数据库序列检索核酸序列数据库序列检索ENTREZENTREZ的使用的使用分子生物学数据库的应用n n可以分为两个主要方面可以分为两个主要方面 数据库查询数据库查询(database query)(database query) 数据库搜索数据库搜索(database search)(database search)。数据库查询n n定义:是指对序列、结构以及各种二次数据库中的注释信定义:是指对序列、结构以及各种二次数据库

2、中的注释信息进行关键词匹配查找。息进行关键词匹配查找。n n如:在蛋白质序列数据库如:在蛋白质序列数据库SwissProtSwissProt中输入关键词中输入关键词insulin(insulin(胰岛素胰岛素) ),即可找出该数据库所有胰岛素或与胰岛素有关,即可找出该数据库所有胰岛素或与胰岛素有关的序列条目的序列条目(Entry)(Entry)数据库检索n n它和互联网上通过搜索引擎它和互联网上通过搜索引擎(Search engine)(Search engine)查找需要的信查找需要的信息是一个概念。息是一个概念。n n是数据库查询的一种是数据库查询的一种数据库搜索n n定义:在分子生物信息

3、学中有特定含义,它是指通过特定义:在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。库中与检测序列具有一定程度相似性的序列。n n通过数据库搜索,可以在序列数据库中找出与该检测序通过数据库搜索,可以在序列数据库中找出与该检测序列列(query sequence)(query sequence)具有一定相似性的序列。具有一定相似性的序列。 数据库查询、检索和搜索 n n在生物信息学中,数据库搜索是专门针对核酸和蛋白质在生物信息学中,数据库搜索是专门针对核酸和蛋白质序列数

4、据库而言,搜索的对象,不是数据库的注释信息序列数据库而言,搜索的对象,不是数据库的注释信息,而是序列信息,而是序列信息n n数据库查询和数据库搜索在生物信息学中是两个完全不数据库查询和数据库搜索在生物信息学中是两个完全不同的概念,所要解决的问题、所采用的方法和得到的结同的概念,所要解决的问题、所采用的方法和得到的结果均不相同果均不相同核酸数据库序列查询系统GenBank 查询检索通过因特网上的序列查询系统(Entrez)服务完成。 NCBI的网址是:http:/www.ncbi.nlm.nih.govEMBL核酸序列数据库 查询检索通过因特网上的序列提取系统(SRS)服务完成。 数据库网址是:

5、http:/www.ebi.ac.uk/embl/。 SRS的网址是:http:/srs.ebi.ac.uk/。DDBJ数据库 使用主页上提供的SRS工具进行数据检索和序列分析,DDBJ 的网址是:http:/www.ddbj.nig.ac.jp/。序列数据库检索 EMBLEMBL:(Sequence (Sequence Retrieval System, SRS)Retrieval System, SRS)NCBINCBI:(:(EntrezEntrez)是)是NCBINCBI为用户提供整合的为用户提供整合的访问序列、定位、分类、访问序列、定位、分类、和结构数据的搜索和检索和结构数据的搜索和

6、检索系统。系统。 NCBIGenBankNCBI网站网址: http:/www.ncbi.nlm.nih.govGenBank数据库是由美国国立生物技术信息中心(NCBI)维护的一级核酸序列数据库。GenBank数据库的数据来源有三种:1、直接来源于测序工作者提交的序列;2、与其它数据机构协作交换的数据;3、美国专利局提供的专利数据。简介检索界面简介1、基本检索界面Nucleotide 数据库分为三个子数据库:n nEST :EST :表达序列标记数据库表达序列标记数据库n nGSS :GSS :基因组测序序列数据基因组测序序列数据 库库n nCoreNucleotideCoreNucleot

7、ide : :包含所有包含所有 未被以上两个子数据库收未被以上两个子数据库收 录的核苷酸序列录的核苷酸序列检索界面简介1、基本检索界面2、跨库检索界面简介 检索界面 基本检索功能(一)字段限制检索、强制短语检索(二)特殊标志符检索(四)范围检索(三)序列长度检索简介 检索界面 基本检索功能(一)字段限制检索、强制短语检索rasrasGENE检索限定词:1 1、基因名称的检索限定词:、基因名称的检索限定词:GENE or GENE NAMEGENE or GENE NAME2 2、生物体名称的检索限定词:、生物体名称的检索限定词:ORGN or ORGANISMORGN or ORGANISM3

8、 3、作者姓名的检索限定词:、作者姓名的检索限定词:AUTH or AUTHORAUTH or AUTHOR简介 检索界面 基本检索功能(二)特殊标志符检索(一)字段限制检索、强制短语检索特殊标志符的格式(核酸序列) :1、序列辨认号(GI):一串阿拉伯数字e.g.:19440733特殊标志符的格式(核酸序列) :2 2、GenBankGenBank/EMBL/DDBJ/EMBL/DDBJ序列接受号:序列接受号:(1)1(1)1个字母个字母+5+5个阿拉伯数字个阿拉伯数字e.g.e.g.:U12345U12345(2)2 (2)2个字母个字母+6+6个阿拉伯数字个阿拉伯数字e.g.e.g.:A

9、Y123456AY123456,Af123456Af1234561、序列辨认号(GI):一串阿拉伯数字e.g.:19440733(1)mRNA 记录(NM_*):e.g.:NM_000492(2)基因组的DNA重叠群(NT_*):e.g.:NT_000347(3)完整的基因组或染色体(NC_*):e.g.:NC_000907(4)基因组的局部区域(NG_*):e.g.:NG_000019(5)从人类基因组注释、加工得到的序列模型(XM,XP,or XR_*):e.g.:XM_000483特殊标志符的格式(核酸序列):3、RefSeq(Reference Sequence)序列接受号:特殊标志符

10、的格式特殊标志符的格式(核酸序列):(核酸序列):4 、 PDB序列接受号:个阿拉伯数字个字母e.g.:TUP序列接受号的检索限定词为ACCNorACCESSION简介 检索界面 基本检索功能(一)字段限制检索、强制短语检索(二)特殊标志符检索(三)序列长度检索序列长度的检索限定词:SLEN1510SLEN简介 检索界面 基本检索功能(一)字段限制检索、强制短语检索(二)特殊标志符检索(四)范围检索(三)序列长度检索范围检索:中间用冒号连接1 1、序列接受号范围检索:、序列接受号范围检索:AF114696:AF114714ACCNAF114696:AF114714ACCN2 2、序列长度范围检

11、索:、序列长度范围检索:30003000:4000SLEN4000SLEN3 3、日期范围检索:、日期范围检索:2005/012005/01:2006/09/26MDATorPDAT2006/09/26MDATorPDAT简介 检索界面 基本检索功能 特征栏辅助检索限制检索(Limits)索引检索(Preview/Index)检索史管理(History)剪贴板管理(Clipboard)详细匹配过程(Details)限制检索检索史管理预检索/索引检索剪贴板管理详细匹配过程限制检索包含其余四种检索简介 检索界面 基本检索功能 特征栏辅助检索限制检索(Limits)限制检索范围限制检索范围排除某种类

12、型 的序列限制分子类型限制分子类型限制基因位点限制基因位点限制序列片段的显示限制序列片段的显示限制数据来源限制数据来源限制数据发布日期限制数据发布日期限制数据修订日期限制数据修订日期简介 检索界面 基本检索功能 特征栏辅助检索限制检索(Limits)索引检索(Preview/Index)索引检索输入框序列特性关键词索引简介 检索界面 基本检索功能 特征栏辅助检索限制检索(Limits)索引检索(Preview/Index)检索史管理(History)简介 检索界面 基本检索功能特征栏辅助检索限制检索(Limits)索引检索(Preview/Index)检索史管理(History)剪贴板管理(C

13、lipboard)简介 检索界面 基本检索功能 特征栏辅助检索限制检索(Limits)预检索/索引检索(Preview/Index)检索史管理(History)详细匹配过程(Details)剪贴板管理(Clipboard)简介检索入口基本检索功能特征栏辅助检索检索结果的显示GenBank记录中特性表中的主要关键词:关键词关键词解解 释释关键词关键词解解 释释misc_featuremisc_feature生物学特性无法用特性表关生物学特性无法用特性表关 键词描述的序列键词描述的序列promoterpromoter转录起始区转录起始区misc_differencemisc_difference序

14、列特性无法用特性表关键序列特性无法用特性表关键 词描述的序列词描述的序列CAAT_signalCAAT_signal真核启动子上游的真核启动子上游的CAATCAAT盒盒, , 与与RNARNA结合相关结合相关 conflictconflict同一序列在不同的研究中在同一序列在不同的研究中在 位点或区域上有差异位点或区域上有差异TATA_signalTATA_signal真核启动子的真核启动子的TATATATA盒盒unsureunsure序列不能确定的区域序列不能确定的区域-35_signal-35_signal原核启动子中的原核启动子中的-35-35框框old_sequenceold_sequ

15、ence该序列对以前的版本做过修该序列对以前的版本做过修 订订-10_signal-10_signal原核启动子的原核启动子的PribowPribow盒盒variationvariation包含稳定突变的序列包含稳定突变的序列GC_signalGC_signal真核启动子的真核启动子的GCGC盒盒modified_basemodified_base修饰过的核苷酸修饰过的核苷酸RBSRBS核糖体结合位点核糖体结合位点genegene已识别为基因或已命名的序已识别为基因或已命名的序 列区域列区域polyA_signalpolyA_signalRNARNA转录本的剪切识别位点转录本的剪切识别位点mi

16、sc_signalmisc_signal无法用信号特性关键词描述无法用信号特性关键词描述 的信号序列的信号序列enhancerenhancer增强子增强子关键词关键词解解 释释关键词关键词解解 释释attenuatorattenuator与转录终止有关的序列与转录终止有关的序列CDSCDS蛋白质编码序列蛋白质编码序列terminatorterminator转录终止序列转录终止序列sig_peptidesig_peptide编码信号肽的序列编码信号肽的序列rep_originrep_origin双链双链DNADNA复制起始区复制起始区transit_peptidetransit_peptide转运蛋白编码序列转运蛋白编码序列misc_RNAmisc_RNA无法用无法用RNARNA关键词描述的关键词描述的 转录物或转录物或RNARNA产物产物mat_peptid

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 机械/制造/汽车 > 汽车维修/保养

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号