Uniprot蛋白数据库备课讲稿

资源描述

《Uniprot蛋白数据库备课讲稿》由会员分享，可在线阅读，更多相关《Uniprot蛋白数据库备课讲稿（23页珍藏版）》请在金锄头文库上搜索。

1、Uniprot蛋白数据库之前世界上最广泛使用的蛋白数据库为瑞士的SWISS PROT计划建立的数据库 NHGRI的项目主任PeterGood介绍说但由于编辑详细蛋白结构数据库时间紧迫再加上资金短缺 SWISS PROT无法跟上基因组学飞速前进的步伐 Good说这种形势导致了TrEMBL的产生这是计算机注释的SWISS PROT分支数据库目的是暂时储存日益增多的蛋白质结构信息另外美国的蛋白信息资源 ProteinInformationResource PIR 也独立编辑其自己的数据库后来这三个计划的领导人将展开合作将三大数据库合并为一个联合起来的力量将减少重复工作由

2、此也可以节省不必要的费用 SWISS PROT的领导人英国剑桥欧洲生物信息研究院的RolfApweiler说道 UniProt将是SWISS PROT TrEMBL和PIR三大数据库的最佳整合一个集中化的数据库十分重要密歇根大学的肿瘤学家SamirHanash对此表示同意他同时也是人类蛋白组组织 HumanProteomeOrganisation 的主席然而 Hanash提醒说 UniProt只是一个开始还需要建立其它的数据库来储存有关蛋白质何时何处在机体中活动的信息他说 2002年这句话不仅代表了Uniport数据库也是代表了整个生物信息学科研本就是站在巨人的肩膀上发展的

3、那么这个肩膀也得与时俱进了 Uniport的前世今生蛋白质序列从哪里来由UniProtKB提供的超过95 的蛋白质序列来源于已经提交给公共核酸数据库 EMBL Bank GenBank DDBJ数据库 INSDC 的编码序列 CDS 的翻译所有这些序列以及作者提交的相关数据都自动整合到UniProtKB TrEMBL中除翻译的CDS之外 UniProtKB蛋白质序列可以来自 1 在PDB数据库 2 通过直接蛋白质测序实验获得的序列通过Edman降解或MS MS实验并提交给UniProtKB Swiss Prot 只有约5 的UniProtKB Swiss Prot条目包含通过直接蛋白

4、质测序获得的序列数据具有关键字的条目列表 Directproteinsequencing 3 从文献 igPRF或其他期刊扫描项目扫描的序列 4 从基因预测没有提交的序列EMBL Bank GenBank登录 DDBJ 5 序列来源于内部基因预测在非常特殊的情况下 Uniprot主要功能查询蛋白质序列以及其他多种信息查询蛋白质组找相似的蛋白质对比多种蛋白质序列查询蛋白质相关文献网站的网址为http www uniprot org 先来看看全景图吧这个数据库可以大致分为6个主题部分如上图红框所示1 UniProtKB 2 UniRef 3 UNIParc 4 Proteomics

5、 5 Supportingdata 6 检索区这次我们先游览第一个主题也是最经典的部分其实其他的主题我自己还没有完全搞明白 1 UniProtKB UniversalProteinKnowledgebase 它是经过专家校验的数据集又分成两部分绿框部分不用担心这些都是免费的不是那种滥收费园中园 1 1 Swiss Prot 经过人工检查校验的条目高质量的人工注释的非冗余的数据集主要来自文献中的研究成果和E value校验过的计算分析结果截止到昨天Swiss Prot包含556 196条记录 2010年8月10日有519 348条记录 7年后增加了3万多条记录评价每

6、天大约10几条记录速度还是比较慢的 1 2 TrEMBL 计算机自动注释的未经人工校验的条目该数据主要是利用计算机对大量基因组数据流进行分析注释人工校验速度暂时无法跟上数据的产生速度截止到昨天2017年03月19日TrEMBL包含98 705 220条记录 2010年8月10日有110 636 205条记录 7年后数据量减少了很多估计是去掉了很多重复的数据另外大家会注意到这里的数据是Swiss Pro数据的100多倍进入方式多种多样 1 主页默认的入口就是UniProt 2 可以直接点击红框1区域进入 3 也可以通过点击红框6 系统会弹出下拉菜单如图2所示选择UniProt红

7、框1即可进入检索区主要是为了让有经验同学快速找到自己感兴趣的蛋白质可以按照蛋白质的名称序列 ID号等方式检索红框1区是对这个主题区域的简要介绍红框2区可以让游客根据自己的喜好来显示蛋白质数据比如可以只显示经过人工校验的条目可以只看专属于某个物种的蛋白质还可以检索物种分类还有直接快速进入UniRef的通道以及视频化的帮助演示文件红框3区是主题区这里列出了所有UniProt数据库的蛋白质条目因为数据太多这个数字其实是Swiss Pro与TrEMBL两部分的总和每页显示25条您可以自己选择每页的显示数目10 25 50 100或200 Entry 是UniProt的给

8、每个蛋白质赋予的独一无二的ID号Entryname 是蛋白ID简要名字Proteinnames 蛋白质的名字Genenames 编码这个蛋白的Gene名字Organism 蛋白质的种属来源Length 氨基酸长度首先sp表示 Swiss Prot数据库是注释精炼的蛋白序列库它的所有序列都经过了科学家的查阅文献核实 reviewed manuallyannotated P02769是蛋白在uniprot上的ID号即蛋白的身份证号 ALBU BOVIN是蛋白在uniprot上的登录名跟P02769是一个作用 Serumalbumin是蛋白名称即蛋白的姓名啦 OS表示Organism 也就

9、是物种名称数据库中的物种名称一般为拉丁名称牛血清白蛋白Bostaurus当然是牛的拉丁 GN表示genename 即基因名称PE表示ProteinExistence 即蛋白的可靠性 PE 1 2 3 4 5分别对应如下可以看出数字越小可靠性越高 1 Experimentalevidenceatproteinlevel蛋白质水平实验证据2 Experimentalevidenceattranlevel转录水平实验证据3 Proteininferredfromhomology从同源蛋白质推断4 Proteinpredicted蛋白质预测5 Proteinuncertain蛋白质不确定SV表示

10、SequenceVersion 即序列版本即蛋白的身份证第二代第三代这里需要指出的是除了sp 有时还会出现TR 红框2区只看专属于某个物种的蛋白质红框3区第一行tBLAST 这个按钮可以让你用感兴趣的蛋白质序列做BLAST分析就是查一下在UniProt数据库中还有哪些蛋白质的氨基酸序列与你感兴趣的蛋白质相同或相似别小瞧这个功能知道哪些蛋白与目的蛋白序列相似就有可能知道这个蛋白具有哪些生物系功能如果恰好还有其他相似蛋白的结构信息就能帮助你大致知道这个蛋白的空间结构使用这个功能必须先选中只能选中一个蛋白质 iAlign tBLAST是对单个蛋白序列与数据库数据进行比对

11、iAlign可以让你对多个蛋白质的序列之间进行相似性比对这种分析可以让你找到这些蛋白之间的结构保守区域还可以根据蛋白质的相似性分析这些蛋白之间的亲缘关系进化的先后顺序等基本局部比对搜索工具 Download 这个容易理解您可以下载蛋白的序列数据可以下载选中的蛋白也可以下载全部蛋白做蛋白质组学分析的人经常用否则没有必要全部下载不过有时候最好定期下载更新一下还是很有必要的下载的格式也多种多样比如FASTA Text Excel XML List等如果数据量大还可以选择压缩以后下载 bAddtobasket 这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备

12、后期使用最多可以加400条数据呵呵这个不是超市的购物篮是不收费的 eColumns 这个可以让您定制蛋白数据列信息就是自己定制显示哪些列信息这个内容非常多包括名称和分类学信息序列信息氨基酸长度分子量 SNP等功能信息 ECnumber 信号通路活性位点各种结合位点等相互作用信息表达信息亚细胞定位信息翻译后修饰结构家族及结构域信息序列信息太多了感兴趣的自己进去看吧 bAddtobasket 这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用最多可以加400条数据呵呵这个不是超市的购物篮是不收费的 UniProt参考群集 Uni

13、Ref 提供来自UniProt知识库包括同种型和选定的UniParc记录的序列集合集合以便以多种分辨率获得对序列空间的全面覆盖同时从视图中隐藏冗余序列但不包括其描述与UniParc不同序列片段被合并到UniRef中 UniRef100数据库将具有来自任何生物体的11个或更多残基的相同序列和亚片段组合成单个UniRef条目显示代表性蛋白质的序列所有合并的登录号条目和链接到相应的UniProtKB和UniParc记录 UniRef90是通过用UniRef100序列对11个或更多残基进行聚类而构建的CD HIT算法 LiW 和GodzikA Bioinformatics 22 16

14、58 1659 2006 使得每个簇由与最长序列 aka 具有至少90 序列同一性和80 种子序列同样 UniRef50是通过对UniRef90种子序列进行聚类构建的这些序列与聚类中最长的序列具有至少50 的序列同一性并且具有至少80 的重叠性在2013年之前没有重叠阈值所以簇的长度更加不均匀 UniRef90和UniRef50产生的数据库大小分别减少约58 和79 提供显着更快的序列相似性搜索种子序列是群集中最长的成员然而最长的序列并不总是最丰富的其他集群成员往往有更多的生物相关信息名称功能交叉引用 UniParc是一个主要的序列库是一个全面的存储库它反映了所有

15、蛋白质序列的历史联合研究中心为所有来自不同来源的新的和经过修改的蛋白质序列提供了所有的信息以确保完整的覆盖在一个单一的站点它包括不仅UniProtKB还翻译从EMBL Bank DDBJ基因库核苷酸序列数据库运用数据库的真核基因组 H Invitational数据库 H Inv 国际蛋白质指数 IPI 蛋白质数据库 PDB 蛋白质研究基金会脉冲 NCBI年代的参考序列集合 RefSeq 数据库模式 SGD TAIR拟南芥和WormBaseTROME和蛋白质序列为了避免冗余序列被作为字符串处理所有序列在整个长度上都是完全相同的不管源组织是什么新的和更新的序列每天都被加载交叉

16、引用源数据库的加入号并提供一个序列版本在对底层序列的更改上增加每个UniParc条目中存储的基本信息是标识符序列循环冗余检查号源数据库 s 和添加和版本号以及时间戳 UniProt提供了几组被认为由其基因组已被完全测序的有机体表达的蛋白质被称为蛋白质组在过去这些集合是基于生物分类学结合关键词完整蛋白质组但随着越来越多的同一生物体的基因组正在测序我们引入了独特的蛋白质组标识符来区分个体蛋白质组这些蛋白质组可以从UniProt网站的Proteomes部分查询和下载作为蛋白质组的一部分的UniProtKB条目与其蛋白质组相互参照文献引用分类亚细胞定位亚细胞定位是指某种蛋白或表达产物在细胞内的具体存在部位例如在核内胞质内或者细胞膜上存在 GFP是绿色荧光蛋白在扫描共聚焦显微镜的激光照射下会发出绿色荧光从而可以精确地定位蛋白质的位置交叉引用数据库 UniProtKB条目的交叉引用部分显示数据库的显式和隐式链接例如核苷酸序列数据库模型生物数据库以及基因组学和蛋白质组学资源一个条目可以交叉引用几十个不同的数据库并有几百个单独的链接疾病涉及蛋白质

展开阅读全文

Uniprot蛋白数据库备课讲稿

最新文档