生物信息学资源检索

资源描述

《生物信息学资源检索》由会员分享，可在线阅读，更多相关《生物信息学资源检索（54页珍藏版）》请在金锄头文库上搜索。

1、第八章第八章生物信息学资源检索生物信息学资源检索 2021/6/1612生物信息学数据库概述生物信息学数据库概述一一生物信息学数据库的类型生物信息学数据库的类型二二生物信息数据收集与存贮生物信息数据收集与存贮三三生物信息学数据库的查找生物信息学数据库的查找2021/6/1623一、生物信息学数据库的类型一、生物信息学数据库的类型文献数据库文献数据库突变数据库突变数据库图谱数据库图谱数据库结构数据库结构数据库序列数据库序列数据库类型类型按收录信息内容分按收录信息内容分 2021/6/1634二、生物信息数据收集与存贮二、生物信息数据收集与存贮（一）生物信（一）生物信息数据的收集

2、息数据的收集生物信息数据生物信息数据收集与存贮收集与存贮（二）生物信（二）生物信息数据的存贮息数据的存贮 2021/6/1645（一）生物信息数据的收集（一）生物信息数据的收集数据库与数据库合作数据库与数据库合作数据库与测序中心合作数据库与测序中心合作数据库与期刊合作数据库与期刊合作建库的初期建库的初期 4数据交换数据交换 3成批发送成批发送 2直接发送直接发送 1人工收集人工收集 2021/6/1656（二）生物信息数据的存贮（二）生物信息数据的存贮1记录格式记录格式主要有：主要有：EMBL格式、格式、GenBank格格式式存贮格式存贮格式2序列格式：序列格式： FASTA格式，格式

3、，又称又称Pearson格式格式 2021/6/166三、生物信息学数据库的查找三、生物信息学数据库的查找 v通过搜索引擎查找通过搜索引擎查找 v通过专门的生物信息学数据库目录查询通过专门的生物信息学数据库目录查询从2000年开始，Nucleic Acids Research 设立了一个数据库目录（http:/www.oxfordjournals.org/nar/database/c/）。 v通过生物信息学中心资源导航查询通过生物信息学中心资源导航查询一些著名的生物信息学中心不仅自己建立和维护大量的生物信息数据库，而且一般在网上提供资源导航。 2021/6/1678核酸序列数据库核酸序列数据库

4、vGenBank ：由美国国家生物技术信息中心由美国国家生物技术信息中心(NCBI)管理和维护大型、综合性的公共核酸管理和维护大型、综合性的公共核酸序列数据库，包括所有已知的核酸序列和蛋白序列数据库，包括所有已知的核酸序列和蛋白质序列，以及与它们相关的文献和生物学注释。质序列，以及与它们相关的文献和生物学注释。 v网址：网址： http:/www.ncbi.nlm.nih.gov/Genbank/index.html2021/6/1689国际核酸序列数据库协作体国际核酸序列数据库协作体 INSDCINSDC DDBJDDBJ EMBLEMBL GenBankGenBank 2021/6/169

5、GenBank检索检索 vEntrez是是NCBI生物信息学数据库集成检索系统，生物信息学数据库集成检索系统，可以检索以下生物信息学数据库。可以检索以下生物信息学数据库。 2021/6/1610v例如，查找例如，查找H1N1流感病毒（流感病毒（H1N1 Flu Virus）的核酸序列。其检索步骤是：）的核酸序列。其检索步骤是： 2021/6/1611（1）进入）进入Entrez主页（主页（http:/www.ncbi.nlm.nih.gov/gquery/），在），在提问框输入提问框输入H1N1 Flu Virus。 2021/6/1612 （2）点击）点击“GO”，得到各个数据库的检索结果。

6、，得到各个数据库的检索结果。2021/6/1613（3）点击）点击“Nucleotide: Core subset of nucleotide sequence records”，得到，得到GenBank核酸序列数据库中的核酸序列数据库中的4801条记录简要格式（条记录简要格式（Summary）。）。2021/6/1614(4）点击记录的标题，即可获取该记录的详细信息。）点击记录的标题，即可获取该记录的详细信息。2021/6/161516蛋白质数据库蛋白质数据库一一蛋白质序列数据库蛋白质序列数据库二二蛋白质结构数据库蛋白质结构数据库三三蛋白质功能数据库蛋白质功能数据库2021/6/161

7、617一、蛋白质序列数据库一、蛋白质序列数据库（三）（三）TrEMBL （四）（四）GenPept （二）（二）SWISS-PROT （一）（一）PIR （五）（五）UniProt （六）（六）OWL 2021/6/1617（一）（一）PIR v创建于建于1984年。年。 v1988年，美国年，美国NBRF、日本国、日本国际蛋白蛋白质信息数据信息数据库（Japan International Protein Information Database, JIPID）与）与德国的慕尼黑蛋白德国的慕尼黑蛋白质序列信息中心（序列信息中心（Munich Information Center for P

8、rotein Sequences, MIPS）合作成立国）合作成立国际蛋白蛋白质序序列信息中心（列信息中心（PIR-International）。）。v第第75.03版的版的PIR数据数据库按照数据的性按照数据的性质和注和注释详略分成四个子略分成四个子库：PIR1、PIR2、PIR3和和PIR4。PIR1中的序列已经验证，注释最为详尽；PIR2中包含尚未确定的冗余序列；PIR3中的序列尚未加检验，也未加注释；PIR4包括其他渠道获得的序列，既未验证，也无注释。v网址：网址：http:/pir.georgetown.edu/2021/6/1618PIR主主页2021/6/1619（二）（二）SW

9、ISS-PROTv创建于创建于1986年年v由瑞士生物信息学研究所（由瑞士生物信息学研究所（Swiss Institute of Bioinformatics，SIB）和欧洲生物信息研究所）和欧洲生物信息研究所（EBI）共同维护和管理。）共同维护和管理。 v1994年，年，SIB创建蛋白质专家分析系统创建蛋白质专家分析系统(Expert Protein Analysis System，ExPASy) (http:/www.expasy.Ch)，除了开发、维护和管理，除了开发、维护和管理SWISS-PROT数据库外，还提供蛋白质序列、结构、数据库外，还提供蛋白质序列、结构、功能和蛋白质功能和蛋白

10、质2D-PAGE图谱等蛋白质信息资源图谱等蛋白质信息资源v到到2009年年10月，月，SWISS-PROT（57.11版）收录了版）收录了512994条序列，包含条序列，包含180531504个氨基酸。个氨基酸。v网址：网址：http:/expasy.org/sprot/ 2021/6/1620（三）（三）TrEMBL v创建于建于1996年，意即年，意即“Translation of EMBL”，是，是计算机翻算机翻译并注并注释的蛋白的蛋白质序列数据序列数据库，收，收录的序列是从的序列是从EMBL中的中的cDNA序列翻序列翻译得到的。得到的。记录采用采用SWISS-PROT数据数据库格格式。

11、式。vTrEMBL分分为两个部分：两个部分：SP-TrEMBL和和REM-TrEMBL。SP-TrEMBL的条目已经专家分类并且给予SWISS-PROT存取号，但尚未通过人工审查，最终将收入SWISS-PROT。REM-TrEMBL包含其他剩余序列，主要是免疫球蛋白、T细胞受体、少于8个氨基酸碱基的多肽、人工合成序列、专利序列等。 vhttp:/www.ebi.ac.uk/trembl/ 2021/6/1621（四）（四）GenPept v由由GenBank中的中的cDNA序列翻序列翻译得到的蛋白得到的蛋白质序列数据序列数据库。 v网址：网址：ftp:/ncbi.nlm.nih.gov/gen

12、bank/genpept/）2021/6/1622（五）（五）UniProt v将将PIR 、SWISS-PROT和和TrEMBL3个蛋白个蛋白质数据数据库统一起来一起来组建而成，包含建而成，包含3个部分：个部分：（1）UniProt Knowledgebase（UniProtKB），这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库，记录经过人工筛选和注释；（2）UniRef （UniProt Non-redundant Reference）数据库，将密切相关的蛋白质序列组合到一条记录中，以便提高搜索速度；目前，根据序列相似程度形成3个子库，即UniRef100、UniRef90和UniRe

13、f50；（3）UniParc（UniProt Archive），是UniProt存档库，收录所有蛋白质序列。用户可以通过文本查询数据库，可以利用BLAST程序搜索数据库，也可以直接通过FTP下载数据。 v网址：网址：http:/www.uniprot.org/2021/6/1623（六）（六）OWL v1994年由英国里年由英国里兹（Leeds）大学和）大学和Warrington的的Daresbury国家国家实验室合作室合作创建并建并维护的一个复合型数据的一个复合型数据库。v数据来源于数据来源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等数据等数据库

14、，去，去重后整合而成的非冗余蛋白重后整合而成的非冗余蛋白质序列数据序列数据库。v网址：网址：http:/www.bioinf.manchester.ac.uk/dbbrowser/OWL/index.php 2021/6/1624小结：小结：vSWISSPROT的序列经过严格审核，注释完善，但数的序列经过严格审核，注释完善，但数量仍较少。量仍较少。vPIR数据量较大，但包含未经验证的序列，注释也不完数据量较大，但包含未经验证的序列，注释也不完善。善。vTrEMBL和和GenPept的数据量最大，且随核酸序列数的数据量最大，且随核酸序列数据库的更新而更新，但是由于据库的更新而更新，但是由于TrE

15、MBL和和GenPept均是均是由核酸序列经过计算机程序翻译生成的，这两个数据库中由核酸序列经过计算机程序翻译生成的，这两个数据库中的序列错误率较大，并存在较多的冗余序列。的序列错误率较大，并存在较多的冗余序列。vOWL中的序列虽具有较好的代表性，但采用某些标准中的序列虽具有较好的代表性，但采用某些标准取舍序列，导致某些数据不完整。取舍序列，导致某些数据不完整。vUniProt中的序列具有较好的代表性，数据较完整。中的序列具有较好的代表性，数据较完整。 2021/6/162526二、蛋白质结构数据库二、蛋白质结构数据库（三）（三）DSSP （四）（四）HSSP （二）（二）MMDB （一）（

16、一）PDB （五）（五）SCOP （六）（六）CATH 2021/6/1626（一）（一）PDBv创建于创建于1971年，是国际上最著名、最完整的蛋年，是国际上最著名、最完整的蛋白质三维结构数据库。白质三维结构数据库。v最先由美国最先由美国Brookhaven国家实验室负责维护和国家实验室负责维护和管理，从管理，从1998年开始，由结构生物信息学合作年开始，由结构生物信息学合作研究协会研究协会(RCSB)负责管理。负责管理。v到到2009年年12月统计，月统计，PDB数据库已经收录了利数据库已经收录了利用用X线衍射、线衍射、NMR、电子显微镜实验数据或理论、电子显微镜实验数据或理论计算得出的蛋

17、白质、核酸、蛋白质计算得出的蛋白质、核酸、蛋白质/核酸复合物核酸复合物等结构数据等结构数据61808条，而且数据增长速度相当快。条，而且数据增长速度相当快。 2021/6/1627vPDB数据数据库以文本文件格式存放数据，每条以文本文件格式存放数据，每条记录即是一个独立的文件，包括物种来源、化合物即是一个独立的文件，包括物种来源、化合物名称、原子坐名称、原子坐标、结构提交者以及有关文献等基构提交者以及有关文献等基本注本注释信息。信息。v此外，此外，还包括分辨率、包括分辨率、结构因子，温度系数、主构因子，温度系数、主链数目、配体分子式、金属离子、二数目、配体分子式、金属离子、二级结构信息、构信息

18、、二硫二硫键位置等和位置等和结构有关的数据。构有关的数据。v网址：网址：http:/www.rcsb.org/pdb/home/home.do 2021/6/1628PDB主主页2021/6/16292021/6/163031三、蛋白质功能数据库三、蛋白质功能数据库（三）（三）STRING （二）（二）DIP （一）（一）BOND （四）（四）KEGG 2021/6/1631（一）（一）BOND vBOND是生物分子网络数据库，创建于是生物分子网络数据库，创建于2005年，由年，由Unleashed Informatics公司管理和维护。公司管理和维护。v主要收录生物分子及其蛋白质序列、结构

19、和相互作用等数主要收录生物分子及其蛋白质序列、结构和相互作用等数据，其中生物分子包括蛋白质、据，其中生物分子包括蛋白质、DNA、RNA、配基、复、配基、复合体、基因、光子（合体、基因、光子（photon）等。）等。vBOND集成了多个重要数据库，如集成了多个重要数据库，如BIND（生物分子相互（生物分子相互作用网络数据库作用网络数据库)、SMID（小分子相互作用数据库）、（小分子相互作用数据库）、Genbank、GO（基因本体）、（基因本体）、OMIM、conserved domains（保守功能域）、交叉参考数据库、完整基因（保守功能域）、交叉参考数据库、完整基因组等。组等。v网址：网址：h

20、ttp:/ 2021/6/1632BOND主页主页2021/6/1633（二）（二）DIP vDIP专门存放存放实验确定的蛋白确定的蛋白质之之间相互作用的数据，既相互作用的数据，既包括包括经典典实验手段确定的蛋白手段确定的蛋白质相互作用，也包括高通量相互作用，也包括高通量实验手段确定的蛋白手段确定的蛋白质相互作用数据。相互作用数据。v数据要数据要经过人工人工审核和采用核和采用计算方法自算方法自动验证后加入数据后加入数据库。数据的自。数据的自动验证有有3种指种指标，即，即EPR Index、PVM Score和和DPV Score。v在目前缺乏蛋白在目前缺乏蛋白质相互作用数据金相互作用数据金标准

21、的准的现实情况下，情况下，DIP为采用采用计算的方法自算的方法自动验证高通量技高通量技术产生的蛋白生的蛋白质相互作用数据做了开拓性的工作。相互作用数据做了开拓性的工作。vDIP还利用利用XML技技术专门开开发了一种用来存放和交了一种用来存放和交换蛋蛋白白质相互作用数据的相互作用数据的xin格式。格式。v网址：网址： http:/dip.doe-mbi.ucla.edu/2021/6/1634（三）（三）STRING vSTRING不不仅存存贮实验确定的蛋白确定的蛋白质相互作用数据，而相互作用数据，而且且还存存贮预测的蛋白的蛋白质相互作用数据，并相互作用数据，并对各种各种预测方法方法的准确性的准

22、确性给出了相出了相应的的权重，重，对于采用于采用经典典实验方法研究方法研究蛋白蛋白质的功能、生物学意的功能、生物学意义具有非常重要的意具有非常重要的意义。v数据来源有数据来源有4种，一是高通量种，一是高通量实验技技术产生的蛋白生的蛋白质相互相互作用数据，二是由保守的共表达数据推作用数据，二是由保守的共表达数据推导出的蛋白出的蛋白质功能功能联系，三是文献搜索得到的蛋白系，三是文献搜索得到的蛋白质相互作用数据，四是采相互作用数据，四是采用用预测蛋白蛋白质相互作用的方法，根据基因相互作用的方法，根据基因组中基因的上下中基因的上下文关系（文关系（genomic context）预测得到的蛋白得到的蛋白

23、质相互相互作用数据。作用数据。v目前目前STRING数据数据库已已经包括包括179个物种中的个物种中的736429个蛋白，覆盖率相当高。个蛋白，覆盖率相当高。 v网址：网址：http:/string.embl.de/2021/6/1635（四）（四）KEGG v京都基因和基因组百科全书京都基因和基因组百科全书(KEGG)是系统分析基因功能，是系统分析基因功能，联系基因组信息和功能信息的知识库。联系基因组信息和功能信息的知识库。v基因组信息存贮在基因组信息存贮在GENES数据库里，包括完整和部分测数据库里，包括完整和部分测序的基因组序列；序的基因组序列；v功能信息存贮在功能信息存贮在PATHWA

24、Y数据库里，包括图解的细胞数据库里，包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期，还包括生化过程如代谢、膜转运、信号传递、细胞周期，还包括同系保守的子通路等信息；同系保守的子通路等信息；vKEGG的另一个数据库是的另一个数据库是LIGAND，包含关于化学物质、，包含关于化学物质、酶分子、酶反应等信息。酶分子、酶反应等信息。vKEGG提供了提供了Java的图形工具来访问基因组图谱，比较的图形工具来访问基因组图谱，比较基因组图谱和操作表达图谱，以及其它序列比较、图形比基因组图谱和操作表达图谱，以及其它序列比较、图形比较和通路计算的工具，可以免费获取。较和通路计算的工具，可以免费获取。v

25、网址：网址：http:/www.genome.jp/kegg/ 2021/6/1636KEGG主主页2021/6/16372021/6/163839基因组数据库基因组数据库一一Entrez Gonomes 二二Ensembl 三三UCSC Genome Browser 四四其他基因组数据库其他基因组数据库 2021/6/1639一、一、Entrez Gonomes vNCBI提供的，是世界上最大、最完整的多物种的基因提供的，是世界上最大、最完整的多物种的基因组资源。目前已收源。目前已收录5937个物种的个物种的8500多条多条记录，v按生物体分成古按生物体分成古细菌（菌（Archaea）、）、

26、细菌（菌（Bacteria）、）、真核生物（真核生物（Eukaryotae）、病毒（）、病毒（Viruses）、）、类病毒病毒（Viroids）和）和质粒（粒（Plasmids）六大）六大类。v提供了各种基因提供了各种基因组图谱，包括完整的染色体、序列，包括完整的染色体、序列图谱、遗传图谱、物理、物理图谱和和连续子（子（contigs）图谱。v可以通可以通过Entrez进行关行关键词搜索，也可以通搜索，也可以通过Map Viewer进行行浏览、检索及索及编辑。 v网址：网址： http:/www.ncbi.nlm.nih.gov/sites/genome2021/6/1640Entrez Go

27、nomes主页主页2021/6/1641（一）（一）Map Viewer vMap Viewer是一种从众多资源中汇集图谱和序是一种从众多资源中汇集图谱和序列信息的图谱浏览器。它既允许用户浏览和检索列信息的图谱浏览器。它既允许用户浏览和检索某有机体完整基因组信息，又允许用户在序列水某有机体完整基因组信息，又允许用户在序列水平，通过浏览单个染色体图谱或某染色体上的特平，通过浏览单个染色体图谱或某染色体上的特定区域，探查完整基因组信息。定区域，探查完整基因组信息。v对于每一个基因组，对于每一个基因组，Map Viewer从从4个层次揭个层次揭示其信息：示其信息：生物体主页（Home Page）

28、基因组浏览（Genome View）图谱浏览（Map View）序列浏览（Sequence View） 2021/6/1642（二）（二）Map Viewer的使用的使用 Map Viewer主页2021/6/1643检索结果检索结果 2021/6/164445鼠基因组数据库人类基因组数据库线虫基因组数据库四、其他基因组数据库四、其他基因组数据库（一）（一）GDB（二）MDB （三）ACEDB 2021/6/164546疾病基因数据库疾病基因数据库一一OMIM 三三Gene Expression Omnibus四四突变数据库突变数据库五五单核苷酸多态性数据库单核苷酸多态性数据库

29、二二GeneCards2021/6/1646OMIM概述概述 v“在线人类孟德尔遗传在线人类孟德尔遗传”（Online Mendelian Inheritance in Man，OMIM），是在美国），是在美国John Hopkins大学医学大学医学院院Victor AMcKusick教授编撰的教授编撰的人类孟德人类孟德尔遗传尔遗传一书的基础上发展起来的，一书的基础上发展起来的，v内容包括所有已知的遗传病、遗传决定的性状及内容包括所有已知的遗传病、遗传决定的性状及其基因，除了简略描述各种疾病的临床特征、诊其基因，除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外等文本资料，还提断、鉴

30、别诊断、治疗与预防外等文本资料，还提供已知有关疾病相关基因的连锁关系、染色体定供已知有关疾病相关基因的连锁关系、染色体定位、组成结构和功能、动物模型，并附有其相关位、组成结构和功能、动物模型，并附有其相关的图片、研究历史和参考文献。的图片、研究历史和参考文献。 vEntrez中检索中检索2021/6/164748OMIM在医学遗传学中的应用价值在医学遗传学中的应用价值1234利用利用OMIM statistics 了解最新了解最新的有关遗的有关遗传病、性传病、性状及基因状及基因的信息。的信息。利用利用OMIM数据库获得数据库获得遗传病诊断、遗传病诊断、咨询及治疗咨询及治疗的资料。的资料。利

31、用利用OMIM数据库获取数据库获取遗传病最新、遗传病最新、最详细的研最详细的研究资料。究资料。利用利用OMIM的的Gene map和和Morbid Map获取疾获取疾病基因定位病基因定位的详细资料。的详细资料。 2021/6/1648GeneCards vhttp:/www.genecards.orgv人类基因及其产物和相关疾病等综合信息的知识人类基因及其产物和相关疾病等综合信息的知识平台平台v以色列以色列Weizmann研究所开发研究所开发v每个基因的信息来源于大约每个基因的信息来源于大约50个数据库个数据库2021/6/16492021/6/1650Gene Expression Omnibus2021/6/16512021/6/1652总结 v生物信息数据库的查找：生物信息数据库的查找：搜索引擎搜索引擎；数据数据库目录库目录；生物信息学中心资源导航生物信息学中心资源导航v核酸序列数据库核酸序列数据库 GenBankv蛋白质数据库蛋白质数据库 SWISS-PROT v基因组数据库基因组数据库 Entrez Genomesv疾病基因数据库疾病基因数据库 OMIM; GeneCards2021/6/1653 结结束束语语若有不当之处，请指正，谢谢！若有不当之处，请指正，谢谢！

展开阅读全文

生物信息学资源检索

最新文档