简介02数据库检索20141汇总课件

资源描述

《简介02数据库检索20141汇总课件》由会员分享，可在线阅读，更多相关《简介02数据库检索20141汇总课件（45页珍藏版）》请在金锄头文库上搜索。

1、生物信息学分析实践(讲习课)教学学时和内容安排,主要参考教材及仪器：吴祖建等主编. 生物信息学分析实践. 北京:科学出版社, 2010.6. 联网计算机（自备）（建议安装翻译软件）。自备U盘，拷贝教师PPT文件，便于课后复习和找到正确的网页链接。,考核方式及要求：本课程为考查课程，通过完成并上交分析报告评分。即从第3章至第7章，共5章，每章提交2份分析报告，每次报告计10分，共100分。要求：独立完成，7天内上交，过时不候。不允许提交完全相同的结果或报告，即检索号或分析的序列不能完全相同。以电子邮件附件文件方式将分析报告上传至主讲教师邮箱，文件格式必须为doc或pdf（打印）。

2、附件中的文件名必须以“学号-姓名-报告序号”格式来命名。如“201210001137-张三-1”。,Chapter 1 Introduction of Bioinformatics,1.1 生物信息学产生的背景,20世纪90年代，由美国等国家的科学工作者倡导并实施的人类基因组计划（Human Genome Project, HGP）获得了大量的DNA序列资料，由于需要对这些数据进行有效的收集、贮存、处理和分析，各种相关的生物信息数据库应运而生。,1.2 人类基因组计划,人类基因组计划（HGP）的主要目标是用约15年的时间，完成人类基因组DNA约32亿碱基对的序列测定。该计划于1990年开始

3、实施，2006年全部完成，历时16年。,生物信息学（bioinformatics）是利用数学、物理学、计算机学以及信息学的原理和技术方法来研究生命现象，组织并分析大量生物学实验数据的一门科学。,1.3 生物信息学的定义,因此，生物信息学是一门介于生物学、数学、计算机学和信息工程学之间的交叉学科。生物信息学的基本组成包括生物数据库、计算机网络和应用软件三大部分。,生物信息数据库现已广泛应用于分子生物学、分子免疫学、分子遗传学、分子药理学研究和临床分子病理学诊断中。近年来，生物实验数据呈指数增长，仅GenBank中的数据每1824个月就增加一倍；国际互联网中的生物信息数据库也已达到了数百个，大

4、部分可为全球科学家提供免费检索服务。,借助于一定的数学模型和计算机数据库，对原始生物实验数据进行收集、贮存、管理、注释、加工和分析，全面揭示各种生物基因组和蛋白质组结构与功能的根本规律。促进生物科学由实验科学向理论科学转变。促进对高级生物学功能，如思维、记忆和学习等的深入探索。,1.4 生物信息学的研究目标和内容,1.4.1 研究目标, 获得各种生物的完整基因组序列,全基因组随机测序策略，即“鸟枪法”测序策略，需借助于计算机数据库进行排序才能完成生物基因组DNA序列的测序工作。,1.4.2 研究内容,通过下述方法发现新基因：从表达序列标签（expressed sequence tag,

5、EST）数据库中，拼接得到完整的新基因编码区序列。从已知的基因组序列中鉴定新基因编码区序列。, 新基因和新SNP的发现与鉴定,单核苷酸多态性（SNP）的分析鉴定： SNP（single nucleotide polymorphism）是指在不同个体中，由于单一碱基变异所致基因差异。通过对SNP的分析检测，可发现疾病易感群体、鉴定疾病相关基因或设计新型药物。,“比较基因组学”通过对不同生物全基因组的比较分析，为揭示生命起源、生命演化、遗传密码起源等生命奥秘提供依据。, 完整基因组的比较研究, 大规模基因功能表达谱的分析,利用基因表达数据库，对基因表达的时、空顺序及表达量进行大规模分析。,采用

6、计算机模拟技术，对生物大分子（DNA、RNA、蛋白质）的结构进行模拟或设计。根据生物大分子的空间结构、表面电荷、能级及分子轨道相互作用等信息，利用分子对接算法设计新药。, 生物大分子的结构模拟与药物设计,采用同源性比对检索方式，对物种的基因组结构与功能进行整体水平上的演化研究，进一步揭示物种进化的客观规律。, 在基因组水平研究生物进化,通过建立各种蛋白质分子的参数数据库，为蛋白质组学的研究提供高通量的比对和鉴定平台。, 蛋白质组学的研究,通过序列比对及计算机辅助建模，对基因及蛋白质的功能进行预测。, 基因和蛋白质功能的预测,高等生物，如人类基因组中含有大量的非编码序列（90%），其结构与功能

7、目前仍未完全明了。, 基因组非编码区序列的研究,全面收集各种生物学数据资料，建立专用的生物信息学数据库。,1.5.1 建立生物数据库,1.5.2 开发生物数据库检索工具,开发各种检索工具软件，用于生物数据库数据的检索服务。,1.5 生物信息学的研究方法,对生物学数据资料进行归类、整理及格式化处理。,1.5.3 生物数据资料的管理,1.5.4 生物数据库的应用,建立各种数学模型，对生物数据库中的数据资料进行分析研究。,Chapter 2 Databases Retrieval,主要的生物信息数据库及其网址,2.1 生物信息数据库的类型,2.2 核酸序列数据库,GenBank（NCBI，美国国立生

8、物技术信息中心），EMBL-Bank或ENA（EBI，欧洲生物信息研究所）和DDBJ（NIG，日本国立遗传研究所）是目前国际上最主要的三大核酸序列数据库。三大数据库之间同步实现数据交换和更新。,2.2.1 GenBank序列数据库,GenBank序列数据库除记录了具体的核酸序列以外，还记录了对该核酸序列的描述、学名、生物来源、相关参考文献及序列特性等。特性表主要列出了序列的生物学意义，如编码区、翻译序列、转录单位、重复序列、突变或修饰位点等。,序列数据库中的文件格式,序列文件格式： FASTA文件格式是一种方便易用的贮存蛋白质或核酸序列的纯文本文件格式。用户很容易将其内容选定进行拷贝和粘

9、贴，并可以用“记事本”等文字处理软件打开和编辑，以ASC码文件格式（即ASNI”编码）保存，并可再用其他各种序列分析软件将文件打开。,FASTA格式序列的第一行必须是一单行的描述行，然后才是序列数据行。为了将描述行与序列数据行相区别，描述行的第一个字符必须是大于符号“”。,每一行（包括描述行）均不能超过80个字符。如果已知某一序列在GenBank中的注册号（Accession number）或GenBank标识符（GenBank Identifier，GI），也可在描述行中输入。各描述字段之间以“|”分隔。,以下是一段典型的FASTA格式的核酸序列： gi|62865863|ref|NM

10、_000519.3| Homo sapiens hemoglobin, delta (HBD), mRNA AGGGCAAGTTAAGGGAATAGTGGAATGAAGGTTCATTTTTCATTCTCACAAACTAATGAAACCCTGCTTA TCTTAAACCAACCTGCTCACTGGAGCAGGGAGGACAGGACCAGCATAAAAGGCAGGGCAGAGTCGACTGT TGCTTACACTTTCTTCTGACATAACAGTGTTCACTAGCAACCTCAAACAGACACCATGGTGCATCTGACT CCTGAGGAGAAGACTGCTGTCAATGCCCTGTGG

11、GGCAAAGTGAACGTGGATGCAGTTGGTGGTGAGGCCC TGGGCAGATTACTGGTGGTCTACCCTTGGACCCAGAGGTTCTTTGAGTCCTTTGGGGATCTGTCCTCTCC TGATGCTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAGGTGCTAGGTGCCTTTAGTGATGGC CTGGCTCACCTGGACAACCTCAAGGGCACTTTTTCTCAGCTGAGTGAGCTGCACTGTGACAAGCTGCACG TGGATCCTGAGAACTTCAGGCTCTTGGGCAATGTGCTGGTGTGTGTGCT

12、GGCCCGCAACTTTGGCAAGGA ATTCACCCCACAAATGCAGGCTGCCTATCAGAAGGTGGTGGCTGGTGTGGCTAATGCCCTGGCTCACAAG TACCATTGAGATCCTGGACTGTTTCCTGATAACCATAAGAAGACCCTATTTCCCTAGATTCTATTTTCTG AACTTGGGAACACAATGCCTACTTCAAGGGTATGGCTTCTGCCTAATAAAGAATGTTCAGCTCAACTTCC TGAT,描述行,用户必须按照IUB（International Union of Biochemistry）/ IUPAC（In

13、ternational Union of Pure and Applied Chemistry）规定的标准氨基酸或核苷酸的代表符号输入序列数据。序列中不能包含任何数字字符，也不允许出现空行。可以用小写字母输入序列，但会被转换成相应的大写字母。单一的连字号“-”或破折号“”可用来代表一段未测定的序列。,数据库格式文件：数据库中的每一条目贮存为一纯文本格式文件，文件每行左侧为标识符，使用完整英文单词（GenBank和DDBJ）或二字缩写符号（EMBL-Bank/ENA）表示。,GenBank和EMBL-Bank（ENA）数据库中的标识符及其含义,数据库格式文件的内容可分为三个部份：第一部

14、份信息描述部份；第二部份序列特性表；第三部份序列数据。,GenBank数据库格式文件,（第一部分信息描述）,（第二部分序列特性表）,（第三部分序列数据）,2.2.2 EMBL-Bank（ENA）序列数据库,EMBL-Bank（ENA）序列数据库中的每一条目同样是一个纯文本文件，文件每一行左侧是由两个大写字母组成的标识符。其序列数据格式文件的内容也包含信息描述、特性表和序列数据三个部份。,ENA数据库格式文件,多标签显示方式,TEXT显示方式（第一部分信息描述）,TEXT显示方式（第二部分序列特性表）,TEXT显示方式（第三部分序列数据）,课后练习,通过以下的链接，练习打开NCBI（GenBank）或EMBL-EBI（ENA）核酸数据库的网页。 http:/www.ncbi.nlm.nih.gov/genbank/ http:/www.ebi.ac.uk/ena/ 在GenBank中，使用“Homo sapiens hemoglobin delta”关键词或注册号“NM_000519.3” 检索核酸序列，点击打开核酸序列的报告。在ENA中，使用检索号“AY034468”进行检索，点击打开核酸序列的报告。对检索报告进行理解。,

展开阅读全文

简介02数据库检索20141汇总课件

最新文档