word生物信息学实验报告:__王思_______学号:___031040103____指导教师:__宋晓峰 _航空航天大学2013年4月实验一 生物信息数据库的检索一. 实验目的:1.了解生物信息学的各大门户以与其中的主要资源2.了解主要数据库的容与结构,理解各数据库注释的含义3.以PubMed为例,学会文献数据库的根本查询检索方法二. 实验容:〔1〕国际与国的生物信息中心国际NCBI、EBI、ExPASy,EMBL、SIB、TIGR以与国CBI、BioSino的熟悉与容的了解核酸序列数据库:genbank/EMBL-bank/DDBJNCBI .ncEBI EMBL .ebiembl蛋白质序列数据库:Swiss Prot 、ExPASy expasy.org/Uniprot 蛋白质结构数据库:PDB .rcsb.org/pdb/〔2〕数据库容、结构与注释的浏览分别读取The spike protein of SARS-Corona Virus在NCBI中的核酸序列、SWISS-PROT蛋白质序列以与PDB蛋白质结构序列,熟悉数据库记录的结构,学会看懂其中的注释。
核酸序列:SWISS-PROT蛋白质序列:PDB蛋白质结构序列:其PDB文件见附件SARS-Corona V分别读取Heamagglutinin Genes of H9N2 Subtype Influenza A Viruses〔禽流感H9N2亚型HA基因〕在NCBI中的核酸序列、SWISS-PROT蛋白质序列以与PDB蛋白质结构序列,熟悉数据库记录的结构,学会看懂其中的注释核酸序列:SWISS-PROT蛋白质序列PDB蛋白质结构序列〔3〕文献信息的查找与管理有效地使用NCBI PubMed提供的各种主要功能,查询并下载相关课题或研究方向的论文文摘与文献全文查询Influenza A Viruses分子进化研究方向的文章三. 实验要求:(1) 以其中的一个信息中心为例,列举其中的主要资源〔数据库、网上分析、生物计算、数据下载等〕以NCBI为例,其主要数据库:BioProject (formerly Genome Project)、Conserved Domain Database (CDD)、Database of Genotypes and Phenotypes (dbGaP)、GenBank、Influenza Virus、Journals in NCBI Databases、MeSH Database、Nucleotide Database、Online Mendelian Inheritance in Animals (OMIA)、Protein Clusters、Protein Databas、PubMed、Reference Sequence (RefSeq)、Structure (Molecular Modeling Database)、Third Party Annotation (TPA) Database、UniGene、Viral Genomes等网上分析:BLAST 、VecScreen 、ORF Finder 、COGnitor等生物计算:数据下载功能如下:〔2〕能够解释给定序列或基因组数据的含义。
〔3〕检索文献的技巧和效率实验二 序列多重比对与进化分析一. 实验目的:1. 学习序列比对工具BLAST以与ClustalW等的使用,能够对序列数据进展初步的分析2. 掌握基于DNA序列和蛋白质序列构建系统进化树的常用方法和常用工具二. 实验容:1. 在GeneBank数据库中,检索10条轮状病毒〔Homo sapiens,Rotavirus〕VP7基因的DNA序列,并使用CLUSTALW软件对序列进展多重序列比对;检索结果详见电子稿附件VP7文件夹:多重序列比对结果:2. 在GeneBank数据库中检索10条SARS病毒Spike蛋白的氨基酸序列,使用CLUSTALX软件对这十条序列进展多重序列比对;检索结果详见电子稿附件sara文件夹:s0.fasta –多重序列比对结果多重序列比对结果详见电子稿附件sara文件夹:3. 使用ClustalW软件或其他软件包构建上述DNA分子系统发生树系统发生树如下:三. 实验要求:1. 提交使用CLUSTALX与PHYLIP软件进展多重序列比对与构建系统发生树的结果;2. 总结多重序列比对与构建系统发生树的关键事项选择适宜的比对算法,构建系统发生树时适当选择独立关系的分支序列。
实验三 蛋白质结构分析与结构预测一. 实验目的:1、掌握蛋白质序列检索的操作方法;2、熟悉蛋白质根本性质分析;3、熟悉基于序列同源性分析的蛋白质功能预测,了解基于motif、 结构位点、结构功能域数据库的蛋白质功能预测;4、了解蛋白质结构预测5. 学会运用结构浏览软件对生物大分子的结构进展观察二. 实验容:1. 给出实例了解生物大分子结构数据库PDB与MMDB中的记录方式,看懂记录中的容并会运用Rasmol或3D软件观察蛋白质的三维结构PDB文件1J4N.pdb的记录方式分析见附录如下图为在Rasmal软件中观察的结果: 丝带模型 线框模型 球棒模型2. 使用Entrez或SRS信息查询系统检索水通道(Aquaporin-1, AQP1)蛋白质序列AQP1蛋白质序列:MQSGMGWNVLDFWLADGVNSGQGLGIEIIGTLQLVLCVLATTDRRRRDLGGSAPLAIGLSVALGHLLAIDYTGCGINPARSFGSAVITHNFSNHWIFWVGPFIGGALAVLIYDFILAPRSSDLTDRVKVWTSGQVEEYDLDADDINSRVEMKPK3. 使用BioEdit软件对上述蛋白质序列进展分子质量、氨基酸组成和疏水性等根本性质分析。
分子量、氨基酸组成Protein: gi|297307120|ref|NP_001171991.1| aquaporin-1 isoform 4 [Homo sapiens]Length = 154 amino acidsMolecular Weight = 16676.11 DaltonsAmino Acid Number Mol% Glu E 4 2.60 Phe F 6 3.90 Gly G 18 11.69 Leu L 18 11.69 Met M 3 1.95 Asn N 6 3.90 疏水性分析:4. 对水通道蛋白质序列进展基于NCBI/Blast软件的蛋白质同源性分析;5. 对水通道蛋白质序列进展motif结构分析;6. 对水通道蛋白质序列进展二级结构和三维结构预测二级结构预测:三级结构预测: 数据库显示结构:三. 实验要求:1、提交使用上述软件对人水通道蛋白质序列进展根本性质分析、同源性分析、motif结构分析以与二级结构和三维结构预测的结果;2、相互比照结果,说明产生不同结果的原因,总结进展上述分析所需注意的关键事项。
实验四 核酸序列分析一.实验目的1、 掌握或未知序列承受号的核酸序列检索的根本步骤;2、 掌握使用BioEdit软件进展核酸序列的根本分析;3、 熟悉基于核酸序列比对分析的真核基因结构分析〔含子/外显子分析〕;二.实验原理针对核酸序列的分析就是在核酸序列中寻找基因,找出基因的位置和功能位点的位置,以与标记的序列模式等过程在此过程中,确认一段DNA序列是一个基因需要有多个证据的支持一般而言,在重复片段频繁出现的区域里,基因编码区和调控区不太可能出现;如果某段DNA片段的假想产物与某个的蛋白质或其它基因的产物具有较高序列相似性的话,那么这个DNA片段就非常可能属于外显子片段;在一段DNA序列上出现统计上的规律性,即所谓的“密码子偏好性〞,也是说明这段DNA是蛋白质编码区的有力证据;其它的证据包括与“模板〞序列的模式相匹配、简单序列模式如TATA Box等相匹配等一般而言,确定基因的位置和结构需要多个方法综合运用,而且需要遵循一定的规如此:对于真核生物序列,在进展预测之前先要进展重复序列分析,把重复序列标记出来并除去;选用预测程序时要注意程序的物种特异性;要弄清程序适用的是基因组序列还是cDNA序列;很多程序对序列长度也有要求,有的程序只适用于长序列,而对EST这类残缺的序列如此不适用。
三.实验容1、使用Entrez或SRS信息查询系统检索人瘦素 (leptin) 的mRNA、基因组DNA、外显子等核酸序列,连接提取该序列容,阅读序列格式的解释,理解其含义;2、使用BioEdit软件对上述核酸序列进展分子质量、碱基组成、碱基分布、序列变换等根本分析,并从BioEdit软件的“help〞栏了解该软件的其它功能;DNA molecule: gi|169790920|ref|NM_000230.2| Homo sapiens leptin (LEP), mRNALength = 3444 base pairsMolecular Weight = 1045471.00 Daltons, single strandedMolecular Weight = 2093627.00 Daltons, double strandedG+C content = 49.97%A+T content = 50.03%Nucleotide Number Mol%4、 使用BioEdit软件对人瘦素 (leptin) 的mRNA序列进展可读框架分析;起始密码位置和编码区围:4、使用NCBI查询系统进展人瘦素 (leptin) 的基因组序列分析。
ATGCATTGGGGAACCCTGTGCGGATTCTTGTGGCTTTGGCCCTATCTTTTCTATGTCCAAGCTGTGCCCATCCAAAAAGTCCAAGATGACACCAAAACCCTCATCAAGACAATTGTCACCAGGATCAATGACATTTCACACACGCAGTCAGTCTCCTCCAAACAGAAAGTCACCGGTTTGGACTTCATTCCTGGGCTCCACCCCATCCTGACCTTATCCAAGATGGACCAGACACTGGCAGTCTACCAACAGATCCTCACCAGTATGCCTTCCAGAAACGTGATCCAAATATCCAACGACCTGGAGAACCTCCGGGATCTTCTTCACGTGCTGGCCTTCTCTAAGAGCTGCCACTTGCCCTGGGCCAGTGGCCTGGAGACCTTGGACAGCCTGGGGGGTGTCCTGGAAGCTTCAGGCTACTCCACAGAGGTGGTGGCCCTGAGCAGGCTGCAGGGGTCTCTGCAGGACATGCTGTGGCAGCTGGACCTCAGCCCTGGGTGC。