南京工业大学《生物信息学》期末复习汇总.

上传人:今*** 文档编号:105780919 上传时间:2019-10-13 格式:DOC 页数:10 大小:335KB
返回 下载 相关 举报
南京工业大学《生物信息学》期末复习汇总._第1页
第1页 / 共10页
南京工业大学《生物信息学》期末复习汇总._第2页
第2页 / 共10页
南京工业大学《生物信息学》期末复习汇总._第3页
第3页 / 共10页
南京工业大学《生物信息学》期末复习汇总._第4页
第4页 / 共10页
南京工业大学《生物信息学》期末复习汇总._第5页
第5页 / 共10页
点击查看更多>>
资源描述

《南京工业大学《生物信息学》期末复习汇总.》由会员分享,可在线阅读,更多相关《南京工业大学《生物信息学》期末复习汇总.(10页珍藏版)》请在金锄头文库上搜索。

1、生工1202生物信息学考试参考资料1、生物信息学的主要应用有哪些? 生物信息学数据库:数据库建立、数据库整合和数据挖掘 序列分析:序列比对、基因序列注释 其他:比较基因组学、基因和蛋白质的表达分析、生物芯片大规模功能表达谱的分析、蛋白质结构的预测、蛋白质与蛋白质的相互作用、生物系统模拟、代谢网络建模分析、计算机进化生物学、生物多样性研究、合成生物学2、生物学数据库有哪些特点?数据库的更新速度不断加快、数据量呈指数增长数据库使用频率增长更快数据库的复杂程度不断增加数据库网络化面向应用先进的软硬件配置3、一级数据库和二级数据库的区别是什么?有哪些一级数据库和二级数据库?一级数据库属于档案数据库,库

2、中的主要内容是来源于实验室操作所得到的原始数据结果;二级数据库则是在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的注释而构成的一级数据库:核酸序列数据库GenBank、EMBL、DDBL及蛋白质数据库PDB二级数据库:NCBI的RefSeq数据库4、数据库的Fasta、Flat file和XML格式各有何特点?(1)FASTA 序列格式包括三个部分:(书上没有PPT第二章第19-20页)1.在注释行的第一列用字符“”标识,后面是序列的名字和来源;2.标准的单字符标记的序列;3.可选的“*”表示序列的结束,它可能出现也可能不出现,但它是许多序列分析程序正确读取序列所必须的。提供了从一

3、个窗口到另一个窗口非常方便的拷贝途径,序列中没有数字或其他非字符。从第二行开始是序列本身,标准核苷酸符号(大小写均可)或氨基酸单字母符号(大写)。(2)平面文件格式Flat File纯文本文件、通用性好、检索复杂,冗余字段较多,大容量数据库难以处理(3)XML格式(PPT第二章第29、32页) 一个XML文件代表一个嵌套的信息树。树中的每一个节点能包含像一串子节点或者一些属性这样的数据,并且一个XML文件始于根节点。一个XML文件有一个文本,在文本中每一个节点的内容及其子节点被一对相互封闭的标签划定。形式上类似html。 5、GenBank数据库中的GenBank条目包含哪些内容?请结合Gen

4、Bank中的具体的序列信息加以说明。GenBank数据库(包括NCBI核酸和蛋白质序列数据库)中条目格式如下:给出描述每一个序列的信息,包括文献参考、序列的功能信息、mRNA和编码区域的位置,以及重要突变的位置。LOCUS name of locus, length and type of sequence, classification of organism, data of entryDEFINITION desicription of entryACCESSION accession number of original sourceKEYWORDS key words for cro

5、ss referencing this entrySOURCE source organism of DNAORGANISM description of organismREFERENCECOMMENT biological function of database informationFEATURES information about sequence by base position or range of positions source range of sequence, source organism misc_signal range of sequence, type o

6、f function or signal mRNA range of sequence, mRNA CDS range of sequence, protein coding region intron range of sequence, position of intron mutation sequence position, change in sequence for mutationBASE COUNT count of A, C, G, T and other symbols ORIGIN text indicating start of sequence 1 gaattcgat

7、a aatctctggt ttattgtgca gtttatggtt ccaaaatcgc 51 atatactcac agcataactg tatatacacc cagggggcgg aatgaaagcg/ database symbol for end of sequence例: 这些序列信息以字段的形式进行组织,每一行最前端都有一个标识符。在某些条目中,标识符可能缩写成两个字母(例如RF代表reference),某些字段可能还有次级字段。计算机程序中的序列条目位于标识符“ORIGIN”和“/”之间。这些字段提供的信息可以参见网页www.ncbi.nlm.nih.gov/Sitemap/s

8、amplerecord.html 序列每行前面标有数字,以显示片断位置。序列计数或序列校检求和的值可被计算机程。 用来鉴定序列成分,所以除非程序本身也改变计数,序列计数是不能被改变的。GenBank序列格式通常需要改变以适应序列分析软件。 6、 蛋白质序列数据库有哪些? SWISS-PROT、PIR 7、序列比对在什么情况下选择核苷酸序列?在什么情况下选择蛋白质序列?核苷酸序列:在确认给定DNA序列和DNA数据库中的序列的一致性时在搜索多态性时在分析所克隆的cDNA片段的一致性时蛋白质序列:由于蛋白质序列比DNA所含信息多,所以除以上情况外用蛋白质序列 8、请比较同源性、同一性和相似性三个概念

9、。同源性:是指从某个共同祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,是质的判断同一性:是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例相似性:两序列间直接的数量关系,如部分相同,相似的百分比或其他一些合适的度量9、举例说明何为直系同源,何为旁系同源?10、总结BLAST比对程序家族的主要程序,如何选择?11、 解读BLAST程序的比对结果所代表的含义。(1)该搜索的详细情况,包括BLAST搜索的类型、所搜索的数据库的描述、查询内容和分类连接(taxonomy reporter)(2)显示的是数据库中与查询序列相匹配的项的简明图形。每一条

10、彩色带表示数据库中与查询序列相匹配的蛋白质或核酸序列,不同颜色表示不同高低的得分。(3)与查询序列相匹配的数据库中的序列列表。每一条序列包括其Score(bits)、E value及该序列在相应数据库中的链接。(4)查询序列与目标序列之间的双序列比对情况。Score为位记分分数;Expect为期望值;Positives为相似性分值;Identities为同一性分值;Gaps为空位。 12、如何寻找远缘相关的蛋白质?PSI-BLAST是位点特异性迭代BLAST,用来寻找远缘相关的蛋白质序列,对于蛋白质的相似序列的寻找比常规blastp更敏感。PSI-BLAST工具的比对步骤为:(1)用blast

11、p在目标数据库中进行比对搜索;(2)从第一步中获得的结果构建多序列对比,根据多序列比对构建一个位点特异性矩阵PSSM;(3)用第二步获得的PSSM矩阵再一次搜索目标数据库;(4)位点特异性反复比对后用缺失比对的参数检验每个匹配的统计显著性;反复执行24步,一般要重复5次,而当新的结果不再出现或者程序明确指出不会再有新的结果出现时,可以停止比对循环。13、如何利用BLAST来发现新基因?(1)用一个已知序列蛋白质开始TBLAST比对,搜索一个DNA数据库;(2)检查结果:寻找与已知蛋白质,相关蛋白质的DNA序列匹配,非显著序列的匹配;(3)进行BLASTX NR或BLASTP NR比对(4)用你

12、新发现的DNA或蛋白质搜索一个蛋白质数据库来证实是否真的发现一个新的基因或蛋白质。14、提供了蛋白质结构的检索和查询服务的数据库主要有哪些?PDB数据库 、DSSP数据库、 HSSP数据库 SCOP CATH15、简要说明四个层次的蛋白质结构。(一)一级结构蛋白质的一级结构(primary structure)是指多肽链的氨基酸残基的排列顺序。(二)二级结构蛋白质二级结构(secondary structure)是指多肽链主链原子借助于氢键沿一维方向排列成具有周期性的结构构象,是多肽链局部的空间结构(构象)主要有螺旋、折叠、转角、无规卷曲等形式(三)超二级结构、结构域超二级结构(superse

13、condary structure)是指相邻的二级结构单元组合在一起,彼此相互作用,排列形成规则的、在空间结构上能够辨认的二级结构组合体,同时充当三级结构的构件,基本形式有 、 、 等。(四)三级结构三级结构(tertiary structure)是指整条多肽链的三维结构,包括骨架和侧链在内的所有原子的空间排列。(五)四级结构e 四级结构(quat rnary structure)指在亚基和亚基之间通过疏水作用等次级键结合成为有序排列的特定的空间结构。16、PDB数据库中蛋白质结构信息的存储格式和PDB数据库的检索方法。PDB数据库以文本文件的方式存放数据,每个分子各用一个独立的文件。PDB数

14、据库允许用户用各种方式以及布尔逻辑组合(AND、OR和NOT)进行检索,可检索的字段包括功能类别、PDB代码、名称、作者、空间群、分辨率、来源、入库时间、分子式、参考文献、生物来源等项。17、PDB收录了哪些实验类型的结构数据?X射线晶图谱法,核磁共振法,电子显微镜二维晶体三维结构18、了解蛋白质的结构有何重要意义。有助于了解打不着如何行使其生物功能,认识蛋白质之间相互作用,对未知通过结构分析进行功能注释,确认功能单位,结构域,可以为遗传操作提供目标为设计新的蛋白质或改造已有蛋白质提供可靠依据,同时为新的药物分子设计提供合理靶分子及结构19、蛋白质结构家族分类数据库主要有哪些?SCOP,CATH,FFSP20、目前蛋白质结构可视化工具主要有哪些?Weblab viewlite,Swiss-PDBviewer,INSiGHTII,RASMOL,CHIME.Cn3D21、蛋白质结构分析主要包含哪些方面?组织层次、结构测定及预测,蛋白质折叠22、如何进行蛋白质结构比对?有哪些常用的结构比对工具?首先对两个蛋白质结构定义结构相似部分(或称共同子结构);然后通过多次迭代策略来调整共同子结构,直到找

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号