生物信息学习题集

上传人:kms****20 文档编号:40387542 上传时间:2018-05-26 格式:DOC 页数:16 大小:244.50KB
返回 下载 相关 举报
生物信息学习题集_第1页
第1页 / 共16页
生物信息学习题集_第2页
第2页 / 共16页
生物信息学习题集_第3页
第3页 / 共16页
生物信息学习题集_第4页
第4页 / 共16页
生物信息学习题集_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《生物信息学习题集》由会员分享,可在线阅读,更多相关《生物信息学习题集(16页珍藏版)》请在金锄头文库上搜索。

1、生物信息学课堂操作练习生物信息学课堂操作练习一、生物信息学科的发展和研究内容一、生物信息学科的发展和研究内容 通过下列 internet 上的自教课程,初步了解不同的数据库和分析工具 http:/www.ebi.ac.uk/2can http:/www.ncbi.nlm.nih.gov/Education二、二、 生物数据库生物数据库 1. 熟悉各种数据库。 2. 重点了解 GenBank 和 SWISS-PROT 所包含的各种功能和适用范围。三、三、 关键词或词组为基础的数据库检索关键词或词组为基础的数据库检索 1. 熟练掌握 Entrez 检索体系。 2. 查找与水稻抗病基因 Xa21 有

2、关的资料 (1) 由多少碱基构成?编码多少个氨基酸? (2) exon 和 intron 的位置? (3) 是否有 3D structure 数据?1) 由多少碱基构成?编码多少个氨基酸? 4623b.p., 1025A.a.; 2) exon和intron的位置? Exon: 242700,35433943 intron: remaining; 3) 是否有3D structure数据? 没有. 3. 查找C. elegans基因组的资料。 (1) chromosome I的测序是否已完成? (2) 已知的chromosome I的序列有多少碱基?序列发表在哪份杂志上?期号和页码? 1) c

3、hromosome I的测序是否已完成? 完成. 2) 已知的chromosome I的序列有多少碱基? 序列发表在哪份杂志上? 期号和页码? 15.0724Mb.p.(15072421b.p.), Science 1999 Jan 1;283(5398):35. 4. 查看人类基因组第1染色体上基因的分布。 http:/www.ncbi.nlm.nih.gov/mapview/maps.cgi?ORG=hum&MAPS=ideogr,est,loc&LINKS= ON&VERBOSE=ON&CHR=1 5. 查看Arabidopsis的系谱树,以及Arabidopsis第1染色体上的序列。

4、比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同 (http:/www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?id=3701, http:/www.ncbi.nlm.nih.gov/mapview/maps.cgi?taxid=3702&chr=1) 貌似没什么区别 比较Arabidopsis基因组的资料提供形式与人类基因组有什么不同。 6. 与retrotransposon有关的文献资料有多少篇?5774, (在pubmed中直接查找关键词, 2009328) 与rice retrotransposon有关的文献有多少篇

5、?214, (在pubmed中直接查找关键词, 2009328) 7 检索我校在检索我校在2009年年1月发表的被月发表的被PubMed收录的科研论文收录的科研论文Huazhong Agricultural University,29 7. 熟悉SRS检索体系。 8. 熟悉DBGET检索体系。四、四、 核苷酸和蛋白质序列为基础的数据库检索核苷酸和蛋白质序列为基础的数据库检索 1. 了解 BLAST Frequently Asked Questions 的答案。 2. 以大麦 Mlo 基因(Z83834)为查询序列 (1) 用 Blastn 能检索到多少条与 Mlo 同源的序列?与 Mlo 同源

6、的序列:共找到 63 条与 Mlo 同源的序列 (2) 在使用 Blastn 检索中,如改变 E value 的阈值,能检索到多少与 Mlo 同源 的序列?将 E value (Expect threshold)由默认的 10 改为 1 时,仍有 63 条同源序列。若将 E 值改为 5e-19 时可以找到 61 条同源序列。 (3) 怎样去掉 alignment 过程中出现的小写字母?这里所说的小写字母就是出现重复序列时被算法筛选后出现的 n。将 Algorithm parameters 中的 Filters and Masking 选项里的 Low complexity regions 前的

7、勾去掉就可以去掉比对过程中出现的小写的 n。(4) 用 PSIBLAST 检索到的与 Mlo 蛋白同源的序列与用 Blastp 检索到的同源 序列是否有差别?PSI-BLAST 的特色是每次用 profile 搜索数据库后再利用搜索的结果重新构建 profile,然后用新的 profile 再次搜索数据库,如此反复直至没有新的结果产生 为止。PSI-BLAST 先用带空位的 BLAST 搜索数据库,将 获得的序列通过多序 列比对来构建第一个 profile。PSI-BLAST 自然地拓展了 BLAST 方法,能寻找 蛋白质序列中的隐含模式,有研究表明这种方 法可以有效的找到很多序列差异 较大而

8、结构功能相似的相关蛋白,甚至可以与一些结构比对方法,如 threading 相媲美。PSI-BLAST 服务可以在 NCBI 的 BLAST 主页上找到,还可以从 NCBI 的 FTP 服务器上下载 PSI-BLAST 的独立程序。首先得到 Mlo 的蛋白质序 列:CAB06083.1;然后用 blastp 检索。选中 PSI-BLAST。第一次检索得到 100 个同源序列,再以这些序列为基础,再次检索,得到标有 new 的序列。第三次 检索,已经没有含有 new 的序列,检索结束。(5) 熟悉 PHIBLAST 检索方法。 (6) 用 Mlo 基因序列检索蛋白质数据库能找到多少同源序列?使用

9、 BLASTX,输入 accession number :Z83834,找到 100 个同源序列 3. 从以 Mlo 基因的氨基酸序列检索到的同源序列中任取两条序列, 用 BLAST 2 sequences 作分析,看它们之间是否存在同源序列。Mlo 基因氨基酸序列号:CAB06083 选取两条为:P93766、AAK94905可以看到具有较高的同源性。Identities = 397/432 (91%), Positives = 412/432 (95%)五、五、 多序列对位排列分析和系谱分析多序列对位排列分析和系谱分析1.用大麦 Mlo 基因(Z83834)编码的蛋白质序列在数据库中检索同

10、源序列,找 出与 Mlo 同源程度最高的另外 9 条序列。对位排列这 10 条序列,确定这些同 源序列的保守区段;分析这些保守区段是否组成已知结构域(domain)或模体 (motif)。 1.在 NCBI 中的 nucleotide 数据库中输入 Z83834,点击链接到蛋白质序列, 用 FASTA 格式输出,复制该蛋白序列2.进入 NCBI 的 BLAST,选择 protein blast,粘贴所复制的蛋白序列,进行 blast3.在结果中选中同源度最高的 10 条结果,点击 get selected sequences4.在 display 中选则 FASTA,send to 中选则 t

11、ext,复制有内容。5.在 EBI 的 ClustaW 分析网页粘贴序列,点击 run 2.练习使用各种修饰功能修饰对位排列上述 10 条序列。1. Boxshade 功能 在多序列对位排列结果网页复制序列排列结果在“Boxshade”网页(ttp:/www.ch.embnet.org/software/BOX_form.html)粘贴 序列,在“Input sequence format”栏目选择“ALN”,在“Output format”栏 目选择“RTF_new” 在结果网页点击“here is your output number 1”,得结果。2. 颜色修饰 功能“ClustalW

12、Results”网页展示多序列对位排列结果点击“Show Colors”用不同颜色的字母展示对位排列结果3.根据系谱分析,上述 10 条序列中哪两条序列的同源程度最高? 1. “ClustalW Results”网页展示多序列对位排列结果2. 点击“Show as Phylogram Tree”展示 Phylogram Tree,可据此判断同源程度。4.用大麦 Mlo 基因(Z83834)序列检索数据库,找出与 Mlo 同源程度最高的另 外 4 条序列。对位排列这 5 条序列,确定这些同源序列的保守区段;分析这些 保守区段是否组成已知结构域(domain)或模体(motif)。 1. 进入 N

13、CBI 的 BLAST, 选择 nucleotide blast,粘贴基因序列号 Z83834,进行 blast2. 在结果中选中同源度最高的 5 条结果,点击 get selected sequences3. 在 display 中选则 FASTA,send to 中选则 text,复制所有内容。4. 在 EBI 的 ClustaW 分析网页粘贴序列,点击 run六、六、 基因结构分析基因结构分析 1. 从核苷酸数据库中选择 DNA 序列,试用不同的分析工具分析真核生物和原 核生物的基因结构,并将分析结果与核苷酸数据库中的结果相比较。 2. 掌握 GenScan 和 GeneFinding

14、中的各种分析方法。七、七、 蛋白质结构分析蛋白质结构分析 1. 从数据库中任选一蛋白质的序列作分析对象,熟悉分析蛋白质的一级和二级 结构的方法。以猪 leptin 蛋白为例,在 ncbi 上查找到其序列,再转至 EXPasy 网站 http:/www.expasy.ch/ 一级结构 1:PI 、Mw 、氨基酸组成 http:/www.expasy.ch/tools/protparam.html2:疏水性 http:/www.expasy.ch/tools/protscale.html3:重复序列 http:/www.embl-heidelberg.de/andrade/papers/rep/s

15、earch.html二级结构 http:/www.cmpharm.ucsf.edu/nomi/nnpredict.html(貌似这个网站不 能搜) http:/npsa-pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html2. 大麦 Mlo 基因(Z83834)编码的蛋白质是膜镶嵌蛋白质还是膜附着蛋白质?先搜出 mlo 蛋白的序列,输入 http:/bp.nuap.nagoya- u.ac.jp/sosui/sosui_submit.html 网站,由图形看出是膜镶嵌蛋白,跨膜六次。3.水稻抗病基因 Xa21 的产物位于细胞的什么部

16、位?基因 Xa21:U37133.1 http:/www.ncbi.nlm.nih.gov/nuccore/1122442在 ncbi 中输“xa21“ gene” Oryza sativa”,找到 xa21 序列。输入 http:/wolfpsort.org/得到 plas 的得分最高,说明该蛋白在细胞膜上 4. Xa21 基因产物是否糖蛋白?什么类型的糖蛋白?分析是否是糖蛋白在 http:/www.cbs.dtu.dk/services/NetOGlyc/和 http:/www.cbs.dtu.dk/services/NetNGlyc/说明是 N-连接的糖蛋白 5. Xa21 蛋白的亲水性和疏水性如何?Grand average of hydropathicity (GRAVY): 0.049亲水性分析 http:/www.expasy.ch/tools/protscale.htmlHydropathicity0 ,疏水强 gi|1405|emb|X55152.1|

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号