豌豆开花后特异表达基因PPF-1核酸和蛋白质序列分析

上传人:ldj****22 文档编号:36331366 上传时间:2018-03-27 格式:PDF 页数:29 大小:664.77KB
返回 下载 相关 举报
豌豆开花后特异表达基因PPF-1核酸和蛋白质序列分析_第1页
第1页 / 共29页
豌豆开花后特异表达基因PPF-1核酸和蛋白质序列分析_第2页
第2页 / 共29页
豌豆开花后特异表达基因PPF-1核酸和蛋白质序列分析_第3页
第3页 / 共29页
豌豆开花后特异表达基因PPF-1核酸和蛋白质序列分析_第4页
第4页 / 共29页
豌豆开花后特异表达基因PPF-1核酸和蛋白质序列分析_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《豌豆开花后特异表达基因PPF-1核酸和蛋白质序列分析》由会员分享,可在线阅读,更多相关《豌豆开花后特异表达基因PPF-1核酸和蛋白质序列分析(29页珍藏版)》请在金锄头文库上搜索。

1、实用生物信息技术课程第 5 次作业 1 豌豆开花后特异表达基因豌豆开花后特异表达基因 PPF-1 核酸和蛋白质序列分析核酸和蛋白质序列分析 姓名 陈耿佳 学号 1301214752 组号 G01C 1. 研究背景和文献阅读研究背景和文献阅读 1) 利用各种不同方法,检索 PubMed 数据库中收录的开花后特异表达基因(Pea Post-floral-specific gene,PPF-1)相关研究论文。 2) 认真阅读上述论文,简述 PPF-1 序列特征、表达特异性,以及可能的生物学功能。 2. 数据库注释数据库注释 1) 检索 UniProtKB 序列数据库中豌豆内膜蛋白 PPF-1 的蛋白

2、质序列,归纳总结该序列条 目的一般注释信息、序列注释信息、数据库交叉链接。 2) 利用注释信息中序列相似性和蛋白质家族注释信息,找出拟南芥中 PPF-1 同源蛋白 ALB3_ARATH。 3) 浏览该同源蛋白的注释信息、文献报道和数据库交叉链接,说明其功能、亚细胞定位、 组织特异性、互作蛋白、结构域特征、剪接变体、序列特征、基因结构、基因组定位、 表达特异性等。 4) 通过上述 ALB3_ARATH 序列中的数据库交叉链接 AT2G28800, 浏览该基因在拟南芥信 息资源系统(TAIR)中的注释信息,归纳总结其基因结构、可变剪接方式、突变体、 文献资源等, 并通过交叉链接 e-FP Brow

3、ser 查看该基因的在不同组织中的表达, 通过交 叉链接 Phytozome Plant Gene Families 查看该基因在其它植物中的同源基因。 3. 序列相似性分析序列相似性分析 1) 利用 WebLab 中的点阵图程序 Dottup、DotMatcher、DotPath 对 PPF1_PEA 和 ALB3_ARATH 蛋白质序列及其编码基因的编码区序列进行比对,分析比较比对结果, 说明上述程序的适用范围。 Dottup: (A) Protein (B) CDS (Word size = 4) (Word size = 8) 实用生物信息技术课程第 5 次作业 2 DotMatche

4、r (A) Protein (B) CDS DotPath (A) Protein (B) CDS 三种程序都可用于两个序列的比对。Dottup 是精确匹配,两个序列比对中,word size 内 精确匹配时以图上的点表示,从点阵图则可直观看到两个序列的相似程度及匹配范围, 当两个序列匹配程度较高时适用,如果两个序列差异较大则不适用;会重复匹配,存在 符合 word size 的重复序列时会予以显示,当定义的 word size 较小时往往会在对角线外 出现较多短线。DotMatcher 是近似匹配,用给定的计分矩阵对 windowsize 内的序列进 行打分,高于 threshold 的在图

5、上以点显示,可用于匹配程度不高的两个序列;也存在重 复匹配。DotPath 与 Dottup 相似,是 word size 内的精确匹配,但不进行重复匹配 (non-overlapping wordmatch) 。三种程序均有相应的参数设置,需根据具体情况及实验 目的进行设置,用 RNA 序列进行匹配时,相对于蛋白序列而言 word size 或 windowsize 应适当提高。PPF1_PEA 和 ALB3_ARATH 的序列相似程度并不高,相同位点为 327/466 (70.2%), 用 Dottup 和 DotPath 绘制点阵图时匹配程度不高, 尤其是序列两段几乎没有点, 用 Dot

6、Matcher 则可较好地匹配; 用蛋白序列进行点阵图绘制, 相对于核酸序列而言更加 准确,主要是因为蛋白序列具有较高的特异性和保守性。 (EBLOSUM62, Windowsize = 10, Threshold = 23) (EDNAFULL, Windowsize = 15, Threshold = 45) (Word size = 3) (Word size = 5) 实用生物信息技术课程第 5 次作业 3 2) 利用 WebLab 中的全局比对程序 Needle 和局部比对程序 Water,对 PPF1_PEA 和 ALB3_ARATH 蛋白质序列及其编码基因的编码区序列进行比对,分

7、析比较比对结果, 说明上述程序的实用范围。 3. 读码框分析读码框分析 1) 提取豌豆内膜蛋白编码基因 PPF-1 全长 mRNA 序列,用 WebLab 中 PlotORF 程序分析 其可能的读码框。 结果如下图所示: 由上图可见,F3 中起止密码子间有较长的连续序列,可能为正确的读码框;其它读码 框均只能得到较短的序列,可能性较低。 2) 用 WebLab 中 ShowORF 程序分析 PPF-1 全长 mRNA 序列读码框特征。 WebLab 中 ShowORF 程序不可用,改用 Mobyle 平台的,结果如下(仅给出 1-150) 实用生物信息技术课程第 5 次作业 4 F3 可翻译为

8、较完整蛋白序列,而其他读码框均为多条小片段,可见 F3 可能为正确的读 码框。 3) 用 WebLab 中 SixPack 程序分析 PPF-1 全长 mRNA 序列读码框特征。 用 Mobyle 中 SixPack 进行分析,翻译结果如下图所示(仅显示 1-120) : 在给出的翻译序列列表中,最长的序列如下: 其余序列均为短序列(最长为 91aa) ,可见上述 457aa 序列最可能为真实翻译结果,F3 可能为正确读码框。 4) 用 WebLab 中 GetORF 程序提取 PPF-1 全长 mRNA 序列中编码区核苷酸序列和所编码 的氨基酸序列。 运行结果与 SixPack 给出的翻译序

9、列相似,其中最长的序列如下: Y12618.1_32 3 - 1373 Pisum sativum mRNA for PPF-1 protein QAFKPEASRTQTFSSMAKTLISSPSFLGTPLPSLHRTFSPNRTRLFTKVQFSFHQLPPIQ SVSHSVDLSGIFARAEGLLYTLADATVAADAAASTDVAAQKNGGWFGFISDGMEFVLKVL KDGLSSVHVPYSYGFAIILLTVIVKAATLPLTKQQVESTLAMQNLQPKIKAIQERYAGNQ ERIQLETSRLYTQAGVNPLAGCLPTLATIPVWIGLYQALSNVAN

10、EGLLTEGFLWIPSLGG PTSIAARQSGSGISWLFPFVDGHPLLGWYDTAAYLVLPVLLIVSQYVSMEIMKPPQTNDP NQKNTLLIFKFLPLMIGYFSLSVPSGLTIYWFTNNVLSTAQQVWLRKLGGAKPAVNENAG GIITAGQAKRSASKPEKGGERFRQLKEEEKKKKLIKALPVEEVQPLASASASNDGSDVEN NKEQEVTEESNTSKVSQEVQSFSRERRSKRSKRKPVA 其余序列均为短序列(最长为 91aa) ,可见上述氨基酸序列最可能为真实翻译结果,相 应的编码区核苷酸序列为全长 mRNA

11、序列的 3-1373 位。 5) 比较上述读码框分析软件,说明其用途和特点。 PlotORF 是根据给定的起止密码子来划分 ORF, 并以图形形式展示所有 6 中读码框下的 ORF,非常直观但没有显示精确位置,可以根据实际需求定义起止密码子,适用于原核 或者 mRNA 真核序列,但当所给真核序列不包含起始密码子时会丢失部分外显子。 实用生物信息技术课程第 5 次作业 5 ShowORF 将所给核酸序列按照所选读码框(或全部 6 种读码框)及密码子翻译为氨基 酸序列,将所给核酸序列及所选/全部读码框下翻译的氨基酸序列并排显示,起止密码 子以星号显示, 根据所翻译的氨基酸序列可以推断读码框是否合理

12、, 可以直接看到所选 /全部读码框下的翻译情况,但不够直观。 SixPack 与 ShowORF 相似,展示所给核酸序列及六种读码框下翻译的氨基酸序列,还 统计了每种读码框下 ORF 的个数,并将每种读码框下得到的符合限定要求的氨基酸序 列以 fasta 格式给出,可以较直观得到所有可能的氨基酸序列。 GetORF 根据给定的起止密码子来划分 ORF,并将符合限定要求的 ORF 翻译为氨基酸 序列以 fasta 格式给出,可得到符合限定要求的所有翻译序列及其对应的读码框和起止 位置。 4. 核苷酸序列分析核苷酸序列分析 1) 利用 WebLab 中密码子统计程序,分析豌豆 PPF-1 和拟南芥

13、中同源基因。 用 Cusp 程序,分别以 PPF1_PEA 和 ALB3_ARATH 编码基因的编码区序列作为输入序 列进行密码子统计,两者的密码子使用偏好如下图所示: PPF1_PEA ALB3_ARATH Coding GC 43.04% 44.49% 1st letter GC 51.92% 52.92% 2nd letter GC 43.34% 44.49% 3rd letter GC 33.86% 36.07% 可见,豌豆 PPF-1 和拟南芥中同源基因 ALB3_ARATH 密码子使用偏好很接近,以 AT 结尾的密码子的使用频率都高于以 GC 结尾的密码子,且两者三个位置的 GC

14、使用偏好 也都较为接近。 2) 利用 WebLab 中内切酶分析程序,分析豌豆 PPF-1 基因的酶切位点。 用 Remap 程序对 PPF1_PEA mRNA 序列进行分析,限制只输出单一酶切位点的酶,得 103 个酶及其酶切位点,其中第 1-60 位序列的酶切位点如下所示: 实用生物信息技术课程第 5 次作业 6 报告还给出了有多个酶切位点的酶以及对该序列没有酶切位点的酶的列表,根据需求可 以更改参数设置得到所需的酶及酶切位点信息,可以根据实验目的及这些酶切位点信息 进行实验方案设计。 3) 利用 WebLab 中引物设计程序,设计 PPF-1 基因 mRNA 序列的引物。 用 Eprim

15、er32 对 PPF1_PEA mRNA 序列进行分析,设置产物长度范围为 1380-1500,从 输出结果列表中选择如下引物: Start Len Tm GC%Sequence Forward primer 9 25 59.2952.00TTCAAGCCTGAAGCGTCTCGTACAC Reverse primer 1365 27 57.6648.15GTATGTGGTCCACTATCATGCAACAGG Product size 1383 利用这对引物可以获得 PPF1_PEA mRNA 序列的 9-1392 位的 PCR 产物,其中包含了全 部编码区信息(48-1376)。 5. 蛋白

16、质序列分析蛋白质序列分析 1) 利用 WebLab 和 ExPASy 网站提供的氨基酸组成分析程序,统计 PPF-1 蛋白质 20 种不同 氨基酸的组成。 用 WebLab 上的 Pepstats 对 PPF1_PEA 氨基酸序列进行分析,其氨基酸组成如下: Residue NumberMole% DayhoffStat A = Ala 39 8.824 1.026 C = Cys 1 0.226 0.078 D = Asp 11 2.489 0.452 E = Glu 24 5.430 0.905 F = Phe 19 4.299 1.194 G = Gly 31 7.014 0.835 H = His 5 1.131 0.566 I = Ile 23 5.204 1.156 K = Lys 28 6.335 0.960 L = Leu 50 11.312 1.529 M = Met 6 1.357 0.799 N = Asn 18 4.072 0.947 P = Pro 27 6.109 1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号