《【最新】蛋白质序列可视化》由会员分享,可在线阅读,更多相关《【最新】蛋白质序列可视化(8页珍藏版)》请在金锄头文库上搜索。
1、生物信息学是一个较新的学科领域,它涵概了对基因组信息的多个研究过程,通过综合运用生物学、信息学、统计学、数学等工具和手段,来阐明和理解生物数据,使之成为具有明确生物意义的生物信息,并通过对生物信息的查询、检索、比较和分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系。蛋白质是生命体赖以生存的营养要素,是细胞组织的重要组成部分,几乎所有的生物过程都与蛋白质发生某种联系。根据蛋白质序列的排列顺序和序列信息确定蛋白质的功能成为生物学研究重点。它的主要研究方法可分为两大类,其一是利用实际实验的方法来预测,包括 X 光绕射和核磁共振;其二则是利用理论计算的方法,包括同源建模法、折叠识别法
2、以及从头预测法三种。虽然用实验的方法较为准确,但花费的时间长,而且很多蛋白质难以结晶,因而实验结果也受到技术和设备上的制约;相对而言,用理论计算的方法则可以避免这些缺点,所以发展基于蛋白质序列对结构和功能进行预测的模型成为必要。由于生物数据的复杂性和高维性,既不能以数字公式表示,也不能以逻辑公式表示,故对这些序列的研究大多是基于统计工具。此外,通过数据的可视化,帮助人们认识和理解生物序列,进而分析和解释数据,使人们从表面上看来是杂乱无章的海量数据中找出隐藏的规律,为科学发现提供依据。所以,现在有些学者开始借助各种可视化工具,以图、树、方体、链的形式展现其复杂结构和序列模式,以求直观地表达生物序
3、列的理论结构与区别。常用的生物数据可视化工具有语义镜技术、信息壁技术、基因调控网格等。同时,将经过数据挖掘工具得到的数据结果也以图形、图像的形式展现给用户,便于用户寻找数据间规律和关系。目前对于 DNA(RNA)序列的二维和三维重构方面的工作已经取得较大的进展,但对于蛋白质等大分子在这方面的工作还有待于深入。此外,通过对蛋白质结构和功能的分析,能获取隐含其中的有用生物学信息,为我们理解生命、发现新药物和新疗法提供帮助。蛋白质是由20 个氨基酸按不同排列构成,因此,蛋白质类型分析从某种意义上说就是对序列数据的挖掘。(1)请根据你的调查写一份关于对 DNA 可视化工作方面的科学报告。要求在阐明这项
4、工作原理的基础上,重点强调它的意义和影响;报告要条理清晰,易读易懂,字数不少于 800。(2)蛋白质序列由 20 氨基酸构成,设一个长度为 L 的蛋白质序列表示如下: 其中, 表示蛋白质序列中第 个出现的氨基酸,它是L431RPiRiA、 C、D、E、F 、G、H、I 、K 、L、M、N 、P、Q、R 、S 、T 、V、W、Y 中的某一个。如果利用正二十面体的每个面的方向向量代表 20 个氨基酸,请结合 DNA 可视化方面工作对你的启发构造合适的对应关系和分析模型,以区别开如下两类不同的蛋白质序列,并画出部分序列的图形(二维或三维均可,重点是要清楚讲明你的模型和想法,可参考 CGR-游走序列的
5、方法) ,以说明你模型的特点和创造性。第一类: 11 个P04855 MTAYIQRSQCISTSLLVVLTTLVSCQIPRDRLSNIGVIVDEGKSLKIAGSHESRYIVLSLVPGVDFENGCGTAQVIQYKSLLNRLLIPLRDALDLQEALITVTNDTTQNAGAPQSRFFGA VIGTIALGVATSAQITAGIALAEAREAKRDIALIKESMTKTHKSIELLQNAVGEQILALK TLQDFVNDEIKPAISELGCETAALRLGIKLTQHYSELLTAFGSNFGTIGEKSLTLQALSS LYSANITEIMTTIKTGQSNIYD
6、VIYTEQIKGTVIDVDLERYMVTLSVKIPILSEVPGVLI HKASSISYNIDGEEWYVTVPSHILSRASFLGGADITDCVESRLTYICPRDPAQLIPDSQQ KCILGDTTRCPVTKVVDSLIPKFAFVNGGVVANCIASTCTCGTGRRPISQDRSKGVVFLT HDNCGLIGVNGVELYANRRGHDATWGVQNLTVGPAIAIRPIDISLNLADATNFLQDSKAE LEKARKILSEVGRWYNSRETVITIIVVMVVILVVIIVIIIVLYRLRRSMLMGNPDDRIPR DTYTLEPKIRHMYTNGG
7、FDAMAEKR P21285 MYGIEYTTILTILISIVLLNYILKSITSMMDFIIYRFLLVFVIVLPFIKAQNYGINLPIT GSMDTAYVNSTQQESFMTSTLCLYYPNSVTTEITDPDWTHTLSQLFLTKGWPTNSVYFKS YADIASFSVNPQLYCDYNIVLVQYQNSLALDVSELADLILNEWLCNPMDVTLYYYQQTDE ANKWISMGDSCTVKVCPLNMQTLGIGCTTTDVATFEEVANAEKLVITDVVDGVNHKINIT LNTCTIQNCKKLGPRENVAIIQVGGSDIIDITADPTTIPQ
8、TERIMRINWKKWWQVFYTVV DYINQIVQVMSKRSRSLNSAAFYYRI P29821 MYSTKCTNFFLEIIFYVIFCTLFLLVLEKMSKLLSWIVIVCLFVFAISSKCSAQNYGINV PITGSMDVVLANSTQDQIGLTSTLCIYYPKAADTEIADPEWKATVTQLLLTKGWPTTSVY LNEYQDLVTFSNDPKLYCDYNIVLAHYTNDVALDISELAEFLLYEWLCNPMDVTLYYYQQTSEPNKWIAMGTNCTIKVCPLNTQTLGIGCQTTNTDTFEILTMSEKLAIIDVVDGVNHKV DY
9、TVATCKINNCIRLNPRENVAIIQVGGPEVLDISENPMVIPKVSRMTRMNWKKWWQVFYTIVDYINTIITTMSKRSRSLDVSSYYYRV Q03874 MYGIECTTILTFLISLILLNYILQLLTRIMDFIIYRFLFIIVFLSPFLKAQNYGINLPISGSMDTAYVNSTQENIFLTSTLCLYYPTEAATQIDDSSWKDTISQLFLTKGWPAGSVYLKEYTDITSFSIDPQLYCDYNVVLMKYDEALQLDMSELADLILNEWLCNPMDITLYYYQQTDEANKWISMGSSCTIKVCPLNTQTLGI
10、GCLTTNVATFEEVATSEKLVIKDVVDGVDHKVECTTTTCTIRNCKKLGPRENVAIIQVGGSDILDITADPTTAPQIARMMRINWKKWWQVFYTVVDYINQIVQVMSKRSRSLDSAAFYYRI P09365 MYGIEYTTVLLYLISFVLMSYILKTITKMMDYIIYRITFIIVVLSVLSNAQNYGINLPITGSMDTAYANSTQDNNFLSSTLCLYYPSEAPTQINDNEWKDTLSQLFLTKGWPTGSVYFNEYSNVLEFSIDPKLHCDYNIVLIRFASGEELDISELADLILNEWLCNPMDIT
11、LYYYQQTGEANKWISMGSSCTVKVCPLNTQTLGIGCQTTNTATFETVADSEKLAIVDVVDSVNHKLDVTSTTCTIRNCNKLGPRENVAIIQVGGSNILDITANPTTSPQTERMMRVNWKKWWQVFYTVVDYINQIVQVMSKRSRSLDSSSFYYRV P52638 MQPSMSFLIGFGTLVLVLSARTFDLQGLSCNTDSTPGLIDLEIRRLCHTPTENVISCEVSYLNHTTISLPAVHTSCLKYHCKTYWGFFGSYSADRIINRYTGTVKGCLNNSAPEDPFECNWFYCCSAITTEICRCSI
12、TNVTVAVQTFPPFMYCSFADCSTVSQQELESGKAMLSDGSTLTYTPYILQSEVVNKTLNGTILCNSSSKIVSFDEFRRSYSLTNGSYQSSSINVTCANYTSSC PRLKRRRRDTQQIEYLVHKLRPTLKDAWEDCEILQSLLLGVFGTGIASASQFLRSWLNH PDIIGYIVNGVGVVWQCHRVNVTFMAWNESTYYPPVDYNGRKYFLNDEGRLQTNTPEARPGLKRVMWFGRYFLGTVGSGVKPRRIRYNKTSHDYHLEEFEASLNMTPQTSIASGHETDPINHAYGTQADLLPYTRS
13、SNITSTDTGSGWVHIGLPSFAFLNPLGWLRDLLAWAAWLGGVLYLISLCVSLPASFARRRRLGR P36357 MYSTECTILLIEIIFYFLAAIILYDMLHKMANSPLLCIAVLTVTLAVTSKCYAQNYGINVPITGSMDVAVPNKTDDQIGLSSTLCIYYPKEAATQMNDAEWKSTVTQLLLAKGWPTTSVYLNEYADLQSFSNDPQLNCDYNIILAKYDQNETLDMSELAELLLYEWLCNPMDVTLYYYQQTSESNKWIAMGSDCTIKVCPLNTQTLGIGCKTTDVSTFEELTTTEKLA
14、IIDVVDGVNHKANYTISTCTIKNCIRLDPRENVAIIQVGGPEIIDISEDPMVVPHVQRATRINWKKWWQIFYTVVDYINTIIQAMSKRSRSLNTSAYYFRV P04511 MYGIEYTTILIFLTSITLLNYILKSITRMMDYIIYRFLLIVVILATIINAQNYGVNLPITGSMDTAYADSTQSEPFLTSTLCLYYPVEASNEIADTEWKDTLSQLFLTKGWPTGSVYLKEYADIAAFSVEPQLYCDYNLVLMKYDSTQELDMSELADLILNEWLCNPMDITLYYYQQTDEANKWISTGSSC
15、TVKVCPLNTQTLGIGCLITNPDTFETVATMEKLVITDVVDGVNHKLNVTTATCTIRNCKKLGPRENVAVIQVGGANVLDITADPTTTPQTERMMRINWKKWWQVFYTVVDYVNQIIQTMSKRSRSLNSSAFYYRV P03532 MYGIEYTTILIFLISIILLNYILKSVTRIMDYIIYRFLLITVALFALTRAQNYGLNLPITGSMDAVYTNSTQEEVFLTSTLCLYYPTEASTQINDGDWKDSLSQMFLTKGWPTGSVYFKEYSNIVDFSVDPQLYCDYNLVLMKYDQSLELDMSELAD
16、LILNEWLCNPMDVTLYYYQQSGESNKWISMGSSCTVKVCPLNTQTLGIGCQTTNVDSFEMIAENEKLAIVDVVDGINHKINLTTTTCTIRNCKKLGPRENVAVIQVGGSNVLDITADPTTNPQTERMMRVNWKKWWQVFYTIVDYINQIVQVMSKRSRSLNSAAFYYRV P25176 MYGIEYTTILTFFVSFIILDYTIKTLTRAMDFIIYRFLLVVVILSPLLTAQNYGINLPITGSMDTAYANSTQEENFLVSTLCLYYPNEVVSELNDDSWKNTLSQLFLTKGWPTGSVYFNEYSDIASFSINPQLYCDYNIVVVKYSTELQLDISELANLILNEWLCNPMDITLYYYQQTDETNKWISTGTSCTVKVCPLNTQTLGIGCLTTDTETFEEVATLEKLVITDVVDGVNHKINLTTATCTIRNCKKLGPRENVAIIQVGRSSTIDITADPTTMPQTERMMRINWKKWWQVFYTI