人工智能技术在生物信息学中的应用研究

资源描述

《人工智能技术在生物信息学中的应用研究》由会员分享，可在线阅读，更多相关《人工智能技术在生物信息学中的应用研究（60页珍藏版）》请在金锄头文库上搜索。

1、人工智能技术在生物信息学人工智能技术在生物信息学中的应用研究中的应用研究刘滨内容内容l生物信息学概述l生物知识lDNA介绍l蛋白质介绍l人工智能和自然语言处理技术在生物信息学中的应用l蛋白质序列和自然语言的相似性l蛋白质相互作用位点预测l远程同源性和折叠检测l资源l数据库l工具定义定义lBioinformatics由来l生物信息学之父Hwa A. Lim博士lCompBio bioinformatique bio-informatics(bio/informatics) bioinformatics意义意义意义意义蛋白质序列蛋白质结构数据指数级增长增长的不平衡性研究方向研究方向lDNA序列分析

2、l基因识别l系统发生行为分析（进化树）l蛋白质结构和功能预测l基因芯片l数据挖掘和基因表达调控信息分析l基因组功能预测l支撑蛋白质组学和各种“组学”研究l利用生物分子的结构信息参与创新药物的设计l生物学虚拟实验模型的构件数据源数据源数据量数据量生物信息学任务生物信息学任务DNA序列3000万条序列 400.0 亿个碱基分离编码与非编码区域识别内含子与外显子基因产物预测基因功能注释基因调控信息分析蛋白质序列100万条序列序列比较多重序列比对识别保守的序列模式进化分析大分子结构 2.5 万个结构二级结构、空间结构预测三维结构比对蛋白质几何学度量表面和形态计算分子间相互作

3、用分析分子模拟基因组1300个基因组（其中大量是病毒和微生物基因组）标注重复序列基因结构分析系统发生分析基因与疾病的连锁分析基因组比较遗传语言分析基因表达海量基因表达模式相关分析基因调控网络分析表达调控信息分析DNA介绍介绍碱碱基基DNARNA碱基腺嘌呤(adennine,A)鸟嘌呤(guanine,G)胞嘧啶(cytosine,C)胸腺嘧啶(thymine,T)腺嘌呤鸟嘌呤胞嘧啶尿嘧啶(Uracil,U) 戊糖脱氧核糖核糖磷酸磷酸磷酸碱基配对DNA的空间结构的空间结构蛋白质介绍蛋白质介绍20种标准氨基酸的英文简写氨基酸名称氨基酸名称英文缩写英文缩写简简写写氨基酸

4、名称氨基酸名称英文缩英文缩写写简简写写甘氨酸GlyG丝氨酸SerS丙氨酸AlaA苏氨酸ThrT缬氨酸ValV天冬酰胺AsnN异亮氨酸IleI谷酰胺GlnQ亮氨酸LeuL酪氨酸TyrY苯丙氨酸PheF组氨酸HisH脯氨酸ProP天冬氨酸AspD甲硫氨酸MetM谷氨酸GluE色氨酸TrpW赖氨酸LysK半胱氨酸CysC精氨酸ArgR肽键肽键本实验室的人工智能技术和自然语言本实验室的人工智能技术和自然语言处理技术在生物信息学中的应用处理技术在生物信息学中的应用l采用Ngram寻找蛋白白质序列和自然语言的相似性l采用条件随即域（CRF）解决蛋白质相互作用位点预测问题。l采用N-gram, binar

5、y profile和N-nary profile模型结合支持向量（SVM）机解决蛋白质远程同源性和折叠识别的问题。l采用潜在语义分析（LSA）提高远程同源性检测效果。蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性蛋白质序列和自然语言的相似性lDong et al. N-gram Statistics and Linguistic Featrues Analysis of Whole Genome Protein Sequences. Journal of Harbin Institute of Technology. 2004 l在此论文中，探索了蛋白质和

6、自然语言之间的关系。N-gram例子： SVYDA其中包含的3-gram为：SVYVYDYDAN-gram 比较分析（人）比较分析（人）N-gram 比较分析（褐家鼠）比较分析（褐家鼠）蛋白质组的蛋白质组的Zipf定律分析定律分析lZipf定律：l对数形式的Zipf定律为：Zipf定律分析定律分析（人）（人）蛋白质序列和自然语言的关系蛋白质序列和自然语言的关系蛋白质相互作用位点预测蛋白质相互作用位点预测基于CRF的蛋白质相互作用位点预测l蛋白质相互作用位点预测研究内容l蛋白质相互作用位点预测的意义l为什么采用CRF进行相互作用位点预测lCRF模型l实验结果分析蛋白质相互作用位点预测研究内容蛋

7、白质相互作用位点预测研究内容相互作用位点预测的任务相互作用位点预测的任务A R N D C Q E G H I L K M F P S T W Y V . 0 1 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 蛋白质相互作用位点预测的意义蛋白质相互作用位点预测的意义l识别相互作用的位点可以帮助构建蛋白质复合体的分子结构模型。与此同时，蛋白质相互作用位点的研究对理解生物体活动机制、蛋白质功能研究、疾病诊断和药物研究有重要意义。为什么采用为什么采用CRF进行相互作用位点预测进行相互作用位点预测l蛋白质一级结构是一个序列l传统的相互作用位点预测方法都是基于分类的方法，忽略了

8、序列相邻的或者空间相邻的残基对于形成相互作用的接口具有相似的倾向。l为了引入相邻残基间的相互影响的信息，采用了基于序列标记的方法（CRF）。CRF模型模型yi-1yiyi+1X(x1,x2,xi-1,xi,xi+1,xn)链状条件随机域模型转移特征状态特征特征定义特征定义l转移特征l序列谱状态特征l残基的溶剂可接触面积状态特征l残基的保守性状态特征实验结果分析：实验结果分析：预测示例预测示例SMC1HD:SCC1-C复合体 CRF预测结果支持向量机预测结果正确位点实验结果分析：实验结果分析：预测示例预测示例Ribosomal subunit 30S复合体 CRF预测结果支持向量

9、机预测结果正确位点实验结果分析：实验结果分析：预测示例预测示例Sreptococcal pyrogenic enterotoxin C（SpeC）复合体 CRF预测结果支持向量机预测结果正确位点远程同源性和折叠检测远程同源性和折叠检测远程同源性和折叠检测研究内容远程同源性和折叠检测研究内容l蛋白质可按其结构和进化关系进行分类。目前广泛使用SCOP 数据库定义的分类体系，包含三个主要层次：家族(family)、超家族(superfamily)和折叠(fold)。l依靠蛋白质一级结构将其按照结构和进化关系进行分类。意义意义l在比较建模和折叠识别中，都需要识别和待测序列具有同源性的蛋白质作

10、为模板。因此根据序列来探测蛋白质的同源性是蛋白质结构预测中的重要步骤。蛋白质同源性检测方法示意图蛋白质向量化方法蛋白质向量化方法lN-gramslBinary profileslN-nary profilesBinary profilesN-nary profiles 统计方法l 统计方法可衡量特征t和类别c之间的相关性。特征t相对于类别c的值定义如下潜在语义分析（潜在语义分析（LSA）l用于自动实现知识提取和表示的理论和方法，通过对大量的文本集进行统计分析，从中提取出词语的上下文使用含义。采用采用LSA的可能性的可能性实验结果分析（远程同源性检测结果）实验结果分析（远程同源性检测结果）实

11、验结果分析（折叠检测结果）实验结果分析（折叠检测结果）远程同源性检测结果远程同源性检测结果(roc50分布分布)折叠检测结果（折叠检测结果（roc50分布）分布）核酸序列数据库核酸序列数据库 (cont.)l国际上权威的核酸序列数据库（1）欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de （2）美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html （3）日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/l人类基因组数据库lGDB http:/w

12、ww.gdb.org/ lEnsembl http:/www.ensembl.org/ l其他模式生物基因组数据库l鼠基因组数据库 MGD http:/www.informatics.jax.org/ l酵母基因组数据库 SGD http:/genome-www.stanford.edu/Saccharomyces/l表达序列标记数据库dbEST http:/www.ncbi.nlm.nih.gov/dbEST/l序列标记位点数据库 dbSTS http:/www.ncbi.nlm.nih.gov/dbSTS/l面向基因聚类数据库UniGene http:/www.ncbi.nlm.nih.g

13、ov/UniGene/ 蛋白质序列数据库蛋白质序列数据库lPIRlhttp:/pir.georgetown.edu/ lSWISS-PROTlhttp:/www.expasy.ch/sprot/sprot-top.html lTrEMBLlhttp:/www.ebi.ac.uk/trembl/ lUniProtlIncludes PIR, SWISS-PROT, TrEMBLlhttp:/www.uniprot.org/ 生物大分子结构数据库生物大分子结构数据库lPDBlhttp:/www.rcsb.org/pdb/home/home.do lMMDBlhttp:/130.14.29.110/

14、Structure/MMDB/mmdb.shtml PDB其他生物分子数据库其他生物分子数据库l单碱基多态性数据库dbSNP http:/www3.ncbi.nlm.nih.gov/SNP/l蛋白质结构分类数据库SCOP http:/scop.mrc-lmb.cam.ac.uk/scop/l蛋白质二级结构数据库DSSP http:/www.sander.embl-heidelberg.de/dssp/ l蛋白质同源序列比对数据库HSSP http:/www.sander.embl-heidelberg.de/hssp/l人类遗传数据库OMIM http:/www.ncbi.nlm.nih.go

15、v:80/entrez/query.fcgi?db=OMIM l蛋白质指纹数据库PRINTS http:/www.bioinf.man.ac.uk/dbbrowser/PRINTS/l基因启动子数据库EPD http:/www.epd.isb-sib.ch/l转录调控区域数据库TRRD http:/wwwmgs.bionet.nsc.ru/mgs/gnw/trrd/ l转录因子数据库TRANSFAC http:/transfac.gbf.de/l基因本体数据库GO http:/www.geneontology.org/ l生物、医学文献数据库PubMed http:/www.ncbi.nlm.

16、nih.gov/l人、鼠基因表达数据库BODYMAP http:/bodymap.ims.u-tokyo.ac.jp/l序列模式数据库PROSITE http:/www.expasy.ch/prosite/l目录数据库DBCat http:/www.infobiogen.fr/services/dbcat/其他资源其他资源北京大学生物信息中心（欧洲分子生物学网络EMBNet的中国节点和亚太生物信息学网络（APBioNet）中国节点）http:/ The Canadian Bioinformatics Resourcehttp:/www.cbr.nrc.ca/Human Genome Work

17、ing Drafthttp:/genome.ucsc.edu/TIGR (The Institute for Genomics Research)http:/www.tigr.org/Celerahttp:/ Organism specific information:Yeast: http:/genome-www.stanford.edu/Saccharomyces/Arabidopis: http:/www.tair.org/Mouse: http:/www.jax.org/Fruitfly: http:/www.fruitfly.org/Nematode: http:/www.wormb

18、ase.org/Nucleic Acids Research Database Issuehttp:/nar.oupjournals.org/ (First issue every year)常用软件常用软件Database interfacesGenbank/EMBL/DDBJ, Medline, SwissProt, PDB, Sequence alignmentBLAST, FASTAMultiple sequence alignmentClustal, MultAlin, DiAlign，PSI-BlastGene findingGenscan, GenomeScan, GeneMar

19、k, GRAILProtein Domain analysis and identificationpfam, BLOCKS, ProDom, Pattern Identification/CharacterizationGibbs Sampler, AlignACE, MEMEProtein Folding predictionPredictProtein, SwissModeler研究中的一些体会研究中的一些体会l发现问题l紧紧围绕实验室的技术l在试验中发现问题，解决问题。Sun说过“没有失败的试验，只有放弃的试验”。相关文章相关文章lDong Qiwen, Wang Xiaolong,

20、Lin Lei. N-gram Statistics and Linguistic Features Analysis of Whole Genome Protein Sequences. Journal of Harbin Institute of Technology. 2004. lLi MH, Lin L, Wang XL, Liu T: Protein-protein interaction site prediction based on conditional random fields. Bioinformatics (2007). lDong QW., Wang XL. an

21、d Lin L.: Application of Latent Semantic Analysis to Protein Remote Homology Detection. Bioinformatics. 22, 285-290 (2006).lLiu B, Lin L, Wang XL, Dong QW, Wang X: A discriminative method for protein remote homology detection based on N-nary profiles. BIRD08 (2008).l孙之荣译,后基因组信息学 ,清华大学出版社.谢谢！谢谢！欢迎您的批评指正

展开阅读全文

人工智能技术在生物信息学中的应用研究

最新文档