北京大学化学信息学

上传人:人*** 文档编号:569714396 上传时间:2024-07-30 格式:PPT 页数:75 大小:416.50KB
返回 下载 相关 举报
北京大学化学信息学_第1页
第1页 / 共75页
北京大学化学信息学_第2页
第2页 / 共75页
北京大学化学信息学_第3页
第3页 / 共75页
北京大学化学信息学_第4页
第4页 / 共75页
北京大学化学信息学_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《北京大学化学信息学》由会员分享,可在线阅读,更多相关《北京大学化学信息学(75页珍藏版)》请在金锄头文库上搜索。

1、课程内容安排w第十一讲:Chemoinformaticsn分子结构信息的计算机存储和表达分子结构信息的计算机存储和表达n分子二维数据库和数据库检索技术分子二维数据库和数据库检索技术w第十二讲:Cheminformaticsn分子多样性和化合物筛选分子多样性和化合物筛选n三维结构的实验数据资源三维结构的实验数据资源n基于三维结构的计算方法基于三维结构的计算方法n化合物组合库化合物组合库n高通量虚拟筛选高通量虚拟筛选1化学信息学第十一讲Chemoinformatics2内 容w相关名词辨析及化学信息学由来w分子结构信息的计算机存储和表达w分子二维数据库和数据库检索技术3名词解释Computatio

2、nal Chemistry计算化学: 使用数学方法计算分子性质和模拟分子行为的方法。并且包括合成设计、数据库搜索、组合库操作等 (Hopfinger, 1981; Ugi et al., 1990). IUPAC Computational 4相关名词辨析5名词解释Molecular Modeling分子建模方法: 使用计算化学和图形显示技术研究分子结构和性质,从而获得在给定环境下的分子三维结构的近似表达 IUPAC Medicinal Chemistry, IUPAC Computational6名词解释Chemometrics化学统计学: 使用数理统计学的方法对化学信息(如有机,分析和药物

3、化学)进行分析,或进行化学实验的设计和模拟IUPAC Computational7名词解释Bio-informatics生物信息学: 使用数理统计学的方法对化学信息(如有机,分析和药物化学)进行分析,或进行化学实验的设计和模拟IUPAC Computational8名词解释Chemoinformatics?: Chemoinformatics 是是知识管理知识管理(knowledge management)的有机组成部分的有机组成部分Nicholas J. Hrib, Norton P. PeetChemoinformatics: are we exploiting these new sci

4、ence?“Drug Discovery Today 5 (11): 483-485, Nov. 20009名词解释Cheminformatics 化学信息学: 结合化学合成、生物筛选及数据挖掘技术指导药物发现和开发, 用于合理的设计具有类药性质的化合物,构建用于虚拟高通量筛选的智能化合物库,研究以往的数据知道先导化合物的优化Cheminformatics: Intelligent Drug Discovery May 28- 30, 2003 Philadelphia PA 1011HumanAlcoholDehydrogenase(Adh1A)w分类:Oxidoreductasew简介:M

5、olecule: Class I Alcohol Dehydrogenase 1, Subunit; Chain: A, B; Engineered: Yesw实验方法:X-ray Diffraction12Human Alcohol Dehydrogenase (Adh1A) 13分子结构信息的计算机存储和表达w如何使用计算机存储化学结构?w如何处理存储的结构信息?w计算机在Chemoinfomatics中的应用?14分子结构信息表达的内容n原子n原子间的连接l键型n立体化学构型n电荷n同位素n3D-coordinatesforatoms15分子结构信息表达的内容n原子n原子间的连接l键型n

6、立体化学构型n电荷n同位素n3D-coordinatesforatoms16分子结构信息表达的内容n原子n原子间的连接l键型(芳香环)n立体化学构型n电荷n同位素n3D-coordinatesforatoms17分子结构信息表达的内容n原子n原子间的连接l键型(芳香环)n立体化学构型n电荷n同位素n3D-coordinatesforatoms18分子结构信息表达的内容n原子n原子间的连接l键型(芳香环)n立体化学构型n电荷n同位素n3D-coordinatesforatoms1920分子结构一维表示法(LineNotation)w简介:n使用字符串表示分子结构w现有的几种表示法nWiswess

7、erLineNotation(WLN)(Dialog)nSimplifiedMolecularInputLineSystem(SMILES/SMARTS)(Daylight)nRepresentationofStructureDiagramArrangedLinearly(ROSDAL)-(Beilstein)nSybylLineNotation(SLN)-(Tripos)wROSDAL1O-2=3O,2-4-5N,4-6-7=-12-7,10-13OwSLNOHC(=O)CH(NH2)CH2C1=CHCH=C(OH)CH=CH1wWLNQVYZ1R DQwSMILESOC(=O)C(N)CC

8、1=CC=C(O)C=C121分子结构一维表示法(LineNotation)SimplifiedMolecularInputLineEntrySystem(SMILES)基于价键模型的标记法Author:DaveWeininger(Daylight)22CMethaneC1CCCCC1cyclohexaneOwaterc1ccccc1benzeneCCethaneCOmethanolOCmethanolNCH(C)C(=O)OCCOethanolCC(=O)CacetoneO=C=OcarbondioxideL-alanineSMILE标记示例23atom:symbolsign双字母原子符号:

9、Br(Upper/lowercase)原子的预定义价键:B(3),C(4),N(3,5),O(2),P(3,5),S(2,4,6),F(1),Cl(1),Br(1),I(1)大写的字母表示非芳香体系示例:ClHydrochloricacidSH2SFe+Iron(II)cationAtoms 语法24Bond 语法语法bond:|-|=|#|.;single|double|triple|disconnectionEtheneC=CFormaldehydeC=OHydrogenCyanideC#NButadieneC=CC=C25分支分支 将支链放在括号中SMILES:CCCC(C(=O)O)C

10、CCbranch:()|()|()|()26环定义环定义 合环键用数字标出合环键用数字标出27非连接关系(disconnections):同位素表示:SMILES:Na+.O-c1ccccc1specifiedinsidebrackets.SMILES:13CH4其它定义其它定义28F/C=C/FF/C=CF双键构型的表示双键构型的表示 / / 29从旋光中心沿字符串顺序观察,逆时针为,顺时针为NC(C)(F)C(=O)O手性表示手性表示 or or 30氢原子表示氢原子表示显式表示氢原子的四种情况:1.带电荷的氢,如:质子H+2.与其它氢相连的氢,如:氢气HH3.氢桥4.同位素,如:重水,2

11、HO2H31芳香性芳香性N1ccccc1N1=CC=CC=C1C1cc2cccccc2c1C1=CC2=CC=CC=CC2=C132O-n+1ccccc1pyridine-N-oxideOCH1CCCCCH1Ocis-resorcinolCC(C)NCC(O)COc1cccc2ccccc12Propranololabeta-blocker一些例子一些例子33SMILES的正规化标记c1ccccc1Oc2ccccc2(N)Nc2ccccc2Oc1ccccc1O(c1ccccc1)(c2ccccc2N)Nc1ccccc1Oc2ccccc2Nc1ccccc1Oc2ccccc2Nc1ccccc1Oc2

12、ccccc234分子结构一维表示法(LineNotation)w优点:n易于手工书写n结构紧凑w局限:n信息量小n对复杂分子的标记比较繁琐。n某些情况下,标记具有二义性。35分子结构一维表示法的应用构造查询语言子结构匹配相似性搜索(结构指纹)化合物组合库的压缩存储反应数据库36SMILES应用示例wClogP辛醇/水分配系数w实验方法wlogP计算pH7.0时的分配系数w数据库规模=2,000,000化合物w工作站搜索速度=500,000/s37ClogP的计算使用片断加和法(片断值校正项)片断值基于实验值,与片断的类型有关,如:极性基团、卤素、离子、不饱和键校正项描述不同片断间的相互作用,如

13、:氢键等383940分子结构信息的计算机存储和表达w分子结构二维表示法n连接表(ConnectionTable)n邻接矩阵(AdjacencyTable)41连接表(ConnectionTable)w简介:计算机系统中主流结构表示方法w类型n“内部”CTs(内存)l程序处理n“外部”CTs(磁盘文件)l文件存储l数据交换42“Redundant”ConnectionTable1.O1212.C01132413.O0224.C12151615.N2416.C241717.C061821218.C172919.C18110210.C09211113111.C110112212.C11127113.

14、O110143MDLConnectionTablew数据交换的事实标准w衍生文件格式nMolfile(singlemolecule)nSDfile(setofmoleculesanddata)nRGfile(Markushstructure)nRxnfile(singlereaction)nRDfile(setofreactionswithdata)w示例44wbenzenew WLViewer 3D 0w 12 12 0 0 0 0 0 0 0 0 0w 1.1202 0.0003 0.0002 C 0 0 0 0 0 0w 1.8030 1.1835 -0.0005 C 0 0 0 0 0

15、 0w 3.1691 1.1839 -0.0004 C 0 0 0 0 0 0w 3.8522 0.0006 -0.0007 C 0 0 0 0 0 0w 3.1691 -1.1823 0.0001 C 0 0 0 0 0 0w 1.8034 -1.1829 -0.0003 C 0 0 0 0 0 0w 0.1202 0.0002 0.0011 H 0 0 0 0 0 0w 1.3028 2.0494 -0.0011 H 0 0 0 0 0 0w 3.6690 2.0500 -0.0001 H 0 0 0 0 0 0w 4.8522 0.0005 -0.0015 H 0 0 0 0 0 0w

16、3.6692 -2.0482 0.0010 H 0 0 0 0 0 0w 1.3036 -2.0490 -0.0010 H 0 0 0 0 0 0w 1 2 4 0 0 0w 1 6 4 0 0 0w 2 3 4 0 0 0w 3 4 4 0 0 0w 4 5 4 0 0 0w 5 6 4 0 0 0w 1 7 1 0 0 0w 2 8 1 0 0 0w 3 9 1 0 0 0w 4 10 1 0 0 0w 5 11 1 0 0 0w 6 12 1 0 0 0wM END45其它CTs格式wStandardMolecularData(SMD)formatnnevergainedwideacce

17、ptancewProteinDataBank(PDB)formatwCrystallographicInformationFile(CIF)wMolecularInformationFile(MIF)ndevelopedfromSMDandcompatiblewithCIFwChemicalExchangeFormat(CXF)nChemicalAbstractsServicewChemicalMarkupLanguage(CML)nfordataexchangeusingtheInternetwIChI(IUPACChemicalIdentifier)46分子结构信息的计算机存储和表达w分子

18、结构三维表示法n三维坐标文件(Mol,XYZ,SD)n内部坐标表示法(Z-Matrix)47wbenzenew WLViewer 3D 0w 12 12 0 0 0 0 0 0 0 0 0w 1.1202 0.0003 0.0002 C 0 0 0 0 0 0w 1.8030 1.1835 -0.0005 C 0 0 0 0 0 0w 3.1691 1.1839 -0.0004 C 0 0 0 0 0 0w 3.8522 0.0006 -0.0007 C 0 0 0 0 0 0w 3.1691 -1.1823 0.0001 C 0 0 0 0 0 0w 1.8034 -1.1829 -0.00

19、03 C 0 0 0 0 0 0w 0.1202 0.0002 0.0011 H 0 0 0 0 0 0w 1.3028 2.0494 -0.0011 H 0 0 0 0 0 0w 3.6690 2.0500 -0.0001 H 0 0 0 0 0 0w 4.8522 0.0005 -0.0015 H 0 0 0 0 0 0w 3.6692 -2.0482 0.0010 H 0 0 0 0 0 0w 1.3036 -2.0490 -0.0010 H 0 0 0 0 0 0w 1 2 4 0 0 0w 1 6 4 0 0 0w 2 3 4 0 0 0w 3 4 4 0 0 0w 4 5 4 0

20、0 0w 5 6 4 0 0 0w 1 7 1 0 0 0w 2 8 1 0 0 0w 3 9 1 0 0 0w 4 10 1 0 0 0w 5 11 1 0 0 0w 6 12 1 0 0 0wM END48MethanolZ-matrixCO1l1H1l22a1H1l32a23da1H1l32a23-da1H2l41a33180.0l11.42l21.09l31.09l41.09l51.09l61.0a1109.0a2110.0a3108.0a4110.0a5110.0da160.0da2120.0da360.0z-matrix49分子芳香性问题w使用单双键交替表示法导致同一分子有不同的拓

21、扑表示法,以及其它问题w解决方式:n使用芳香键类型n使用规一化的原子键类型50共振结构w是否看作同一分子?n答案是你期望如何处理w使用规一化的键型w使用单双键交替法51共振结构w共振式定义的方法HQX=R Q=XRHQ, X or R只能是特定原子lketo-enol 共振结构CA不能正确识别l单一的不饱和碳链Daylight不能正确识别52结构习惯规则有时称 “business rules”n某些化学基团的不同表示法n习惯规则确定哪一种更合适n需要软件进行转换53Stereochemistrywdifferentcompoundswithidenticalconnectivitywsamet

22、opology,differenttopographyS-tyrosineR-tyrosine54立体化学w不同的表示法n上下键nCahn, Ingold, Prelog (CIP) designators (R, S, E, Z)n基于文本的描述符 (光学旋光)55立体化学: 上下键w给图的节点着色n很多连接表格式包含特殊的上下键表示n需要确定连接的原子w便于生成图形显示w可以转换成其它手性定义56上/下键问题w不同的上/下键表示可能是同一手性分子 n不同的图,相同的分子w某些上下键组合并不足以确定手性57Stereochemistry:CIPdesignatorswR.S.Cahn,C.I

23、ngold,andV.Prelog,AngewandteChemieIntl.Ed.inEnglish1966,5,385-551wone-letterdesignatorforstereocentersnbasedonrulesassigningprioritiestogroupsarounditntetrahedralcarbons(R,S)ndoublebonds(E,Z)wadditionalcolorsforgraphnodesoredgesnusefulfordistinguishingstereoisomerswhenabsoluteconfigurationisknownnle

24、ssusefulformatchingpartsofstructures(substructuresearch)aspriorityrulescancausedesignatortochangewhenremotepartofstructureischanged58其它复杂情况w有机金属和配合物n复杂立体化学n特殊键型n共价或离子键型不确定 l“business rules” w无机物n没有象有机物类似的明确拓扑关系n部分组成为分数n晶体结构59其它复杂情况w氢桥w二茂铁w可能的解决方法n键连接任意一个碳原子n键连所有5个碳原子n键连一个环中心的伪原子(dummy atom)60生物大分子w使

25、用缩写描述基本单元61生物大分子w每个缩写具有预定义的连接点w混合表示法w定义新的缩写62聚合物w聚合物的性质与聚合条件有关n重复单元的平均数目n交联度n不同单体的比例n随机或嵌段共聚w主要表示法n单体表示n结构重复单元 (SRU) 表示法63Markush(“Generic”)结构n不同的R-基n一组具有共同特征的结构的简写64Markush结构n又称通用“generic” 结构n应用l专利描述l组合库描述l数据库查询65正则命名w问题的提出?nconnectiontablenSMILESw比较不同分子结构要求一种唯一的或“正则”的表示法w将输入结构转换成正则表达的过程称“canonical

26、ization”or“canonization”66正则命名w一种简单的办法:n生成所有SMILES串n选择字符顺序靠前的w缺点是速度慢,可能漏掉67正则命名w将原子重新编号n确定CTs中原子的序号n确定SMILES中原子的序号w驰豫法(Morgansalgorithm)68对称性识别和环识别w结构中包含多少环?w环识别的重要性n命名生成n芳香性识别n合成重要性识别n片断描述符编码69环系70识别什么样的环?wsmallestsetofsmallestrings,SSSRn两个六元环?n一个六元环,一个十元环?n两个五元环?一个五元环,一个六元环?wSSSR不唯一nC-S-C-C-C-CnC-

27、C-C-C-O-CnC-S-C-C-O-C71结构片断编码(FragmentCode)n早期的化合物信息系统基于结构片断编码l手工编码l使用打孔卡片检索n某些特殊系统的片断编码l结构的自动编码l在专利系统中处理通用结构“Markush”(e.g.DerwentWPIcode)72分子结构指纹w示例1011110100n0:没有相应的结构片断n1:有相应的结构片断w计算机中的存储w对于分子结构通常称为指纹(fingerprints)73分子结构指纹w指纹通常长度为150-2,500位w每一位对应不同的结构片断w缺陷是结构中如果没有指定片断,其相应的位为零74结构生成w二维结构自动生成w三维结构自动生成w化合物命名自动生成75

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号