【2017年整理】LogP,LogD对有机化合物的QSAR的研究

上传人:油条 文档编号:2802457 上传时间:2017-07-27 格式:DOC 页数:13 大小:265KB
返回 下载 相关 举报
【2017年整理】LogP,LogD对有机化合物的QSAR的研究_第1页
第1页 / 共13页
【2017年整理】LogP,LogD对有机化合物的QSAR的研究_第2页
第2页 / 共13页
【2017年整理】LogP,LogD对有机化合物的QSAR的研究_第3页
第3页 / 共13页
【2017年整理】LogP,LogD对有机化合物的QSAR的研究_第4页
第4页 / 共13页
【2017年整理】LogP,LogD对有机化合物的QSAR的研究_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《【2017年整理】LogP,LogD对有机化合物的QSAR的研究》由会员分享,可在线阅读,更多相关《【2017年整理】LogP,LogD对有机化合物的QSAR的研究(13页珍藏版)》请在金锄头文库上搜索。

1、 LogP,LogD 对有机化合物的 QSAR 的研究摘要:自从 20 世纪 60 年代 QSAR/QSPR 研究兴起以来, 人们研究有机化合物的脂水分配系数和溶解度的计算方法已经有近半个世纪. 目前存在众多方法用于计算有机化合物的脂水分配系数和溶解度. 相对而言, 脂水分配系数的计算方法更为成熟一些, 应用范围更广, 效果也更好.关键词: 脂水分配系数; logP/logD; QSAR1.基本概念1.1 脂水分配系数的定义有机化合物的脂水分配系数(P)通常是指化合物在正辛醇和水两相间的分配系数, 以其对数值来表示其大小,标记为其中 Coct 和 Cw 分别为化合物在正辛醇和水两相间达到平衡时

2、的浓度. logP 在许多 QSAR 研究中都是用于衡量有机化合物疏水性的重要参数. 当今各大制药公司都已经将 logP 列为活性化合物必测的标准参数之一. 通常 P 给出的是中性化合物在两相间的分配系数. 对于可电离的化合物, 情况则变得相当复杂, 这时使用分配率D(distributionrate)来表示溶质在两相间总的分配系数. 例如, 对于可电离的溶质 HA 可有:其中HA, A-分别代表溶质的中性状态和离子状态的浓度. D 是与溶质的酸碱解离常数 pKa 以及溶液的 pH 值相关的参数. 假设溶质 HA 是仅在水相电离的一元酸, 则有:然而, 如果溶质分子含有不止一个电离中心而且在正

3、辛醇相中也是可以电离的, 此时溶质在溶液中的存在形式就变得相当复杂, 像公式(4)这样的简单关系就已经不再成立. 对于含多个可电离基团的复杂溶质分子, D 的具体表达式可描述为:这里 表示溶质在溶液中的第 i 种离子形式, 根据电离平衡关系, 其在两相间的浓度与溶液 pH 值以及可电离基团的 pKa 都密切相关.1.2、QSAR 研究的兴起 有机化合物的定量结构一活性相关(Quantitative StructureActivity Relationship)最初是作为定量药物设计的一个研究分支领域而发展起来的。早在 l9 世纪,人们对化学结构有了初步口识后,就有人设法建立化合物的生物活性与结

4、构的关系。后来发现,当时归纳的所谓通用规则并不存在。到了 20 世纪初,人们普遍认为化合物的生物效应主要取决于它们的物理性质,如溶解度、表面张力、分配系数等 Hansch(1962)和 FreeWilson( 1964)运用统计方法并借助计算机建立起结构活性关系表达式标志着 QSAR 时代的开始,从此成为一个相当活跃的前沿领域。QSAR 之所以有如此令人振奋的发展,一方面是化学品评价的需要。据美国化学文摘(CA)统计,化学物质已达近千万种而且已有约十万种化学物质进入了人类环境。那么这些进入人类环境的化学物质中,哪些对环境中的生物和人类有危害,危害的程度如何怎样控制和减少危害 都需要对这些化学物

5、质进行理化性质和生物活性实验。但是,据估计仅每个化学物质的急性皮肤毒性、双周吸入毒性和二年饮食毒性三个指标的测试费用即达 29005000 万美元。所以,要对所有化合物进行毒理学、生态学的全面测试,财力上不可能,人力上也无法傲到。必须找到一种行之有效的方法进行定量计算或近似估计,QSAR 则可做到这一点。2.现有主要的 logP 计算方法简介脂水分配系数的概念最早是由 Hansch 和 Fujita 提出的, 同时他们也发展出了第一种 logP 计算方法. 随后 Rekker 等提出了第一种片段加合法模型. Broto 等进一步完善了 Rekker 模型中的片段划分策略, 发展出第一种原子加合

6、法模型. 一直以来研究者们对改进和发展新的 logP 预测方法有着浓厚的兴趣, 更多的 logP 预测模型相继出现, 方法的准确度也不断提高. 现有的 logP 预测方法主要可以分成两大类: 片段加合法和基于描述符的方法.2.1 片段加合法在过去几十年里, 许多基于片段加合法的 logP 计算模型相继被提出, 有些还实现了商业化. 目前国际上比较流行的此类方法主要有: , , , , , ,以及 各种方法的基本信息总结于表 2 中. 这些方法的主要区别在于片段划分规则以及矫正项的设计.2.1.1 CLOGPCLOGP 是由 Hansch 和 Leo 最早发展起来的一种预测化合物 logP的模型

7、, 也是目前应用最广泛的 logP 预测方法之一. 在 CLOGP 模型中最基本片段的贡献值是由一些具有 logP 精确实验值的简单化合物(如甲烷等)推导而来的. 然后其余片段的贡献值在前面的基础上由复杂化合物的 logP 实验数据推导而来. 最值得注意的是此方法在定义片段的规则中使用了“孤立碳原子”的概念. 这里一个孤立碳原子是指不与杂原子相连的碳原子, 或者与杂原子相连, 但是不是通过双键或叁键相连的碳原子. 在较早期的 CLOGP 版本中使用了 200种类型的片段和 25 种矫正项. 从最早被 Chou 和 Jurs 推广应用到后来商业化的几十年中, CLOGP 在学术界以及工业界得到了

8、广泛的使用, 一直以来被作为有机化合物脂水分配系数计算方法的标准.2.1.2 ACD/LogPACD/LogP 由 ACD/Labs 公司研发, 也是目前最常用的计算有机化合物 logP 值的商业软件之一.ACD/LogP 算法考虑基本原子类型、特征结构片段以及加入不同片段之间的相互作用矫正项.ACD/LogP所使用的片段分类规则与 CLOGP 有所不同, 定义的特征结构片段超过 1200 个. 分子内相互作用矫正项依据相互作用的末端基团类型及相互作用体系的片段长度和类别进行划分, 包括超过 2400 对基团的相互作用. 以上每一项的贡献值通过对 ACD/Labs 内部数据库(18400 个化

9、合物)的 logP 实验值进行统计分析获得.ACD/LogP 的计算方法可用下述方程表示:其中 fi 表示提问分子第 i 种片段的贡献, Qj 表示提问分子第j 种特殊片段的贡献, , 和 分别表示提问分子被k 个数目的脂肪类、乙烯基类和芳香类原子分隔的第 i 种和第 j 种片段的相互作用矫正项贡献值. ACD/LogP 的基本计算步骤如下: (1)结构分割和计算 f 值, 缺失的片段使用原子加合法计算; (2)计算值, 没有相互作用的片段使用类似于 Hammett 方程的方式计算; (3)加合所有 f 和 值. 目前 ACD/Labs 还发展了计算可电离化合物logD 值的功能, 但是其具体

10、算法未见公开报道.2.1.3 KOWWINKOWWIN 是由 Meylan 和 Howard 发展的基于原子类型和特征片段加合法估算有机化合物 logP 值的模型. 模型中使用的 13062 个化合物的 logP 实验数据中有 9500 个来自 CLOGP 方法所使用训练集中较为可靠的数据. 这些数据划分为一个训练集, 包含 2473 个简单的有机分子; 另一部分作为测试集, 包含 10589 个简单、中等以及复杂的分子.在建立 KOWWIN 模型的过程中, 使用两步多元线性回归分析来给出片段以及矫正项的贡献值.首先不考虑矫正项, 仅采用简单化合物作为训练集通过回归分析得出每种特征片段的贡献值

11、. 其后再使用包含复杂化合物的训练集, 在前一步结果的基础上, 以仅由特征片段的贡献值估算的 logP 值与实验值的差值进行回归分析, 得出每种矫正项的贡献值.目前最新版本的 KOWWIN 方法使用 150 种原子类型和特征片段以及 250 种矫正项. 模型可表达为:其中 分别是提问分子中第 k 种原子或片段对 logP 的贡献值和数目; Fj, Nj 分别是提问分子中第 j 种矫正项对 logP 的贡献值和出现次数. 0.229 是多元线性回归得出的常数. 最近 Meylan 等提出一种改进策略. 他们在 KOWWIN 方法中应用了“experimental valueadjusted(EV

12、A)”算法, 其基本思想是: 对于提问分子, 可以使用一个 logP 实验值已知的类似物作为参考分子. 但是由于在他们的方法中参考分子必须由用户自己指定, 使用起来很不方便.2.2 基于描述符的方法当溶质分子在 正辛醇和水两相间平衡时, 根 据热力学循环可以得出以下关 系式:上式中 代表溶质分子在两相之间迁移的自由能变化,和 分别表示溶质在正辛醇相及水相中的溶剂化能. 理论预测在溶液中的自由能变化相当难, 因此一般都是从形成这一过程的物理化学影响因素归纳出一些描述符来经验地估算 logP.自 Rogers 等提出第一个基于描述符的 logP 计算模型至今, 此类方法已有多种见诸报道, 见表三,

13、使用的描述符主要包括经验描述符、拓扑描述符以及代表分子 3D 结构的描述符. 根据描述符的来源, 这些方法又可分为多种类型.2.2.1 BLOGP早期出现的一种基于描述符的方法是 Bodor 等发展的 BLOGP 方法. 这种方法使用原子部分电荷、偶极矩和描述分子大小的参数等作为描述符.该种方法在建立模型时首先需要优化训练集中化合物的三维结构, 然后再使用 AM1 法计算各描述符的取值, 最后采用线性回归方法来获得每个描述符对脂水分配系数的贡献值. 其早期报道的结果 仅适用于含有 C、H、O、N 原子的化合物, 具体的计算公式如下:其中各描述符分别为: S 表示分子的表面积; O 为分子椭圆度

14、; 是指烷烃指示变量(分子为烷烃数值为 1,否则为 0); MW 为分子量; D 为偶极矩估算值 QON是分子中氮氧原子电荷绝对值的加合; QN是所有 N 原子上电荷平方和的均方根; QO是所有 O 原子上电荷平方和的均方根. 该模型样本数 n 为 118 费舍指数 F 为 115,实验值与预测值之间的相关系数 r 为 0.9388,标准误差 SE 为 0.296,自由度 dof 大小为 104.与片段加合法相比, 此种方法使用的描述符数量大大减少. 但是 BLOGP 方法的计算效果不是很好, 可以适用的化合物非常有限. 另外, BLOG 方法所采用的计算公式物理意义不明确, 为了提高统计结果

15、引入了非线性项, 这种做法并不值得推荐2.2.2 MLOGP在目前计算 logP 的方法中有一系列方法是基于分子结构的拓扑描述符. 使用拓扑描述符的一大优点是计算速度快, 对于处理较大的数据集非常有效. MLOGP 是较早出现的此类方法, 由 Moriguch 等提出. 在 MLOGP 模型中亲脂基团数目(CX,分子中碳原子和卤素原子的总数)和亲水基团数(NO 分子中所有氮氧原子数之和)是两个最基本的描述符. 单独使用 CX 和 NO 描述符就可使所研究的 1230 个化合物中 73%的估算值处于可信范围内. 此外再结合其它 11 个矫正项, 估算值的可信范围可覆盖达 91%.这些参数描述邻位

16、作用、分子不饱和度、两性特征以及其他官能团信息. MLOGP 模型的具体计算公式如下:其中参数 PRX 用来描述氮氧原子的邻近效应; UB 为不饱和键总数; HB 描述分子内氢键的影响; POL 为芳环上的极性取代基数目; AMP描述分子的两性特征; ALK 为描述烷烃、烯烃、环烷烃或环烯烃的参数; RNG 描述分子中所含的环结构; QN 为关于季胺的参数; NO2为分子中所含硝基的数目; NCS 为硫氰基和异硫氰基的数目; BLM 描述分子中存在的 -内酰胺结构. 该模型采用的样本数 n 为 1230,结果显示实验值与预测值之间的相关系数 r 为 0.952,标准偏差 s 为 0.411,费舍指数 F0(13, 1216) 达到 900.4,表示在MLOGP 研究范围内, 使用公式(17)计算 logP 有相当高的精度. MLOGP 方法也可用于估算有机化合物的水溶解度, 目前此方法已被应用于某些软件的 ADMET 性质计算模块中.2.2.3 SLIPP

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号