4.6.1 模型拟合能力评价模型拟合能力评价主要用于表明模型解释训练集变化的能力本文主要采用以下几个统计评价指标对模型拟合能力进行评价:1) 相关系数(R)相关系数表示预测值与目标值之间线性关系的密切程度,其取值范围在0到1之间其值越接近于1,表示线性关系越强;越接近于0表示线性关系越差2) 决定系数( R2)决定系数又称为复相关系数,它是判定线性回归拟合优度的重要指标,其定义为R2Explained Variation _ 工(y - y)2T otalVariation (y - y)2i丫(Y - Y)2 -工(Y - Y)2ii=-4=1 i=1 丫(Y - Y)2ii=14-1 )从上面的公式可以看出,决定系数等于回归平方和在总平方和中所占的比例,因此它体现了回归模型所能解释的应变量变异的百分比例如,R2=0.825说 明应变量的变异82. 5%是由自变量引起的; R2= 1则表明所有的观测点都落在回归 方程上;R2=0则说明自变量与应变量间不存性关系3)均方根误差(RMSE)、平均绝对误差(AAE)、平均相对误差(APE)和标 准误差(SE)均方根误差表示随机误差的分散程度,其定义为:(y - y )2♦ i, pred i ,obsRMS = i=-n( 4-2)平均绝对误差表示拟合值与目标值之差,其定义为AAE =4=1y ― yi, pred i ,obs4-3)平均相对误差的定义为APE =i=1y 厂 y.,i, pred i ,obs'i,obs4-4)标准误差指拟合值的标准误差,其定义为SEi, pred-y )2i ,obs=\ 4―Qi4-5)上述各式中,n为实验样本数,y 和y 分别为样本预测值及目标值。
i , pred i ,obs这些参数都是衡量模型精确度的一些常用参数,它们依赖于应变量数据的范 围和分布,并受“离域点”的影响[133]4)F检验F检验是一种检验自变量和应变量之间的线性关系是否显著的方法,适用于 基于MLR方法建立的模型[133]它将回归离差平方和与剩余离差平方和进行比较, 分析二者之间的差别是否显著如果是显著的,说明两个变量之间存性关系, 如果不显著,则说明两个变量之间不存性关系上述评价指标能够对模型的拟合能力进行较好的评价然而,对于QSPR研究 中经常出现的两类问题——“欠拟合”和“过拟合”问题,它们却无法进行有效 的鉴别所谓“欠拟合”,是指模型没有充分揭示出样本集所包含的变量信息, 从而导致模型的预测能力降低,这类问题常出现于采用线性建模方法所得到的模 型;所谓“过拟合”则是由于拟合了误差信息,导致模型拟合度高于性质数据和 描述符结合的变化性,这类问题常出现于采用非线性建模方法所得到的模型[134] 由于这两类问题与模型的稳定性紧密相连[133,135],因此对于此类问题的鉴别,常 需要通过模型的稳定性分析加以解决4.6.2 模型稳定性分析所谓模型稳定性分析实际上是对模型的“不稳定性”进行分析。
模型“不稳定性”的含义是模型受训练集中某些个别化合物或化合物子集的影响比较大,如 果化合物的预测值超出模型的置信区间,就会导致模型不稳定[133]目前文献上直接对模型的不稳定性进行定量分析的研究较少对模型不稳定 性的研究更常用的方法是通过内部验证的方式进行因为任何内部验证技术都能 在一定程度上评价模型的不稳定性因此,本文采用以下几种内部验证技术对模型稳定性进行研究: 1)“留多法”交互验证[136]“留多法"(Leave-many-out, LMO)交互验证是一种较为常用的内部验证技 术该方法将初始训练集中的n个样本平均划分为大小为m的G (二n/m)个子集,然 后每次去除m个数据点,采用剩下的n-m个样本作为训练集重新建模并验证由m个 样本构成的验证集经G次计算,得到交互验证系数Q2来表征模型的稳定性和内 部预测能力IM一般认为,如果Q2大于0.5,则模型比较稳定;如果大于0.9,则 模型的稳定性非常优秀[137]Q2的计算公式如下:training乙(y - y沦iiQ 2 = 1 i=1—CV training乙(y - y)2ii=1(4-6)其中,y , y和y分别代表训练样本的自燃点实验值、预测值及实验值平均 ii值。
2) “留一法”交互验证[136]“留一法"(Leave-one-out, LOO)交互验证是一种特殊的“留多法"交互验 证方法,其具体过程与“留多法”相似,区别仅在于m=1由于“留一法”利用 了全部的样本数据,因而也是一种最经济的方法尽管有研究者指出,“留一法” 交互验证所得结果常会过高的估计模型的预测能力[138],但它在QSPR建模过程中 仍是必不可少的,尤其是对于小样本的研究体系3) 丫-随机性检验[136]丫-随机性检验也是一种广泛用于表征模型稳定性的统计方法它将原样本集 因变量丫随机打乱,与原有自变量组合成新的样本集,建立模型重复上述过程 50~100次,将结果与原样本集结果对比,若原样本集预测模型性能参数明显优于 新样本集的性能参数,则认为原样本数据中存在真正的QSPR关系,所建模型稳定 性较好,不存在“偶然相关”现象;反之,则表明原所建模型不能被接受4)残差图分析法残差图分析法指在直角坐标系中以预测值为横轴,以残差为纵轴绘制残差的 散点图如果散点呈现明显的规律性,则认为所建模型存在自相关性或者存在非 线性、非常数方差的问题;如果散点呈现随机分布,则认为所建模型是合适的, 在建立过程中未产生系统误差。
内部验证在QSPR建模过程中是必不可少的一步,但是内部验证结果好只能说 明模型稳定性较高或具有较强的内部预测能力,并不能保证模型对外部样本的真 实的预测能力也好因此,还必须对模型的外部预测能力即外推性进行评价4.6.3 模型预测能力评价QSPR模型的预测能力以模型的拟合优度、稳定性为基础评价模型预测能力 最有效的方法是进行外部验证,即采用未参与建模的独立的样本集作为验证集, 以评价模型对未知化合物的预测能力其具体方式如下:将原始样本集按照一定 的比列随机划分为训练集和测试集两个子集,其中训练集用于变量选择和建模, 测试集则用于对模型的外部验证[136] 外部验证的结果既能够体现所建模型的泛 化能力,又能够反映模型对未参与建模的外部样本的真实预测能力对于样本划分时训练集和测试集中样本的比例,目前还没有明确的定论,大 多数研究中测试集的样本个数都远远小于训练集的样本个数Gramatica【i38]最近 的研究指出,对某一QSPR模型预测能力的验证不能仅仅通过少量化合物(W5个) 进行,而必须建立在足够大的外部测试集的基础之上($样本集的20%),以避 免“偶然相关”现象的发生因此,本文在各燃爆特性的预测研究中均随机选择样本集中20%的样本作为 测试集,其余80%样本作为训练集,以保证模型验证的有效性。
模型的外部预测能力可以用测试集样本预测值与目标值之间的交互验证系 数Q2来衡量:extprediction乞(y - y "iiQ 2 = 1 — t=1 ext prediction _乙(y — y 2i tri=l(4-7) 其中,y和y分别表示测试样本燃爆特性的实验值和预测值,y表示训练i i tr样本燃爆特性实验值的平均值此外,前面评价模型拟合能力所用的统计评价指标,如 R2, RMSE, AAE, APE 和 SE 等,均同样可以用来对模型的预测能力进行衡量一般来说,针对测试集的 指标都要比训练集的差一些,但如果前者远远差于后者,那么模型很有可能发生 了“过拟合”此外, Q2 与测试集的拟合系数 R2 之间没有相关性,较高的 Q2 ext ext 值仅仅是模型具有较高预测能力的必要条件,而非充分条件[139,140]5.3 结果与讨论5.3.1模型|结果针对训练集样本,采用GA-MLR方法在广泛的分子描述符空间进行搜索,通过 比较所得各模型适应度函数的大小,确定了本研究中与有机物闪点最为密切相关 的5个分子描述符,其类型与定义列于表5-1 ;最佳描述符所对应的最优MLR模型 见下式:FP=81.321-28.669*CIC0+80.491*RDCHI+54.497*ESpm02d +34.098*nHDon-5.651*nCOOR(5-1)回归范围:169.15 KWFPW716 KR2=0.967,Q2 =0.967,SE=12.59,F=4832.180,n=824LOO式中,FP为闪点,R2为复相关系数,Q2为“留一法”交互验证的复相关系LOO数,SE为模型标准误差,F为F检验值,n为模型中样本数。
模型的其它统计学参 数见表5-1表5-1 模型|所选择的分子描述符及其统计学参数Table 5-1 Descriptors selected for model | and their statistics parameters描述符系数平均类型定义系数标准误差t-值影响值常数----81.321------CIC0拓扑描述符补充信息量(0阶邻域对称 性)-28.6690.881-32.536-95.760RDCHI拓扑描述符反距离Randic类型指数80.4911.48954.068175.897ESpm02d边缘邻接指 数边缘邻接矩阵中的02谱矩 (按偶极矩加权)54.4971.34040.680175.243nHDon官能团与N原子和O原子相连的H原子数34.0980.61355.65012.952nCOOR官能团脂肪酯数目-5.6511.1255.021-0.679在模型丨所选择的5个分子描述符中,CIC0和RDCHI均为拓扑描述符,由分子 图论获得其中,CICO主要衡量分子中元素的差异程度;而RDCHI主要表征分子 的大小和形状ESpm02d为边缘邻接指数,它主要表征分子中键的数目和强度。
nHDor和nCOOR均为官能团描述符其中,nHDon表示分子中与所有的0原子和N原 子相连的H原子的总和,它与分子中氢键形成的可能性密切相关;而nCOOR表示分子中脂肪酯的数目,它能够对相应化合物的结构特征进行更好的表征[67]随后,应用模型丨(式5-1 )对训练集中824个样本的闪点进行校准,以评价 模型的拟合能力;同时,对测试集中 206个样本的闪点进行预测,以验证模型的 外部预测能力经过计算,所得闪点校准值与预测值见附表1,模型丨的主要性 能参数见表5-2,模型校准值和预测值与实验值的比较见图5-1表5-2 模型I, II, III的主要性能参数Table:5-2 The main statisticalparameters of the obtained models(I, II, III)性能参数训练集模型1 测试集样本集训练集模型II测试集样本集训练集模型III测试集样本集R20.9670.9700.9680.9750.9730.9750.9750.9740.976Q2LOO0.967----。