计算药物分析

上传人:xzh****18 文档编号:34349225 上传时间:2018-02-23 格式:DOC 页数:11 大小:69KB
返回 下载 相关 举报
计算药物分析_第1页
第1页 / 共11页
计算药物分析_第2页
第2页 / 共11页
计算药物分析_第3页
第3页 / 共11页
计算药物分析_第4页
第4页 / 共11页
计算药物分析_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《计算药物分析》由会员分享,可在线阅读,更多相关《计算药物分析(11页珍藏版)》请在金锄头文库上搜索。

1、计算药物分析一 模式识别的基本概念1 模式 原值供模仿用的完美无缺的样本,也指供模仿用的已知类别的样本。模式与类(集合)的概念相联系,认识了一个类(集合)中有限数量的个体,就可以识别这个类(集合)中的任意多个体。2 模式识别(Pattern Recognition)识别出某个样本与哪一类供模仿用的样本相同或相似。即对表征事物或现象的各种形式的信息(数值的,文字的,逻辑关系的)进行处理与分析,以对其进行描述、辨认、分类和解释,是信息科学和人工智能的重要组成部分。是信息处理发展到智能阶段的产物,借助数学的方法和计算机技术揭示事物或现象的隐含性质和内部规律。基本功能是对样本分类或辨别。3 模式识别的

2、分类统计方法(数学方法)模式识别从数学处理手段分句法结构(语言或结构学方法)模式识别有监督(有导师学习)的模式识别从学习(训练)手段分无监督(无导师学习)的模式识别(1 )统计方法(数学方法)模式识别:以数学决策理论为基础,建立统计学识别模式,主要是基于对模式的大量统计分析和规律性认识。其大量工作在于如何提取模式的特征,以确定统计参数,即所谓的参数点,也可绕过概率的估计,直接借助于模式本身的数学或集合分布(图形) ,获得判决标准,进行识别,即肺参数决策法。(2 )句法结构(语言或结构学方法)模式识别:该方法基于对模式结构的分析,以形式语言对模式特征进行描述,如对图像,染色体,指纹,脸谱等的描述

3、,因其很艰难用统计学方法进行表征。(3 )有监督(有导师学习)的模式识别:利用训练集,通过训练(或学习)来获得识别准则(或判别函数) ,利用识别准则来判断未知模式的归属。(4 )无监督(无导师学习)的模式识别:不依赖训练集,而是直接在特征空间中寻找点群分布特征或其他可用以判别的数据结构。4 名词概念训练集(trainging set)指一组已知类别的数据(点集)有监督模式识别中,利用训练集,通过训练(或学习)获得识别准则(或判别准则) ,再以这些识别准则对未知模式进行归属。检验集(预示集) (testing set/prediction set)指未包括在训练集中的已知类别的样本(点集)通常利

4、用由训练集获得的识别标准对预示集中的模式进行识别,以检验其识别的可靠性。特征:描述样本性质的变量(X i) ,由特征描述的样本也称为模式。特征失:由描述样本性质的变量构成的矢量称为特征失。特征空间:对于某个模式,加入用 n 个特征 X1, X2, , , ,X n 来描述,则可用特征失 X=X1, X2, , , ,X nT 来表示,模式就是这 n 维空间的矢量或点,称此空间为模式的特征空间。增广特征空间:将矢量 X 扩充为 n+1 维向量 X=X1, X2, , , ,X n+1T,此时称这 n+1 维空间为增广特征空间。5 模式识别的应用模式识别目前已在社会科学和自然科学的诸多领域,如经济

5、学,天文学,生物学,物理学,生物学,医学,药学,心理学,工程学等得到了广泛应用。在药学领域中,模式识别主要用于归属和预示研究对象的性质,目前,其在药物分离分析,生产工艺优化,药物活性预测,中药材分类,中药质量评价,代谢组学研究等方面应用越来越广,并显示了在复杂数据处理方面的巨大优势。二 线性代数的基本知识1 矩阵与向量模的各排称为矩阵的行,纵的各列称为矩阵的列;a i j 称为矩阵 A 的第 i 行,第 j 列上的“元素” (或简称“元” ) ;A 有时简记为 A=ai j;当 m=n 时,A 为 n 阶矩阵,或称 n 阶“方阵” ;各元素都为零的矩阵称为零矩阵;n 个有次序的数 a1,a 2

6、, , ,a n 组成的数组称为n 维向量;在 n X m 矩阵 A 中,某行的 m 和元素组成的 m 维向量称为 “行向量” ;某列的 n 个元素组成的 n 维向量称为“列向量” ;一般行向量横写为:列向量竖写为2 矩阵的加法两个(n X m)矩阵 A,B 相加,就是将其全部对应元素相加3 矩阵与数的乘法数 K 与矩阵 A 的积 kA 就是用 k 遍乘 A 的全部元素,即:4 矩阵的乘法设 A 是一(n X m)矩阵 A=ai k ,N 是一(m X p)矩阵 B=bk j,它们的乘积是一(n X p)矩阵 C,其个元素为:只有当第一个矩阵的列数等于第二个矩阵的行数时,这两个矩阵才能相乘。例

7、子反面自己抄5 矩阵计算规律矩阵的加法适合交换律和结合律:A+B=B+A (A+B)+C=A+(B+C)矩阵与数的乘法适合分配率及结合律:k(A+B)=KA + Kb (k+h)A=kA+Hak(hA)=(kh)A k(AB)=(kA)B=A(kB)矩阵的相乘适合集合率和对加法的分配率:(AB) C=A(BC) ( A+B)C=AC+BC A(B+C)=AB+AC 一般情况下,矩阵的乘法不适合交换律,即一般 AB BA但对于单位矩阵有 IA=AI=A6 矩阵的转置将矩阵 A 的行列互换所得的矩阵,称为 A 的转置矩阵若矩阵 A 满足 AT,这样的矩阵称为对称矩阵7 范数用于衡量矩阵或向量大小的

8、量8 向量的线性相关练习在反面手写三 聚类分析聚类分析源于分类学,过去主要依靠经验和专业知识来实现分类。随着科学和技术的发展,人类的认识不断加深,分类越来越细,要求越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支,聚类分析也称为集群分析、 等。1 聚类分析(Cluster Analysis)是研究“物以类聚”的一种统计方法,是数据挖掘、信息分析中的一个活跃研究领域。聚类分析的目的在于辨别在某些特性上相似的事物,并按这些特性将

9、样本划分成若干类(群) 。同一类内的事物具有高度的同质性,而不同类的事物则有高度的异质性。聚类分析可归属为无监督的模式识别方法。聚类分析的一般概念:将样品或变量,按照它们在性质上亲疏远近的程度进行分类。2 聚类分析的分类聚类分析有许多种,如系统聚类法、动态聚类法、图论聚类法、模糊聚类法、有序聚类法等;聚类分析又可分为:Q 型聚类分析:对样本进行的聚类分析R 型聚类分析:对变量(指标)进行的聚类分析3 聚类统计量描述样本或变量之间的亲疏远近程度,通常有两种途径:(1)用某种相似系数来描述样品之间的关系,如:相关系数,性质越接近的样本其相似系数越接近于 1,而彼此无关的样本则接近于 0,将相同或相

10、似的样品归为一类,相似程度不高的样本归属于不同的一类。(2)用样品间的某种距离来描述它们之间的关系:先将每一个样本(n 维特征空间中的点)各自看作一类,并在特征空间定义某种距离,距离较近的归为一类,距离较远的点应属于不同的类。相似系数和距离是最常见的两类统计量。不同类型的指标(变量)在定义距离和相似系数时有较大差异,通常将其按照测量时的尺度划分为下列 3 中类型:(1)间隔尺度:指标用连续量表示,如重量、流速、长度、压力等;(2)有序尺度:指标度量时没有明确的数量表示,只有次序关系,如好中差,上中下等。(3)名义尺度:指标度量时既没有数量表示也没有次序关系,如催化剂的有无,医疗诊断中的“阳性”

11、和“ 阴性”等。用得较多的是间隔尺度,多数聚类统计量基于其计算。4 距离如果把样本看成 m 维空间中的点,则两个样本间的相似程度可用 m 维空间中的这两点间的距离来度量。令 dij 表示样品 Xi 与 Xj 的距离。计算任意两样本 Xi 与 Xj 之间的距离 dij,其值越小表示两样本相似程度越大,其值越大表示两个样本间相似程度越小。常用的距离有:绝对值距离 欧氏距离切比雪夫距离明考斯基距离明式距离,特别是其中的欧式距离是人民较为熟悉,使用最多的距离,但明式距离也存在明显的不足,主要表现在两个方面:第一,与各指标的量纲有关;第二,没有考虑指标之间的相关性。5 数据变换消除量纲的影响中心化交换:

12、对数交换:标准差标准化:正规化交换:6 相似系数样本间的相似程度,除了用距离表示外,还可用相似系数表征,常用的相似系数有:夹角余弦:受相似形启发而来,下图中 AB 和 CD 尽管长度不同,但形状相似。当长度不是主要矛盾时,要定义一中统计量,能够表征 AB 和 CD 之间比较相似的关系,则夹角余弦可满足这个要求。相关系数:实际上是数据标准化后的夹角余弦,相关系数一般记为 rij :7 系统聚类法(Hierachical clustering)基本思想:先将 n 个样本各自看成一类,然后规定样本之间的距离和类与类之间的距离,开始各样本自成一类,这时类之间的距离与样本之间的距离相同,然后选择距离最小

13、的两类合并成新类,并计算该新类与其他类之间的距离,接着再将距离最近的两类合并,重复此过程,直至所有的样本都聚成一类为止。正如样本之间的而距离可以有不同的定义方法一样,类与类之间的距离也有多种的定义方法,不同的定义方法就产生了不同的系统聚类方法;如最短距离法、最长距离法、中间距离法、重心类、平均法、利差平方和法、可变类平均法、可交法等;系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类之间的距离有不同的定义方法。8 最短距离法定义两类所有样本间距离中的最短距离为该两类之间距离的聚类分析方法。用 dij 表示样本 i 和样本 j 的距离,以 G1,G 2,表示类;用 Dpq

14、表示 Gp 和 Gq 的距离;最短距离法聚类步骤:1、规定样本之间的距离,计算两两样本之间距离的对称阵,这种阵称为距离矩阵,开始每个样本自成一类,这时显然 Dpq=dpq,其距离矩阵记作 D(0) ;2、选择 D(0) 中非对角最小元素,设为 Dpq,将 Gp 和 Gq 合并成一新类,记为Gr,G r=G p,G q ;3、计算新类和其他类(假定为 K 类)的距离,从中将距离最短的合并,得到新矩阵 D(1) ;4、对 D(1) 重复步骤 3,得 D(2) ,如此下去直到所有类合并为一类,如果某一步 D(m) 中最小元素不止一个,则这些最小元素对应的类可同时合并。四 主成分分析(principl

15、e component analysis PCA)传统的多元统计分析技术,percon 于 1901 年首次引入主成分分析的概念,hotelling在 30 年代对主成分分析进行了发展。计算机出现之前,其应用较少,随着计算机技术的发展与普及,主成分分析得以广泛应用,目前大多数商品化多元统计分析软件中,几乎都用到。1 PCA:通过数学交换处理,从原始测量数据中抽提出能够反映其内在数据结构和规律的新的综合变量,用以简化数据复杂性,描述样本,建立简化数学模型,以便对原始数据的进一步分析。2 PC:用较少的非观测变量表达原多个观测变量所包含的大部分信息,这些非观测变量没有明确的物理意义且互不相关。亦称

16、综合变量,新因子,新变量,潜变量。3 例 1:在变量 X1 和 X2 确定的(空间)平面上,20 个样本的分散情况如下:20 个样本点无论沿着 X1 轴方向或 X2 轴方向都具有较大的离散性;其离散程度可以有方差变量表示:如果只考虑 X1 或 X2 中的一个,那么包括在数据中的信息就会有较大的损失;如果将 X1和 X2 轴按逆时针旋转 44,可得到新的坐标轴 F1,F2,他们代表两个新的变量。根据坐标转换公式:由于 sin44=0.07 和 cos44=0.72,则有下列关系:对于变量 F1 F2,虽然不是可直接观测变量,但可根据前述坐标交换公式计算得到,称F1,F2 为原始变量 X1,X2 的新变量,F1,F2 的方差分别为:上述计算结果表明 20 个样本点的波动大部分可以归结为 F1 轴上的波动,而 F2 轴上的波动是较小的,换句话说,变量

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号