第3节 信息处理与数据挖掘技术

上传人:我*** 文档编号:137667656 上传时间:2020-07-11 格式:PPT 页数:26 大小:400.50KB
返回 下载 相关 举报
第3节 信息处理与数据挖掘技术_第1页
第1页 / 共26页
第3节 信息处理与数据挖掘技术_第2页
第2页 / 共26页
第3节 信息处理与数据挖掘技术_第3页
第3页 / 共26页
第3节 信息处理与数据挖掘技术_第4页
第4页 / 共26页
第3节 信息处理与数据挖掘技术_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《第3节 信息处理与数据挖掘技术》由会员分享,可在线阅读,更多相关《第3节 信息处理与数据挖掘技术(26页珍藏版)》请在金锄头文库上搜索。

1、第二章 计算机与仪器分析,一、化学计量学介绍 a brief introduction of chemometrics 二、信息评价 information appraise 三、信号与噪声 signal and noise 四、信号的处理技术 technology of signal process 五、多元分析方法 polybasis analysis methods,第三节 信息处理与数据挖掘技术,computer and instrument analysis,information process and technology of date excavate,2020/7/11,一

2、、化学计量学简介 a brief introduction of chemometrics,化学计量学:化学与计算机结合的产物 1974年,Kowalski 与Wold 提出建立国际化学计量学协会 任务:运用数学和统计的方法设计或选择最佳测试过程和实验 通过化学数据分析提供更多化学信息。 范畴:纯化学与量子化学之间凡涉及计算和计算机的所有领域。 应用举例:大连湾海水污染物与污染源之间的关系;控制 由尿样获取身体健康状况的全部信息;简化 化合物性质数据结构,结构与性质的关系;新药 产品质量检验生产中的问题;决策 犯罪现场的烟雾分析:香烟牌号,种类;破案,2020/7/11,二、 信息评价 inf

3、ormation appraise,分析仪器是分析化学家为获取化学信息所使用的工具,因此可以由信息理论来评价仪器的性能。 1. 信息量和熵 设有一事件有几种可能性,他们各自的概率为pi,Shannon定义信息熵:,在信息理论中,习惯取“2”作为对数的底,此时单位为bit(e为底,nat)。设有一具有两种可能性的等概率事件:,2020/7/11,信息量和熵,熵是事件不确定程度的度量,不确定程度越大,熵就越大。对于一个概率密度为p(x)的连续型分布熵的定义为:,信息的概念是与事件发生的概率相联系的,出现小概率事件所包含的信息量大,因此可定义信息量: I = -lgpi 如果事件发生后的概率不等于1

4、,即它是不确定的,则信息量可表示为: I =lg(qi/pi) 式中 qi 是事件发生后的概率。,2020/7/11,2. 信息量与熵的关系,如果通过某些方法获取信息使原来事件的不确定程度减小,所得到的信息的数量就是信息量,故信息量就是熵减少的量: I = H0- H,式中 H0 和H 分别表示获取“情报”前后,事件不确定程度。在分析化学中则是实验前后的熵。若经过实验后的结果完全确定,即实验后的熵=0,则: I = H0 =Hmax 即经过这样一个实验后,可能得到的最大信息量。,2020/7/11,3. 分析化学实验中的信息量与熵,在定性分析实验中,判断某一组分是否存在。 实验前: 概率:各为

5、1/2(实验前并无任何信息) H0 = 1 bit 实验后: H =0 故信息量: I = H0 - H = 1 bit 如果采用仪器分析定性,不能将全部组分检测出,如何确定? 例:原子吸收测定含铜、锌试样(组成未知)。 仅测定出Cu2+时的信息量,测定出Cu2+ 、 Zn2+时的信息量分别是多少?(阴离子不能检测)。,2020/7/11,4. 定量分析中有关参数与信息量,在定量分析实验中,如果实验前知道某一组分的大致范围时,即p(x)均匀地分布在(x1,x2)区间内,则:,由于分析中偶然误差的存在,结果不可能是一定值而成正态分布。设其标准偏差为,则:,2020/7/11,于是:,越小,信息量

6、越大。实验中增大信息量的途径? 减少干扰、提高仪器灵敏度、减小噪声、增加测定次数等。,2020/7/11,5. 仪器的最大信息量,分析仪器通常有一测定限cmin,待测试样浓度低于此值时,不能用该仪器测定。该仪器实验前的熵为:,c 为仪器能分辨的最小浓度差,实际的信息量:,2020/7/11,对于多通道的仪器,可以有n个通道同时测定n种组分,其总的信息量是各通道的信息量之和:,单位时间内信息量的变化称为信息流:,理想的分析仪器应该在很短的时间内获得很大的信息量。,2020/7/11,6. 仪器的效率和剩余度,仪器的效率可用剩余度来衡量。剩余度的定义: R = Hman H,剩余度是熵偏离其最大值

7、的度量。熵的一个重要性质是当所有的可能性都是等概率时,熵有最大值。 在定量分析中,如果试样中待测组分的含量完全是未知的,则其可能的含量为0100%,故:,2020/7/11,仪器的效率和剩余度,在分析仪器中,剩余度常被定义为: R = Iman I,即它是分析过程中被保留,未被利用的信息量的度量。剩余度大表示该仪器的效率低。,分析时,一般样品的大致含量范围总是知道的,设其范围为x1x2。,故:,则:,2020/7/11,三、信号与噪声signal and noise,本底信号: 没有试样时,仪器产生的信号;随机噪声; 空白信号: 试样中无待测组分时,仪器产生的信号; 试样预处理: 空白信号接近

8、本底信号;,2020/7/11,1. 检出限,样品的信号能被检出的最低限;由于存在随机噪声(正态分布),有误判的可能; 如何规定检出限使误判产生的几率符合要求(统计学), 1969年,国际原子吸收光谱会议;yB+3B 1975年,IUPAC; yB+2B 保险检出限: yB+6B 数学期望值yB;标准偏差B 定义:以一定的置信度检出待测组分的最低浓度(或量) yA =yB+kB k 的取值对应于不同置信概率,2020/7/11,2.灵敏度,分析仪器的响应值与浓度(或量)改变一个单位时所引起的信号的变化, y/ c.(IUPAC给出的定义); 单纯灵敏度高不能保证有低的检测限; 检测限与B有关,

9、 B来自随机噪声,信号变化可能被噪声淹没。,2020/7/11,3. 信噪比(S/N)的提高,途径:a. 改善信号的测量技术; b. 信号经过适当处理; c. 优化。 (1) 信号的平均: 噪声信号,(2) 滤波和调制,2020/7/11,四、信号处理技术 technology of signal process,对分析信号进行处理是为了提高信息量,改善信噪比。 信号处理通常采用以下几种方法和技术: 1. 曲线拟合 用数学方法将获取的数据作曲线拟合。方法: (1)根据实际获得的曲线找出与此曲线适应的数学模型; (2)以实验得到的数据对(Xi,Yi),代入数学模型(关系式),用最小二乘法求出模型

10、中的待定参数。 关键点:选择正确的数学模型 例:非正态色谱曲线,可采用r函数与指数衰减曲线相结合的数学模型。,2020/7/11,2. 曲线的平滑处理,曲线平滑处理可以去除数据集合中的随机噪声,保留有用信息,提高信噪比。 小波动:随机噪声 大波动:包含有用信息 方法: boxcar平均化; 移动窗口均化; 最小二乘多项式平滑(Savitzky-Golay卷积法),最常用的方法。 注意点:不正确的进行平滑处理可能会将微弱信号当作噪声处理掉。,2020/7/11,3. 信号求导,消除背景和重叠峰的干扰,提高分辨率和灵敏度。 方法:模拟微分电路或求导程序软件。 微分谱比原谱对谱特征的细微变化反应要灵

11、敏的多,被隐藏的谱的特征可以通过对原谱图的微分而得到加强。 应用: (1)光谱图、色谱图:重叠峰、弱肩峰的区分; (2)电位滴定曲线的导数曲线容易确定滴定钟点。 注意点:微分时,原谱的噪声也被加强,高阶导数谱的噪声增大的更明显,解决方法:对原谱进行平滑处理。,2020/7/11,五、 多元分析方法polybasis analysis methods,如何在大批实验数据中总结出有用的规律或者挖掘出有用的信息; 多元分析是一类计算机信息处理、信息挖掘技术,特别适合用于从多种因素影响的大量实验数据中总结规律; 多元分析应用领域:处理卫星照片;指纹鉴别;文字和语音识别;多参数、多变量问题的处理; 分析

12、化学中的应用: (1) 多种微量元素的分布与健康(或疾病)的关系 (2) 物质中复杂成分的含量分析 (3) 各种谱的特征与性质关系 (4) 分子结构与谱特征的关系,2020/7/11,1. 多元分析方法的特点,在多元分析中,对每个研究对象(每个观察样本都有M个变量或参数)取值,考察N个观察对象的集合就作成一张N*M的数据表。 观察对象的集合可以是全部样本,也可是较大集合中的一个子集; 变量可以是连续的也可以是离散的; 在多元分析中,通常采用以下技术: (1) 简化结构 用简单方法来表示所研究的复杂问题; (2) 分类 将观察对象分成若干个不同的组或类; (3) 变量分组 将变量按其性质分组;

13、(4) 相关分析 研究变量之间的相互关系、观察对象之间的相互关系。,2020/7/11,2. 多元分析中的主要方法简介,多元分析中所采用的方法: (1)回归分析: 多元线形回归分析;偏最小二乘回归分析;逐步回归分析。 (2)相关分析 (3)因子分析 (4)降维与映射 (5)聚类分析 (6)分类与判别 (7)人工神经网络 (8)优化技术,2020/7/11,3. 化学因子分析法简介,因子分析:通过对一数据矩阵进行特征分析、旋转变换等操作以获取有关信息的数学方法。 化学因子分析:将因子分析技术用于解决化学中的问题,形成了带有浓厚化学特色的因子分析方法。 化学因子分析特点: (1)解决复杂问题 同时

14、处理多因素相互影响的复杂体系 (2)快速处理大量数据 采用标准因子分析程序 (3)数据的有序解释与预测 在获得规律指导下进行预测,2020/7/11,因子分析基本步骤,2020/7/11,常见的因子分析方法,(1)主成分分析(principle component analysis) (2)目标因子分析(target factor analysis) (3)迭代目标因子分析(iterative target factor analysis ) (4)秩消因子分析(rank annihilation factor analysis ) (5)渐进因子分析(evolving factor anal

15、ysis ) (6)窗口因子分析(window factor analysis ) (7)启发渐进式特征投影(heuristic evolving latent projection ),2020/7/11,内容选择:,第一节 计算机与仪器分析 computer and instrument analysis 第二节 数据采集与计算机控制 computer control and data collection 第三节 信息处理与数据挖掘技术 information process and technology of date excavate 第四节 人工智能与仿真模拟 artificial intelligence and multimedia experiment simulation technology,结束,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号