第04讲-智能决策理论与方法-1

资源描述

《第04讲-智能决策理论与方法-1》由会员分享，可在线阅读，更多相关《第04讲-智能决策理论与方法-1（76页珍藏版）》请在金锄头文库上搜索。

1、决策理论与方法智能决策理论与方法(1),合肥工业大学管理学院 2019年7月1日,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,不确定性决策,不确定性决策：指难以获得各种状态发生的概率，甚至对未来状态都难以把握的决策问题。特点：状态的不确定性。不确定性：不确定性来自人类的主观认识与客观实际之间存在的差异。事物发生的随机性、人类知识的不完全、不可靠、不精确和不一致以及自然语言中存在的模糊性和歧义性，都反映了这种差异，都会带来不确定性。不确定性就造成了具有相同描述信息的对象可能属于不同概念。解决问题的主要理论方法：人工智能与不确定性理论,2019年7月1日10时49分

2、,决策理论与方法-智能决策理论与方法,智能决策理论与方法,1、智能决策理论的形成背景 2、知识发现 3、粗糙集理论 4、机器学习,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,智能决策理论与方法形成背景,人类面临越来越复杂的决策任务和决策环境：决策问题所涉及的变量规模越来越大；决策所依赖的信息具有不完备性、模糊性、不确定性等特点，使得决策问题难以全部定量化地表示出来；某些决策问题及其目标可能是模糊的、不确定的，使得决策者对自己的偏好难以明确，随着决策分析的深入，对决策问题的认知加深，自己原有的偏好/倾向得到不断地修正，使得决策过程出现不断调整的情况，这时，传统的决

3、策数学模型已经难以胜任求解复杂度过高的决策问题、含有不确定性的决策问题以及半结构化、非结构化的决策问题，因而产生了智能决策理论、方法及技术。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,智能决策理论与方法AI的应用模式,智能决策方法是应用人工智能(Artificial Intelligence, AI)相关理论方法，融合传统的决策数学模型和方法而产生的具有智能化推理和求解的决策方法，其典型特征是能够在不确定、不完备、模糊的信息环境下，通过应用符号推理、定性推理等方法，对复杂决策问题进行建模、推理和求解。AI应用于决策科学主要有两种模式：针对可建立精确数学模型的决策问题

4、，由于问题的复杂性，如组合爆炸、参数过多等而无法获得问题的解析解，需要借助AI中的智能搜索算法获得问题的数值解；针对无法建立精确数学模型的不确定性决策问题、半结构化或非结构化决策问题，需要借助AI方法建立相应的决策模型并获得问题的近似解。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,智能决策理论与方法,1、智能决策理论的形成背景 2、知识发现 3、粗糙集理论 4、机器学习,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,知识发现动机,智能决策的核心是如何获取支持决策的信息和知识。,问题知识获取是基于知识的系统(KBS)的最大瓶颈,2019年7月1

5、日10时49分,决策理论与方法-智能决策理论与方法,知识发现动机,问题推理规则的获取与KBS中知识获取一样难，因而基于案例推理(Case-Based Reasoning)渐渐变成基于案例检索(Case-Based Retrieving)。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,知识发现动机,问题数据分析师与决策者之间对问题的理解存在偏差缺少有创造性的决策建议技术问题：如查询效率(RDBMS),2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,知识发现动机,优点知识独立于问题本身知识的获取主要通过数据挖掘实现有创造性收获,2019年7

6、月1日10时49分,决策理论与方法-智能决策理论与方法,Data Mining within the DSS,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,知识发现动机,KDD带来的新问题知识发现问题：如何从数据中将知识挖掘出来？面临许多技术问题：如数据异构问题、数据具有噪音且信息不完整、使用什么样的挖掘算法、知识如何表示等知识评价问题：数据本身具有权威性、客观性，但知识不具备。知识如何评价？,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,参考书推荐,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,为什么要开展数据挖掘？,信息

7、技术的广泛应用产生了大量的数据：流数据（生产数据、监控数据、传感数据）各种(时间)序列数据（证券交易，基因序列）对象关系数据（社交网络，分子结构）管理数据（MIS，ERP：财务、人力资源、客户关系）空间数据（GIS、GPS）多媒体数据（视频监控，视频分享）文本数据（学术论文，新闻，微博，博客）万维网数据（内容，结构，使用，交易数据） ,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,为什么要开展数据挖掘？,Big Data大数据时代第一，数据体量（Volume）巨大。从TB级别，跃升到PB级别。第二，数据类型繁多（Variety）。网络日志、视频、图

8、片、地理位置信息等等。第三，价值（Value）密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度（Velocity）快。1秒定律。 We are drowning in data, but starving for knowledge!,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,2019年7月1日,电子商务新进展：数据挖掘,KDD & DM,知识发现(Knowledge Discovery in Databases ,KDD) 是指从大量数据中提取有用的(useful)、新颖的(novel)、有效的(valid)并最终能被人理解(

9、understandable)的模式(patterns)的处理过程(process)。数据挖掘(Data Mining，DM) 是KDD的核心阶段, 通过实施相关算法获得期望的模式。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,KDD过程,理解、定义用户的目标和KDD运行的环境。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,KDD过程,（1）选取可用的数据；（2）定义附加的、必须的数据，如领域知识；（3）数据集成为一个数据集，供KDD使用。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,KDD过程,（1）缺失值处理（

10、2）剔除噪声或异常数据,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,KDD过程,（1）维数约简(特征选择与抽取，数据采样) （2）属性转换 (离散化和泛化) （3）数据编码,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,KDD过程,(1)确定数据挖掘类型，如分类、聚类、回归； (2) 选择特定的方法； (3) 执行数据挖掘算法。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,KDD过程,评估和解释所挖掘的模式，重点是可理解性、有用性.,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,KDD过程,与原有知识系

11、统合并。挑战: 动态与增量挖掘问题。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,数据预处理空值估算,空值是指属性值未知且不可用、与其它任何值都不相同的符号。在样本数据集中，空值在所有非主码属性中都可能出现。空值出现的主要原因：在信息收集时忽略了一些认为不重要的数据或信息提供者不愿意提供，而这些数据对以后的信息处理可能是有用的；某些属性值未知；数据模型的限制。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,数据预处理空值估算,空值处理的常用方法：从训练集中移去含未知值的实例；用某个最可能的值进行替换；基于样本中其它属性的取值和分类信息

12、，构造规则来预测丢失的数据，并用预测结果“填补”丢失值；应用贝叶斯公式确定未知值的概率分布，选择一最可能的值填补空值或根据概率分布用不同值填补空值形成多个对象；将含有未知值的一个给定样本数据集转换成一个新的、可能不相容的但每个属性值均已知的数据集，方法是将某个属性的未知值用所有该属性的可能值替换形成多个数据集。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,数据预处理连续属性离散化,问题描述设为一样本数据集，为非空有限集合，C是条件属性集，D是决策属性集。假设对于任意有， R是实数集，则为连续属性。设是上的分割点集合，记为其中，为一整数，表示离散化

13、程度，可以看作按属性将论域中的对象分成类。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,数据预处理连续属性离散化,对于需要离散化的连续属性集，其分割点集合记为将ci属性的连续取值映射到离散空间，即对于任意若其属性ci 的取值在区间内，则将属性值重新标记为j。这样就把原来含有连续属性的样本数据集A转换成离散化的数据集。因此离散化问题本质上可归结为利用选取的分割点对属性的值域空间进行划分的问题。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,数据预处理连续属性离散化,离散化方法典型的有等区间方法、等信息量方法、基于信息熵的方法、Holte

14、的1R离散化方法、统计试验方法、超平面搜索方法以及用户自定义区间等。应用不同的准则可将现有的离散化方法分为局部与全局方法(论域空间)、静态与动态方法(属性空间)和有导师与无导师方法(是否依赖决策属性)。 (1)等区间离散化方法等区间分割是将连续属性的值域等分成 ( )个区间, 一般由用户确定。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,数据预处理连续属性离散化,假设某个属性的最大属性值为xmax，最小属性值为xmin，用户给定的分割点参数为k，则分割点间隔为=(xmax-xmin)/k，所得到的属性分割点为xmin+i，i=1,2,k。 (2)等信息量离散化方法

15、等信息量分割首先将测量值进行排序，然后将属性值域分成k个区间，每个区间包含相同数量的测量值。假设某个属性的最大属性值为xmax ，最小属性值为xmin ，用户给定的分割点参数为k，样本集中的对象个数为n，则需要将样本集中的对象按该属性的取值从小到大排列，然后按对象数平均划分为k段即得到分割点集，每两个相邻分割点之间的对象数均为n/k。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,数据预处理连续属性离散化,(3)统计试验方法统计试验方法根据决策属性分析区间划分之间的独立程度，确定分割点的有效性。对于任意分割点，均可将分成2个区间和，两区间的独立程度为：其中：r是决策类数目 nij是在第l区间中属于第j决策类的对象数,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,数据预处理连续属性离散化,若，则取基于统计试验的离散化方法是将值较大的分割点作为有效分割点。,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,Taxonomy of Data Mining Methods,2019年7月1日10时49分,决策理论与方法-智能决策理论与方法,Taxonomy of Data Mining Methods,Verification-oriented (the system

展开阅读全文

第04讲-智能决策理论与方法-1

最新文档