本科毕业设计(论文)外文参考文献译文及原文学 院 管理学院 专 业 信息管理与信息系统年级班别 2008级(6)班 学 号 学生姓名 张钟权 指导教师 胡凤 2012年5月目录(一)外文文献译文 14 决策树 14.1 介绍 14.2 决策和模式分类 24.2.1 统计模式分类 24.2.2 使用逻辑相互关系 34.3 决策域 54.6 决策树实例 6(二)外文文献原文 114 Decision Trees 114.1 Introduction 114.2 Decision-Making and Pattern Classification 144.2.1 Statistical Pattern Classification 144.2.2 Use of Logical Inter-relationships 154.3 Decision Regions 174.6 Decision Tree Examples 19(一)外文文献译文4 决策树4.1 介绍统计决策广泛应用于实验地球科学,它在环境科学中扮演着更重要的角色,由于环 境系统随时间不断改变,需要根据观测系统和可能情况不断地矫正行动(采取不同的行 动策略)。
一组可能的矫正措施通常在一个决策环境中,称为决策集一些物理属性(或 变量)的观测值是潜在有用的,这也是可采取的矫正措施的一种情况在系统中根据新 的情况不断地矫正措施,目的是为了减少损失,或成本或为了最大利益考虑到成本是 一个负收益,对一个给定的决策问题,科学家和企业人员看法了一个综合单一标准—— 成本最小一个好的决策应该满足:一、综合成本最小,二、最优决策获取和收集物理变量值的过程也被称为特征提取(特征变量)、变量测定,这些变 量有时候也被称为特征、特征变量、测量这些特征变量中的一些变量可能会对决策有 影响,确定这些变量是一个挑战它们可能是成本、风险或者是在收集这项变量过程中 的其他损失在另外一些情况下,获得测量结果的时间延迟也可能增加决策成本这可 能要承受某些损失,这是因为由于测量过程的时间延迟,一个矫正措施并不能被较早的 执行,这些损失应当被计入综合成本中因此,决策的过程中可能还包括决定是否收集 某些测量在一个决策系统中,所有变量的数学空间以及它们的成本是可以设想的(计算得到 的)与每一个综合变量值有关,做出一个决定的总括成本,包括每一个测量成本,是 也是可以设想(得到)的接着,对没一个特征测量的组合的最优决策也是可以设想(得 到)的。
这样的一个表示所有复杂变量之间相互关系的数学变量被称为“模型”特征 变量、成本、以及参数的测量被整合到一个单一的成本标准中用来表示相互关系的其 他数学数量和函数体现了模型的相关信息不幸的是用精确地数学空间表示决策成本和最优决策图仅仅是一个设想、一个理 想通常情况下,恰恰是不确定性的数学量化相互关系才是我们所需要的可能一些关 系是确定性的,另外一些确实统计的用先验的知识去精确量化统计关系本身可能是有 限的(有问题的)最后,即便是我们可以得到一个设想中的完美的表征相互关系的数 学空间,它们的表示和计算最优决策可能需要令人可怕的数量的计算机内存和计算能 力人工智能建模和决策方法在很多情况下式有用的它们在降低表示复杂度方面很有 用在某些情况下,它们通过决策过程动态的表示模型,而不是试图建立一个巨大的可 能无法管理的静态的表示它们对不确定关系的近似表示也很有用总之,人工智能在 降低计算(这些计算在计算最优决策时必需的)复杂度方面很有用人工智能通过启发 式方法能够得到几乎是最优的决策决策树是一种人工智能方法,也是本章的主题根据一个模型开展工作目的是帮助我们决策根据排位赛模型,区分不同的形容词 像精确的(exact)、精准的(precise)、完整的(complete)和统计的(statistical),使它 们有序。
一个完整的模型解释了所有可能的相互关系一个精确地模型(precise)明确 的描述了相互关系,没有含糊之处例如,语句“由于人的呼吸道敏感性,对人类而言, 高臭氧水平的环境会导致相当大的不舒服”指定了一个关系但它不是数学的精确描述, 它使用了主观性的词语“高”和“相当的”一个说明书可以说是精准的(precise),但这只 是大约而不是精确(exact)有些关系是统计的而不是确定的完整的、精准的(precise) 统计关系和正确的说明在下面的情况下与精确定义的确定的关系具有非常相似的意义 在统计关系的情况下,根据决策总体成本的统计平均值或期望值最小化,来获得最佳决 策,而不是根据减少精确的整体成本显然地,根据上面论述,在环境科学应用中,一个完整的精确的模型通常是不能构 建的即使我们愿意接受相似的但完整指定的模型,我们也可能不能及时得到如果观 测值的获取和决策是在有限资源的情况下做出的,时间也是一种资源,那么模型可能是 部分指定或者参数不是非常的精确气象就是这样的应用气象现象是观察天气的事件 温度、压力、水蒸气等都是影响因素这些物理量之间相互作用这些物理量在三维空 间和时间的四维空间上也是物理属性,它们对气象时间的发生有重要影响。
此外,上述 物理属性在预测未来一段时间内的气象时间非常有用虽然预测的准确性有了极大提 高,但总有进一步提高的空间一系列物理属性及其组合的测定对正确认识(预测)各 种重要事件是极其有用的事实上,各种转换变量和转换组合的数量几乎是没有限制的, 这一点可能会潜在地增加分类结果的准确性而且,不同属性(和属性的组合)的不同 转换也可能是必须的因此,关于这一点的研究有很多(开放式的)本章研究了一类分类(决策)算法这些方法给予统计的不完整的逻辑相互关系构 造模型总的目的是发展和引导决策算法,即决策树根据上面提到的理论,这种方法 适用于很多实验地球科学领域本章中的最后算法也被称为多级分类和多层分类 4.2 决策和模式分类4.2.1 统计模式分类在统计模式分类最简单形式中,模式分类(Duda et al 2001)规定,一个给定的数 据向量X被分配到几个已知的类别®1,…,中数据向量X由m个测量结果组成: X=[x(l),x(2),...,x(m)] (4.1)如前所述,每个测量都是一个特征,它的值与数据向量X—致,都受模式类的影响一 个特征可能是重要的,或者序数的(其重要性通过在一个重要性序列体现),或者无价 值的(少价值的)。
一个具有重要价值的变量,用一段连续的实线表征其价值一个具 有序列的价值的变量,通过一个有序的数列,比如整数,体现其价值一个没有价值或 者具有很少价值的变量,用一个没有自然序列的有限序列表示其价值一个无价值的例 子就是某种现象的出现或者不出现,像材料样品中出现特别的污染物(这种现象几乎不 可能出现)在很多已经设计完成的分类应用中,我们知道类的先验概率Pi,分别对应类曲,我 们也知道类的条件概率密度函数P(xl®i),对应每一个类曲和观察空间中所有的向量点 {X}我们根据最大化后验概率来分类观察数据也就是说,如果求得的后验概率是曲 (®i的后验概率最大),就把观察到的数据向量X划分到类wi.P [oi|x]>P[qj|x],对于每一个je (1,2,…,k) (4.2)根据概率论中的贝叶斯定理,一个类的后验概率可以表示为一个函数这个函数由该类 的先验概率函数和条件密度函数组成,如下所示:p(x| w )pp[w |x] = j —,je(1,2,…,k) (4.3)j 工 k p (x | w ) pi=1 i i上式等号右侧的分母与j无关因此,公式(4.2)的决定性因素简化为公式(4.3)的等 号右侧分子的最大化,分子与所有的 j 有关。
也就是说,如果满足下面的条件,数据向 量X就属于类wi:P(xlwi)错误!未找到引用源>P(xlwj)错误!未找到引用源je (1,2,…,k)( 4.4) 上述方法的决策取决于统计地表达所有数据变化情况的能力,包括含有所有测量数据的 多维数据空间4.2.2使用逻辑相互关系纯粹统计方法构建数据模型进行决策是一种极端的方法,另一个极端是纯粹的逻辑 相互关系这种逻辑的相互关系可以通过不同类型的数据分析构建,而不是纯粹的统计 模型这些相互关系可能是完全确定的,也可能是近似确定的在实践中,逻辑相互关 系和数据统计分析常常被综合使用如果逻辑相互关系能够保证在每次决策的实例中都 是不错的,在使用中就可以认为它是完美的相同的信息,如果对每一个测量组合都能 产生最后的决策(而不是一个局部决策),那么这个信息就被认为是完整的一个如此 完整的完美的可用的逻辑相互关系,避免了统计方法的缺点一个如此理想的情况在应 用中是罕见的在现实生活应用中,我们通常只有不完善不完整的模型信息这就是(也 是)常见的已知信息以及根据这些已知信息做出的决策,这些数据称为模式训练样本 实用的决策算法是在逻辑相互关系和统计训练样本的帮助下进行了最优设计的。
下面用 一个简单的虚拟例子说明此方法一个病人因为类似流行感冒的症状,访问他的家庭医生感冒的可能原因是上呼吸 道感染或者病毒感染虽然没有对病毒感染的治疗,但是在某些情况下,继发性病毒感 染可能会在两种情况中的一种发生有此类风险历史的患者应该与没有此类历史的患者 区别对待图4.1显示了一个可能的逻辑相互关系模型医生会检查病人的发烧情况对于三个可能的发烧(fever)水平(或者等价),采 取的措施也是不同的对于低发烧水平的病人,医生会检查的病历以确定他是否有感染 的风险如果病人处于危险中,医生就开处方药物消除感冒症状(图中决策C表示) 如果病人是高烧的情况,医生会开抗生素和感冒药物(图中A&C表示)其他情况,医 生不开任何药物当然,如果病情在一两天内恶化,病人需要重返诊所这是通过“wait” 表示的这是一个逻辑相互关系模型的例子这个例子假设,医生有一个风险因素清单 并且这些风险因素没有模糊性然而,这种模型仍然是不完善的,因为这里没有详细说 明如何去区分高烧和低烧最终的决策算法需要一个阈值体温来判断高烧还是低烧一 个好的阈值可以通过研究图4.1 一个说明模型和统计训练的简单例子过去的很多有关体温变化对病人病情影响的例子来确定。
这个阈值的确定也会受到过去 不同体温下病人的不同处理方式的影响过去病人的观测数据构成了统计训练样本在 上面的例子中,医生通过一系列的局部决策最后得到最终决策在每一个阶段,对案例(上面的病人)的相关信息进行审查并预测进一步的措施在每一阶段,都要从可能的 行动中选择一个这种决策方法称为决策树方法相应的决策模式(方案)的图形表示 称为决策树在一般的决策模式(方案)(包括决策树)中,对没一个测量特征组合的存在一个 最优决策因此,测量的数学空间被划分为不同的最优决策区域,这些区域称为决策域 相邻决策域的边界称为决策边界4.3决策域像上面介绍的一样,决策算法在数据空间{X}中产生决策边界和决策域也就是说, 多维的数据空间被分成了许多小的区域,并对每个区域进行标示很能有多个不相交的 区域构成一个单独的类下面是一个假设的例子图4.2是一个有4个决策区域和两个 测量,X和Y的例子图4.2决策域的例子在这个例子中,X轴的值从0到24, Y轴的值从0到16决策区域1在一个椭圆 中,椭圆的长轴与X轴平行该椭圆中心在(4,12),长半轴长度为6,短半轴长度为4 决策域4是一个圆心在(12,8),半径为4的圆决策域3在图的右上方,下界为过点(12.16) 和(24,8)的。