《数据挖掘技术及其在宏观经济调控辅助决策中的应用》由会员分享,可在线阅读,更多相关《数据挖掘技术及其在宏观经济调控辅助决策中的应用(66页珍藏版)》请在金锄头文库上搜索。
1、摘 要( 随 着 关 系 数 据 库 系 统 广 泛 付 诸 实 践 , 数 据 库 中 存 储 的 数 据 量 越 来 越 大 , 从 而 对 数 据的分析和理解也越来越重要。 利用数据挖掘工具进行数据分析, 可以发现重要的数据模式, 为决策支持提供客观依据。 本文主要应用和研究相关数据挖掘方法来解决深圳市发展计划局在实施经济宏观调控时,获取辅助决策信息的科学性和客观性等问题本文引入I D 3 算法做分类预测工作,许多研究表明决策树分类法是一种有效的、准确率高的、 并且鲁棒性好的方法。 但工 D 3 算法存在不能处理海量数据及连续型数据的缺陷。鉴于此, 本文提出结合面向属性归纳法的 I D
2、3分类方法。面向属性归纳法可以有效减少待处理的数据量, 它的输出作为传统工 D 3 算法的输入, 可以较好地解决传统I D 3 算法所固有的问题。 出于提高算法运行效率方面的考虑, 本文对传统I D 3 算法提出了两种改进算法,目的在于减少算法运行时访问数据库的时间开销, 提高网络运行效率。贝叶斯网络是一个带有概率注释的有向无环图。 这个图模型能表示大的变量集合中的大量变量之间的相互关系, 利用贝叶斯定理揭示的学习和统计推断功能, 实现预测、因果分析等数据挖掘任务。本文引入贝叶斯网络学习理论来做预测工作,利用C h e n g J i 。 等提出的以互信息为C I 测试手段的贝叶斯网 络学习
3、算法来构建贝叶斯网络, 得到一些有益的预测规则。同样,出于提高算法运行效率方面的考虑, 本文针对该算法提出了 相应的改进算法, 它能够优化统计计算, 减少基本运算, 也即减少算法运行时访问数据库的时间开销,改善了算法的运行效率。但r. 结 果 表 明 , 以 上 改 进 算 法 的 运 行 效 率 都 得 到 了 较 大 提 高 , 并 且 两 种 方 法 在 宏 观 经 济 调 控 辅 助 决 策 工 作 中 都 取 得 了 令 人 满 意 的 结 果 。 4 -关键词:数据挖掘面向属性归纳法、 工 D 3 算法 贝叶斯网络学习AB S 丁R AC TA s i s w e l l k n
4、o w n t h a t t h e r e l a t i o n a l d a t a b a s e h a s b e e n w i d e l y im p l e m e n t e d , s o t h el a r g e r t h e v o l u m e o f d a t a s t o r e d i n t h e d a t a b a s e , t h e m o r e i m p o rt a n t t h e d a t a a n a l y s i s . Wi t ht h e h e l p o f t h e d a t a m i
5、n i n g t e c h n o l o g i e s , d a t a a n a l y s i s m a y f i n d o u t s o m e i m p o rt a n t d a t ap a tt e rn s t h a t c o u l d b e b e n e f i c i a l t o t h e s c i e n t i f i c d e c i s i o n - m a k i n g . T h e r e l e v a n t d a t a m i n i n gt e c h n o l o g i e s w e r e
6、 s t u d i e d a n d a p p l i e d t o h e lp t h e S h e n z h e n D e v e l o p m e n t 有监督( 教师)学习和无监督 ( 教师)学习。今 训练集和测试集把数据挖掘系统试图从中提取知识的数据集称为训练集。为了测试所发现的知识的正确性和有效性,用另一个称为测试集的数据来测试。令 演绎和归纳演绎和归纳是两种广泛使用的逻辑推理过程, 从认知学和知识建立角度看,数 据 挖 掘 技 * R 基 兰 些翌丝塑燮鲤些创塑翌 一一一一一一一数据清理图1 一2 典型数据挖掘系统结构大多数数据挖掘软件用归纳法发现知识, 而在
7、评价所发现的知识时要用演绎法。从数据库抽取模式的算法是归纳与演绎的结合。. 泛化和特化归纳学习的一般操作是泛化和特化。将训练数据集分为不相交的正例集合和反例集合,正例用于泛化,反例集合用于特化。泛化操作用于扩展一假设的语义信息,使其能够包含更多的正例,应用于更多的情况。而特化是泛化的相反操作,用于限制概念描述的范围。关系数据库并不明显地存放正例数据和反例数据,也就没有明显的反例数据可用于特化,所以,关系数据库中的归纳学习过程主要依赖于泛化。令 样本学习也叫示例学习,是用于数据库知识发现的重要策略。它是一个从训练样本集表示的多 个特定实例归纳出一般概念或规则的过程, 常用一个四 元组 表示, 其
8、中, P 表示正例集合, N表示反例集合,C是定义学习任务的概念集合。从训练样本集可能归纳出多个结论,为解决这种多样性,使用与数据挖掘任务有关的领域知识约束可能的结论空间。采用示例学习的关系数据挖掘广泛使用面向属性的归纳学习方法。. 知识发现任务的描述和说明第一章绪论描述和说明一个知识发现任务需要;与任务相关的数据;背景知识;所期望的知识表示方法;语言工具。1 . 3数据挖掘的任务及方法通常数据挖掘的目 标就是预测和模式发现6 1 。 预测就是通过数据库中某些已 知属性值来预测与之相关的属性值,即利用所发现的模式预测未来。 模式发现是寻找隐藏在数据集中的模式, 而且这些模式应该是可以被理解的。
9、 预测需要把当前输入的新数据与以 往的数据集进行匹配, 因此需要保存过去的数据。 模式发现则不需要, 一旦提取模式后,就可以把过去的数据移去。 可以把数据挖掘方法分为三类:基于逻辑、基于十字表方法和基于方程方法, 它们各自 建立在相应的理论基础上, 如逻辑学、 集合论或神经网络理论等。一般来说,基于逻辑的数据挖掘方法既能处理数字型数据,也能处理非数字型数 据; 基于方程方法的挖掘方法则要求所有待挖掘的数据都是数字型的, 神经网络及统计 方法是这类方法的代表; 十字表方法则相反,它只能处理非数值型数据,典型方法是遗传算法和贝叶斯网络。数据挖掘目 标可以进一步细化为以下种类:分类、回归、聚类、预测
10、 、和相关性分析等。分类的目的是提出一个分类函数或分类模型 ( 也叫分类器) ,该模型能把数据 库中的数据项映射到给定类别中的一个。 预测的目的是从历史数据记录中自 动推导出对给定数据的推广描述,从而能对未来数进行预测。 和回归方法不同的是, 分类的输出是 离散的类别值,而回归的输出则是连续数值。 聚类是根据数据的不同特征,将其划分为不同的数据类。 它的目的是使得属于统一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大。 相关性分析的目的是发现特征之间或数据之间的相互依赖关系。具 体 的 数 据 挖 掘 方 法 有 机 器学习 、 统计 等。 机器 学习 包 括示 例学习 7
11、) 、 概念 聚 类 8 1 决策树推理9 等; 统计方法有贝叶斯推理和粗糙集 I 0 等; 面向 数据库方法包括面向 属性 的归纳方法 1 1 等; 还有神经网 络和遗传算法 1 2 等众多方法。目 前, 己 有 不 少K D D 系 统 被 开 发出 来, 比 如S F U 的D B M in e r 13 , I B M的Q U E S T 14 1 、 G T E的K E F I R I S 等。 这 些 系 统 综 合 应用了 以 上 提到 的 各种 挖 掘方 法, 受 到 广泛 应 用,产生了巨大的效益。1 . 4分类与预测如以 上所述, 分 类能 把数据 库中 的 数据项映 射到
12、 给定 类别中的一 个 6 1 。 分 类工 作就 是分析训练样本数据, 找出数据特征, 提出分类函数或分类模型。 分类在数据挖掘中占 据着重要的地位,有许多方法都适用于分类,比如:贝叶斯推理、神经网络方法、决策 树方法等。 这些方法中, 基于人工神经网络的分类法相对于决策树方法通常分类出错率一一一一一一一翌继鱼垫鲤 一 N 连 P A 经 济 调 控 辅 助 决 策 中 的 应 用比 较低, 但它的缺点是需要很长的学习训练时间。 基于神经网络的分类方法一般给人的印象是不适合用来做数据采掘工作: 为了获得高质量的分类效果, 神经网络不得不通过不断学习训练样本以获得分类规则, 但这需要耗费大量的
13、学习时间, 并且由于神经网络大多是分层的结构,一个节点的输出是下一层的一个或多个节点的输入, 这就造成了分类规则被模型结构和两个节点之间的权重所隐藏, 因而对于普通用户而言神经网络学习得到的分类规则通常非常难以理解。同样的道理, 如何将背景知识应用于神经网络也是相当困难的。 综上所述,知识表示所遇到的困难是采用这种方法最主要的障碍。决策树方法则在相关研究领域被广泛采用。 决策树学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理出决策树表现形式的分类规则。它采用自 顶向下的递归方式, 在决策数的内部节点进行属性值的比 较并根据不同的属性值判断从该节点向下的分支, 在决策树
14、的叶节点得到结论,即得到所要学习划分的类。 所以从根到叶节点的一条路径就对应着一条合取规则, 整棵决策树就对应着一组析取表达式规则。 基于决策树的学习算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识, 这也是它最大的缺点, 只要训练例子能够用属性一结论式的方式表达出来,就能使用该算法来学习。然而,由于传统的决策树方法都是对数据库中原始数据执行分类操作,因此它们都 避免不了基于机器学习决策树法的固有缺点,诸如不能处理海量数据和连续型数值数 据,以及在选择测试属性时倾向选择多值属性等问题。 本文拟综合运用基于面向属性的 归纳方法和较为成熟的决策树学习算法一I D 3 算法。本方法
15、可以在不同的概念层次上提 取分类规则, 这些规则对普通用户而言也易于理解。 这种方法解决了单纯使用I D 3 决策树算法解决问题时所遇到的困难,即不能处理海量数据集和连续数值型数据。 通过采用面向属性的归纳方法可以合并记录, 减少挖掘的数据量, 从而克服传统I D 3 算法所无法解决的问 题。预测在辅助决策方面也起到重要作用。常用预测方法有:回归分析、神经网络等。 然而这些方法在实际应用中都存在一些难以解决的问题, 比如神经网络在学习阶段要花 费较多学习时间的问 题, 因而并未被广泛采用。 由 于贝叶斯网 络 ro 具有能够学习 变量间 的因果关系的功能,因此可以通过构造贝叶斯网找出各因素之间
16、的关系, 从而得出预测结果。贝叶斯网提供一种因果关系的图形, 可以在其上学习, 用来发现数据之间的潜在关 系, 也就是可以找出一个能够最真实反映现有数据库中各数据变量之间的依赖关系的贝 叶斯网络模型,即根据样本和先验知识找出后验概率最大的贝叶斯网络 。 网络由两部 分定义。第一部分是有向 无环图, 第二部分是每个属性的一个条件概率表。简而言 之, 贝叶斯网络是一个带有概率注释的有向无环图。贝叶斯网络本身并没有输入和输出的概念,各节点的计算是独立的,因此,贝叶斯 网络的学习既可以由上级节点向下级节点推理,也可以是由下级节点向上级节点的推第一章绪论理,用十数据挖掘的贝叶斯网络方法主要有以下几个特点:1 )贝叶 斯网络可以 处理不完整和带有噪声的 数据集。它用概率测度的权重来描述数据间的相关性,从而解决了数据间的不一致,甚至相互对立的问题。2 )贝叶斯网络用图形的方法描述数据间的相互关系, 语义清晰,可理解性强, 这将有助于利用数据间的因果关系来进行预测分析。灼 由于贝叶斯网络具有因果和概率语义,它有助于先验知识和概率的结合,容