数据挖掘之动态数据.doc

上传人:夏** 文档编号:542358236 上传时间:2023-03-12 格式:DOC 页数:8 大小:723.01KB
返回 下载 相关 举报
数据挖掘之动态数据.doc_第1页
第1页 / 共8页
数据挖掘之动态数据.doc_第2页
第2页 / 共8页
数据挖掘之动态数据.doc_第3页
第3页 / 共8页
数据挖掘之动态数据.doc_第4页
第4页 / 共8页
数据挖掘之动态数据.doc_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《数据挖掘之动态数据.doc》由会员分享,可在线阅读,更多相关《数据挖掘之动态数据.doc(8页珍藏版)》请在金锄头文库上搜索。

1、 摘要动态数据挖掘是针对动态数据库和实时数据库进行知识提取的数据挖掘技术。随着信息技术的进一步发展,对知识新颖性的需求越来越强,采用传统的静态数据挖掘技术来分析不断产生的信息无法满足现实应用的要求,对实际应用数据源在其运行的同时进行动态数据挖掘得到相关知识显得日益重要。动态数据挖掘(DDM)由于信息时效性越来越短,为了能充分把握新颖性的信息,对实际应用数据源(数据库、序列数据或流式数据等)在其运行的同时进行数据动态提取并加以分析来得到相关知识。数据挖掘目前已广泛应用于现代社会的各行各业,但是大多都是针对历史数据进行分析与处理,人们追求的不再只是发现历史数据中隐藏的规律来解决实际问题,而是想在竞

2、争激烈的社会中即时获取有用的信息,这对于传统的针对静态的历史数据进行挖掘的静态数据挖掘是不能很好实现这种需求的;设计一种针对当前数据动态分析处理的一种信息处理技术具有很大的现实意义。结合动态数据挖掘来研究多维数据的动态预测问题在现实应用中具有广阔的实践意义。动态数据挖掘不仅仅限于数据预测方面,对其应用领域探讨也具有很大的现实意义。 深入分析了以往数据处理技术的发展现状之后给出了一种在动态数据源运行过程中结合历史数据、当前数据以及即将到来的数据进行数据分析与处理的动态数据挖掘技术:运用滑动窗口技术动态的获取数据,通过动态数据窗口动态处理数据,运用未来数据测试动态数据挖掘的性能。相关工作有持续数据

3、挖掘 、流式数据挖掘、移动数据流挖掘和Web在线数据挖掘。关键词: 动态数据挖掘; 体系结构; 动态数据采集; 动态数据处理; 滑动窗口; 问题分析DDM的问题关键是如何选取当前数据集,如何保持与历史数据平滑过渡,以及如何平滑地获取后续数据集。(现在current,过去old,将来new)DDM vs DM传统的数据挖掘主要是基于历史数据集进行挖掘,提取出隐藏在其中的知识,而动态数据挖掘是集过去现在与未来于一体的知识提取的过程,动态处理各实时数据。动态数据挖掘的体系机构保证新旧数据的平滑以及数据的及时或实时获取,运用动态数据窗口进行数据的实时动态处理; 支持自动更新处理; 数据挖掘与挖掘评价是

4、紧密结合的两个过程,采用后续数据集中数据对挖掘结果进行评价,评价结果不符合要求则修正挖掘过程或重新挖掘以适应应用环境的改变。 核心技术:滑动窗口技术; 动态数据窗口;评价 动态数据挖掘过程1. 动态数据采集 时间关联性强 - 滑动窗口,某时刻的历史快照 时间关联性不太强或者离散数据 - 数据库SQL语句 WHERE time between T - 2 and T ( T为当前时间) 2. 动态数据处理包括消除噪声、缺失数据处理、类型转换、特征提取以及数据降维处理等。考虑到边界数据可能被忽略,结合重叠窗口技术,采用动态数据窗口,让重叠部分的数据(边界数据) 重复计算。3. 数据挖掘 时间性要求

5、不强:只是为了获取新颖的知识,可用传统的挖掘算法 时间性要求较强:效率要高 合理的挖掘布局算法, 即什么时候启动挖掘。挖掘过程处理数据与未处理数据以及目标数据集之间的数据平滑问题:K标号法(初始标号为0,每参与一次挖掘过程则将TDi的标号值加1,直到标号变为K( K N ) , 在每次启动挖掘时只使用标号值小于K的数据。)4. 挖掘测试问题解答 随着科学研究与工程应用领域的不断扩大,多维度动态数据处理与分析已成为目前信息处理、动态数据建模及可视化建模中重要的研究课题。由于实际中往往会因各种因素造成信息数据缺失、信息对象机理知识不完整或多维空间中部分特征量损失等带来信息不完整,因此,进行多维度动

6、态数据处理技术以及利用不完整信息建模的研究具有重要的理论和实际应用价值。采用数据挖掘和非线性系统建模技术,针对多维度动态数据的特性,研究非线性动态系统中具有空间和过程特征的数据挖掘模型和挖掘算法,以及基于软测量技术的不完整信息数据的完整性、一致性处理方法,实现多维度动态数据的有效挖掘、不完整信息建模和非线性动态系统演化规律的模拟。论文提出了一种较为完整的多维度动态数据挖掘系统理论架构,构造了多维度动态信息表示模型,建立了基于支持向量回归机的时间序列挖掘模型、连续输入/出的过程神经网络挖掘模型、多聚合过程神经网络挖掘模型及径向基过程神经网络挖掘模型等四种智能动态数据挖掘模型,构建了基于多元统计方

7、法、克里格插值方法、数据过滤技术的不完整信息数据的补齐算法、网格化及数据过滤算法,采用相空间重构技术构建智能挖掘模型的训练样本集,并提出了量子粒子群算法结合梯度下降的神经网络训练算法,有效实现了对神经网络初始权值、阈值和隐含层节点数的优化。由挖掘模型实现不完整信息建模,最终达到满意的应用结果提出了一种新的数据挖掘形式动态数据挖掘(DDM),寻求在不断更替产生的动态数据信息中找出能被应用的知识。给出动态数据挖掘的体系结构,并分析了动态数据挖掘实现过程,运用滑动窗口与动态数据窗口动态采集与处理动态新增数据,同时运用后续数据进行挖掘结果评价,用K标号法平滑地使用动态目标数据集进行数据挖掘,得出了一个

8、动态数据挖掘测试算法。动态数据窗口随着信息技术的进一步发展, 对知识的新颖性要求越来越强。我们处在每天都有大量新鲜信息产生的社会中, 如果采用原来的针对静态数据源(如数据仓库)进行知识提取的数据挖掘技术来分析这些不断产生的信息可能无法满足现实应用要求, 因为传统的数据挖掘可能挖掘到的是过时或失效的知识。社会在不断进步, 时代在不断改变, 信息的时效性变得越来越短。为了能充分把握新颖性的信息, 对实际应用数据源( 数据库、序列数据或流式数据等) 在其运行的同时进行数据动态提取并加以分析来得到相关知识是十分必要的。这方面的工作有持续数据挖掘、流式数据挖掘和W eb在线数据挖掘。当然实际生活中还有许

9、多与时间关系不大且不涉及W eb在线的各种应用, 针对这些应用数据源进行动态实时挖掘也是十分必要的。为此, 本文提出了一种动态数据挖掘方法, 给出了动态数据挖掘的体系机构, 并分析了动态数据挖掘过程。1动态数据挖掘问题在实际应用数据源运行过程中动态提取数据用于知识发现时, 关键的是如何选取当前数据集, 如何保持与历史数据平滑过渡, 以及如何平滑地获取后续数据集。所以动态数据挖掘是集过去、现在与未来于一体的动态的过程, 下面给出一些相关定义: 给定实际运行数据源, 将其称为动态数据源( Dynam icDa ta Source, DDS), DDS中的数据记为di ( i为数据标志号, i=1,

10、2,3 ) 。定义1 设当前时间点为T, 存在数􀀁( 􀀁 R+ ), DDS 中在T 时刻以前生成的所有di 组成的数据集合称为历史数据集, 记为Do ld。定义2设当前时间点为T, 存在数, DDS 中在T 时刻到T 时刻生成的所有di组成的数据集合称为当前数据集, 记为Dc urrent。定义3 设当前时间点为T, 存在数为正有理数, DDS 中在T时刻以后生成的所有di组成的数据集合称为称为后续数据集, 记为Dnew。定义4 在DDS中运用当前数据集Dcurrent与历史数据集Do ld 结合后续数据集Dnew 进行分析, 提取出其中有意义的、新颖的、

11、关键的知识与规则的过程称为动态数据挖掘( Dynam icDa taM in ing, DDM )。从以上定义可以看出, 动态数据挖掘与传统从以上定义可以看出, 动态数据挖掘与传统的基于数据仓库的数据挖掘有很大的不同, 传统的数据挖掘主要是基于历史数据集进行挖掘, 提取出隐藏在其中的知识, 而动态数据挖掘是集过去现在与未来于一体的知识提取的过程。为了便于进一步研究动态数据挖掘问题, 下面就动态数据挖掘的体系结构进行分析。动态数据挖掘主要体现在它能动态地从DDS中提取数据进行分析, 找出其中的知识与规则, 从而更加及时新颖地为企事业单位或各管理部门提供决策方案, 其实现过程大致可分为动态数据采集

12、、数据处理、数据挖掘、挖掘评价几个过程。动态数据挖掘关键是要解决后续数据集D new的动态采集以及动态处理问题, 本文提出一种基于滑动窗口的动态数据采集方法, 来保证新旧数据的平滑以及数据的及时或实时获取, 运用动态数据窗口进行数据的实时动态处理; 由于动态数据挖掘在运行过程中, DDS 也在运行, 即后续数据集D new在不断增加, 鉴于此, 在数据处理以及后续的数据挖掘过程中必须要有较高的处理效率并且能支持自动更新处理; 数据挖掘与挖掘评价是紧密结合的两个过程, 采用后续数据集中数据对挖掘结果进行评价, 评价结果不符合要求则修正挖掘过程或重新挖掘以适应应用环境的改变, 尤其在对事务进行统计

13、分析或趋势预测分析时显得尤为重要。图1动态数据挖掘体系结构3 动态数据采集动态数据采集( Dynam ic Data A cqu isition, DDA ) 是指在动态运行数据源中动态地获取其中的历史的当前的或者即将生成的数据集。对于从历史数据集或当前数据集中获取数据可以一次提取完成, 但对于还未生成或正在生成的数据获取就只能分步来不停地获取, 为了保证获取数据的平滑性, 采用滑动窗口作为动态数据获取窗口。3. 1 滑动窗口滑动窗口( SlidingW indow, SW )在计算机网络通信、时间序列数据挖掘、移动数据流数据挖掘等方面都有应用。本文借鉴这一技术来实现数据的动态获取。世间万物都

14、是处于时空中的, 事物的产生、发展以及灭亡都与时间有关联;为此, 对于动态数据源的数据动态获取中滑动窗口度量均可采用时间来确定。下面给出滑动窗口的相关定义。定义5􀀁 在DDS 中, 按照数据di ( i 为数据标识号, i为正整数Z+ ) 的生成时间分成窗口大小为( t为时间段, 且tn) 的数据段Dk ( k为自然数 N ), 每个数据段为一个数据窗口, 􀀂n为数据门限值。定义6􀀁 对于正数 n􀀂( n为Z+ , 且n 1), 某时刻T, 有数据段集D = D1, D2, , Dn 落入到窗口大小为t的窗口SW中, 该窗

15、口每隔t时间向前移动s ( s为Z+ , 1sn )个数据窗口大小的位置, 称窗口SW 为滑动窗口。为了说明滑动窗口动态采集数据的功能, 方便起见, 图3以滑动窗口大小为两个数据窗口每次移动一个窗口为例进行3. 2􀀁 动态数据采集分析数据窗口是基于时间段来划分的, 为了能快速及时地从DDS中获取数据, 如果数据是时间性关联不是很强的数据或者是离散性数据, 往往是通过数据库来保存的, 这就需要存储DDS的数据库存储数据的产生时间, 这样就能采用数据库查询语言快速检索到满足要求的数据。动态数据处理动态数据处理( Dynam ic Data Processing, DDP)是相对于

16、传统的数据挖掘的数据处理过程而言的。传统的数据挖掘只是针对特定的数据固定的数据集进行; 而动态数据挖掘中, 为了找出新颖的、最近的、感兴趣的知识, 在数据处理过程中也要求能动态处理各实时数据。动态数据处理包括消除噪声、缺失数据处理、类型转换、特征提取以及数据降维处理等。处理可采用传统的数据预处理数据变换、规约等方法, 主要在于如何动态处理动态数据采集过程传来的动态实时数据。由于动态数据采集传来的数据都是基于时间段的实时数据, 考虑到在数据处理过程中, 边界数据可能被忽略, 结合重叠窗口技术, 选择一种动态数据窗口来处理动态实时数据。4. 1􀀁 动态数据窗口针对固定的有限数据集合进行聚类分析时第一次提出了动态数据窗口( Dynam ic DataW indow, DDW )概念,并第一次运用窗口重叠移动进行聚类分析

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号