数据挖掘技术论文开题报告

资源描述

《数据挖掘技术论文开题报告》由会员分享，可在线阅读，更多相关《数据挖掘技术论文开题报告（10页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘技术论文开题报告毕业都是需要进行论文的写作，数据挖掘技术论文的开题公报怎么写？下面是整理的数据挖掘技术论文报告，欢迎阅读！数据处理技术综述数据挖掘(Data Mining)是一项较新的数据库技术，它基于由日常积累的大量数据所组成的数据库，从中发现潜在的、有价值的信息称为知识，用于支持决策。数据挖掘是一项数据库应用技术，本文首先详细描述对数据挖掘进行概述，阐明什么是数据挖掘，数据挖掘的技术是什么，少见然后介绍统计分析的常用技术，数据挖掘的主耍过程，如何进行数据挖掘,主要固相以及国内外现状主要包括分析。一.研究背景及意义近十几年来，随着数据库系统的广泛流行以及科学计算的快速发

2、展，人们信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发新等，特别是网络系统的盛行，使得信息爆炸性高增长。这一趋势将持续发展下去。大量信息在给人们带来便利的人类同时也带来了一大堆的问题：第一是信息过量，难以消化；第二是重要信息真假难以辨认；第三是信息安全难以有效保证；第四是资料形式不一致，难以统一处理。面对这种状况，一个新的挑战被提出来：如何才能不内部信息被信息的汪洋大海所吞没，从中及时发现有用的知识，提高信息回收率呢？这时出现了新的技术一一数据挖掘(Data Mining)技术先是应用而生了。面对海量的存储数据，如何从中发现有价

3、值的信息或知识，成为一项非常任重道远的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。二.概述1,数据挖掘数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提纯隐含在其中的、人们事先不够知道的、但又是潜在有用的信息和知识的过程。这些数据可以是形式化的,如关系数据库中的数据，也可以是半结构化的，如文本，图形，图像数据，甚至是分布在网络上所的异构型数据。发现知识的方法可以分析方法是数学的，也可以是非语言学的，可以是演绎的，也可以是归纳的。发现了的知识可以被用于信息管理、查询优

4、化、决策支持、过程控制等，还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等的研究成果构建自己的理论体系，是一个交叉学科重要领域，可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。2,数据挖掘技术统计分析就是对观测到的数据集进行分析，目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种中分析方法和分析工具在大规模网络流量中建立模型和发现数据间关系的投资过程，这些模型和关系可以用来做出决策和预测。数据分析的过程就是知识发现数据管理的过程，其所能发现的知识有如下几种：广义型知识，反映可同事物共同性质的知

5、识；特征型知识，反映事物各话语方面的特征知识；差异型知识，反映类型各不相同事物之间属性差别的知识；关联型知识，反映事物之间依赖或直接联系的知识；预测型知识，根据历史的和当前的数据推测未来数据; 偏离型知识，揭示事物偏离一般而言的异常现象。所有这些知识都可以在不同的概念层次上被发现，随着概念树的大幅提升，从微观到中观再以到宏观，以满足不同用户、不同层次决策的需要。数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科，是目前国际上数据库和学门决策支持领域的最前沿的研究方向之一。3,数据挖掘的功能数据挖掘通过预测未来趋势及行为，做出预测性的、基于

6、知识的决策。数据挖掘的目标是从蕴涵数据库中发现隐含的、有意义的知识, 按其功能可拆成以下几类。1.1 1 关联分析(Association Analysis)关联分析能寻找到数据库中数以万计数据的数据库相关联系，常用的一种技术为关联和序列模式。关联规则是发现一个事物与其他事物的相互关联性或相互依赖性。1.2 聚类输入的数据并无任何数据型式标记，聚类就是按一定的规则将划分为合理的集合，即将对象各组为多个类或簇，使得在同一个相近簇中的对象相互之间具有较高的相似度，差别而在有所不同簇中的对象差别很大。聚类增强了人们对客观现实的重新认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传

7、统的模式识别方法和数学半导体技术分类学。1.3 自动预测趋势和行为数据挖掘自动在大型数据库中进行分类和预测，寻找预测性信息, 地提出描述重要数据类的模型或预测未来的数据趋势，这样以往需要进行大量手工分析的问题如今可以迅速直接由数据得出结论。3. 4概念描述对于数据库中会庞杂的数据，人们期望以简洁的描述形式数据库来描述串连的数据集。概念描述就是对某类对象的内涵进行描述并概括出对象某类的有关特征。概念描述分为特征性描述和描述，前者描述某类对象或非的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的演算法很多，如决策树方法、遗传算

8、法等。数据库中的数据常有一些异常中同记录，从数据库中检测太这些不一致性很有意义。偏差包括很多潜在的基础知识，如分类中的反常实例、不满足规则的特例、观察结果与观测模型预测值的偏差、量值随时间的波动等。偏差检测的基本方法是找出观测结果与参照值之间有意义的差别。检定这常用于金融银行业中检测舞弊行为，或市场分析中分析特殊消费者的消费习惯。三.目前的研究现状及存在的主要问题自KDD 一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止，由古巴人工智能协会主办的KDD国际研讨会己经召开了 13次,规模由原来的专题讨论会发展到国际学术大会, 人数由二三十人到约千人,

9、论文收录数量也迅速提高,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略技术和技术的导入，以及多种学科之间的相渗透。其他的专题会议也把数据挖掘和知识发现列为议题之一，成为当前计算机化学界当前的一大热点。与国外相比，国内对DMKD的研究稍晚，没有形成整体力量。2021 年首次支持我们对该领域的研究项目。目前，国内的许多知识和高等院校竞相开展科研单位发现的基础理论及其应用研究，这些单位包括南京大学、中科院计算技术研究所、空军第三研究所、海军上将装备论证中心等。其中，北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究，北京大学也在开

10、展对数据立方体代数的，华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法复旦大学的优化和改造；南京大学、四川联合大学和上海交通大学等区县探讨、分子生物学及非了非结构化数据的知识发现以及Web数据挖掘。四.研究内容1,数据挖掘的过程数据挖掘数据分析是指一个完整的过程，该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息，并使用这些数据做出决策或丰富知识。数据挖掘的用例一般过程如下流程图所示：图1,数据掘的一般过程2. 1神经网络神经网络方法是利用计算机人脑神经元结构，以MP模型和Hebb 学习规则为基础。它主要有三种建模神经网

11、络模型：前馈式网络、反馈式网络、自组织网络。为2. 2决策树决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式，在根据的内部结点进行属性值的比较并决策树不同的属性值判断从该结点向下的分支，在计算机程序的叶结点得到结论。2. 3遗传算法遗传算法是一种优化技术，是利用计算机生物进化过程的算法。基于进化理论，并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成：繁殖、交叉、变异。2. 4传统统计分析这类技术建立在的数理统计的基础上。在数据库字段项之间存在两种关系：函数关系（能用函数公式表示的确定性关系）和相关关系（不能用函

12、数方程表示，但仍是相关确定性父子关系），对它们的分析可采用判别分析、因子分析、相关分析、重返多元回归分析及偏软最小二乘回归方法等。2. 5关联规则关联规则相互发现一个事物与其他事物间的是关联性或相互依赖性。关联规则是演示属性：倍数比值频繁地在给定数据集中一起出现的条件，是数据挖掘中作用不够广泛的知识缺乏之一。2. 6可视化技术可视化技术是利用计算机建模和图像技术，将数据转换成图形或图像在转变成屏幕上为显示出来，并需要进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地交融到数据挖掘之中，使用户对于数据挖掘有一个更加直接直观清晰的越发了解，提供让用户有效、数学方法主动

13、参与数据挖掘过程的方法。3,数据挖掘的终端产品数据挖掘技术从一开始就是面向的。它不仅是面向特定数据库的简单检索查询调用，而且要对这些数据进行微观、中观乃至宏观的统计，分析，综合和推理，以指导具体问题的求解，企图发现事件间的相互关联，甚至利用己有的数据对未来的活动进行预测。一般Data Mining运用较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及公共卫生服务业等。更广义的说法是：数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。4,数据挖掘的发展方向目前，数据挖掘的研究方面主要分子生物学有：数据库知识发现方面，将知识发现（KDD）与数据

14、库系统、数据仓库系统和Web软件程序紧密结合，力图充分利用Web中的丰富资源；机器学习方面，进一步研究知识发现方法，希望克服现存算法的量测难题性瓶颈，如注重对Bayes （贝叶斯）方法以及Boosting算法的研究和降低；统计领域, 加大传统统计在数据挖掘中的应用。数据挖掘研究正蓬勃开展，在今后还会掀起更大的波澜，其研究焦点集中到以下几个焦点话题各方面:语言研究专门用于知识发现的数据挖掘语言，也许会像SQL语言一样走向形式化和标准化；寻求数据挖掘过程中的可视化方法，使得知识发现的过程能够被用户理解，也便于在知识发现整个过程中的人机交互；所研究在网络环境下的数据挖掘技术，特别是在I

15、nternet上建立数据挖掘服务器，与数据库服务器相配合，实现数据挖掘；加强对各种非结构化数据的数字发掘出来，如文本数据、图形图像数据、多媒体数据。5,数据挖掘的新技术Web数据挖掘技术首要解决半结构化数据源半和模型结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据，而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外，还需要一种半结构化模型抽取技术，即自动地从现有数据中抽取半结构化模型的技术。XML可看作一种半结构化科灰解的数据模型，可以很容易地将XML 的文档描述与关系数据库中的属性对应起来，实施精确开始实施地查询与模型填入。利用XML.

16、Web创立设计人员不仅能创建文字和图形，而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构中和样式表。6,数据挖掘面临的问题和挑战虽然数据挖掘技术己经在最广泛各方面就得到了广泛的应用，但数据挖掘技术的研究还不够数据管理成熟，在应用上才有很大的局限性。正是这些局限性，促使数据挖掘技术进一步的健康发展：（1）挖掘的对象数据库更大，维数更高，属性之间更复杂，数据挖掘处理的数据通常十分巨大。（2）数据丢失问题因大部分数据库不是为知识发现而定做的, 那么它就有可能会存在一些重要数据的数据和属性丢失的环境问题。（3）多种形式的输入信息目前数据挖掘工具能处理的数据形式有限，一般只能处理数值型的结构化数据。（4）网络与分布式环境的KDD问题随网络的发展，资源的丰富, 技术人员各自独立处理分离数据库的工作方式

展开阅读全文