数据挖掘课程复习提纲(2013年版)

资源描述

《数据挖掘课程复习提纲(2013年版)》由会员分享，可在线阅读，更多相关《数据挖掘课程复习提纲(2013年版)（28页珍藏版）》请在金锄头文库上搜索。

1、1数据挖掘数据挖掘课课程复程复习习提提纲纲（（10 计计算机、算机、软软件、网件、网络络））有关考有关考试试题题型：型：一、填空一、填空题题（（15 分，每空分，每空 1 分）分）二、判断二、判断题题（（10 分，每分，每题题 1 分分)三、三、计计算算题题（（55 分，分，3*15+1*10 分）分）聚聚类类、分、分类类、关、关联联分析、异常挖掘各一分析、异常挖掘各一题题四、四、问问答答题题（（20 分，分，3 题题，分，分别别是是 7 分，分，6 分，和分，和 7 分分题题））基本要求：掌握数据基本要求：掌握数据预处预处理、分理、分类类、聚、聚类类、关、关联联分析、异常挖掘的

2、基本方法、分析、异常挖掘的基本方法、clementine 的的基本使用方法，及每基本使用方法，及每类类方法的方法的应应用用场场景（每景（每类类方法理解、熟悉一个例子）。另外掌握数据方法理解、熟悉一个例子）。另外掌握数据挖掘在挖掘在电电信行信行业业中的几种中的几种应应用。算法重点掌握用。算法重点掌握 k-means、一趟聚、一趟聚类类、、DBSCAN、、ID3(C4.5)、、Bayes、、KNN、、Apriori 及基于距离、密度、聚及基于距离、密度、聚类类的异常的异常检测检测方法。方法。第一章第一章绪论绪论1 数据挖掘的定数据挖掘的定义义技术层面：数据挖掘就是从大量的、不完全的、有

3、噪声的、模糊的、随机的实际应用数据中，提取隐含在其中、人们事先不知道的、但又潜在有用的信息和知识的过程。商业层面：数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性数据。2 数据挖掘的任数据挖掘的任务务预测任务：根据其它属性的值预测特定（目标）属性的值，如回归、分类、异常检测。描述任务：寻找概括数据中潜在联系的模式，如关联分析、演化分析、聚类分析、序列模式挖掘。 (1) 关联关联(Association)分析分析2关联分析，发现特征之间的相互依赖关系，通常是从给定的数据集中发现频繁出现的模式知

4、识 (又称为关联规则)。关联分析广泛用于市场营销、事务分析等领域。 (2) 分类分类(Classification)分析分析分类分析就是通过分析示例数据库中的数据，为每个类别做出准确的描述或建立分析模型或挖掘出分类规则，然后用这个分类规则对其它数据库中的记录进行分类。 (3) 聚类聚类(Clustering)分析分析 “物以类聚，人以群分”。聚类分析技术试图找出数据集中的共性和差异，并将具有共性的对象聚合在相应的类中。聚类可以帮助决定哪些组合更有意义。聚类与分类的区别聚类与分类的区别聚类问题是无指导的：没有预先定义的类。分类问题是有指导的：预先定义有类。(4) 演化演化(Evolv

5、ing)分析分析演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。如：商品销售的周期(季节)性。 (5) 异常异常(Outlier)分析分析异常分析就是对异常数据的挖掘、分析。比如商业欺诈行为的自动检测，网络入侵检测，金融欺诈检测，反洗钱，犯罪嫌疑人的调查等。 (6) 序列模式序列模式(Sequential Pattern)挖掘挖掘分析数据间的前后序列关系 3 数据挖掘的数据挖掘的对对象象包括空间数据库、时间序列数据库、流数据、多媒体数据库、文本数据和万维网4.知知识发现识发现的主要步的主要步骤骤：： (1) 数据清洗数据清洗(data clearing)。其作用是清除数

6、据噪声和与挖掘主题明显无关的数据。 (2) 数据集成数据集成(data integration)。其作用是将来自多数据源中的相关数据组合到一起。 (3) 数据转换数据转换(data transformation)。其作用是将数据转换为易于进行数据挖掘的数据存储形式。 (4) 数据挖掘数据挖掘(data mining)。其作用是利用智能方法挖掘数据模式或规律知识。 (5) 模式评估模式评估(pattern evaluation)。其作用是根据一定评估标准从挖掘结果筛选出有意义的相关知识。(6) 知识表示知识表示(knowledge presentation)。其作用是利用可视化和知识表达技术，向

7、用户展示所挖掘的相关知识。数据挖掘只是知识发现过程的一个步骤。5 数据挖掘数据挖掘产产生背景及生背景及应应用用领领域域产生背景：“数据过剩” 、 “信息爆炸”与“知识贫乏” 使得人们淹没在数据中，难以制定合适的决策! 应用领域：在许多行业都有广泛应用，有大量数据的领域就有应用。(1)数据挖掘在商数据挖掘在商业领业领域中的域中的应应用用3客户群体划分；客户背景分析；交叉销售；客户流失分析；欺诈检测，市场分析和管理，公司分析和风险管理等。(2)数据挖掘在数据挖掘在计计算机算机领领域中的域中的应应用用信息安全：入侵检测，垃圾邮件的过滤，互联网信息/使用挖掘，智能回答系统(3)其它其它领领域

8、中的域中的应应用用数据挖掘在工业制造方面的应用，生物信息或基因的数据挖掘，体育竞赛，天文学，军事情报分析(反恐)，电视观众预测，多媒体、空间数据分析，6 数据挖掘使用的数据挖掘使用的软软件件SPSS Clementine、SAS Enterprise Miner 、IBM Intelligent Miner 、SQL Server 2005，Oracle DM 等商用软件能够提供常规的挖掘过程和挖掘模式。 Matlab， Excel(Data mining in Excel: XLMiner)等提供了数据挖掘模块。 Weka，RapidMiner(YALE)，ARMiner 等为开源数据挖掘

9、工具。7 数据挖掘数据挖掘领领域域 10 大挑大挑战战性性问题问题：：(1) 数据挖掘理论的构建 (2) 高维、数据流数据挖掘(高效、可扩展) (3) (时间)序列数据挖掘 (4) 从复杂数据中挖掘复杂知识 (5) 网络环境下的数据挖掘技术 (6) 分布式、多代理的数据挖掘 (7) 生物及环境问题数据挖掘 (8) 相关问题的数据挖掘处理 (9) 安全、隐私及数据整合 (10) 非静态、不平衡及代价敏感的数据挖掘第二章第二章数据预处理数据预处理1 数据挖掘中使用的数据数据挖掘中使用的数据 (1) 数据挖掘中使用的数据是数据对象及其属性的集合。其中：属性是指对象的性质或特性，对象也称为数据对

10、象、点、样本、观测或是实体等。数据集是数据对象的集合(同分布、同特征)。 (2) 不同的属性类型：分为分类属性和数值属性，分类属性又分标称型和序数型，而数值属性又分区间型和比率型。如性别为标称型，好坏等级为序数型，日期时间为区间型，分数为比率型。 (3) 数据集的类别：记录数据、基于图形的数据、有序的数据、序列数据。 (4) 数据集的特性:：维度(Dimensionality)，稀疏性(Sparsity)，分辨率(Resolution)。2 数据的数据的质质量量问题问题4现实世界中的原始数据往往存在一定的质量问题，如：噪声、离群点、缺失值、重复数据等，需要对其进行“清洗”才能更高效地进行挖

11、掘。3 数据数据预处预处理理(1) 为为什么要什么要预处预处理数据理数据现实世界的数据是“不干净的” 不完整的：有感兴趣的属性缺少属性值含噪声的：包含错误或“孤立点” 不一致的：在命名或编码上存在差异没有高质量的数据，就没有高质量的挖掘效果高质量的决策必须依赖高质量的数据数据仓库需要对高质量的数据进行一致性地集成意义使挖掘过程更有效、更容易目的：提供干净、简洁、准确的数据，提高挖掘效率和准确性(2) 数据数据预处预处理工作一般包括理工作一般包括：数据清理、数据集成、数据变换、数据归约、离散化及特征选择等。数据清理包括填写空缺数据，平滑噪声数据，识别、删除孤立点，数据集成，抽样等。

12、数据集成是集成多个数据库，数据立方体或文件。数据变换是对原始数据进行规范化和特征构造。数据归约是对数据集进行压缩表示及特征选择。数据离散化是通过概念分层和数据离散化来归约数据。(3) 抽抽样样：：用数据较小的随机样本表示大的数据集抽样是一种选择数据对象子集进行分析的常用方法数据挖掘使用抽样是因处理所有数据的费用太高、太费时间有效抽样原理：如果样本是有代表性的，则使用样本与使用整个数据集的效果几乎一样抽样方法：简单随机抽样：无放回抽样，有放回的抽样分层抽样特点：总体由不同类别的对象组成，每种类型的对象数量差别很大先对数据集进行分组：数据集 D 被划分为互不一相交的“层”，则

13、可通过对每一层按一定比例简单随机选样得到 D 的分层选样利用聚类实现分层抽样：将数据集 D 划分成 m 个不相交的簇，再在聚类结果的簇上进行简单随机抽样(4) 噪声的噪声的处处理方法理方法包括：分箱（将数据落入箱中来平滑数据）、聚类（通过聚类监测并且去除孤立点）、计算机与人工结合（计算机检测可疑数据然后对可疑数据进行人工判断）、回归（通过让数据适应回归函数来平滑数据）。规范化5通过将属性数据按比例缩放，通过一个函数将给定属性的整个值域映射到一个新的值域中，即每个旧的值都被一个新的值替代。有 3 种规范化策略。规范化方法一最小最大(min-max)规范化通过线性变换将值转

14、换到区间0,1，这里分别为f的n个观测值的fffif ifxzminmaxminffmax,min最小值和最大值。最小最大规范化保持原有数据之间的联系。如果今后的输入落在 A 的原始数据值域之外，该方法将面临“越界错误” 。规范化方法二z-score规范化，其中为属性标准差，为属性平均值。ffif ifEXxzffEX当属性 f 的实际最大和最小值未知，或异常点左右了最小最大规范化时，该方法是有用的。规范化方法三小数定标规范化小数定标规范化通过移动属性A 的小数点位置进行规范化。A 的值v 被规范化为v，由下式计算：，其中，j是使的最小整数。jvv101|) (|vMax(5) 数据

15、数据归约归约策略策略数据归约：数据归约用来得到数据集的简约表示，它小得多，但可以产生相同的（或几乎相同的）分析结果数据归约策略数据立方体聚集维归约：通过删除不相干的属性或维减少数据量数据压缩：用数据编码或者变换得到原始数据的压缩表示。典型的有小波变换和主成分分析数值归约离散化和概念分层归约标准用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间归约得到的数据比原数据小得多，但可产生相同或几乎相同的分析结果(6)特征提取特征提取(Feature Extraction)：：由原始数据创建新的特征集映射数据到新的空间从不同视角提示重要和有趣的特征傅里叶变

16、换(Fourier Transform) 小波变换(Wavelet Transform) 特征构造由一个或多个原始特征共同构造新的特征6(7) 特征特征选择选择从一组已知特征集合中选择最具代表性的特征子集，使其保留原有数据的大部分信息，即所选特征子集可以像原来的特征全集一样用来正确区分数据集的每个数据对象。通过特征选择，一些和任务无关或是冗余的特征被删除，从而提高数据处理的效率。特征选择目的：去除不相关和冗余的特征，降低时间空间复杂度，提高数据质量及数据泛化能力。理想的特征子集：每个有价值的非目标特征与目标特征强相关，而非目标特征之间不相关或是弱相关基本步骤：去掉与目标特征不相关的特征,删除冗余特征(8) 离散化与概念分离散化与概念分层层离散化：通过将属性域划分为区间，减少给定连续属性值的个数。包括等宽离散化，等频离散化等方法。概念分层：通过使用高层的概念（比如：老年，中年，青年）来替代底层的属性值（比如：实

展开阅读全文

数据挖掘课程复习提纲(2013年版)

最新文档