数据挖掘与数据仓库知识点总结

资源描述

《数据挖掘与数据仓库知识点总结》由会员分享，可在线阅读，更多相关《数据挖掘与数据仓库知识点总结（8页珍藏版）》请在金锄头文库上搜索。

1、1、数据仓库定义：数据仓库是一种新的数据处理体系结构，它与组织机构的操作数据库分别维护，允许将各种应用系统一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合，为企业决策支持系统提供所需的集成信息。设计和构造步骤：1）选取待建模的商务处理；2）选取商务处理的粒变；3）选取用于每个事实表记录的维；4）选取事实表中每条记录的变量系统结构：（1）底层是仓库数据服务器，总是关系数据库系统。（2）中间层是 OLAP 服务器，有 ROLAP 和MOLAP,它将对多维数据的操作映射为标准的关系操作（3）顶层是前端客户端，它包

2、括查询和报表工具、分析工具和数据挖掘工具2、数据仓库的多维数据模型：（1）星形模式：在此模型下，数据仓库包括一个大的包含大批数据并且不含冗余的中心表，一组小的附属表，维表围绕中心事实表显示的射线上。特征：星型模型四周的实体是维度实体，其作用是限制和过滤用户的查询结果，缩小访问范围。每个维表都有自己的属性，维表和事实表通过关键字相关联。【例子：sales数据仓库的星形模式，此模式包含一个中心事实表sales，它包含四个维 time, item, branch 和 location。（2）雪花型模式：它是星形模式的变种，其中某些维表是规范化的，因而把数据进一步分解到附加的表中。特征：雪

3、花模型通过最大限度地减少数据存储量和联合较小的维表来改善查询性能，增加了用户必须处理的表数量和某些查询的复杂性，但同时提高了处理的灵活性，可以回答更多的商业问题，特别适合系统的逐步建设要求。【例子同上，只不过把其中的某些维给扩展了。（3）事实星座形：复杂的应用可能需要多个事实表共享维表，这种模式可看作星形模式的汇集。特征：事实星座模型能对多个相关的主题建模。例子：有两个事实表sales和shipping，它们可以共享维表 time, item 和 location。3、OLAP:即联机分析处理，是在OLTP基础上发展起来的、以数据仓库基础上的、面向高层管理人员和专业分析人员、为企业决

4、策支持服务。特点： 1.实时性要求不是很高。 2.数据量大。 3.因为重点在于决策支持，所以查询一般是动态的，也就是说允许用户随机提出查询要求。OLAP 操作：上卷：通过沿一个维的概念分层向上攀登，或者通过维归约，对数据立方体进行类聚。下钻：是上卷的逆操作，它由不太详细的数据得到更详细的数据，下钻可以通过沿维的概念分层向下或引入附加的维来实现。切片：对给定方体的一个维进行进行选择，导致一个子立方体。切块：通过对两个或多个维执行选择，定义子立方体。转轴：是一种可视化操作，它转动数据的视角，提供数据的替代表示。OLTP：即联机事务处理，是以传统数据库为基础、面向操作人员和低层管理人员、对

5、基本数据进行查询和增、删、改等的日常事务处理。OLTP的特点有：a.实时性要求高；b.数据量不是很大。C.交易一般是确定的，是对确定性数据进行存取。d.并发性要求高且严格的要求事务的完整性，安全性。OLTP和OLAP的区别：1）用户和系统的面向性:OLTP面向顾客，而OLAP面向市场；2）数据内容：OLTP 系统管理当前数据，而OLAP管理历史的数据；3）数据库设计：OLTP系统采用实体-联系（ER）模型和面向应用的数据库设计，而OLAP系统通常采用星形和雪花模型；4）视图：OLTP系统主要关注一个企业或部门内部的当前数据，而OLAP系统主要关注汇总的统一的数据；5）访问模式：OLTP

6、访问主要有短的原子事务组成，而OLAP系统的访问大部分是只读操作，尽管许多可能是复杂的查询。7、PageRank算法原理：1）在初始阶段：构建Web图，每个页面初始设置相同的PageRank 值，通过迭代计算，会得到每个页面所获得的最终 PageRank 值。 2）在一轮中更新页面 PageRank 得分的计算方法：每个页面将其当前的 PageRank 值平均分配到本页面包含的出链上。每个页面将所有指向本页面的入链所传入的权值求和，即可得到新的PageRank得分。优点：是一个与查询无关的静态算法，所有网页的PageRank值通过离线计算获得；有效减少在线查询时的计算量，极大降低了查

7、询响应时间。缺点：1）人们的查询具有主题特征，PageRank忽略了主题相关性，导致结果的相关性和主题性降低。 2）旧的页面等级会比新页面高。因为即使是非常好的新页面也不会有很多上游链接，除非它是某个站点的子站点。5、分类：指把数据样本映射到一个事先定义的类中的学习过程，即给定一组输入的属性向量及其对应的类。过程：在已知训练数据集上，根据属性特征，为每一种类别找到一个合理的描述或模型，即分类规则；然后根据规则对新数据进行分类。分类的方法有哪些，给出你所了解的评估分类器的方法和特点？分类方法：用基于归纳的学习算法，k-最近邻分类，人工神经网络法、粗糙集法和遗传算法。用判定树归纳分类；贝

8、叶斯分类；后向传播分类；基于规则的分类；关联分类， SVM 支持向量机等。分类和预测的评估方法：预测的准确率、速度、强壮性、可规模性、可解释性。评估方法：(1)保持方法，给定数据随机地划分成两个独立的集合：训练集和测试集。通常，三分之二的数据分配到训练集，其余三分之一分配到测试集。使用训练集导出分类法，其准确率用测试集评估。评估是保守的，因为只有一部分初始数据用于导出的分类法。(2) 交叉确认：在k-折交叉确认中，初试数据被划分成k个互不相交的子集或“折” S1,S2,.,S k,每个折的大小大致相等。训练和测试进行k次。在第i次迭代，S i用作测试集，其余的子集都用于训练分类法。其

9、它方法包括解靴带(bootstrapping)和留一。前者使用一致的、带放回的选样，选取给定的训练实例；后者是k-折交叉确认，这里k为初始样本数s。一般地，建议使用调整的10-折交叉确认，因为它具有相对低的偏置和方差。(3) 袋装：给定s个样本的集合S,对于迭代t ( t = 1,2,.,T )，训练集S t采用放回选样，由原始样本集 S 选取。由于使用放回选样， S 的某些样本可能不在 St 中，而其它的可能出现多次。由每个训练集S t学习，得到一个分类法C t。为对一个未知的样本X分类，每个分类法C t返回它的类预测，算作一票。装袋的分类法C*统计得票，并将得票最高的类赋予X。

10、通过取得票的平均值，而不是多数，装袋也可以用于连续值的预测。(4) 推进：每个训练样本赋予一个权。学习得到一系列分类法。学习得到分类法 Ct 后，更新权，使得随后的分类法C t+1 “更关注” C t的分类错误。最终的推进分类法C*组合每个分类法的表决，这里每个分类法的表决是其准确率的函数。推进算法也可以扩充到连续值预测。应用领域：是数据挖掘领域中研究和应用最为广泛的技术之一，许多分类算法被包含在统计分析工具的软件包中，作为专门的分类工具来使用。分类问题在商业、银行业、生物学、文本挖掘、因特网筛选等领域都有广泛应用。例如在因特网筛选中，分类方法可以协助网络工作人员将正常邮件和垃圾

11、邮件进行分类，从而制定有效的垃圾邮件过滤机制，防止垃圾邮件干扰人们的正常生活。8、决策树归纳算法及其优缺点决策树定义：是用样本的属性作为结点，用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。归纳算法过程：创建节点N,若划分D中所有元组属于同一个类C,返回N,并用C标记若属性表为空，返回N并以D中多数类标记从属性表中找到最优属性a,标记节点N如果a是离散的且允许多路划分，则从属性表中删除a对属性a在D上

12、的每个划分Dj,若Dj为空，则加一个树叶到N 并标记D中的多数类，否则递归调用本算法处理Dj,返回的节点加到N返回N 优点:更高的准确性可以生成可理解的规则计算量不是很大可以处理连续和种类字段可以清晰显示哪些字段比较重要容易转化成分类规则：只要沿着树根向下一直走到叶子，沿途的分裂条件就能够唯一的决定一条分类的谓词缺点：缺乏伸缩性，由于进行深度优先搜索，所以算法受内存大小限制，难于处理大训练集为了处理大数据集的种种算法（离散化、取样）不仅增加了分类算法的额外开销，而且降低了分类的准确性。 6.聚类分析的功能，主要的聚类方法及其特点。聚类：【不知道数据的分类，甚至连分成几类也不知道】将物理或

13、抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。是无指导的学习。聚类与分类的主要区别：和分类学习相比，聚类的样本没有标记，需要由聚类学习算法来自动确定。聚类分析是研究如何在没有训练集的条件下把样本划分为若干类。在分类中，对于目标数据库中存在哪些类是知道的，要做的就是将每一条记录分别属于哪一类标记出来。主要的聚类方法：1）划分方法：给定 n 个对象或数据元组的数据库，划分方法构建数据的K个划分，每个划分表示一个簇，k=n.构建不同划分。如K均值、K中心点算法等。缺点是需要穷举

14、所有可能划分，适用于中小规模数据库2）层次方法：对给定数据库对象进行层次分解，如 Diana， Agnes、 BIRCH、 ROCK、 CAMELEON 等，缺点在于一旦一个步骤（合并或分裂）完成，就不能撤销3）基于密度的方法。基于连接和密度函数，如DBSCAN和OPTICS4）基于网格的方法，基于多层粒度函数，如 STING、 WaveCluster、 CLIQUE 等，把对象空间量化为有限个单元，形成网格结构，聚类都在网格上进行。处理速度快，处理时间依赖于量化空间每一维的单元数目5）基于模型的方法，为每个簇假定一个模型，寻找数据对给定模型的最佳拟合，如 EM、 SOM、COBWEB 算

15、法等6）基于频繁模式的聚类：从频繁出现的维数自己中提取不同的频繁模式。7）基于约束的聚类：结合用户指定或面向应用的约束进行聚类。应用领域：是数据挖掘应用的主要技术之一，它可以作为一个独立的工具来使用，将未知类标号的数据集划分为多个类别之后，观察每个类别中数据样本的特点，并且对某些特定的类别作进一步的分析。此外，聚类分析还可以作为其他数据挖掘技术（例如分类学习、关联规则挖掘等）的预处理工作。4、人工神经网络：是一个函数，主要在于这个函数的自学习过程，在学习过程中，它根据正确结果不停的校正自己的网络结构。分类方法： 1. 依学习策略分类主要有：监督式学习网络为主、无监督式学习网络、混合式

16、学习网络、联想式学习网络、最适化学习网络2.依网络架构分类主要有:前向式架构、回馈式架构、强化式架构优点：预测准确性高、对噪声数据的高承受力（训练样本差错时仍可工作）、输出离散值、快速评估目标缺点： 1、需要很长的训练时间 2 、难以与域知识合作3 、可解释性差BP网络：是一种按误差逆传播算法训练的多层前馈网络。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。 BP 算法由数据流的前向计算（正向传播）和误差信号的反向传播两个过程构成。BP 神经网络的学习过程：神经网络在外界输入样本的刺激下不断改变网络连接的权值，阈值。以使网络的输出不断地接近期望的输出。学习的本质：对各连接权值、阈值的动态调整。学习规则：权值、阈值调整规则，即在学习过程中网络中各神经元的连接权变化所依据的一定的调整规则BP学习算法的步骤：选定学习的数据,p=l,

展开阅读全文

数据挖掘与数据仓库 知识点总结

最新文档

数据挖掘与数据仓库知识点总结