成都达内培训：数据挖掘和数据分析概述

资源描述

《成都达内培训：数据挖掘和数据分析概述》由会员分享，可在线阅读，更多相关《成都达内培训：数据挖掘和数据分析概述（9页珍藏版）》请在金锄头文库上搜索。

1、达内教育中国 IT 培训领导品牌成都达内培训：数据挖掘和数据分析概述数据挖掘和数据分析都是从数据中提取一些有价值的信息，二者有很多联系，但是二者的侧重点和实现手法有所区分。数据挖掘和数据分析的不同之处： 1、在应用工具上，数据挖掘一般要通过自己的编程来实现需要掌握编程语言；而数据分析更多的是借助现有的分析工具进行。 2、在行业知识方面，数据分析要求对所从事的行业有比较深的了解和理解，并且能够将数据与自身的业务紧密结合起来；而数据挖掘不需要有太多的行业的专业知识。 3、交叉学科方面，数据分析需要结合统计学、营销学、心理学以及金融、政治等方面进行综合分析；数据挖掘更多的是注重技术层面的结合以及

2、数学和计算机的集合数据挖掘和数据分析的相似之处： 1、数据挖掘和数据分析都是对数据进行分析、处理等操作进而得到有价值的知识。 2、都需要懂统计学，懂数据处理一些常用的方法，对数据的敏感度比较好。 3、数据挖掘和数据分析的联系越来越紧密，很多数据分析人员开始使用编程工具进行数据分析，如 SAS、R、SPSS 等。而数据挖掘人员在结果表达及分析方面也会借助数据分析的手段。二者的关系的界限变得越来越模糊。数据挖掘1 数学预备知识概率论：支撑整个数据挖掘算法和机器学习算法的数学基础，要熟悉常见的一些概率分布。矩阵论：线性代数中对数据挖掘最有用的部分，还有一些线性空间相关知识也很重要。信息论：将

3、信息和数学紧密连接在一起并完美的表达的桥梁，需要掌握信息熵、信息增益等相关知识。统计学：数据分析最早的依赖基础，通常和概率论一起应用，现在的机器学习和数据挖掘很多都是基于统计的，常见的均值、方差、协方差等都要熟练掌握。达内教育中国 IT 培训领导品牌2 编程基础数据挖掘需要一定的编程基础，因为要实现模型以及数据的处理很多工作都是需要程序来进行的，数据挖掘常用的编程语言如下： SQL：数据库的熟练使用是任何数据挖掘人员必不可少的技能。 C+ ：有很多的标准模板库以及机器学习模型库进行调用可以方便编程实现。 Python：对字符串处理有极大的优势，是解释型语言，实现简单，而且有很多开源的机器

4、学习模型库的支持，可处理大规模数据。 Matlab：拥有强大的矩阵运算，也是解释型语言，有很多发展较成熟库可以直接调用，支持数据结果的可视化表示，但是处理数据量有限。 R：近年兴起的数据分析编程语言，数据可视化做的比较好，语法简单，学习成本很低，很多非程序设计人员都可以数量掌握。 Java：使用范围最广的编程语言，有很多社区进行交流，进行编程实现具有灵活高效的特点，不足之处就是实现功能的代码量较大（相对于其他数据挖掘编程语言）。 Scala: 一种具有面向对象风格、函数式风格、更高层的并发模型的编程语言。同时 Scala 是大数据处理平台 Spark 的实现语言。3 数据挖掘的模型知识机器学

5、习和数据挖掘是紧密相关的，要进行数据挖掘需要掌握一些机器学习所用的方法和模型知识，通过模型的训练可以得到处理数据的最优的模型。数据挖掘常用的模型如下：3.1 监督学习模型就是人们常说的分类，通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合，最优则表示在某个评价准则下是最佳的），再利用这个模型将所有的输入映射为相应的输出，对输出进行简单的判断从而实现分类的目的，也就具有了对未知数据进行分类的能力。3.1.1 决策树：决策树是用于分类和预测的主要技术之一，决策树学习是以实例为基础的归纳学习算法，它着眼于从一组无次序、无规则的实例中推理出以决策树

6、表示的分类规则。构造决策树的目的是找出属性和类别间的关系，用它来预测将来未知类别的记录的类别。它采用自顶向下的递归方式，在决策树的内部节点进行属性的比较，并根据不同属性值判断从该节点向下的分支，在决策树的叶节点得到结论。达内教育中国 IT 培训领导品牌主要的决策树算法有 ID3、C4.5（C5.0）、CART、PUBLIC、SLIQ 和 SPRINT 算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻，能否处理大数据集等方面都有各自的不同之处。3.1.2 贝叶斯方法：贝叶斯（Bayes）分类算法是一类利用概率统计知识进行分类的算法，如朴素贝叶斯（Naive Ba

7、yes）算法。这些算法主要利用 Bayes 定理来预测一个未知类别的样本属于各个类别的可能性，选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提，而此假设在实际情况中经常是不成立的，因而其分类准确性就会下降。为此就出现了许多降低独立性假设的贝叶斯分类算法，如 TAN（Tree Augmented Native Bayes)算法，它是在贝叶斯网络结构的基础上增加属性对之间的关联来实现的。3.1.3 神经网络神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中，大量的节点（称”神经元”）之间相互联接构成网络，即

8、”神经网络”，以达到处理信息的目的。神经网络通常需要进行训练，训练的过程就是网络进行学习的过程。训练改变了网络节点的连接权的值使其具有分类的功能，经过训练的网络就可用于对象的识别。目前，神经网络已有上百种不同的模型，常见的有 BP 神经网络、径向基 RBF 网络、Hopfield 网络、随机神经网络（Boltzmann 机）、竞争神经网络（Hamming 网络，自组织映射网络）等。但是当前的神经网络仍普遍存在收敛速度慢、计算量大、训练时间长和不可解释等缺点。3.1.4 支持向量机（SVM）支持向量机（SVM，Support Vector Machine）是根据统计学习理论提出的一种新的学习方

9、法，它的最大特点是根据结构风险最小化准则，以最大化分类间隔构造最优分类超平面来提高学习机的泛化能力，较好地解决了非线性、高维数、局部极小点等问题。对于分类问题，支持向量机算法根据区域中的样本计算该区域的决策曲面，由此确定该区域中未知样本的类别。3.1.5 集成学习分类模型集成学习是一种机器学习范式，它试图通过连续调用单个的学习算法，获得不同的基学习器，然后根据规则组合这些学习器来解决同一个问题，可以显著的提高学习系统的泛化能力。主要采用（加权）投票的方法组合多个基学习器，达内教育中国 IT 培训领导品牌常见的算法有装袋（Bagging）、提升/推进（Boosting）、随机森林等。集成学习

10、由于采用了投票平均的方法组合多个分类器，所以有可能减少单个分类器的误差，获得对问题空间模型更加准确的表示，从而提高分类器的分类准确度。3.1.6 其他分类学习模型此外还有 logistics 回归模型、隐马尔科夫分类模型（HMM）、基于规则的分类模型等众多的分类模型，对于处理不同的数据、分析不同的问题，各种模型都有自己的特性和优势。3.2 无监督学习模型在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构，应用场景包括关联规则的学习以及聚类等。常见的聚类算法如下所示：3.2.1 K-means 聚类 K-means 算法的基本思想是初始随机给定 K 个簇中心，按照最

11、邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。3.2.2 基于密度的聚类根据密度完成对象的聚类。它根据对象周围的密度（如 DBSCAN）不断增长聚类。典型的基于密度方法包括：DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS(Ordering Points To Identify

12、 the Clustering Structure):并不明确产生一个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。3.2.3 层次聚类方法层次聚类方法对给定的数据集进行层次的分解，直到某种条件满足为止。层次凝聚的代表是 AGNES 算法，层次分裂的代表是 DIANA 算法。具体又可分为凝聚的，分裂的两种方案。凝聚的层次聚类是一种自底向上的策略，首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足，绝大多数层次聚类方法属于这一类，它们只是在簇间相似度的定达内教育中国 IT 培训领导品牌义上有所不同。分裂的层次聚类与凝聚的

13、层次聚类相反，采用自顶向下的策略，它首先将所有对象置于同一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到了某个终止条件。3.2.4 谱聚类谱聚类(Spectral Clustering, SC)是一种基于图论的聚类方法将带权无向图划分为两个或两个以上的最优子图，使子图内部尽量相似，而子图间距离尽量距离较远，以达到常见的聚类的目的。其中的最优是指最优目标函数不同，可以是割边最小分割，也可以是分割规模差不多且割边最小的分割。谱聚类能够识别任意形状的样本空间且收敛于全局最优解，其基本思想是利用样本数据的相似矩阵(拉普拉斯矩阵)进行特征分解后得到的特征向量进行聚类。此外常用的

14、聚类方法还有基于网格的聚类、模糊聚类算法、自组织神经网络SOM、基于统计学的聚类算法（COBWeb、AutoClass）等。3.3 半监督学习 3.3.1 半监督学习概述半监督学习算法要求输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM.）等。3.3.2 Multi-view al

15、gorithm(多视角算法) 一般多用于可以进行自然特征分裂的数据集中考虑特殊情况（每个数据点表征两个特征）：每一个数据点看成是两个特征的集合，然后利用协同训练(Co-training algorithm)进行处理协同训练（co-training）算法，此类算法隐含地利用了聚类假设或流形假设，它们使用两个或多个学习器，在学习过程中，这些学习器挑选若干个置信度高的未标记示例进行相互标记，从而使得模型得以更新。3.3.3 Graph-Based Algorithms(基于图的算法) 基于图的算法是基于图正则化框架的半监督学习算法，此类算法直接或间接地利用了流形假设，它们通常先根据训练例及某种相似度

16、度量建立一个图，图中结点对应了（有标记或未标记）示例，边为示例间的相似度，然后，定义所需达内教育中国 IT 培训领导品牌优化的目标函数并使用决策函数在图上的光滑性作为正则化项来求取最优模型参数。*3.4 文本处理模型 3.4.1 分词模型* 分词模型主要在处理文本过程中使用，在此特指中文分词模型。中文分词算法现在一般分为三类：基于字符串匹配，基于理解，基于统计的分词。基于字符串匹配分词：机械分词算法。将待分的字符串与一个充分大的机器词典中的词条进行匹配。分为正向匹配和逆向匹配；最大长度匹配和最小长度匹配；单纯分词和分词与标注过程相结合的一体化方法。所以常用的有：正向最大匹配，逆向最大匹配，最少切分法。实际应用中，将机械分词作为初分手段，利用语言信息提高切分准确率。优先识别具有明显特征的词，以这些词为断点，将原字符串分为较小字符串再机械匹配，

展开阅读全文