分类技术概论及前沿问题

资源描述

《分类技术概论及前沿问题》由会员分享，可在线阅读，更多相关《分类技术概论及前沿问题（32页珍藏版）》请在金锄头文库上搜索。

1、分类技术概论及前沿问题,2017/12/27,1,知识管理与数据分析实验室,主要内容,2017/12/27,知识管理与数据分析实验室,2,数据分类的简含义,我们都曾经有这样的经验，在人流攒动的电影院门口等待相约而至的朋友，通过找寻与识别，能够在人群中一下子发现熟悉的脸，其实这个过程就是一个数据分类的过程。相较于要发现的知识完全未知的无监督学习，数据分类是一种典型的有监督的机器学习方法，目的是从一组已知类别的数据中发现分类模型，以预测新数据的未知类别。,2017/12/27,知识管理与数据分析实验室,3,2017/12/27,知识管理与数据分析实验室,4,用刚才我们提到的寻找朋友的过程举例，首先

2、从自己熟知的朋友身上提取特点，比如脸型、身材、穿着等，这就形成了一个简单的分类模型。然后在电影院门前对每一个发现的陌生人进行判断，“是朋友”或者“不是朋友”，从而对新数据进行了预测。,x,x,分类技术的应用,2017/12/27,知识管理与数据分析实验室,5,信用卡审批,科学研究,银行,医疗,商业,图形处理,有效性分析,故障检测,医疗诊断,目标市场定位,工业,数据分类技术,数据分类的过程,2017/12/27,知识管理与数据分析实验室,6,一个完整的数据分类过程一般包括模型构造、模型测试和模型应用三个步骤，具体来说，我们可以将数据分成两个数据集，分别是训练集和测试集，用于模型构造和模型测试。整

3、体的步骤说明如下。,2017/12/27,知识管理与数据分析实验室,7,数据分类的过程详解,2017/12/27,知识管理与数据分析实验室,8,数据分类方法介绍,现在我们使用的分类方法中比较常用的有决策树方法、神经网络方法、遗传算法、支持向量机，除此以外还有粗糙集理论以及贝叶斯分类等方法，上图详细列出了现阶段正在使用的各种分类方法，下面将对重要方法进行介绍。,2017/12/27,知识管理与数据分析实验室,9,2017/12/27,知识管理与数据分析实验室,10,决策树分类法,所谓“决策树”，顾名思义，它具有树状结构，根据层次的不同，节点分为根节点、内部节点和叶节点三类，每个节点对应一个样本集

4、，根节点作为“树根”，对应的是整个样本集，内部节点类似于树干枝杈，对应样本子集，叶节点就相当于树叶了，对应一个类标志。根节点和内部节点含有一个对于样本属性的测试，根据测试的结果将样本集划分为两个或者多个子集，每个子集形成一个分支，由叶节点内的类标志来标识，就像树不断分散的枝杈茎叶一样，如右图所示。,我们用制造厂商经常使用会员分类案例来进一步说明决策树的使用方法，在分类模型中，以年龄作为属性，根节点对应的是整个样本集即所有参与某自行车厂商调查的顾客，内部节点对应样本子集，比如年龄在67岁以上的顾客群体。根节点和内部节点含有一个对于样本属性的测试，即对年龄加以限制的测试。使用1000个会员事例训练

5、模型后得到的决策树分类如下：,2017/12/27,知识管理与数据分析实验室,11,图中矩形表示一个拆分节点，矩形中文字是拆分条件。矩形颜色深浅代表此节点包含事例的数量，颜色越深包含的事例越多，如全部节点包含所有的1000个事例，颜色最深。,节点中的条包含两种颜色，红色和蓝色，分别表示此节点中的事例购买和不购买自行车的比例。这样一来，便可以通过条件得出在哪个年龄段的哪些地区的人，最容易购买自行车，至此建立了模型。,随后可以从新导入一批已知数据进行模型测试，完成这个步骤，如果模型可用，便将其他的会员在分类模型中查找就可预测会员购买自行车的概率有多大，随后自行车厂商就可以有选择性的投递广告册。,神

6、经网络分类法,人类的大脑有近1000亿个神经元和十倍于此的神经胶质细胞。神经网络是一种具有若干连续处理结点的并行计算系统，它建立了一种数学模型，试图去模仿人类的大脑。神经网络将每一个连接看作一个处理单元，这些处理单元结点通常称作神经元，来表明脑神经之间的关系。,2017/12/27,知识管理与数据分析实验室,12,2017/12/27,知识管理与数据分析实验室,13,神经元采用一系列数学函数，通过汇总和转换对数据进行处理，一个神经元的功能有限，但若干个神经元连接起来形成系统后，就可以创建一个智能模型，神经元可以有许多种不同的方式互连，为了更精确地拟合需要对建立模型的数据反复训练若干次，甚至上

7、千次。下图是神经网络算法模拟人类大脑神经元的详细示例。,2017/12/27,知识管理与数据分析实验室,14,为了更具体地明确神经网络算法的概念，我们用银行对用户划分推广不同的信用卡案例做分析。下图中每个椭圆型节点接受输入数据，将数据处理后输出。输入层节点接受客户信息的输入，然后将数据传递给隐藏层，隐藏层将数据传递给输出层，输出层输出客户属于哪类信用卡。这类似于人脑神经元受到刺激时，神经脉冲从一个神经元传递到另一个神经元。,在大量客户事例输入后，模型会不断调整，使之更吻合真实情况，就像是人脑通过在同一脉冲反复刺激下改变神经键连接强度来进行学习。,2017/12/27,知识管理与数据分析实验室

8、,15,遗传算法,“物竞天择，适者生存”是达尔文生物进化论的基本原理，解释了物种总是向着更适应自然界的方向进化的规律，只有适应自然环境的个体才能幸存下来，繁衍后代，适应力差的会在竞争中被淘汰。遗传算法（Genetic Algorithms）从字面上看便是继承生物学的，它模拟大自然中种群在选择压力下的演化，从而得到问题的一个近似解。,2017/12/27,知识管理与数据分析实验室,16,遗传算法流程,在遗传算法中，对于一个最优化问题，一定数量的候选解（称为个体）的抽象表示（称为染色体）使得种群向更好的解进化。进化从完全随机个体的种群开始，之后一代一代发生。在每一代中，整个种群的适应度被评价，从当

9、前种群中随机地选择多个个体，通过自然选择和突变产生新的生命种群，该种群在算法的下一次迭代中成为当前种群，具体的流程见右图。,2017/12/27,知识管理与数据分析实验室,17,为了使理解更加容易，我们引用网络上面一个有趣的例子。首先，我们知道生物个体长什么样子很大程度上是由染色体上的基因决定的。同样，如果我们把100个半透明三角形组成的东西看成一个生物个体，比如扇贝，我们也可以说它的样子是由这些三角形的具体位置和颜色决定的。所以，我们可以把一个一个的半透明三角形看作是这些扇贝的“基因”。而组成扇贝的这100个基因就组成了每个扇贝个体的“染色体”。,程序的目的，是让由100个三角形组成的扇贝，

10、最终看上去像是Firefox的图标，我们模拟生物界的繁衍行为，选择两个原有的扇贝，然后从这两个扇贝的染色体中随机选取一共100个基因组成新个体的染色体。在定义好基因，写好繁衍、变异、评价适应性、淘汰和终止的代码之后，我们随机产生一个适当大小的种群，然后让它这样一代代的繁衍、变异和淘汰下去，到最后终止时会看到右上角图的结果。,2017/12/27,知识管理与数据分析实验室,18,支持向量机,简单概括，支持向量机用线性分类器划分样本空间，但是也可以处理线性不可分的情况。可分的时候存在超平面把训练集一分为二，支持向量机能找到一个最优的决策面，把训练集最好地分割成两类样本，对于线性不可分的情况则是用核

11、函数把样本映射到一个高维空间中，然后在这个空间中寻找超平面分割两种类别，正如右图所示，左边的是复杂的低维空间样本分散，线性不可分，但通过核函数的映射，可以建立一个简单的高维空间，在里面寻找到超平面。,2017/12/27,知识管理与数据分析实验室,19,统计分类法,统计分类,贝叶斯分类算法,回归算法,贝叶斯网络,线性回归,逻辑回归,朴素贝叶斯,2017/12/27,知识管理与数据分析实验室,20,粗糙集理论,1982年，波兰科学家Z.Pawlak提出了粗糙集理论，用来表示不精确或者不确定的概念。众所周知，精确的概念有确定的边界或者说外延，比如说“人”，而不精确的概念外延是没有确定边界的，比如“

12、发达国家”。粗糙集理论把一个集合的个体分为肯定属于、肯定不属于以及无法确定三类，通过上近似和下近似（见下图）运算，一个不精确的概念可以用一组精确的概念表示出来。,2017/12/27,知识管理与数据分析实验室,21,K-近邻算法,K-近邻算法把一组已知类别的历史数据作为训练样本集，根据已知样本的类别对新样本进行分类。它的思想如下：首先，计算新样本与训练样本之间的距离，找到距离最近的K个邻居，然后根据这些邻居所属的类别来判断新样本的类别，如果它们都属于同一个类别，那么新样本也是这个类别的，否则，对每个候选类别进行评分，按照某种规则确定新样本的类别。下图以不同像素焦距的相机价格举例，要求出新样本的

13、价格，可以通过训练样本的值进行判断。,2017/12/27,知识管理与数据分析实验室,22,2017/12/27,知识管理与数据分析实验室,23,评价分类方法的标准,上文中介绍了许多分类方法，不同的分类方法有自己的特点，分类的效果和数据有关，有的数据噪声大，有的存在缺失，有的分布系数，有的属性间的相关性强，有的属性是离散的，有的属性是连续的或者混合的，因此，通用的分类方法并不存在。对于一个分类方法进行评价要考虑一下几个方面的问题。,2017/12/27,知识管理与数据分析实验室,24,常用分类方法评述,2017/12/27,知识管理与数据分析实验室,25,2017/12/27,知识管理与数据分

14、析实验室,26,2017/12/27,知识管理与数据分析实验室,27,2017/12/27,知识管理与数据分析实验室,28,人脸识别系统定义,人脸识别作为图像分析与理解的一个应用领域，在近些年得到了研究界及向光领域的充分重视，在公安（罪犯识别等）、安全验证系统、信用卡验证、医学、档案管理、视频会议、人机交互系统等方面都有着巨大应用前景。特别是在奥运会中，人脸识别技术了很大发展。右图是北京奥运会中人脸识别系统的日常运行。,2017/12/27,知识管理与数据分析实验室,29,人脸识别的步骤,在人脸识别领域内，近期比较前沿的技术为S.Rowels等人提出的LLE算法，此算法主要在特征提取中起作用，

15、不仅能够有效地发现数据的非线性结构，同时还具有平移、旋转不变性。四川大学采用这种非线性降维方法提取人脸特征，然后将提取出来的特征输入到BP神经网络进行训练得到人脸的类间判别信息，最后进行人脸识别，该方法承接国家自然科学基金委的奥运重点项目，研究结果已经在北京奥运会中得以体现。,2017/12/27,知识管理与数据分析实验室,30,四川大学LLE与BP神经网络算法流程,利用四川大学的新近研究方法进行人脸识别的流程图如右图：训练部分，将人脸库的图像进行光照预处理；再进行LLE 运算得到低维人脸特征，然后送到BP神经网络进行训练（三层BP神经网络）。识别部分，将待识别人脸预处理后，LLE降维后用BP网络识别得到结果。,2017/12/27,知识管理与数据分析实验室,31,附录,最新前沿性工作介绍（电子版）基于LLE和BP神经网络的人脸识别运用该方法的管理学博士硕士论文(代表性)数据挖掘技术中分类算法的比较分析,2017/12/27,知识管理与数据分析实验室,32,谢谢！,

展开阅读全文

分类技术概论及前沿问题

最新文档