人工智能基础与应用第4章分门别类：帮你分而治之

资源描述

《人工智能基础与应用第4章分门别类：帮你分而治之》由会员分享，可在线阅读，更多相关《人工智能基础与应用第4章分门别类：帮你分而治之（92页珍藏版）》请在金锄头文库上搜索。

1、第第4 4章章分门别类：帮你分门别类：帮你分而治之分而治之目录目录目录目录4.1分类器4.2几种主要的分类算法4.3案例1手写数字识别4.4案例2辅助诊断乳腺癌 4.1 4.1 分类器分类器授课人：目录目录目录目录01什么是分类器03分类器如何工作PART 01PART 01PART 01PART 01什么是分类器在理解分类器是如何工作前，先了解下什么是分类器。人们在看到不认识的花卉时，情不自禁地想知道这是哪一种花？在动物园看到稀奇古怪的动物时，也想知道这种动物的名称。在新冠病毒疫情爆发的时期，医生迫切想辨别出病人是感染者还是非感染者。气象科技者想利用云层图像的颜色、形状等特征来预测今天是

2、晴天、多云或者雷雨天气。邮件箱会根据电子邮件的标题和内容来区别出垃圾邮件和正常邮件。在生活和工作中，我们经常会去察异辨物，判别一个事物的种类，看它到底属于哪种类型，这就是人工智能领域的分类问题。分类是人工智能的一种重要方法，是在已有数据的基础上学习出一个分类函数或构造出一个分类模型，该函数或者模型就是一个能完成分类任务的人工智能系统，即我们通常所说的分类器(Classifier)。由此可见，分类是数据挖掘、智能分析的一种非常重要的方法，利用分类器能够把数据映射到给定类别中的某一个，从而提供对数据有价值的观察视角，可以帮助我们更好地理解数据和预测数据。什么是分类器PART 02PART 02PA

3、RT 02PART 02分类器如何工作通过分类器来完成分类工作，其一般工作过程如下图所示分类工作过程分类器如何工作特征提取特征提取是分类器工作的首要任务，如果待分类对象没有提取特征，也就没有分类的依据，我们就无从哪方面来辨别事物的种类。在生活经验中，我们往往是根据物体的特点或独特的属性来区分它们。例如，要识别一个动物是否是大象，我们可以用动物的身高、鼻子长度和耳朵大小来作为特征，就可能容易辨别出该动物是否为大象。针对不同的待分类对象，要想让人工智能具备较高的识别率，就需要根据物体本身的特点，综合考虑关联对象的差异，提取出有效的特征，才能让分类器准确工作。分类器如何工作正负样本针对与分类问题，

4、正样本则是我们想要正确分类出的类别所对应的样本，负样本是指不属于这一类别的样本。例如，我们要对一张图片进行分类，以确定其是否属于人脸，那么在训练的时候，人脸图片则为正样本，负样本原则上可以选取任何不含人脸的其他图片，这样就可以训练出来一个人脸的分类模型。但在选取负样本的时候，比较合理的情况是要考虑到实际应用场景，例如要识别进入校园的人脸，那么校园门口的汽车、窗户、墙壁、树木等都可以是负样本，这些物体和人脸常常在同一张图片中出现，但它们的特征和人脸特征却有较大的差异，这样训练出来的分类模型才可能有较高的识别率。分类器如何工作分类器分类器通过学习得到一个目标函数或模型（以下统称为模型），能把样本的

5、特征集X映射到一个预先定义的类标号y。因此，可以把分类器看作一个黑盒子，它的任务就是根据输入特征集X来输出类标号y，如下图所示。分类器的任务那么，分类器主要利用哪些学习算法来确定分类模型的呢？带着这个问题，我们来了解常用的一些分类器的基本工作原理。分类器如何工作4.2 4.2 几种主要的分类算法几种主要的分类算法授课人：目录目录目录目录01决策树02最近邻分类器神经网络030405支持向量机贝叶斯分类器PART 01PART 01PART 01PART 01决策树顾名思义，决策树(Decision Tree)是用于决策的一棵树，从根节点出发，通过决策节点对样本的不同特征属性进行划分，按照

6、结果进入不同的分支，最终达到某一叶子节点，获得分类结果。以下是一个简单的垃圾邮件分类决策树。样本集左述决策树对邮件的标题、内容分词和分词频率分别进行评估，然后进入不同的选择分支，最终完成分类。可见，决策树的构建过程是按照样本特征的优先级或重要性确定树的层次结构，使其叶子节点尽可能属于同一类别。决策树常用于基于规则的等级评估、比赛结果预测和风险研判等。决策树PART 02PART 02PART 02PART 02贝叶斯分类器在一些应用中，特征集和类变量之间的关系是不确定的，也就是说，我们很难通过一些先验知识直接预测它的类标号，这种情况产生的原因可能是多方面的，如噪音、主要变量的缺失等。对于

7、这类求解问题，可以将其视为一个随机过程，使用概率理论来分析，例如，我们不能直接预测随意一次投币的结果是正面（类1）还是方面（类0），但我们可以计算出它是正面或方面的概率。贝叶斯(Bayes Classifier)分类器就是对于给定的分类项，利用下式贝叶斯定律，求解该分类项在条件下各类别中出现的概率，哪个概率最大，就将其划分为哪个类别。上式的解释是：X,Y是一对随机变量，X出现的前提下Y发生的概率P(Y X )等于Y出现的前提下X发生的概率P(Y X )与Y出现的概率P(Y )的乘积然后再除以X出现的概率P(X )。贝叶斯分类器仍以垃圾邮件过滤为例，使用贝叶斯方法通过考虑关键词在邮件中出现的

8、概率来辨别垃圾邮件。假设收到一封由n个关键词组成的邮件E，x=1,0分别表示正常邮件和垃圾邮件，那么就可以根据n个关键词出现在以往邮件中的正常邮件概率p(x=1|E)和这n个关键词出现在以往邮件中的垃圾邮件概率p(x=0|E)的大小来判定该邮件是否为垃圾邮件，如果：p(x=1|E) p(x=0|E)，则为正常邮件，否则为垃圾邮件。贝叶斯分类器根据贝叶斯定理，上式中p(x=1)和p(x=0)可以根据邮箱中正常邮件和垃圾邮件的个数计算出来，而p(E)的计算则是根据贝叶斯分类假设，所有的特征变量(关键词)都是独立作用于决策变量，因此有：上式中的 p(Ei) 表示所有邮件中关键词 Ei 的概率，于

9、是就根据贝叶斯分类器解决了此垃圾邮件分类问题。由于贝叶斯分类器有坚实的数学基础作为支撑，模型参数较少，对缺失数据不敏感，其分类效率稳定，在文本分类、图像识别和网络入侵检测等方面得到广泛应用。贝叶斯分类器PART 03PART 03PART 03PART 03最近邻分类器我们把每个具有n个特征的样本看作n维空间的一个点，对于给定的新样本，先计算该点与其它样本点的距离(相似度)，然后将新样本指派为周围k个最近邻的多数类，这种分类器称为最近邻方法(k-Nearest Neighbor,KNN)。该分类器的合理性可以用人们的常规认知来说明：判别一个人是好人还是坏人，可以从跟他走得最近的k个人来判断，

10、如果k个人多数是好人，那么可以指派他为好人，否则他是坏人。在下图中，求待分类样本x的类别。一个实例的最近邻由图可知，如果取k=3个最近邻，则x被指派为正方形类；如果取k=5个最近邻，则x被指派为三角形类。由此可见，k的取值大小对分类结果是有影响的，另外，当样本数据较大时，计算相似度所消耗的时间和空间较高，导致分类效率低。还有，从上图可以看出，采用多数表决方法来判别x的类别，是没有考虑与x不同距离的近邻对其影响的程度，显然，一个远离x的近邻对x的影响是要弱于离它近的近邻的。尽管k近邻分类器有诸如上述缺点，但该分类技术是基于具体的训练实例进行预测，不必为训练集建立模型，还可以生成任何形状的决策

11、边界，从而能提供灵活的模型表示，在数字和像识别等方面得到较好的应用。最近邻分类器PART 04PART 04PART 04PART 04支持向量机支持向量机(Support Vector Machine,SVM)的基本思想是通过非线性映射，把样本空间映射到一个高维的特征空间，将原本空间线性不可分的问题，转化成在高维空间通过一个线性超平面将样本完全划分开。例如，在下图中，左边二维空间的样本点，无法线性划分，但通过映射到三维空间，却可以用一个平面将这些样本完全分开。样本点升维后变成线性可分 SVM是一种有坚实统计学理论支撑的机器学习方法，其最终的决策函数只由位于超平面附件的几个支持向量决定，该方

12、法不仅算法简单，而且具有较好的鲁棒性，特别适合解决样本数据较少、先验干预少的非线性分类、回归等问题。支持向量机PART 05PART 05PART 05PART 05神经网络神经网络(Neural Network)分类器由输入层、隐藏层和输出层构成，是通过模仿人脑神经系统的组织结构及其某些活动机理，来呈现人脑的许多特征。其基本结构如下图所示。神经网络结构示意图上图中每个节点代表一个神经元，节点之间的连线对应权重值w，输入变量x经过神经元时被激活函数赋予权重并加上偏置，将运算结果传递到下层网络的神经元，在输出层中，神经元对各个输入进行线性加权求和，并经符号函数sgn处理，最后给出输出值y。若该

13、神经网络用于分类，在检验阶段，如果yi=max(y1,.,yp)，则该预测样本为第i类的可能性最大，即判定该样本属于第i类。神经网络 4.3 4.3 案例案例1 1手写数字识别手写数字识别授课人：目录目录目录目录01提出问题02解决方案03预备知识目录目录目录目录04任务1数字图片信息转存为txt文件05任务3构建KNN模型任务5评估模型效果06070809任务4训练KNN模型任务2批量生成样本数据拓展任务PART 01PART 01PART 01PART 01提出问题数字是人们生活中常用、常见的符合，银行账单、汽车牌照、商品价格标签等都有数字的身影。对于人类来说，可以很容易识别图片上的数字

14、，这是人类视觉千万年演变进化的结果。但对于计算机而言，想让它识别一张图片上的数字就不那么容易了。如何能让计算机识别出如下图所示的各个数字呢？含有数字的图片本节将利用KNN分类器来帮助计算机识别数字，将各图片中的数字分类到0-9的10个类别中。提出问题PART 02PART 02PART 02PART 02解决方案如前所述，KNN是一种非常简单的分类器，其核心思想是：如果一个样本在特征空间中的K个最近邻中的多数属于某个类别，则该样本也属于这个类别。通常采用欧式距离来计算两样本之间的距离大小，并据此找到某样本的K个最近邻。识别图片上数字的解决方案如下图所示。解决方案PART 03PART 03

15、PART 03PART 03预备知识识别图片上的数字，要涉及到对图片的处理，让数字与背景分离开来，其次还要了解如何利用现成的开发包来使用KNN分离器。下面就学习相关知识和操作。1.图像灰度化图像的灰度化简单来讲就是让图片像素点矩阵中的每一个像素点都满足下面的关系：R=G=B（这三个值相等），此时的这个值叫做灰度值。这样每个像素点的颜色就不需要用三个值来表示，只需用一个灰度值表示就可以了，不仅大大减少计算量，而且还能保留相关信息。PIL(Python Image Library)库提供了图像切片、旋转、差值、滤波和写文字等许多功能。PIL库在Python3.x版本中已是标准库。也可以通过以下命

16、令安装：pip3 install pillow预备知识【引例4-1】用Image模块完成图片灰度化。1）引例描述将彩色图片girl.png缩小并灰度化后显示，并保存成girl_gray.png，如下图所示。原图片和转化后的图片2）引例分析导入Image库后，读取图片创建一个图像对象，然后改变图像的大小和灰度，最后将转换后的图像显示并保存。3）引例实现实现的源代码（case4-1.ipynb）如下。1 from PIL import Image2 img=Image.open(r.datagirl.png)3 img=img.resize(80,80),Image.ANTIALIAS)4 img=img.convert(L)5 img.show()6 img.save(r.datagirl_gray.png)4）源代码分析行2是打开目标图片，并返回一个Image对象img。行3是采用ANTIALIAS过滤器高质量缩小图片尺寸为8080像素，其中过滤器主要有以下四种常用方式：Image.NEAREST ：低质量Image.BILINEAR：双线性Image.BICUBIC ：三次样条插值

展开阅读全文

人工智能基础与应用 第4章 分门别类：帮你分而治之

人工智能基础与应用第4章分门别类：帮你分而治之