数据分析与R语言-第8周

上传人:d****y 文档编号:88309888 上传时间:2019-04-23 格式:PDF 页数:37 大小:1.54MB
返回 下载 相关 举报
数据分析与R语言-第8周_第1页
第1页 / 共37页
数据分析与R语言-第8周_第2页
第2页 / 共37页
数据分析与R语言-第8周_第3页
第3页 / 共37页
数据分析与R语言-第8周_第4页
第4页 / 共37页
数据分析与R语言-第8周_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《数据分析与R语言-第8周》由会员分享,可在线阅读,更多相关《数据分析与R语言-第8周(37页珍藏版)》请在金锄头文库上搜索。

1、DATAGURU专业数据分析网站 2012.7.10 数据分析与R语言 第8周 DATAGURU专业数据分析网站 2012.7.10 分类:分类的意义 传统意义下的分类:生物物种 预测:天气预报 决策:yes or no 分类的传统模型 分类(判别分析)与聚类有什么差别? 2 DATAGURU专业数据分析网站 2012.7.10 常见分类模型与算法 线性判别法 距离判别法 贝叶斯分类器 决策树 支持向量机(SVM) 神经网络 3 DATAGURU专业数据分析网站 2012.7.10 决策树 decision tree 什么是决策树 输入:学习集 输出:分类规则(决策树) 4 DATAGURU专

2、业数据分析网站 2012.7.10 例子 用SNS社区中不真实账号检测的例子说明如何使用ID3算法构造决策树。为了简单起见 ,我们假设训练集合包含10个元素。其中s、m和l分别表示小、中和大。 5 DATAGURU专业数据分析网站 2012.7.10 信息增益 设L、F、H和R表示日志密度、好友密度、是否使用真实头像和账号是否真实,下面计 算各属性的信息增益。 6 DATAGURU专业数据分析网站 2012.7.10 根据信息增益选择分裂属性 因此日志密度的信息增益是0.276。用同样方法得到H和F的信息增益分别为0.033和 0.553。因为F具有最大的信息增益,所以第一次分裂选择F为分裂属

3、性,分裂后的结果 如下图表示: 7 DATAGURU专业数据分析网站 2012.7.10 递归+分而治之 在上图的基础上,再递归使用这个方法计算子节点的分裂属性,最终就可以得到整个 决策树。 这个方法称为ID3算法,还有其它的算法也可以产生决策树 对于特征属性为连续值,可以如此使用ID3算法:先将D中元素按照特征属性排序,则 每两个相邻元素的中间点可以看做潜在分裂点,从第一个潜在分裂点开始,分裂D并计 算两个集合的期望信息,具有最小期望信息的点称为这个属性的最佳分裂点,其信息 期望作为此属性的信息期望。 8 DATAGURU专业数据分析网站 2012.7.10 R语言实现决策树:rpart扩展

4、包 以鸢尾花数据集作为算例说明 iris.rp = rpart(Species., data=iris, method=“class“) plot(iris.rp, uniform=T, branch=0, margin=0.1, main=“ Classification TreenIris Species by Petal and Sepal Length“) text(iris.rp, use.n=T, fancy=T, col=“blue“) 9 Rule 1: if Petal.Length=2.45&Petal.Width=2.45&Petal.Width=1.75, then i

5、t is virginica (0/1/45) Rule 3: if Petal.Length2.45, then it is setosa (50/0/0) DATAGURU专业数据分析网站 2012.7.10 Knn算法 算法主要思想: 1 选取k个和待分类点距离最近的样本点 2 看1中的样本点的分类情况,投票决定待分类点所属的类 10 DATAGURU专业数据分析网站 2012.7.10 人工神经网络 人类神经系统原理 11 DATAGURU专业数据分析网站 2012.7.10 人工神经网络 人类神经系统原理 12 DATAGURU专业数据分析网站 2012.7.10 人工神经网络 人类

6、神经系统 13 DATAGURU专业数据分析网站 2012.7.10 ANN ANN=Artificial Neural Networks,人工神经网络 神经元 感知器 14 DATAGURU专业数据分析网站 2012.7.10 名词 输入节点 输出节点 权向量 偏置因子 激活函数 学习率 15 DATAGURU专业数据分析网站 2012.7.10 例子 建立数据 x1=c(1,1,1,1,0, 0,0,0) x2=c(0,0,1,1,0, 1,1,0) x3=c(0,1,0,1,1, 0,1,0) y=c(-1,1,1,1,- 1,-1,1,-1) 16 DATAGURU专业数据分析网站 2

7、012.7.10 自学习算法 17 DATAGURU专业数据分析网站 2012.7.10 多层前馈神经网络 隐藏层与隐藏节点 前馈 每一层的节点仅和下一层节点相连 18 DATAGURU专业数据分析网站 2012.7.10 单个感应器无法解决的问题 19 DATAGURU专业数据分析网站 2012.7.10 各种激活函数 20 DATAGURU专业数据分析网站 2012.7.10 各种激活函数 21 DATAGURU专业数据分析网站 2012.7.10 各种激活函数 22 DATAGURU专业数据分析网站 2012.7.10 使用R语言实现人工神经网络 安装AMORE包。AMORE文档中的一段

8、样例(p12) library(AMORE) # P is the input vector P - matrix(sample(seq(-1,1,length=1000), 1000, replace=FALSE), ncol=1) # The network will try to approximate the target P2 target - P2 # We create a feedforward network, with two hidden layers. # The first hidden layer has three neurons and the second h

9、as two neurons. # The hidden layers have got Tansig activation functions and the output layer is Purelin. net - newff(n.neurons=c(1,3,2,1), learning.rate.global=1e-2, momentum.global=0.5, error.criterium=“LMS“, Stao=NA, hidden.layer=“tansig“, output.layer=“purelin“, method=“ADAPTgdwm“) result - trai

10、n(net, P, target, error.criterium=“LMS“, report=TRUE, show.step=100, n.shows=5 ) y - sim(result$net, P) plot(P,y, col=“blue“, pch=“+“) points(P,target, col=“red“, pch=“x“) 23 DATAGURU专业数据分析网站 2012.7.10 实验 改造样例代码,解决之前的问题 P=cbind(x1,x2,x3) target=y net - newff(n.neurons=c(3,1,1), learning.rate.global=

11、1e-2, momentum.global=0.4, error.criterium=“LMS“, Stao=NA, hidden.layer=“tansig“, output.layer=“purelin“, method=“ADAPTgdwm“) result - train(net, P, target, error.criterium=“LMS“, report=TRUE, show.step=100, n.shows=5 ) z - sim(result$net, P) z y 24 DATAGURU专业数据分析网站 2012.7.10 实验结果 25 DATAGURU专业数据分析网

12、站 2012.7.10 人工神经网络应用举例 用BP神经网络处理非线性拟合问题 26 DATAGURU专业数据分析网站 2012.7.10 人工神经网络应用举例 随机抽选2000个样本。1900个作为学习集,100个作为验证集 先使用2-5-1类型的BP神经网络进行训练和拟合 建立神经网络模型并用学习集进行训练 27 DATAGURU专业数据分析网站 2012.7.10 人工神经网络应用举例 存在较大误差(拟合 不足?) 需要结构更加复杂的 神经网络 使用双隐含层神经网 络,每层5节点 28 DATAGURU专业数据分析网站 2012.7.10 影响精度的因素 训练样本数量 隐含层数与每层节点

13、数。层数和节点太少,不能建立复杂的映射关系,预测误差较大 。但层数和节点数过多,学习时间增加,还会产生“过度拟合”的可能。预测误差随 节点数呈现先减少后增加的趋势。 激活函数的影响 29 DATAGURU专业数据分析网站 2012.7.10 课后 作业:把上述例子用R语言实现 构想中的数据挖掘比赛 30 DATAGURU专业数据分析网站 2012.7.10 Hopfield神经网络 人类的联想记忆能力 Hopfield人工神经网络能模拟联想记忆功能,曾被誉为人工神经网络方法的以此革命 和再生 Hopfield人工神经网络按动力学方式运行 31 DATAGURU专业数据分析网站 2012.7.1

14、0 应用:OCR 32 DATAGURU专业数据分析网站 2012.7.10 应用:OCR 33 DATAGURU专业数据分析网站 2012.7.10 OCR的思路 把图像信息数字化为1和-1二值矩阵 标准图样生成的矩阵作为Hopfield网络的目标向量 生成Hopfield网络 使用带噪音的矩阵测试 输出已经降噪,再和标准目标矩阵(向量)比对,找出最接近者 34 DATAGURU专业数据分析网站 2012.7.10 神经网络方法的优缺点 可以用统一的模式去处理高度复杂问题 便于元器件化,形成物理机器 中间过程无法从业务角度进行解释 容易出现过度拟合问题 35 DATAGURU专业数据分析网站 2012.7.10 参考书 神经网络设计,机械工业出版社 神经网络与机器学习,机械工业出版社 人工神经网络理论、设计及应用,化学工业出版社 MATLAB神经网络30个案例分析,北京航空航天大学出版社 36 DATAGURU专业数据分析网站 FAQ时间 37

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号