周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络.ppt

上传人:灯火****19 文档编号:138010289 上传时间:2020-07-13 格式:PPT 页数:29 大小:3.15MB
返回 下载 相关 举报
周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络.ppt_第1页
第1页 / 共29页
周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络.ppt_第2页
第2页 / 共29页
周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络.ppt_第3页
第3页 / 共29页
周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络.ppt_第4页
第4页 / 共29页
周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络.ppt_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络.ppt》由会员分享,可在线阅读,更多相关《周志华 机器学习 西瓜书 全书16章 ppt Chap05神经网络.ppt(29页珍藏版)》请在金锄头文库上搜索。

1、机器学习导论,五、神经网络,什么是神经网络(学习)? neural networks are massively parallel interconnected networks of simple (usually adaptive) elements and their hierarchical organizations which are intended to interact with the objects of the real world in the same way as biological nervous systems do T. Kohonen, NN88,M-P

2、 神经元模型,McCulloch and Pitts, 1943,神经网络是一个很 大的学科,本课程 仅讨论它与机器学 习的交集 神经网络学得的 知识蕴含在连接 权与阈值中,神经网络是一个具有适应性的简单单元组成的广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。,激活函数, ,理想激活函数是阶跃函数 , 0表示抑制神经元而1表示激活神经元 阶跃函数具有不连续、不光滑等不好的性质 , 常用的是 Sigmoid 函数,多层前馈网络结构 多层网络:包含隐层的网络 前馈网络:神经元之间不存在 同层连接也不存在跨层连接,即 网络中无环或者回路。 隐层和输出层神经元亦称“功

3、 能单元”(functional unit),无隐藏层的 又称“感知机(Perceptron)” 多层前馈网络有强大的表示能力 只需一个包含足够多神经元的隐层 , 多层前馈神经网络就能以,任意精度逼近任意复杂度的连续函数,Hornik et al., 1989,但是,如何设置隐层神经元数是未决问题. 实际常用“试错法”,神经网络发展回顾 1940年代 -萌芽期: M-P模型 (1943), Hebb 学习规则 (1945) 1958左右 -1969左右 繁荣期 : 感知机 (1958), Adaline (1960), 1969年: Minsky LeCun et al. , 1998,每个卷

4、积层包含多个 特征映射 , 每个特征 映射是一个由多个神 经元构成的“平面” , 通过一种卷积滤波器 提取输入的一种特征,采样层亦称“汇合 (pooling) 层” , 其作用是基于局部 相关性原理进行亚采样 , 从而在减少数据量的同时 保留有用信息,连接层就是传统神 经网络对隐层与输 出层的全连接,深度学习 典型的深度学习模型就是很深层的神经网络 (例如微软研究院2015年在ImageNet竞赛获胜使用 152层网络),增加隐层数目比增加隐层神经 元数目更有效 不仅增加了拥有激活函数的神经元 数, 还增加了激活函数嵌套的层数 误差梯度在多隐层内传播时 , 往往会发散而不能收敛到稳定 状态,因

5、此,难以直接用经典 BP算法训练,提升模型复杂度 提升学习能力 增加隐层神经元数目 (模型宽度 ) 增加隐层数目 (模型深度 ) 提升模型复杂度 增加过拟合风险; 增加训练难度 过拟合风险:使用大量训练数据 训练困难:使用若干启发式诀窍,常用诀窍 (tricks) 预 训 练 + 微 调, 预训练: 监督逐层训练,每次训练一层隐结点 微调:预训练全部完成后, 对全网络进行微调训练,通常使用 BP算法 可视为将大量参数分组,对每组先找到较好的局部配置,再全局寻优, 权共享 (weight-sharing) 一组神经元使用相同的连接权值 Dropout, 在每轮训练时随机选择一些隐结点令其权重不被

6、更新(下一轮可能被更新 ),减少需优化的参数 可能:降低 Rademacher 复杂度, ReLU (Rectified Linear Units), 将 Sigmoid 激活函数修改为修正线性函数,求导容易;可能:缓解梯度消失现象,绝大部分诀窍 并非“新技术”,深度学习最重要的特征: 表示学习 、联合优化,传统做法:,人工设 计特征,学习 分类,Feature Engineering,深度学习:,学习,特征,学习,分类,Representation learning,所谓 end-to-end Learning (并非新东西 ),大数据、 高性能计算设备,深度学习常用软件包,CAFFE,(Berkeley Vision and Learning Center, BVLC),http:/caffe.berkeleyvision.org/,MatConvNet,(Oxford Visual Geometry Group, VGG),http:/www.vlfeat.org/matconvnet/ Torch http:/torch.ch/ ,前往第六站 ,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号