深度置信网络模型及应用研究综述 刘方园 王水花 张煜东 南京师范大学计算机科学与技术学院 摘 要: 介绍深度置信网络 (DBN) 理论基础的发展, 对比分析深层结构 DBN 与浅层网络结构的差异, 最后引用多篇文献分析研究 DBN 在文字检测、人脸及表情识别领域和遥感图像领域的应用效果全面介绍了深度学习模型 DBN, 深入分析 DBN的构建与实际应用, 为研究人员提供改进 DBN 的思路, 以期在未来将其运用到更宽广的新兴领域中关键词: 深度置信网络; 文字检测; 人脸及表情识别; 遥感图像领域; 作者简介:刘方园 (1993—) , 女, 博士生, CCF 会员, 主要研究方向:计算机视觉;作者简介:王水花 (1985—) , 女, 博士, 讲师;作者简介:张煜东 (1985—) , 通讯作者, 男, 教授、博导, 主要研究方向:人工智能与医学图像处理, E-mail:yudongzhang@ieee.org收稿日期:2017-10-30基金:国家自然科学基金 (No.61602250, No.61503188) Survey on deep belief network model and its applicationsLIU Fangyuan WANG Shuihua ZHANG Yudong School of Computer Science and Technology, Nanjing Normal University; Abstract: This paper firstly introduces the development of Deep Belief Network (DBN) based on theory foundation.Afterwards, the difference between deep network structure and shallow network structure is analyzed. Finally, the literature makes a study and analysis of DBN, in the field of text detection, facial and expression recognition, and remote sensing image classification by quoting multiple representative documents. Through a comprehensive introduction to the deep learning model DBN and deeply understanding the construction and practical application of DBN, it provides researchers with the idea of improving DBN and applying it to a wider emerging field in the future.Keyword: Deep Belief Network (DBN) ; text detection; facial and expression recognition; remote sensing image field; Received: 2017-10-301 引言现今, 深度学习在计算机视觉、模式识别、人工智能、图像处理以及数据挖掘等领域掀起的研究热潮引人深思, 研究人员提出的自编码器、卷积神经网络、循环神经网络以及深度置信网络等深度学习模型越来越值得深入探索和挖掘。
本文以深度置信网络为例, 从理论到实际, 由浅入深地分析其应用意义深度置信网络 (DBN) 发展伊始, 为解决快速、自动学习特征的研究问题, Hinton 等[1]提出一种应用于 DBN 的快速学习算法, 提供了理解分析 DBN 模型的新途径, 打开了深度学习模型扩展的大门, 并将其应用于实际生活的各个领域本文针对目前流行的应用领域——文字检测、人脸及情感识别、遥感图像地物分类, 对 DBN 进行详细分析在上述应用领域中, DBN 改进的相同之处, 一是通过预处理方式 (特征融合、去噪) 提高输入样本的质量;二是利用各种优化策略 (提前终止、Dropout) 对 DBN 模型参数, 进行深度改进或选取不同的分类器DBN 改进的不同之处在于, 文字检测领域中, DBN 结合计算设备架构、文字笔画宽度;人脸及情感领域中, DBN 结合人体识别所需的关键特征 (局部纹理特征) ;遥感图像地物分类领域中, DBN 结合高光谱图像包含的光谱信息和空间信息2 深度置信网络简介深度置信网络 (DBN) 是根据生物神经网络的研究及浅层神经网络发展而来的, 为概率生成模型, 通过联合概率分布推断出数据样本分布。
DBN 生成模型通过训练网络结构中的神经元间的权重使得整个神经网络依据最大概率生成训练数据, 形成高层抽象特征, 提升模型分类性能2.1 DBN 模型的构建——RBM首先, DBN 是基于人工神经网络发展而来, 由两部分神经元组成:显性神经元 (显元) ——用于接收输入数据;隐性神经元 (隐元) ——用于高层特征提取DBN 的关键组成元件是受限玻尔兹曼机 (RBM) , 通过将多层 RBM 组合并结合最终分类器对输入数据进行检测、识别以及分类RBM 组成结构中含有两层神经元 (显元、隐元) , 且每一层可用一个向量表示, 向量的维数由每层神经元的个数决定, 具体结构图如图 1 所示图 1 RBM 结构图 (v 代表显元, h 代表隐元) 下载原图从图 1 可明显发现, RBM 结构图中层内的神经元之间无连接, 层间的神经元之间双向连接该结构保证层内神经元无互连的条件独立性, 即在给定显元的取值时所对应的隐元的取值是互不相关的, 同样在给定隐元值时显元也保留该特性DBN 的组成元件 RBM 需通过训练优化特征提取能力, 其目的是求得一个最接近训练样本的联合概率分布从而能够更准确、抽象地提取或者还原特征, 即求得决定训练样本最大概率产生分布的影响因素——权值。
训练 RBM 的过程简单来说就是寻找可视层节点和隐藏层节点之间连接的最优权值, 以经典的学习算法——对比散度 (CD) 算法为例更新权值, 基于对比散列算法的 RBM 权重更新步骤如下步骤 1 对训练样本集进行采样, 假设每一采样记录记为 X步骤 2 将 X 输入到可视层 V, 计算该记录使得隐元开启的概率如公式 (1) :步骤 3 重构显层, 从上述所计算的概率分布中抽取出隐藏层的一个样本如公式 (2) :步骤 4 计算隐元激活概率, 基于显层中抽取样本并运用重构后显层神经元进行计算如公式 (3) :步骤 5 最终依据隐藏层神经元和显层神经元之间的相关性差异来更新权重 W, 更新如公式 (4) :公式中, v 代表显元, h 代表隐元, m、n 代表显元和隐元的个数, 公式中的上标代表取样步骤, 代表基于显层和隐藏层的第一次取样, W 代表层间连接权重, 其训练好之后可确定输入显层的一条新记录所对应隐元的状态2.2 DBN 模型的构建——整体本文以两层受限玻尔兹曼机和 Softmax 分类层为例, 构建最终能够实现实际应用的 DBN 模型, 模型构建如图 2 所示v 代表显层神经元, h 代表隐藏层神经元, y 代表标签已知的样本, o 代表分类结果输出。
DBN 模型构建在于:固定第一个训练好的 RBM 的权重和偏置, 将其隐元所处的状态作为第二个 RBM 的输入, 对第二个 RBM 进行训练后堆叠于第一个 RBM 上, 对于多层 RBM 重复上述过程若训练数据集中含有带标签的样本, 在第二个 RBM 训练时需加入, 最终采用Softmax 对数据进行分类图 2 DBN 模型结构简图 下载原图DBN 的微调步骤也尤其重要, 由于先前构建的每一层 RBM 都只能确保自身层内的权值对该层的特征映射提取达到最优, 为保证整体结果的最优性, 常见的是在分类前设置 BP 网络, 监督训练学习, 两者结合保证参数不易陷入局部最优, 且在一定程度上弥补训练时间长的劣势3 深度置信网络应用分析一个模型的提出其实就是为了实现它在实际生活的各个领域中的作用, 深度置信网络 (DBN) 更加抽象地学习高层特征, 并且适用于高维复杂的海量数据的特性本章主要分析 DBN 在文字检测领域、人脸及表情识别领域和遥感图像分类领域中的方法和性能3.1 文字检测领域陆军建等[2]采用深度置信网络 (DBN) 与统一计算设备架构 (CUDA) 相结合的方法, 分类包含字迹相似和字迹模糊的手写字符图片, 所采用的 DBN 由两层受限玻尔兹曼机和一层反向传播网络构成。
实验过程中, 将 DBN-CUDA 与DBN、SVM、KNN 通过识别时间和准确率的定量分析比较, DBN-CUDA 既能保证识别精度又能大幅度提高识别速率, 其分类准确率达到 96.5%;其不足在于理论分析 SVM、KNN 与 CUDA 结合的不可取之处, 未在实验中进行充分证明Mleczko 等[3]提出一个基于深度置信网络 (DBN) 并应用 Pawlak 粗糙集理论的粗糙深度置信网络 (RDBN) , 经理论分析其适用于不完全文字信息的分类将RDBN 识别系统用于分类具有缺失值的手写数字样本中, 同时与传统 DBN 方法进行比较, 实验结果证实随着缺失样本的增加, RDBN 错误识别的样本数目远远低于 DBN为进一步扩展其应用范围, 可通过改进将其用于具有错误值或包含噪声的不完全模式下张董等[4]分析在手写数字识别研究中深度学习和浅层学习算法的性能, 确定深度置信网络模型的可行性和有效性, 在手写数字 0~9 中, DBN 方法在各类别中识别准确率良好通过文中待测样本图片的展示, 其实验过程中确定各个待识别数字的位置, 消除对识别过程无贡献的区域, 进一步提高识别效率, 提升幅度为 10%左右。
Liu[5]利用一种将深度置信网络 (DBN) 和支持向量机 (SVM) 相结合的文本分类方法, 同时从两个方面提高方法的性能:一是采用不同的微调策略;二是采用不同的网络结构利用 DBN 构建的深层架构获取高效的文本信息特征表示, 将所学习的深度特征训练 SVM 使其对所输入文本进行有效分类, 实验结果表明性能良好, 但对于中文文本分类可考虑在所 DBN+SVM 方法中改进特征降维策略以提升性能指标翟文洁等[6]提出一种混合深度置信网络 (HDBN) 的分类方法并将其用于文本分类和检索中, 通过实验比较验证其有效性HDBN 模型是基于两层深度玻尔兹曼机 (DBM) 和两层深度置信网络 (DBN) 实现的, DBM 在此过程中相当于一个优化过程, 一方面对样本特征进行初降维从而提取更准确的特征信息, 另一方面确定模型的各个最优参数从实验结果来看其性能达到 98.01%, 但该混合模型必然增加训练的时间王贵新等[7]在中文短信分类问题中采用 word2vec 结合深度置信网络方法, DBN利用双隐层反向传播 (BP) 神经网络对模型参数进行微调DBN+双隐层 BP 对六大类短信进行分析识别, 与传统方法 BP (单隐层) 、BP (双隐层) 、贝叶斯、SVM 方法相比, 其具备更优的分类性能, 但由于中文短信文本受发送、接收等因素的影响, 其学习速率可尝试通过改进预处理方式进一步提升。
Jiang 等[8]采用一种混合的深度置信网络网络模型, 该模型将 DBN 和 Softmax回归分类器相结合, 并将其应用于稀疏高维矩阵表示的文本数据的分类中实验过程中, DBN 用于提取文本信息的特征, Softmax 对所学习特征空间中的文本进行回归分类, 其关键在于 Softmax 采。