零基础入门深度学习(5) - 循环神经网络

资源描述

《零基础入门深度学习(5) - 循环神经网络》由会员分享，可在线阅读，更多相关《零基础入门深度学习(5) - 循环神经网络（13页珍藏版）》请在金锄头文库上搜索。

1、关闭零基础入门深度学习 5 循环神经网络机器学习深度学习入门无论即将到来的是大数据时代还是人工智能时代亦或是传统行业使用人工智能在云上处理大数据的时代作为一个有理想有追求的程序员不懂深度学习 Deep Learning 这个超热的技术会不会感觉马上就out了现在救命稻草来了零基础入门深度学习系列文章旨在讲帮助爱编程的你从零基础达到入门级水平零基础意味着你不需要太多的数学知识只要会写程序就行了没错这是专门为程序员写的文章虽然文中会有很多公式你也许看不懂但同时也会有更多的代码程序员的你一定能看懂的我周围是一群狂热的Clean Code程序员所以我写

2、的代码也不会很差文章列表零基础入门深度学习 1 感知器零基础入门深度学习 2 线性单元和梯度下降零基础入门深度学习 3 神经网络和反向传播算法零基础入门深度学习 4 卷积神经网络零基础入门深度学习 5 循环神经网络零基础入门深度学习 6 长短时记忆网络 LSTM 零基础入门深度学习 7 递归神经网络往期回顾在前面的文章系列文章中我们介绍了全连接神经网络和卷积神经网络以及它们的训练和使用他们都只能单独的取处理一个个的输入前一个输入和后一个输入是完全没有关系的但是某些任务需要能够更好的处理序列的信息即前面的输入和后面的输入是有关系的比如当我们在理解一句话意思时

3、孤立的理解这句话的每个词是不够的我们需要处理这些词连接起来的整个序列当我们处理视频的时候我们也不能只单独的去分析每一帧而要分析这些帧连接起来的整个序列这时就需要用到深度学习领域中另一类非常重要神经网络循环神经网络 Recurrent Neural Network RNN种类很多也比较绕脑子不过读者不用担心本文将一如既往的对复杂的东西剥茧抽丝帮助您理解RNNs以及它的训练算法并动手实现一个循环神经网络语言模型 RNN是在自然语言处理领域中最先被用起来的比如 RNN可以为语言模型来建模那么什么是语言模型呢我们可以和电脑玩一个游戏我们写出一个句子前面的一些

4、词然后让电脑帮我们写下接下来的一个词比如下面这句我昨天上学迟到了老师批评了我们给电脑展示了这句话前面这些词然后让电脑写下接下来的一个词在这个例子中接下来的这个词最有可能是我而不太可能是小明甚至是吃饭语言模型就是这样的东西给定一个一句话前面的部分预测接下来最有可能的一个词是什么语言模型是对一种语言的特征进行建模它有很多很多用处比如在语音转文本 STT 的应用中声学模型输出的结果往往是若干个可能的候选词这时候就需要语言模型来从这些候选词中选择一个最可能的当然它同样也可以用在图像到文本的识别中 OCR 使用RNN之前语言模型主要是采用N Gr

5、am N可以是一个自然数比如2或者3 它的含义是假设一个词出现的概率只与前面N个词相关我们以2 Gram为例首先对前面的一句话进行切词我昨天上学迟到了老师批评了如果用2 Gram进行建模那么电脑在预测的时候只会看到前面的了然后电脑会在语料库中搜索了后面最可能的一个词不管最后电脑选的是不是我我们都知道这个模型是不靠谱的因为了前面说了那么一大堆实际上是没有用到的如果是3 Gram模型呢会搜索批评了后面最可能的词感觉上比2 Gram靠谱了不少但还是远远不够的因为这句话最关键的信息我远在9个词之前现在读者可能会想可以

6、提升继续提升N的值呀比如4 Gram 5 Gram 实际上这个想法是没有实用性的因为我们想处理任意长度的句子 N设为多少都不合适另外模型的大小和N的关系是指数级的 4 Gram模型就会占用海量的存储空间所以该轮到RNN出场了 RNN理论上可以往前看往后看任意多个词循环神经网络是啥循环神经网络种类繁多我们先从最简单的基本循环神经网络开始吧基本循环神经网络下图是一个简单的循环神经网络如它由输入层一个隐藏层和一个输出层组成纳尼相信第一次看到这个玩意的读者内心和我一样是崩溃的因为循环神经网络实在是太难画出来了网上所有大神们都不得不用了这种抽象艺术手法不过

7、静下心来仔细看看的话其实也是很好理解的如果把上面有W的那个带箭头的圈去掉它就变成了最普通的全连接神经网络 x是一个向量它表示输入层的值这里面没有画出来表示神经元节点的圆圈 s是一个向量它表示隐藏层的值这里隐藏层面画了一个节点你也可以想象这一层其实是多个节点节点数与向量s的维度相同 U是输入层到隐藏层的权重矩阵读者可以回到第三篇文章零基础入门深度学习 3 神经网络和反向传播算法看看我们是怎样用矩阵来表示全连接神经网络的计算的 o也是一个向量它表示输出层的值 V是隐藏层到输出层的权重矩阵那么现在我们来看看W是什么循环神经网络的隐藏层的值s不仅仅取决于当前这次

8、的输入x 还取决于上一次隐藏层的值s 权重矩阵 W就是隐藏层上一次的值作为这一次的输入的权重如果我们把上面的图展开循环神经网络也可以画成下面这个样子现在看上去就比较清楚了这个网络在t时刻接收到输入之后隐藏层的值是输出值是关键一点是的值不仅仅取决于还取决于我们可以用下面的公式来表示循环神经网络的计算方法式1是输出层的计算公式输出层是一个全连接层也就是它的每个节点都和隐藏层的每个节点相连 V是输出层的权重矩阵 g是激活函数式2是隐藏层的计算公式它是循环层 U是输入x的权重矩阵 W是上一次的值作为这一次的输入的权重矩阵 f是激活函数从上面的公式我们可以看出循环层

9、和全连接层的区别就是循环层多了一个权重矩阵 W 如果反复把式2带入到式1 我们将得到式式从上面可以看出循环神经网络的输出值是受前面历次输入值影响的这就是为什么循环神经网络可以往前看任意多个输入值的原因双向循环神经网络对于语言模型来说很多时候光看前面的词是不够的比如下面这句话我的手机坏了我打算一部新手机可以想象如果我们只看横线前面的词手机坏了那么我是打算修一修换一部新的还是大哭一场这些都是无法确定的但如果我们也看到了横线后面的词是一部新手机那么横线上的词填买的概率就大得多了在上一小节中的基本循环神经网络是无法对此进行建模的因此我们需

10、要双向循环神经网络如下图所示当遇到这种从未来穿越回来的场景时难免处于懵逼的状态不过我们还是可以用屡试不爽的老办法先分析一个特殊场景然后再总结一般规律我们先考虑上图中的计算从上图可以看出双向卷积神经网络的隐藏层要保存两个值一个A参与正向计算另一个值A 参与反向计算最终的输出值取决于和其计算方法为和则分别计算现在我们已经可以看出一般的规律正向计算时隐藏层的值与有关反向计算时隐藏层的值与有关最终的输出取决于正向和反向计算的加和现在我们仿照式1和式2 写出双向循环神经网络的计算方法从上面三个公式我们可以看到正向计算和反向计算不共享权重也就是

11、说U和U W和W V和V 都是不同的权重矩阵深度循环神经网络前面我们介绍的循环神经网络只有一个隐藏层我们当然也可以堆叠两个以上的隐藏层这样就得到了深度循环神经网络如下图所示我们把第i个隐藏层的值表示为则深度循环神经网络的计算方式可以表示为循环神经网络的训练循环神经网络的训练算法 BPTT BPTT算法是针对循环层的训练算法它的基本原理和BP算法是一样的也包含同样的三个步骤 1 前向计算每个神经元的输出值 2 反向计算每个神经元的误差项值它是误差函数E对神经元j的加权输入的偏导数 3 计算每个权重的梯度最后再用随机梯度下降算法更新权重循环层如下图所示前向计算使用前

12、面的式2对循环层进行前向计算注意上面的都是向量用黑体字母表示而U V是矩阵用大写字母表示向量的下标表示时刻例如表示在t时刻向量 s的值我们假设输入向量x的维度是m 输出向量s的维度是n 则矩阵U的维度是矩阵W的维度是下面是上式展开成矩阵的样子看起来更直观一些在这里我们用手写体字母表示向量的一个元素它的下标表示它是这个向量的第几个元素它的上标表示第几个时刻例如表示向量s 的第j个元素在t时刻的值表示输入层第i个神经元到循环层第j个神经元的权重表示循环层第t 1时刻的第i个神经元到循环层第t 个时刻的第j个神经元的权重误差项的计算 BTPP算法将第l层t

13、时刻的误差项值沿两个方向传播一个方向是其传递到上一层网络得到这部分只和权重矩阵U有关另一个是方向是将其沿时间线传递到初始时刻得到这部分只和权重矩阵W有关我们用向量表示神经元在t时刻的加权输入因为因此我们用a表示列向量用表示行向量上式的第一项是向量函数对向量求导其结果为Jacobian矩阵同理上式第二项也是一个Jacobian矩阵其中 diag a 表示根据向量a创建一个对角矩阵即最后将两项合在一起可得上式描述了将沿时间往前传递一个时刻的规律有了这个规律我们就可以求得任意时刻k的误差项式3就是将误差项沿时间反向传播的算法循环层将误差项反向传递

14、到上一层网络与普通的全连接层是完全一样的这在前面的文章零基础入门深度学习 3 神经网络和反向传播算法中已经详细讲过了在此仅简要描述一下循环层的加权输入与上一层的加权输入关系如下上式中是第l层神经元的加权输入假设第l层是循环层是第l 1层神经元的加权输入是第l 1层神经元的输出是第 l 1层的激活函数所以式4就是将误差项传递到上一层算法权重梯度的计算现在我们终于来到了BPTT算法的最后一步计算每个权重的梯度首先我们计算误差函数E对权重矩阵W的梯度上图展示了我们到目前为止在前两步中已经计算得到的量包括每个时刻t 循环层的输出值以及误差项回忆一下我们在文

15、章零基础入门深度学习 3 神经网络和反向传播算法介绍的全连接网络的权重梯度计算算法只要知道了任意一个时刻的误差项以及上一个时刻循环层的输出值就可以按照下面的公式求出权重矩阵在t时刻的梯度在式5中表示t时刻误差项向量的第i个分量表示t 1时刻循环层第i个神经元的输出值我们下面可以简单推导一下式5 我们知道式式式因为对W求导与无关我们不再考虑现在我们考虑对权重项求导通过观察上式我们可以看到只与有关所以按照上面的规律就可以生成式5里面的矩阵我们已经求得了权重矩阵W在t时刻的梯度最终的梯度是各个时刻的梯度之和式6就是计算循环层权重矩阵W的梯度的公式数学公式超

16、高能预警前面已经介绍了的计算方法看上去还是比较直观的然而读者也许会困惑为什么最终的梯度是各个时刻的梯度之和呢我们前面只是直接用了这个结论实际上这里面是有道理的只是这个数学推导比较绕脑子感兴趣的同学可以仔细阅读接下来这一段它用到了矩阵对矩阵求导张量与向量相乘运算的一些法则我们还是从这个式子开始因为与W完全无关我们把它看做常量现在考虑第一个式子加号右边的部分因为W和都是W的函数因此我们要用到大学里面都学过的导数乘法运算因此上面第一个式子写成我们最终需要计算的是我们先计算式7加号左边的部分是矩阵对矩阵求导其结果是一个四维张量 tensor 如下所示式式接下来我们知道它是一个列向量我们让上面的四维张量与这个向量相乘得到了一个三维张量再左乘行向量最终得到一个矩阵接下来我们计算式7加号右边的部分于是我们得到了如下递推公式这样我们就证明了最终的梯度是各个时刻的梯度之和数学公式超高能预警解除同权重矩阵W类似我们可以得到权重矩阵U的计算方法式8是误差函数在t时刻对权重矩阵U的梯度和权重矩阵W一样最终的梯度

展开阅读全文