基于大数据语料库的GABP神经网络的中文分词仿真的研究资料

资源描述

《基于大数据语料库的GABP神经网络的中文分词仿真的研究资料》由会员分享，可在线阅读，更多相关《基于大数据语料库的GABP神经网络的中文分词仿真的研究资料（29页珍藏版）》请在金锄头文库上搜索。

1、第六届全国计算机仿真大奖赛答题（由组委会填写）参赛人员：参赛证号：辅导老师：章银娥参赛单位：赣南师范学院一仿真题目命题C大数据时代建模仿真的特点之一，是无模型计算的仿真成为一种新方式，试举例说明。二仿真解答文字解答见下面的“基于大数据语料库的GA-BP神经网络的中文分词仿真的研究”内容。基于大数据语料库的GA-BP神经网络的中文分词仿真的研究摘要:中文自动分词是中文信息处理的一项十分关键也极其重要的工作，它被应用在机器翻译，自动问答系统，自动文摘系统，搜索引擎等众多领域。分词的准确与否，直接关系到后续工作如词性标注等能否顺利展开。在这个大数据的时代，传统的分词技术已经不能适应

2、汉语语言的不断丰富发展和壮大。本文利用神经网络具有逼近任意非线性系统的映射能力以及良好的自组织、自学习和记忆联想的特点，提出了基于大数据语料库的GA-BP神经网络的中文分词技术。在BP神经网络的基础上结合了GA遗传算法，使得BP神经网络的收敛速度和中文文本切分词的准确率得到了很大的提高。利用BP神经网络工具进行中文文本分词准确率达到了约84%，经过GA-BP神经网络的组合算法进过优化使得中文文本的分词准确率达到了94%。关键词：中文分词；语料库； GA-BP；神经网络；java仿真251 问题分析1.1问题提出 “词是最小的能够独立活动的有意义的语言成分”。而汉字的书写是以字为基本单位

3、的，它不像英语有天然的空格分隔符。人是可以通过自己学到的汉语知识来正确辨明哪些字可以组成一个词，这些词组在一起表达一个什么含义，那么如何让计算机理解这样一连串的字符串呢？中文分词技术便应运而生。中文分词技术，作为自然语言处理的一部分，就是将一句话切分成一个个有意义的词。然而汉语的复杂性，多样性，广泛性是给中文分词带来的莫大挑战！1.2模型建立基于神经网络原理分词，就要考虑用什么规则将汉语句子输入到神经网络，输进去后，神经网络怎么对这些数据进行处理从而构造出属于自己的知识库呢，最后怎么把处理结果很直观的表示出来呢？基于以上问题，本文采用一个三层前向网络，即输入层、学习层、输出层。1.2.1输入层

4、的建立（1）样本的选取首先，就是要对训练样本进行采集，本文使用的样本是2012年搜狐新闻数据语料库（见附录中的语料库.tar.gz文件）。这里面包含了大量的汉语语言信息。当然在这样一个大数据的背景下，它只是一个小小的微缩模型。大数据可以利用真实世界的镜像作为模型研究，这个镜像指的是可以反映现实社会某个侧面的东西，比如说网络“采用现实世界中的某个代表性镜像模型，例如微博空间，就可以充当比较完美的现实缩微模型，来研究巨量的社会人群行为”。（2）数据的预处理为了使神经网络能够接受外部输入的数据，就需要建立输入模型。但是原始的汉字是神经网络所不认识的。所以，首先要从输入的字符流中取出语句，进行规整处

5、理,如限定字长，对汉字加上分隔符等，然后对汉字进行编码，最后，再进行切分格式的转换，把中文句子转换成神经网络可以识别，学习和存储的编码形式，送至神经网路的接口。神经网络输入节点数的选取：因为每个汉字用16位二进制表示，每次以10个汉字为中文文本数据单位进行分词处理，那么就有160个输入节点。1.2.2神经网络学习层的建立（1）神经网络隐含层节点的选取学习层即隐含层，输入层到隐含层的连接方式是全连接的方式，每一个连接都有一个权重。隐含层各神经元不相互连接。根据公式（1）选择隐含层节点数。 (1)其中n为输入的节点，m为输出的节点数，a为2到10之间的常数。（2）学习训练过程在学习训练开始的时

6、候随机初始化神经网络的各节点的连接权和阈值。对于网络的每一个样本，首先进行前向传播并计算出各单元的实际输出，计算各单元实际输出与目标输出之间的误差。当各单元的参考误差都求出来之后，对连接权值、各单元阈值进行调整，将语料库中所有的样本都进行相同的操作，持续对权值和阈值进行调整，以使输出的误差满足达到要求。1.2.3输出层的建立（1）输出层节点数在模型中输出表示输入的1个中文文本数据单位即输入的10个汉字的切分结果。一个长度为L的句子包含的可能切分点数目为L-1。上文中约定以10个汉字为数据单元，则输出层神经元的节点数就是9。因此，本文把输入层的节点定为9个。（2）规范化处理神经网络的每一个输出节

7、点都意味着一种切分方式，可以运用已有的知识进行中文分词。输出模块属于分词系统的后续处理，用来解读分词结果。神经网络经过大量的学习，神经网络已经形成了自己的知识库。实验发现，每个输出节点的输出值是介于0到1的数值。那我们怎样来评判这些数据呢。经过大量实验分析，本文将小于等于0.6的数值视为0，否则视为1。其中0就代表拒绝切分，1就代表切分。1.3分析总结从以上分析可以得出，基于GA-BP神经网络的分词方法，从本质上来讲，是一个非线性、并行、逻辑的处理方法，它试图去逼近但却独立于一个具体的数学模型来抽象模拟出人对语言知识的理解学习的过程。它最终是基于大量的输入输出数据，而不依赖具体的数学模型的计算

8、，也没有具体的数学公式拿来套用。基于GA-BP神经网络的分词系统是一个输入到输出的高度映射的系统，它可适应不断变化的汉语言现象，并且新样本的出现不会影响神经网络的处理速度。2 符号说明符号说明来自神经元的输入第个神经元的阈值输入层节点数隐含层节点数输出层节点数隐含层的传递函数输出层的传递函数第个神经元的输出第个神经元的净输入值输入层与隐含层之间的权值隐含层与输出层之间的权值第个样本的误差期望输出全局误差学习率输入层误差隐含层误差适应度函数3 模型建立3.1 BP神经网络模型的建立BP神经网络是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的

9、输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层（input）、隐含层(hide layer)和输出层(output layer)。BP神经网络具体的结构如图1所示。图1 BP神经网络结构图3.1.1神经元图2给出了第j个基本BP神经元（节点），它只模仿了生物神经元所具有的三个最基本也是最重要的功能：加权、求和与转移。其中分别代表来自神经元1、2的输入；则分别表示神经元1、2与第个神经元的连接强度，即权值；为阈值；为传递函数；为第个神经元的输出。图

10、2 BP神经元第个神经元的净输入值为: (2)其中：若视，即令及包括及，则于是节点的净输入可表示为： (3)净输入通过传递函数后，便得到了第个神经元的输出: (4)式中是单调上升函数，而且必须是有界函数，因为细胞传递的信号不可能无限增加，必有一最大值。3.1.2 BP神经网络3.1.2.1正向传播BP算法由数据流的前向计算（正向传播）和误差信号的反向传播两个过程构成。正向传播时，传播方向为输入层隐含层输出层，每层神经元的状态只影响下一层神经元。若在输出层得不到期望的输出，则转向误差信号的反向传播流程。通过这两个过程的交替进行，在权向量空间执行误差函数梯度下降策略，动态迭代搜索一组权向量，使

11、网络误差函数达到最小值，从而完成信息提取和记忆过程。设BP神经网络的输入层有个节点，隐含层有个节点，输出层有个节点，输入层与隐含层之间的权值为，隐含层与输出层之间的权值为。隐含层的传递函数为，输出层的传递函数为，则隐含层节点的输出为： (5)其中：输出层节点的输出为： (6)其中：这样BP神经网络就完成了维空间向量到维空间向量的近似映射。3.1.2.2 逆向传播（1）定义误差函数输入个学习样本，用表示。第个样本输入到网络中得到的输出为(其中)，采用平方型误差函数，得到第个样本的单个样本的均方误差为： (7)对于个样本的全局均方误差为： (8)（2）输出层权值变化采用累计误差BP算法调整，是全局

12、误差变小。即： (9)定义输出层误差信号： (10)其中： (11) (12)公式(11)为输出层传递函数的偏微分。由公式(9)(10)(11)可以推导得到： (13)于是就有： (14)最终得到输出层各个神经元的权值调整公式为： (15)（3）隐含层的权值变化采用累计误差BP算法调整，是全局误差变小。即： (16)定义隐含层误差信号： (17)其中： (18) (19) (20)公式(19)是隐含层传递函数的偏微分。由公式(16)(17)(18)(19)得到： (21)于是就得到： (22)最终得到隐含层各个神经元的权值调整公式为： (23)3.2 GA-BP神经网络模型的建立BP算法理论具

13、有依据可靠、推导过程严谨、精度较高、通用性较好等优点，但标准BP算法也存在一些缺点，比如收敛速度缓慢；容易陷入局部极小值；难以确定隐含层数和隐含层节点个数。因此，本文采用遗传算法来优化BP神经网络。遗传算法是一种模拟生物界自然选择和自然遗传机制的高度并行、随机、自适应优化搜索算法。它具有隐含的并行性和对全局信息的有效搜索能力，采用概率化的寻优方法，能自动获取和指导优化的搜索空间，自适应地调整搜索方向，不需要确定的规则，遗传算法尤其适合于处理传统搜索方法解决不了的复杂的非线性问题。GA-BP算法就是在BP算法之前，先用GA在某一点集中遗传出优化值，以此作为BP算法的初始权值，再由BP算法进行训练，而后运用BP神经网络控制，这就是GA-BP算法的基本原理。形成这种混合的GA-BP算法，解决BP神经网络容易陷入局部极小值的问题，同时提高分词过程的收敛速度，也可以发挥神经网络的概括映射能力，从而达到优化神经网络的目的。GA-BP算法的步骤如图3所示。图3 GA-BP流程图其中，初始化包括对种群、交叉概率、高斯变异概率以及网络间权值的初始化操作，选择和遗传过程中以概率对两个个体和进行交叉操作后，产生新的个体和，而对没有进行交叉操作的个体进行直接复制。3.

展开阅读全文