基于大数据语料库的GA-BP神经网络的中文分词仿真的研究资料

资源描述

《基于大数据语料库的GA-BP神经网络的中文分词仿真的研究资料》由会员分享，可在线阅读，更多相关《基于大数据语料库的GA-BP神经网络的中文分词仿真的研究资料（29页珍藏版）》请在金锄头文库上搜索。

1、精心整理第六届全国计算机仿真大奖赛答题由组委会填写参赛人员：参赛证号：辅导教师：章银娥参赛单位：赣南师范学院一仿真题目命题C大数据时代建效仿真的特点之一，是无模型计算的仿真成为一种新方式，试举例说明。二仿真解答文字解答见下面的“基于大数据语料库的GA-BP神经网络的中文分词仿真的探究”内容。基于大数据语料库的GA-BP神经网络的中文分词仿真的探究摘要:中文自动分词是中文信息处理的一项非常关键也极其重要的工作，它被应用在机器翻译，自动问答系统，自动文摘系统，搜寻引擎等众多领域。分词的精确与否，干脆关系到后续工作如词性标注等能否顺当绽开。在这个大数据的时代，传统的分词技术已经不能

2、适应汉语语言的不断丰富开展和壮大。本文利用神经网络具有靠近随意非线性系统的映射实力以及良好的自组织、自学习和记忆联想的特点，提出了基于大数据语料库的GA-BP神经网络的中文分词技术。在BP神经网络的根底上结合了GA遗传算法，使得BP神经网络的收敛速度和中文文本切分词的精确率得到了很大的提高。利用BP神经网络工具进展中文文本分词精确率到达了约84%，经过GA-BP神经网络的组合算法进过优化使得中文文本的分词精确率到达了94%。关键词：中文分词；语料库； GA-BP；神经网络；java仿真精心整理1 问题分析1.1问题提出 “词是最小的能够独立活动的有意义的语言成分”。而汉字的书写是以字为

3、根本单位的，它不像英语有自然的空格分隔符。人是可以通过自己学到的汉语学问来正确辨明哪些字可以组成一个词，这些词组在一起表达一个什么含义，那么如何让计算机理解这样一连串的字符串呢？中文分词技术便应运而生。中文分词技术，作为自然语言处理的一局部，就是将一句话切分成一个个有意义的词。然而汉语的困难性，多样性，广泛性是给中文分词带来的莫大挑战！1.2模型建立基于神经网络原理分词，就要考虑用什么规那么将汉语句子输入到神经网络，输进去后，神经网络怎么对这些数据进展处理从而构造出属于自己的学问库呢，最终怎么把处理结果很直观的表示出来呢？基于以上问题，本文采纳一个三层前向网络，即输入层、学习层、输出层。1.2

4、.1输入层的建立1样本的选取首先，就是要对训练样本进展采集，本文运用的样本是2012年搜狐新闻数据语料库见附录中的语料库.tar.gz文件。这里面包含了大量的汉语语言信息。当然在这样一个大数据的背景下，它只是一个小小的微缩模型。大数据可以利用真实世界的镜像作为模型探究，这个镜像指的是可以反映现实社会某个侧面的东西，比方说网络“采纳现实世界中的某个代表性镜像模型，例如微博空间，就可以充当比拟完备的现实缩微模型，来探究巨量的社会人群行为”。 2数据的预处理为了使神经网络能够承受外部输入的数据，就须要建立输入模型。但是原始的汉字是神经网络所不相识的。所以，首先要从输入的字符流中取出语句，进展规整处理

5、,如限定字长，对汉字加上分隔符等，然后对汉字进展编码，最终，再进展切分格式的转换，把中文句子转换成神经网络可以识别，学习和存储的编码形式，送至神经网路的接口。神经网络输入节点数的选取：因为每个汉字用16位二进制表示，每次以10个汉字为中文文本数据单位进展分词处理，那么就有160个输入节点。1.2.2神经网络学习层的建立1神经网络隐含层节点的选取学习层即隐含层，输入层到隐含层的连接方式是全连接的方式，每一个连接都有一个权重。隐含层各神经元不相互连接。依据公式1选择隐含层节点数。 (1)其中n为输入的节点，m为输出的节点数，a为2到10之间的常数。2学习训练过程在学习训练起先的时候随机初始化神

6、经网络的各节点的连接权和阈值。对于网络的每一个样本，首先进展前向传播并计算出各单元的实际输出，计算各单元实际输出与目标输出之间的误差。当各单元的参考误差都求出来之后，对连接权值、各单元阈值进展调整，将语料库中全部的样本都进展一样的操作，持续对权值和阈值进展调整，以使输出的误差满意到达要求。1.2.3输出层的建立1输出层节点数在模型中输出表示输入的1个中文文本数据单位即输入的10个汉字的切分结果。一个长度为L的句子包含的可能切分点数目为L-1。上文中约定以10个汉字为数据单元，那么输出层神经元的节点数就是9。因此，本文把输入层的节点定为9个。2标准化处理神经网络的每一个输出节点都意味着一种切分方

7、式，可以运用已有的学问进展中文分词。输出模块属于分词系统的后续处理，用来解读分词结果。神经网络经过大量的学习，神经网络已经形成了自己的学问库。试验发觉，每个输出节点的输出值是介于0到1的数值。那我们怎样来评判这些数据呢。经过大量试验分析，本文将小于等于0.6的数值视为0，否那么视为1。其中0就代表拒绝切分，1就代表切分。1.3分析总结从以上分析可以得出，基于GA-BP神经网络的分词方法，从本质上来讲，是一个非线性、并行、逻辑的处理方法，它试图去靠近但却独立于一个详细的数学模型来抽象模拟出人对语言学问的理解学习的过程。它最终是基于大量的输入输出数据，而不依靠详细的数学模型的计算，也没有详细的数学

8、公式拿来套用。基于GA-BP神经网络的分词系统是一个输入到输出的高度映射的系统，它可适应不断改变的汉语言现象，并且新样本的出现不会影响神经网络的处理速度。2 符号说明符号说明来自神经元的输入第个神经元的阈值输入层节点数隐含层节点数输出层节点数隐含层的传递函数输出层的传递函数第个神经元的输出第个神经元的净输入值输入层与隐含层之间的权值隐含层与输出层之间的权值第个样本的误差期望输出全局误差学习率输入层误差隐含层误差适应度函数3 模型建立3.1 BP神经网络模型的建立BP神经网络是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射

9、关系，而无需事前提醒描述这种映射关系的数学方程。它的学习规那么是运用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑构造包括输入层input、隐含层(hide layer)和输出层(output layer)。BP神经网络详细的构造如图1所示。图1 BP神经网络构造图3.1.1神经元图2给出了第j个根本BP神经元节点，它只效仿了生物神经元所具有的三个最根本也是最重要的功能：加权、求和与转移。其中分别代表来自神经元1、2的输入；那么分别表示神经元1、2与第个神经元的连接强度，即权值；为阈值；为传递函数；为第个神经元的输出。图2 BP神经元第个神经

10、元的净输入值为: (2)其中：假设视，即令及包括及，那么于是节点的净输入可表示为： (3)净输入通过传递函数后，便得到了第个神经元的输出: (4)式中是单调上升函数，而且必需是有界函数，因为细胞传递的信号不行能无限增加，必有一最大值。 BP神经网络正向传播BP算法由数据流的前向计算正向传播和误差信号的反向传播两个过程构成。正向传播时，传播方向为输入层隐含层输出层，每层神经元的状态只影响下一层神经元。假设在输出层得不到期望的输出，那么转向误差信号的反向传播流程。通过这两个过程的交替进展，在权向量空间执行误差函数梯度下降策略，动态迭代搜寻一组权向量，使网络误差函数到达最小值，从而完成信息提取和

11、记忆过程。设BP神经网络的输入层有个节点，隐含层有个节点，输出层有个节点，输入层与隐含层之间的权值为，隐含层与输出层之间的权值为。隐含层的传递函数为，输出层的传递函数为，那么隐含层节点的输出为： (5)其中：输出层节点的输出为： (6)其中：这样BP神经网络就完成了维空间向量到维空间向量的近似映射。3.1.2.2 逆向传播1定义误差函数输入个学习样本，用表示。第个样本输入到网络中得到的输出为(其中)，采纳平方型误差函数，得到第个样本的单个样本的均方误差为： (7)对于个样本的全局均方误差为： (8)2输出层权值改变采纳累计误差BP算法调整，是全局误差变小。即： (9)定义输出层误差信号： (1

12、0)其中： (11) (12)公式(11)为输出层传递函数的偏微分。由公式(9)(10)(11)可以推导得到： (13)于是就有： (14)最终得到输出层各个神经元的权值调整公式为： (15)3隐含层的权值改变采纳累计误差BP算法调整，是全局误差变小。即： (16)定义隐含层误差信号： (17)其中： (18) (19) (20)公式(19)是隐含层传递函数的偏微分。由公式(16)(17)(18)(19)得到： (21)于是就得到： (22)最终得到隐含层各个神经元的权值调整公式为： (23)3.2 GA-BP神经网络模型的建立BP算法理论具有依据牢靠、推导过程严谨、精度较高、通用性较好等优点

13、，但标准BP算法也存在一些缺点，比方收敛速度缓慢；简单陷入局部微小值；难以确定隐含层数和隐含层节点个数。因此，本文采纳遗传算法来优化BP神经网络。遗传算法是一种模拟生物界自然选择和自然遗传机制的高度并行、随机、自适应优化搜寻算法。它具有隐含的并行性和对全局信息的有效搜寻实力，采纳概率化的寻优方法，能自动获得和指导优化的搜寻空间，自适应地调整搜寻方向，不须要确定的规那么，遗传算法尤其适合于处理传统搜寻方法解决不了的困难的非线性问题。GA-BP算法就是在BP算法之前，先用GA在某一点集中遗传出优化值，以此作为BP算法的初始权值，再由BP算法进展训练，而后运用BP神经网络限制，这就是GA-BP算法的根本原理。形成这种混合的GA-BP算法，解决BP神经网络简单陷入局部微小值的问题，同时提高分词过程的收敛速度，也可以发挥神经网络的概括映射实力，从而到达优化神经网络的目的。GA-BP算法的步骤如图3所示。图3 GA-BP流程图其中，初始化包括对种群、穿插概率、高斯变异概率以及网络间权值的初始化操作，选择和遗传过程中以概率对两个个体和进展穿插操作后，产生新的个体和，而对没有进展穿插操作的个体进展干脆复制

展开阅读全文

基于大数据语料库的GA-BP神经网络的中文分词仿真的研究资料

最新文档