自然语言概率语法模型Ngram的研究毕业论文

资源描述

《自然语言概率语法模型Ngram的研究毕业论文》由会员分享，可在线阅读，更多相关《自然语言概率语法模型Ngram的研究毕业论文（8页珍藏版）》请在金锄头文库上搜索。

1、自然语言概率语法模型（N-gram）的研究摘要：本文主要介绍了基于语料库的自然语言处理技术，即语料库语言模型中常用的统计语言模型N-gram的研究，及其在语料库自然语言处理中的应用。对语料库的概率统计及在这过程中出现的一些问题的解决方法进行了比较系统的讨论，使读者对N-gram模型及其应用得到初步的理解。关键词：马尔可夫模型;N-gram模型;复杂度（困惑度）;平滑算法;后继统计训练算法。 1、引言自然语言处理是一项十分龙大而繁复的工程，它是自然科学和社会科学交叉的学科。自然语言处理的目的是实现计算机对语言信息的自动分析和理解。它的研究具有很强的生命力，是当代科学新的生长点，这不仅对信息科

2、学，而且对人知语言学，心理学，以及对国民经济和社会的发展都会起到推动作用。近几年来，全球范围内的自然语言处理学界兴起了对大规模语料库的研究兴趣。这主要是因为计算机产业和信息处理的迅速发展，计算机的存储能力和运算速度大大提高，使得在计算机中存储大量的文本和文本方便快速地扫描，检索成为可能;因特网上的电子文本数量与日俱增，可以比较容易地获得大量语料。另外语音识别领域在20世界70年代开始逐渐采用概率模型替代原来的基于规则的识别手段，概率模型的参数是通过大量语声语料经行统计顺练得来的。概率模型的识别效果大大优于使用规则的方法，这给自然语言处理领域对文本语料的研究提供了有益的借鉴。2、 N-gram

3、及其在语料库处理方面的应用2.1 基于语料库的语言模型语料库的语言模型可分为两种类型，即其于知识的语言模（规则模型）和统计语言模型，基于知识的语言模型是利用形式语法理论，文法规则和句法树经行研究的。自然语言句法，语义分析的最基础的理论是Chomsky的形式语法理论。由于知识的语言模型进展缓慢，因此由于大规模真实语料库的统计语言模型自20世纪80年代以来逐渐成为自然语言研究的热点。统计语言模型是用概率统计的方法揭示语言单位内在的统计规律。假设一个句子可以表示为一个序列语言模型就是要求句子w的概率: =这个概率的计算量太大，解决问题的方法是将所有历史按照某个规则映射到等价类等价类的数目远远小于不

4、同历史的数目当两个历史的最近的N-1个词（或）字相同时，映射两个历史到同一个等价类，在此情况下的模型称之为N-gram模型。2.2 马尔可夫模型自然语言可以假设成是一个马尔可夫信源产生，该信源的符号集就是语言的最小单位词，信源不断的发出符号，这些符号串形成句子，文本或者语料库。假设由词串构成的句子它的概率可由条件概率得到P(w)=.=.=. （1）这里称为n元文法式（1）在于计算公式的值，精确的是不可知的，只能采用估计值，用频率逼近，即：（2）其中，和是词串和在训练语言模型时出现在训练语料库中的次数，假定大数定理成立，只要训练语料库的容量足够大，频率便趋近概率。2.3 N-gram模型该模型基

5、本这样一种假设，在词串中第个词的出现只与前面-1个词相关（=1，2.n），而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积，即：=也就是说，设n-1阶马尔可夫过程产生的词集串，第i个词wi的概率是由前i-1个词的条件概率给出的：P（wi/w1w2wi-1）P（wi/wi-（N-1）wi-2wi-1）（3）假设句子中第i个词的概率为：P（wi/wi-（N-1）#wi-jwi-1）=P（wi/#wi-jwi-1）（4）P（wi/wi-（N-1）$wi-jwi-1）=P（wi/$wi-jwi-1）（5）式（4）中#是句子的开始符，式（5）中$是句子的结束符。N-gram模型的参数数量是

6、Rn，其中R是词数，参数是由统计语料文本得来的，n的值不能太大，否则计算会很大。当n1时的N-gram模型称为unigram模型，此时这种模型假定语言单元之间相互独立，求解仅利用了语言单元的统计频度信息。当n2时的N-gram模型称为bigram模型，此时当n3时的N-gram模型称为trigram模型，此时2.4 转移概率的稀疏数据问题与平滑处理当语料库的规模不是足够大的条件下，大多数词或邻接词的搭配在语料中出现的词数都很少，甚至根本不出现。这样就形成了数据稀疏现象，造成知识短缺。如当n=2和n=3，词的个数R=50000时则要估计的对应二元词对的转移概率和三元词对的转移概率的个数分别为R(

7、25亿个)和R(125亿个)，而目前硬盘和语料库的容量远远小于这个数量级。N-gram模型中N值越大，语言理解能力就越高，但n变大时，模型的参数估计变得困难，此时n-1阶马尔可夫模型的概率矩阵大到难以处理的程度，所以到目前为止大多使用bigram和trigram模型。由于训练语料文本相对全部n-gram参数数量来讲还是较小，这意味着不能预测未知文本的全部n-gram参数转移概率来进行理解处理，此时严重影响了后处理的性能，因此必须进行参数空间的平滑处理。它是在训练数据不充分的条件下，采用某种方式对统计结果及概率评估进行必要的调整和修补。对于n-gram模型训练数据稀疏容易导致两种错误的概率评估，

8、一种是小概率事件，即词与词之间的n元联结在训练语料种出现的频度极小，不能反映实际的语词联结关系；另一类则是零概率事件，即一些可能的语词联结关系在训练语料种从未出现过，但很可能在实际语料种出现。平滑算法在很多文献中都有研究，归纳起来有两种，一种是Back-off方法，另一种是删除插值法。其中删除插值法的基本思想是，由于N-gram比N+1-gram出现的可能性大的多，所以使用N-gram估计N+1-gram的概率，它是trigram概率和更低阶的bigram，unigram，zerogram（常数）概率的加权和，即（6）其中；，（参数的确定：将训练数据分为两部分，一部分用于估计，一部分用于计算参

9、数，求使语言模型的困惑度最小的），是每个词的概率，(R为统计语料中出现的词条数)。随着统计语料的增加，trigram权值所占的比重也随着增加。平滑算法的性能通常用交叉熵和复杂度来衡量。交叉熵的意义是用该模型对文本识别的难度。复杂度（困惑度）的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。困惑度代表了一个给定语言模型处理语料的困惑程度和不定成分的程度。困惑度与连续语音的识别率是强正相关的。按照信息论的观点，假设词库。其中R为词数，其符号取自的信源，它的熵定义为（7）用随机变量来表示长度为n的自然语言序列，其中每个随机变量w（i=1,2n）代表自然语言序列上的一个语言单位

10、，如字，词，词组等。w可在其所代表的语言单位集w中取值。由于自然语言序列可视为离散的平稳有记忆信源，可用长度为n的平均信息熵的极限值近似描述语言信源的联结熵；（8）如信源是各态遍历的，根据Shannon-Mcmillan-Brenmain定理，式（8）可由下式求出；（9）ww，式（9）可由统计语料库近似求出。假设语料库的容量为R，信源熵的近似值LP定义为LP= (10)语言模型的困惑度PP定义为PP= （11）它被认为与识别PP个词串的任务具有同样的难度。即如某种语言的困惑度为PP，则表明该语言中每个词可以平均等概率的后接PP个不同的词。PP值越小，表示语言模型用于识别时的可选词个数越小

11、，语言模型的约束越强。语料库的识别越困难，困惑度就越大。困惑度依赖于语言模型和预料内容。对于给定的语料序列，如所有的语言单位均为等概率分布，且相互独立，则识别难度为LP=（-1/R） (12)此时它的困惑度为PP=R，说明没有任何语言知识的情况下，识别器在识别每个词时都要有与词汇表中全部R个词进行匹配计算。由式（10），实际中很难估计，把自然语言假设为一个N阶马尔可夫信源，用条件概率来表示，其熵也用条件概率来表示。可以证明任何条件熵小于无条件熵，高阶条件熵小于低阶条件熵，即困惑度值PP反映了信源熵的大小，表示该信源不可知的程度，即。说明在建立了语言模型后，语言序列中语言单元的求解不必在词汇表的

12、全部R个候选中匹配，而只对一个小于R的词集中进行。因此语言模型的利用等效于缩小了候选的词汇表，降低了求解难度。对于n-gram语言模型，N值越高，其条件熵越小，困惑度也越小，语言处理的效果也越好，说明语言处理的困惑度是表征语言模型处理语言能力的有效单位。理论上，语言的困惑度定义为基于一个长序列n的语言串的指数熵值，由式（9）和（11），得；PP= (13)对于训练语料文本，其对数概率对应的unigram，bigram和trigram的计算分别为= ,=，=2.5 应用域变化的后继训练算法由于基于词的统计语言模型是依赖于应用领域的语料，如果待识别的内容与基于大规模语料统计的内容相似，能达到较好的

13、识别性能；当要求识别的领域范围发生变化时，其识别性能将明显下降，因为该识别模型并不能适应新领域，建立每个应用领域的大规模统计语料库的工作量将是惊人的。因此必须研究一中能适应新任务的统计语言模型，用一种与待识别内容相似的适量文本语料进行有监督的后继训练学习，比如说，由于人民日报内容涉及政治，经济，科技，文化，外交，教育，社会发展等多门类的信息报道，其范围较宽，因此将其大规模统计结果作为初始训练语料，而将某一待识专业领域的语料作为后继训练语料，以适应领域的变化。该适应性训练的性能评估也是利用语言困惑度来测量的。目的是减少测试集的困惑度。研究两种文本语料的相似性对于识别很重要，假设两个领域语料A和B

14、经过平滑算法后的三元统计概率分别为和,则距离度量采用Kullback距离；D(A,B)=(1/T) (14)其中R和T分别是三元词对集和三元词条数。当统计语言模型是从语料文本A中产生，而则试文本来自语料B时，则平均似然度L(B/A)为 L(B/A)=(1/) (15)其中，T为语料文本B的三元词对数，是从语料文本A中统计得到的，则测试集的困惑度为PP(B/A)= (16)Sho-Ichi针对日语音节文本提出了利用对称困惑度作为两种语料的相似性度量； D(A,B)=PP(B/A)+PP(A/B)/2 (17)并得出如下结论；1两种语料涉及内容越相似，则对称困惑度和Kullback距离越小。2对于

15、混合语料，若某一语料在混合语料中所占的比重越多，则两种语料相近程度越高，其对称困惑度和Kullback距离越小。如果从涉及内容广泛的大规模文本语料A（如人民日报）中统计得到初始统计训练的trigram语言模型，而测试集使用专业较强的语料B（如计算机世界报）中进行识别，识别性能由困惑度计算式（16）或（17）来估计，当困惑度降低时，其识别性能升高。因此应当采用文本内容与语料B相似的语料进行适应性后继统计训练，若适应性后继统计训练的困惑度比未进行适应性训练的低，则说明这种适应性训练是有效的。若从语料A中选取250万字的统计语料，如表1-1所示；表1-1 1994年人民日报语料一元词条二元词条三元词条词条数目/个37 812295 601395 059词条累计数目/个1 153 289914 366716 161经平滑算法后的trigram概率为=+其中，。困惑度结果见表1-2。表1-2 25

展开阅读全文