语言模型的基本概念

上传人:pu****.1 文档编号:512622213 上传时间:2022-12-07 格式:DOCX 页数:5 大小:79.56KB
返回 下载 相关 举报
语言模型的基本概念_第1页
第1页 / 共5页
语言模型的基本概念_第2页
第2页 / 共5页
语言模型的基本概念_第3页
第3页 / 共5页
语言模型的基本概念_第4页
第4页 / 共5页
语言模型的基本概念_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《语言模型的基本概念》由会员分享,可在线阅读,更多相关《语言模型的基本概念(5页珍藏版)》请在金锄头文库上搜索。

1、语言模型的基本槪念本文介绍-下有关语言模型的基本概念,但是在介绍语言模型 Z 前,先简单回顾-下 自然 语肓处理这个大问题吧。现在自然语言处理的研究绝对是一个非常火热的方向,主要 是被 肖前的互联网发展所带动起来的。在互联网上充斥着大最的信息,主要是文字方面的 信 息,对这些信息的处理离不开自然语言处理的技术。那么究竞什么是自然语言以及自然 语 言处理呢?自然语言处理的基本任务自然语言(Natural Language)其实就足人类语言,自然语言处理(NLP)就足对人类语 言的处理,当然主要是利用计算机。自然语言处理是关于计算机科学和语言学的交叉学 科,常见的研究任务包括:分词(Word Se

2、gmentation 或 Word Breaker, WB)信息抽取(Information Extraction* IE):命名实体识别和关系抽取(Named Entity Recognition & Relation Extraction, NER) 词性标注(Part Of Speech Tagging. POS ) 指代消解(Coreference Resolution)句法分析(Parsing)词义消歧(Word Sense Disambiguation, WSD)语音识别(Speech Recognition)语音合成(TextTo Speech. TTS)机器翻译(Machine

3、 Translation八 MT )口 动文摘(Automatic Summarization )问答系统(Question Answering)自然语言理解(Natural Language Understanding)OCR信息检索(Information Retrieval IR )9早期的自然语言处理系统主要是基于人工撰写的规则,这种方法费吋费力,且不能覆 盖 各种语言现象。上个世纪 80 年代后期,机器学习算法被引入到自然语言处理中,这要 归功 于不断提高的计算能力。研究主要集中在统计模型上,这种方法采用大规模的训练语 料 (corpus) 对模型的参数进行自动的学习,和 Z 前的基

4、于规则的方法相比,这种方法更 具鲁 棒性。统计语言模型统计语言模型v Statistical Language Model)就是在这样的环境和背景下被提出來的。 它广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注,等等。 简单地说,语言模型就是用来计算一个句子的概率的模型,即P (函,“2,)。利用语 言模型,可以确定哪个词序列的可能性更大,或者给定若个讪可以预测卜个最可能 出 现的词语。举个音字转换的例了來说,输入拼 h串为nixianzaiganshenme对应的输出 可 以有多种形式,如你现在干什么、你西安再赶什么、等等,那么到底哪个才是正确的转 换 结果呢,利用语言

5、模型,我们知道前者的概率大干后者,因此转换成前者在多数情况 F 比较 合理。再举一个机器翻译的例子,给定一个汉语句子为李明正在家里看电视,也以翻 译为 Li Ming is wat ching TV at hon、Li Ming at home is wat chingv、等等,同样根据语 H模型,我们知道前者的概率大于后者,所以翻译成前者比较合理。那么如何计算一个句子的概率呢?给定句子(词语序列)S二灼,,叭,它的概 率可 以表示为:P(%|Wi, 购%(1)P (S)二P (W1, “2,)二P (叫)P (昨 I 购)由于上式中的参数过多,因此需要近似的计算方法。常见的方法有 n-gra

6、m 模型方法、决策树方法、最大埔模型方法、最人姑马尔科夫模型方法、条件随机域方法、神经网络方n-gram 语言模型n-gram 模型的概念n-gram 模型也称为 rvl 阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率 仅 仅与前 iffin-1 个词相关。因此(1)式可以近似为:P (S)二 P (%“2,,)二 riLiP (纠 IW-+1,,叱-1)(2)当n取:1、2、3时,n-gram模型分别称为unigram, bigram和trigram语言模型。n- gram 模型的参数就足条件概率P(“JW(_n+i,叱“)。假设词农的大小为100,000,那么n- gram模型的参

7、数数最为100,000。n越大,模型越准确,也越复杂,需要的计算最越大。 绘常用的是bigram其次是unigram和trigram, n取工4的情况较少。n-gram 模型的参数估计模型的参数估计也称为模型的训练, 般采用最大似然估计(Maximum LikelihoodEstimation, MLE)的方法对模型的参数进行估计:P (WJ叱T+1,纠T) = d+1,叱+1,叱T)C(X) 表示 X 在训练语料中出现的次数,训练语料的规模越大,参数估计的结果越对 靠。但即使训练数据的规模很人,如若干GB,还是会有很多语言现象在训练语料中没有出现 过,这就会导致很多参数(某 n 元对的概率)

8、为 0。举个例子來说明下,IBM Brown 利 用366M英语语料训练trigram,结果在测试语料中,有14.7%的trigram和2.2%的bigram在训练 中没有出现;根据博士期间所在的实验室统计结果,利用 500 万字人民口报训练 bigram 模 型,用 150 万字人民口报作为测试语料,结果有 23.12%的 bigram 没有出现。这种问题也被称为数据稀疏(Data Sparseness),解决数据稀疏问题可以通过数据平滑 (Data Smoothing)技术来解决。n-gram 模型的数据平滑数据平滑是对频率为0的n元对进行估计,典型的平滑算法有加法平滑、Good-Turi

9、ng 平滑、Katz平滑、插值平滑,等等。加法平滑基本恩想是为避免零概率问题.将每个 n 元对得出现次数加上个常数 A ( 0fi1 ):P(WtW+iD 二(C(叱 _n+il 妙)+ 6)/Cd+iD + N8) (4) Good-Turing 平滑利用频率的类别信息来对频率进行平滑:N (Cd+i一叱“叱)+ 1)N (C (Wf+叱_叱)Par (呦 wu+1D 二 5 (叱_卄 1 叱 4 Wi) /C (w+1 叱CGT (叱 F+1 一函亠函)=(C (泊 F+1 必“皿)+ 1) X其中.N(c)表示频率为c的n-gram的数量。线性插值平滑该数据平滑技术主要利用低元 n-gr

10、am 模型对高元 n-gram 模型进行线性插值。因为在 没有足够的数据对高元 n-gram 模型进行概率估计时,低元 n-gram 模型通常可以提供有用 的信息。interp (冏 I 函+1 二九加U+丄,D+ (1九)任“ WW-n+2, 叱 -1)入町以通过 EM 算法来估计。 Katz 平滑也称为回退(back-off)平滑其基本思想是当一个n元对的出现次数足够大时,用最 大似 然估计方法估计其概率:当 n 元对的出现次数不够大时,采用 Good-Turing 估计对其 平滑 将其部分概率折扣给未出现的 n 元对:当 n 元对的岀现次数为 0 时,模型回退到低元模型。P 応 WI八-

11、n + lD 二(巾圧(勉I纠t + 1,,叱-1)(耐昭-n+1,W.i)(0 P 阪 Z (叱 I 叱 T+2,叱 t)t/c (FKln+1,W叱)kif 1 C(W,_, , 叱-1, 叱) vk n+1ifC ,叱_1,纠)=0n+1参数 Q 和 0 保证模型参数概率的归一化约束条件,即工 Pb/W I g*) = 1。n-gram 模型的解码算法为什么 n-gram 模型需要解码算法呢?举个例子来说,对于音字转换问题,输入拼音 nixinn7nignnihpnmp町能对应着彳艮多转换结果对于这个例了对能的转换结果如卜I 冬I所示(只画出部分的词语节点),各节点之间构成了复杂的网络结

12、构,从开始到结束的 任 意-条路径都是町能的转换结果,从诸多转换结果中选择最合适的结杲的过程就需要解 码 算法,什么先在4 Hi常用的解码算法是viterbi算法,它采用动态规划的原理能够很快地确定最合适的路径。 这里就不详细介绍该算法了。n-gram 模型的应用n-gram 语言模型的应用非常广泛,瑕早期的应用是语音识别、机器翻译等问题。哈尔 滨 工业大学王晓龙教授最早将其应用到音字转换问题,提出了 “语句级拼音输入法”,后 来 该技术转让给微软,也就是后來的微软拼音输入法。从windows95开始,系统就会自动安装 该输入法,并在以后更高版本的windows中和Office办公软件都会集成最新的微软拼音输入 法。 n 年 Z 后,各个输入法的新秀(如搜狗和谷歌)也都采用了 n-gram 技术。参考文献:微软拼音输入法2门然语言处理语言模型统计语言模犁简介 诰言

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号