第二章自然语言基础知识

上传人:第*** 文档编号:60572134 上传时间:2018-11-17 格式:PPT 页数:75 大小:810KB
返回 下载 相关 举报
第二章自然语言基础知识_第1页
第1页 / 共75页
第二章自然语言基础知识_第2页
第2页 / 共75页
第二章自然语言基础知识_第3页
第3页 / 共75页
第二章自然语言基础知识_第4页
第4页 / 共75页
第二章自然语言基础知识_第5页
第5页 / 共75页
点击查看更多>>
资源描述

《第二章自然语言基础知识》由会员分享,可在线阅读,更多相关《第二章自然语言基础知识(75页珍藏版)》请在金锄头文库上搜索。

1、数学基础与语言学基础,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,第二章 基础知识,1、数学基础 2、语言学基础 3、实用知识,本章内容,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,概率论在语言技术中的应用,1、数学基础,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rig

2、hts Reserved,哈尔滨工业大学计算机学院语言技术研究中心,引言,自然语言处理是一门交叉学科 与自然语言处理密切相关的学科包括数学、语言学和计算机科学 本章介绍数学基础和语言学基础,以及相关计算机实用技术,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,数学与语言学,数学 大自然的语言 科学的语言 语言学 语言是大自然的产物 语言学是科学的一个分支 采用数学的方法描述语言 计算语言学 建立语言的数学模型,研究生专业必修课 自然语言处理 , 2014年秋季 Co

3、pyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,有数学基础的方法 vs 没有数学基础的方法,有数学基础的方法 美丽的方法 经得起时间考验的方法 没有数学基础的方法 打补丁的方法 adhoc(ad hoc),研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,数学基础-概率论,为什么是概率论 统计语言处理技术已经成为主流 统计语言处理的步骤 收集自然语言词汇(或者其他语言单位)的分布情况 根据这些分

4、布情况进行统计推导 最典型的例子:构造统计语言模型 概率论是统计语言模型的数学基础,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,回顾,概率论是研究随机现象的数学分支 所谓随机现象是指这样的一类现象,当人们观察它时, 所得到的观察结果不是确定的,而是许许多多可能结果中的一种 概率(Probability)则是衡量该事件发生的可能性的量度,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserv

5、ed,哈尔滨工业大学计算机学院语言技术研究中心,概率,样本空间 是一个随机试验所有可能的结果的集合 事件 A 是的子集 概率函数 (或者概率分布) 某字或者某词出现的概率是多少?,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,示例,现代汉语字频统计。 由北京航空学院和国家语言文字工作委员会于1985年完成。从1977年至1982年间社会科学和自然科学的规模为一千一百零八万余字的语料中利用计算机进行统计得到汉字的字频,前20个最高频汉字列出如表所示:,研究生专业必修

6、课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,示例,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,汉字的信息熵,信息熵 香农1948年发表了著名的论文通讯的数学理论,宣告了信息论的诞生。在这篇论文中,他选择概率论作为数学工具,提出了用“不确定性的量度”来计算信息量的数学公式,为信息论奠定了理论基础。,研究生专业必修课 自然语言处理 , 2014年秋

7、季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,汉字是世界上信息量最大的文字符号系统,每收到一个英文讯号消除的不确定程度H 是4.1606比特。 汉字的信息熵随着汉字个数的增加而增加,当汉字的个数达到12366个汉字时,汉字的信息熵值为9.65(冯志伟) 汉字是当今世界上信息量最大的文字符号系统,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,几点认识,汉字的信息量最大,世界冠军 汉字低

8、劣论与汉字优越论 在信息编码、存储和传输等方面汉字处于相对不利的地位 随着网络时代的发展,网络上的中文信息量已经居于第二的位置,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,我们的认识,汉字是世界上硕果仅存的象形文字(古埃及圣书字,两河流域楔形文字),对汉文化的传承和发展做出了巨大贡献。既有固有的缺点,也有优越性,将是一种长期的客观存在。随着中国国力的增强,汉字的影响力逐渐扩大,作为有志于从事中文语言研究的同学们来说,应该积极吸取西文计算语言学研究的优秀成果,丰富和

9、完善汉语的计算语言学研究,前途光明,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,条件概率,对于随机试验的结果有部分知识(或者约束条件) 条件概率(Conditional probability) 已知B为真的条件下A 为真的概率可以表示为P(A|B) 先验概率(prior probability) 后验概率(posterior probability),研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Righ

10、ts Reserved,哈尔滨工业大学计算机学院语言技术研究中心,示例:,P(大学)=0.0003 P(大学|工业)=P(工业大学)/P(工业) P(大学),研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,联合概率,联合概率 P(A,B)=P(A)P(B|A)=P(B)P(A|B) 使 值为最大的那个 联合概率的链规则: P(A,B,C,D) = P(A)P(B|A)P(C|A,B)P(D|A,B,C),研究生专业必修课 自然语言处理 , 2014年秋季 Copyr

11、ights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,示例,P(哈尔滨/工业/大学)=P(哈尔滨)P(工业|哈尔滨)P(大学|哈尔滨,工业),研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,独立,两个事件 A 与 B 相互独立, 如果 P(A) =P(A|B)P(A,B)=P(A)*P(B) ?“果”字的出现和“粉”字的出现相互独立吗 条件独立 两个事件 A 与 B 是在条件C下相互条件独立如果:P(A|C

12、) = P(A|B,C),研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,贝叶斯定理(Bayes Theorem),贝叶斯定理的最简形式 BayesTheorem使我们能够交换事件之间的条件依赖顺序,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,贝叶斯定理在自然语言处理中应用举例,音字转换 字音转换模型 语言模型 显然构造 与 的难度较直

13、接构造 大大地降低了,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,随机变量,随机变量(Random variables)(RV)使我们能够讨论与样本空间相关的数值的概率值 离散型随机变量 连续型随机变量,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,随机变量,在某一时间点出现的单词可以视为(离散型)随机变量 语言可视为以时间为序的一组随

14、机变量的序列,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014. HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,数学期望与方差,数学期望 随机变量的均值 方差 随机变量取值是否比较一致或者有很大差异的一个量度 称为标准差,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,数学期望与方差应用示例-新词发现,统计大规模语料中字A与字B的间隔字数的数学期望与方差 假设方差很小,比如小于某个阈值,那

15、么AB很可能成词,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,构造语言模型P(T)的两类方法,基于频度的统计 贝叶斯统计,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,基于频度的统计,基本思想 相关频度(频率):事件 发生的次数与所有事件总次数的比率 在 次实验中 发生的次数,当 , 逐渐稳定在某个数值上,作为该事件的概率估计,研究生专

16、业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,基于频度的统计的两类方法,有参数的方法(Parametric)(与分布有关) 假设某种语言现象服从我们业已熟知的某种分布, 如二元分布,正态分布,泊松分布等等 我们已有明确的概率模型,现在需要确定该概率分布的一些参数,研究生专业必修课 自然语言处理 , 2014年秋季 Copyrights 2014 HIT. All Rights Reserved,哈尔滨工业大学计算机学院语言技术研究中心,基于频度的统计的两类方法(续),常用分布 二元分布(Binomial distribution) 在英语语料库中,包含单词“the”的语句占语料库中语句总数的比例近似地服从二项分布 泊松分布(Poisson distribution) 在某一固定大小

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号