自然语言处理大纲.doc

资源描述

《自然语言处理大纲.doc》由会员分享，可在线阅读，更多相关《自然语言处理大纲.doc（5页珍藏版）》请在金锄头文库上搜索。

1、课程编号： S0300010Q课程名称：自然语言处理开课院系：计算机科学与技术学院任课教师：关毅刘秉权先修课程：概率论与数理统计适用学科范围：计算机科学与技术学时：40 学分：2 开课学期：秋季开课形式：课堂讲授课程目的和基本要求：本课程属于计算机科学与技术学科硕士研究生学科专业课。计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉性学科。通过本课程的学习，使学生掌握自然语言（特别是中文语言）处理技术（特别是基于统计的语言处理技术）的基本概念、基本原理和主要

2、方法，了解当前国际国内语言处理技术的发展概貌，接触语言处理技术的前沿课题，具备运用基本原理和主要方法解决科研工作中出现的实际问题的能力。为学生开展相关领域（如网络信息处理、机器翻译、语音识别）的研究奠定基础。课程主要内容：本课程全面阐述了自然语言处理技术的基本原理、实用方法和主要应用，在课程内容的安排上，既借鉴了国外学者在计算语言学领域里的最新成就，又阐明了中文语言处理技术的特殊规律，还包括了授课人的实践经验和体会。1 自然语言处理技术概论（2学时）自然语言处理技术理性主义和经验主义的技术路线；自然语言处理技术的发展概况及主要困难；本学科主要科目；本课程的重点与难点。2 自然语言处理技术的数

3、学基础（4学时）基于统计的自然语言处理技术的数学基础：概率论和信息论的基本概念及其在语言处理技术中的应用。如何处理文本文件和二进制文件，包括如何对文本形式的语料文件进行属性标注；如何处理成批的文件等实践内容3 自然语言处理技术的语言学基础（4学时）汉语的基本特点；汉语的语法功能分类体系；汉语句法分析的特殊性；基于规则的语言处理方法。ASCII字符集、ASCII扩展集、汉字字符集、汉字编码等基础知识。4 分词与频度统计（4学时）中文分词技术的发展概貌；主要的分词算法；中文分词技术的主要难点：切分歧义的基本概念与处理方法和未登录词的处理方法；中外人名、地名、机构名的自动识别方法；词汇的频度统计及统

4、计分布规律。以及词频统计、排序输出；二元对频度统计，统计结果浏览等实践内容。5 语料库的多级加工（6学时）语料库的基本概念；国际国内主要语料库简介；语料库加工的主要步骤；词性标注的常用方法；主要句法分析算法简介；汉语语义标注的基本概念和常用方法；汉语语义词典Hownet介绍。以及如何组织语料库，如何对语料库进行字符串检索等实践内容。6 基于统计的语言模型（4学时）N-gram统计语言模型的基本概念；构造统计语言模型的方法；数据平滑的常用算法；N-gram统计语言模型的应用及评价；现有的其他主要的统计语言模型。以及构造Bigram语言模型及good-turing算法实现等实践内容。7 马尔可夫模

5、型（4学时）马尔可夫模型的基本概念；马尔可夫模型几个基本问题及其解法；马尔可夫模型的几个常用算法；马尔可夫模型的应用（音字转换、词性标注）。以及隐马尔可夫词性标注器的实现等实践内容。8 句法分析技术（4学时）基于语言学规则的句法分析技术；基于统计的句法分析技术；依存文法；概率上下文无关文法（PCFG）；级联式有限状态句法分析技术。9 篇章理解技术（4学时）计算机自动文摘的基本理论与常用方法：文本的机器内部表示；文本分析技术；摘要提取技术；摘要生成技术。10 问答式信息检索（4学时）问答式信息检索的基本概念；问答式信息检索的主要难点；问答式信息检索系统的系统构成；问答式信息检索的相关技术；文本

6、分类技术简介；问答式信息检索的评测方法；TREC简介。以及VSM文本分类器设计等实践内容。课程主要教材：1 Chris Manning & H. Schutze. Foundations of Statistical Natural Language Processing. MIT Press, 19992 王晓龙，关毅计算机自然语言处理技术清华大学出版社，预计2004年3 姚天顺，自然语言理解一种让机器懂得人类语言的研究，清华大学出版社，2002.10主要参考文献：1 边肇祺等. 模式识别. 清华大学出版社. 1998.2 董振东，董强，知网，http:/3 冯志伟计算语言学对理论语言学

7、的挑战，语言文字应用1992年第1期4 黄昌宁，中文信息处理中的分词问题，语言文字应用, 1997, (1), 71-785 黄昌宁（1993）关于处理大规模真实文本的谈话，载语言文字应用1993年第2期。6 刘开瑛，现代汉语自动分词系统中几个问题的讨论，计算机开发与应用，19987 刘源等，信息处理用现代汉语分词规范即自动分词方法，清华大学出版社，广西科学技术出版社，1994.8 宋柔，关于分词规范的探讨，语言文字应用，1997年第3期9 孙茂松、黄昌宁,邹嘉彦，陆方，沈达阳，利用汉字二元语法关系解决汉语自动分词中的交集型歧义, 计算机研究与发展Vol.34, No.5, pp.332-3

8、39, 1997.510 孙茂松，左正平，邹嘉彦. 高频最大交集型歧义切分字段在汉语自动分词中的作用. 中文信息学报. 1999, 13(1): 27-3411 俞士汶，现代汉语语法信息词典详解，清华大学出版社，199612 詹卫东，面向中文信息处理的现代汉语短语结构规则研究，博士论文，19993 赵铁军等，机器翻译原理，哈尔滨工业出版社，2000.14 朱德熙，语法问答，商务印书馆，199315 A. B. Poritz. Hidden Markov Models: A Guided Tour. Proceedings of the International Conference on A

9、coustics, Speech, and Signal Processing, 1: 7-13, New York Hilton, New York City, April 1988.16 Adwait Ratnaparkhi. A maximum entropy model for part-of-speech tagging. In proceedings of conference on empirical method in natural language processing, university of Pennsylvania, 1996.17 E.T. Jaynes. In

10、formation Theory and Statistical Mechanics. Physics Reviews. 1957, vol.106: 620-63018 Frederick Jelinek. Statistical Methods for Speech Recognition.The MIT Press. London. 199719 G. Salton , M. J. McGill. An Introduction to Modern Information Retrieval. McGraw-Hill, 1993.20 Lillian Lee.Similarity-Bas

11、ed Approaches to Natural Language Processing. Ph.D. thesis. Harvard University Technical Report TR-11-97.21 Ricardo Baeza-Yates & Berthier Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley, New-York, 1999.22 Stanley F. Chen. Building Probabilistic Models for Natural Language, PhD thesis, th

12、e Subject of Computer Science, Harvard University Cambridge Massachusetts, May 1996. 课程编号：课程名称：自然语言处理英文译名：Natural Language Processing适用学科：计算机科学与技术先修课程：概率论与数理统计开课院（系）：计算机科学与技术学院任课教师：关毅、刘秉权内容简介：（200字左右）计算机自然语言处理是用计算机通过可计算的方法对自然语言的各级语言单位进行转换、传输、存贮、分析等加工处理的科学。是一门与语言学、计算机科学、数学、心理学、信息论、声学相联系的交叉性学科。国际互联网

13、技术的飞速发展，极大地推动了信息处理技术的发展，也为信息处理技术不断提出新的需求。语言作为信息的载体，语言处理技术已经日益成为全球信息化和我国社会和经济发展的重要支撑性技术。本课程全面阐述了自然语言处理技术的基本概念、基本原理和实用方法，共分为基础、原理和应用三部分。第一部分基础部分，论述了自然语言处理技术概论；它的数学基础和语言学基础；以及自动分词技术和语料库多级加工技术；第二部分为原理部分，介绍了统计计算语言模型的构建以及两个经典统计分类模型：马尔可夫模型、最大熵模型及其在语言处理中的应用。最后，以一种新型的信息检索方式-问答式信息检索的基本理论和系统集成为例，将前述的各项主要技术方法的应

14、用贯穿于这一智能化信息检索系统的系统研发的各个步骤中。Course overview:This course gives a research-oriented introduction on theory and practice of natural language processing focusing on statistical language modeling of human languages, especially Chinese.The course is divided into four relatively separate components. The fir

15、st deals with foundations of language processing. We will cover a brief overview of language processing technologies, its mathematical foundations and linguistics foundations, word segmentation, multilevel processing of large corpus. The second component of the course deals with statistical language modeling, we will emphasize on building N-gram language model and a classical statistical classification model: Markov model. The third component introduces parsing and discourse analysis technologies.

展开阅读全文