中文信息处理chapter1-简述

上传人:f****u 文档编号:111878785 上传时间:2019-11-04 格式:PDF 页数:50 大小:2.72MB
返回 下载 相关 举报
中文信息处理chapter1-简述_第1页
第1页 / 共50页
中文信息处理chapter1-简述_第2页
第2页 / 共50页
中文信息处理chapter1-简述_第3页
第3页 / 共50页
中文信息处理chapter1-简述_第4页
第4页 / 共50页
中文信息处理chapter1-简述_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《中文信息处理chapter1-简述》由会员分享,可在线阅读,更多相关《中文信息处理chapter1-简述(50页珍藏版)》请在金锄头文库上搜索。

1、概述 1 中文信息处理概述中文信息处理概述 计算机科学与技术学院 刘秉权 新技术楼612室,电话:86413322 Email: liubq 概述 2 刘秉权介绍 博士、副教授、硕士生导师 智能技术与自然语言处理研究室(ITNLP) ( , ) 研究方向:自然语言处理、智能人机接 口、Web信息抽取、互联网教育 主要成果:语句级汉字输入技术 概述 3 概述 4 概述 5 概述 6 概述 7 概述 8 主要内容 本课目的和意义 自然语言处理概述 中文信息处理概述 本课主要内容 考核方式 参考文献 概述 9 本课目的和意义 计算机最重要的应用之一是对语言文字的处理:文字 输入、文本纠错、激光照排、

2、文字识别 随着互联网的广泛普及,文字信息处理日益重要:大 规模文本分类、聚类、自动文摘、自动问答、机器翻 译 与最新应用密切结合:信息检索、信息安全、情报分 析、决策支持、情感分析等 中文信息处理技术的进步,对推动中国信息产业的发 展、促进国际文化交流、繁荣中国传统文化都具有重 要现实意义 目标:通过本课程的学习,使学生掌握中文信息处理 的基本概念、方法、技术和手段,能够进行语言知识 库构造、分词、词性标注、句法分析、汉语词频统计、 统计语言模型构造等语言处理工作。 概述 10 相关提法 中文信息处理(Chinese Information Processing) 自然语言处理(Natural

3、 Language Processing) 自然语言理解(Natural Language Understanding) 计算语言学(Computational Linguistics) 人类语言技术(Human Language Technology) 概述 11 自然语言处理概述 什么是自然语言处理 NLP的发展历史 NLP的主要困难 NLP的主要研究内容 概述 12 什么是自然语言 语言是人类交际的工具,是人类思维的 载体 以语音为物质外壳,由词汇和语法两部 分组成的符号系统 是约定俗成的,有别于程序设计语言等 人工语言 人类历史上以语言文字形式记载和流传 的知识占知识总量的80以上。

4、概述 13 思考:计算机能够理解人的 语言吗? 概述 14 计算机能够理解人的语言吗? 结构主义:追求机器的理解机制与人相 同 问题:人类尚不清楚自身理解语言的机制 功能主义:机器的表现与人相同即可 图灵测试:如果通过自然语言的问答,一个人无法 识别和他对话的是人还是机器,那么就应该承认机 器具有智能 如果机器无法像人一样真正理解语言,那么它能够 像人一样表现吗? 概述 15 “理解”的标准 问答(question-answering):机器能正确地 回答输入文本中的有关问题; 文摘生成(summarizing):机器有能力产生 输入文本的摘要; 复述(paraphrase):机器能用不同的词

5、语和 句型来复述其输入文本; 翻译(translation):机器具有把一种语言 (源语)翻译成为另一种语言(目标语)的能 力。 概述 16 自然语言处理 以计算机为工具对人类特有的书面形式 和口头形式的自然语言的信息进行各种 处理和加工的技术。 人工智能研究的重要内容之一。 概述 17 NLP的历史 20世纪50年代起步 提出机器翻译等重要问题 50-60年代采用模式匹配和文法分析方法 对基于理解和基于统计方法的讨论 60年代后期衰落 70-80年代采用了面向受限域的深入理解方法 80年代后期至今统计方法占据主流 大规模语料可用,计算机性能大幅提高 互联网的迅速发展为NLP提供了实验数据来源

6、和新的应用场景 概述 18 思考:你认为自然语言处理 的难点应该在哪里? 概述 19 NLP的主要困难 歧义(Ambiguity) 病构(Ill-Formedness) 概述 20 歧义 注音歧义:快乐(le4),音乐(yue4) 音字转换歧义 分词歧义 乒乓球/拍卖/完/了 乒乓球拍/卖/完/了 短语歧义 咬死猎人的狗 咬死猎人的狗 概述 21 歧义 词义歧义 打乒乓球 打毛衣 打电话 语用歧义 “你真讨厌!” 概述 22 病构 未登录词(Unknown Words, Out-of-Vocabulary Words) 已知词的新用法 不合乎语法的句子 他非常男人。 不合乎语义约束的搭配 My

7、 car drinks gasoline like water。 社交网络用语(短文本,微博、微信、短信) 由于疏忽造成的错误 概述 23 NLP的主要研究内容及分层 概述 24 思考:中文信息处理面临哪 些独特的问题? 概述 25 中文信息处理概述 什么是中文信息处理 中文信息处理的两个层次 中文信息处理的成就 国内外主要研究机构 概述 26 什么是中文? 中文是联合国六种工作语言之一 是中国56个民族所使用的主语言 世界上五分之一以上人口的主语言 中文汉字是中国30种文字中使用最广的文字 方块汉字是其基本表现形式 汉字是象形字 汉字代表一种文化 概述 27 汉字是一个大字符集 说文解字(东

8、汉):9353字 玉篇(南朝)收录16,917字 广韵(宋代)收字26,194字 字汇(明朝)收录33,197字 康熙字典(清朝)收录47,043字 汉语大字典(1992年)5.6万 中华字海(1994年) 8.6万 概述 28 汉字的个数和频度 GB2312-80:6763 汉字频度表 按频度排列前 N 字占总出现字数百分比按频度排列前 N 字占总出现字数百分比 N=1 4% N=2048 98% N=20 16.7% N=3072 99.7% N=32 21% N=3838 99.9% N=300 65% N=5177 99.99% N=600 81% N=6209 99.993% 概述

9、29 汉字的音 汉字的读音一般可以分为声母和韵母, 声母21个,韵母35个 5种声调,分别为阴平(),阳平 (),上声(),去声(), 以 及轻声 汉字的字音或音节共有400多种 一千二百多个音调节 同音字现象普遍 概述 30 汉字的字形 二维图形结构 三个层次:汉字-部件-笔划 笔划通常分5类:点、横、竖(直)、撇、折?(弯) 各种字典由于检索法不同,部首的个数也不同,从一 百多个到六百多个都有。部首的判断也存在着二义性 部首及笔划构成汉字的方法可分为三类: 离:例如“旦、八、阳、音”等 接:例如“人、且、石、刀”等 交:例如“力、右、内”等 一般汉字编码部件拆分的优先顺序为离、接、交 概述

10、 31 汉语的特点 汉语是大字符集的意音文字 汉语词与词之间没有空格 汉语的同音词较多 汉语没有形态变化 汉语的语法研究尚未规范化 汉语的语言学知识的量化与形式化工作 滞后 概述 32 什么是信息? 控制论的创始人维纳有一句名言:“信息就是信息, 不是物质,也不是能量”。信息、物质和能量,是人 类社会赖以生存和发展的三大要素。 从广义上讲,信息是任何一个事物的运动状态以及运 动状态形式的变化。它是一种客观存在。例如日出、 月落,花谢、鸟啼以及气温的高低变化、股市的涨跌。 狭义上讲,它是指信息接受主体所感觉到并能被理解 的东西。 “周幽王烽火戏诸侯”和“梁红玉击鼓战金 山” 在通信领域,信息被理

11、解为一种希望传送、交换、存 储的,具有一定意义的抽象内容,称为“数字信息”。 “0”、“1” 概述 33 什么是信息? 概述 34 什么是处理? 处理是指对信息的接收、存储、转化、传送和 发布等等操作 分级:字级处理、概念处理和智能处理 智能处理的主要研究领域:自然语言理解、计 算机视觉、机器人学及知识工程 智能的未来发展,将会对知识库、专家系统、 推理系统和神经网络等综合运用,达到能够模 拟人类比较复杂的思维和行为 概述 35 中文信息处理的内涵、特点、热点 中文信息:用中文表示的信息 中文信息处理:用电脑及人造脑去处理中文信 息 特点:中文的字、词、句子和篇章都各有特点, 这就造成了中文信

12、息处理的复杂性 热点:中文语音识别、中文OCR、中文信息检 索、中文信息抽取、中文语义理解等 概述 36 信息的两个层次 符号层 中文 / 汉语 / 汉字 内容层 符号所承载的意义 概述 37 中文信息处理的两个层次 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构 分析,意义理解,推理,翻译等等) 概述 38 内容层的信息处理 形态丰富的语言(inflecting language):处理难 形态不丰富的语言(analytic language):处理更难 汉语 英语 老师都来了 All professors came here. 张老师都来了 Even Professor

13、 Zhang came here. 编辑工作很难 Editing is very difficult. 如何当好编辑 How to become a good editor? 概述 39 内容层的信息处理 概述 40 内容层处理对符号层处理的反作用 连续语音识别 语句级汉字智能键盘输入 概述 41 中文信息处理的成就 北大激光照排系统 汉王手写汉字输入系统 哈工大语句级智能汉字输入技术 亚伟中文速录机 百度搜索引擎系统 概述 42 国外主要研究机构 Standford University/MIT/Carnegie Mellon University John Hopkins Universi

14、ty The University of Southern California The University of Pennsylvania, IBM / Microsoft / Google / Intel / Aachen University (RWTH), Germany DFKI / Saarland University, Germany University of Karlsruhe, Germany ITC-irst, Italy UPC, Spanish 东京大学/京都大学/早稻田大学/奈良先端/ATR 概述 43 国内主要研究机构 北大、清华、东北大学、哈工大、山西大学、

15、厦 门大学、南大、复旦、上海交大、北京语言大学、 北京邮电大学等 中科院自动化所、计算所、软件所、声学所、社 科院语言所、教育部语用所、科技部科学技术信 息所等 百度、腾讯、阿里、搜狗、微软亚洲研究院 台湾中研院、香港中文大学、香港科技大学 概述 44 主要内容 概述 数学基础 中文字符编码 汉字字形存储与压缩技术 中文自动分词 基于统计的中文语言建模 隐马尔可夫模型 中文姓名识别 中文词性标注 中文句法分析 汉英机器翻译 概述 45 大作业 汉字字频统计 中文自动分词 中文姓名识别 概述 46 考试形式 本课程成绩评定由四部分组成: 课堂考核占20% 大作业成绩占30% 期末考试成绩占50% 加试10分 期末考试:笔试 满足下列条件之一得加试分: 课堂表现突出 大作业完成情况突

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号