文档详情

自然语言理解-语料库

m****
实名认证
店铺
PPT
331KB
约52页
文档ID:602840708
自然语言理解-语料库_第1页
1/52

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,语料库,什么是语料库,语料库是语言材料的集合,语料库的特点,必须是真实语言环境中出现过的语言材料,必须是以电子计算机为载体,必须经过一定的分析、加工和处理,语料库的类型1,按来源分类,口语语料库,书面语语料库,按语言分类,单语语料库,双语语料库,按加工分类,生语料库,熟语料库,语料库的类型2,按加工方式分,单语,原始语料库,切分标注语料库,句法树库,语义标注语料库,双语,篇章对齐语料库,句子对齐语料库,词语对齐语料库,结构对齐语料库,语料库研究的历史,第一代(197080年代),百万词级,以语言研究为导向,第二代(198090年代),千万词级,词典编纂应用导向,第三代(1990年代),超大规模(上亿词级),标准编码体系,深度标注/多语种,NLP,应用,第四代(?),互联网作为语料库,第一代语料库1,Brown,语料库,始建于1960年代初,和,H.Kucera,发起,美国,Brown,大学建立,世界上第一个根据系统性原则采集样本的标准语料库,主要代表当代美国英语,规模100万词次,第一代语料库2,LOB,语料库,始建于1970年代初,由英国,Lancaster,大学著名语言学家,Geoffrey Leech,倡议,挪威,Oslo,大学,StigJohansson,主持完成,安装在挪威,Bergen,大学挪威人文科学计算中心,规模于,Brown,语料库相当,主要代表当代英国英语,第一代语料库3,LLC,语料库,1960年代初,由,Randolph Quirk,主持,收集2000小时的谈话和广播等口语素材并整理成书面材料,由瑞典,Lund,大学,J.Svartvik,主持全部录入计算机,1975年建成,第二代语料库1,COBUILD,语料库,建于1980年代,以词典编撰为应用背景,有英国,Birminghan,大学与,Collins,出版社合作完成,规模达2000万词次,基于该语料库出版的,Collins Cobuild,词典(1987)受到了广泛的好评,第二代语料库2,Longman,语料库,建于1980年代,包括三个语料库,LLELC,语料库(,Longman/Lancaster,英语语料库),LSC,语料库(,Longman,口语语料库),LCLE(Longman,英语学习语料库),目标是编撰英语学习词典,为外国人学习英语服务,词典规模达5000万词次,第三代语料库2,PennTreeBank(,宾州大学树库),美国,Pennsylvania,大学1980年代末开始发起,由该校计算机系,M.Marcus,主持,1993年,完成了对近300万英语词的句子语法结构标注,2000年完成了中文树库(第一版):10万词次,4185个句子,第三代语料库1,ACL/DCI,语料库,美国,ACL,倡议发起,收集语料范围广泛,华尔街日报,Collins,英语词典,Brown,语料库,PennTreeBank,一些双语或多语文本等,既有已标注的语料,也有未标注语料,制定了语料库文件的格式标注,采用统一的,SGML,标注语言,语料标注依照,TEI(Text Encoding Initiative),标准,语料库的收集、整理和应用,语料的选取,Summers,Longman/Lancaster English Corpus:Criteria and Design,Harlow:Longman,精品原则,有影响力原则,随机挑选原则,高流通度原则,典型性原则,易于获得原则,具有统计样本意义原则,符合语言规范原则,平衡性:主观性强,语料库的加工,语料库标注(,Annotation),1),词性标记(,Part-of-speech tagging),2),句法层次和范畴标记(,Grammatical parsing),3),词义标记(,Word sense tagging),4),篇章指代标记(,Anaphoric annotation),5),韵律标记(,Prosodic annotation),语料库加工工具,分类工具名称功能描述,A.,文件处理工具,文本过滤器将不同的文件格式转成为纯文本文件格式,文本分类器自动判别文本领域,语料库辅助校对工具及一致性检查工具按照语料库加工规范,对语料质量进行管理,B.,语言处理工具,分词与词性标注工具对语料进行词语识别,词性标记处理,词义标注工具对词义进行标注,浅层分析工具对语块(,chunk),进行标注,句法分析工具对句子进行完全句法分析,双语语料对齐工具对双语语料进行各个层级(段落、句子、小句、词的对齐加工,双语语料库(,Bilingual Corpora),加工,段落对齐,句子对齐,词对齐,短语对齐,双语句子对齐,基于长度(,length-based),的对齐方法,Gale&Church(1993),纯粹基于句子的长度来估计对齐可能性资源要求少,算法效率相对较高,基于词(,word-based),的对齐方法,一般要依赖词典资源,算法效率相对较低,人民日报语料库1,北京大学、富士通公司、人民日报社共同开发,含人民日报1998年上半年全部文本(约1千7百万字),完整的词语切分和词性标注信息,高准确率,人民日报语料库2,样例,历史/,n,将/,d,铭记/,v,这个/,r,坐标/,n:/w,北纬/,b/m,度/,q、/w,东经/,b/m,度/,q;/w,人们/,n,将/,d,铭记/,v,这/,r,一/,m,时刻/,n:/w,年/,t,月/,t,日/,t,时/,t,分/,t。

/w,中国/,ns,政府/,nnt,顺利/,ad,恢复/,v,对/,p,香港/,ns,行使/,v,主权/,n,/w,并/,c,按照/,p“/w,一国两制/,j”/w、/w“/w,港人治港/,l”/w、/w,高度/,d,自治/,v,的/,u,方针/,n,保持/,v,香港/,ns,的/,u,繁荣/,an,稳定/,an/,w,London-Lund,英语口语语料库1,what a_bout a cigarette#./,*(4 sylls)*/,*I wont have one th/anks#*-/,arent you.going to sit d/own#-/,/m#-/,have my _coffee in p=eace#-/,quite a nice.room to!sit in(actually)#/,*isnt*it#/,*y/es#*-/,转引自,Tony McEnery&Andrew Wilson,1996,Corpus Linguistics,p55,London-Lund,英语口语语料库2,语料库的编码体系,冯志伟,标准通用置标语言,SGML,及其在自然语言处理中的应用,载当代语言学1998年第4期。

SGML(,标准置标语言),XML(,可扩展的置标语言),TEI(,文档编码计划),/,CES(,语料库编码标准),语料库检索,通常倒排表实现词语到文本的快速检索,演示:语料库检索和集列(,concordance),语料库检索(,Demo),语料库应用,支持自然语言处理应用系统开发,支持语言学研究和语言教学研究,语料库对,NLP,的支持,基于大规模语料库的语音识别;,基于大规模语料库的音字转换技术(中文输入);,基于大规模语料库的自动文本校对技术;,利用语料库训练,HMM,模型进行分词,词性标注,词义标注,等等;,基于语料库的句法分析;,基于语料库的机器翻译;,基于机器学习技术,通过语料库获取语言知识,包括搭配特征,句法规则,等等;,基于语料库的语言模型训练和语法模型评价;,应用:词频统计与Zipf定律,1998全年人民日报语料中频度最高的28个词(带词性)北京大学计算语言学研究所俞士汶教授提供,齐普夫(,Zipf),定律,齐普夫定律是美国学者,G.K.,齐普夫于本世纪40年代提出的词频分布定律它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,频次最小的词等级为。

若用,f,表示频次,,r,表示等级序号,则有,f(r)=cr-,1,c,是常数,人们称该式为齐普夫定律齐普夫(,Zipf),定律,词语分布均匀度,1998年人民日报语料库部分词语分布北京大学计算语言学研究所俞士汶教授提供,词语分布均匀度:如何衡量?,熵?,北大提出流通度公式:,词语均匀度,Word POS Frequency DC,中,f 44418 0.99989,的,u 736812 0.99988,在,p 154681 0.99985,为,p 31394 0.99971,等,u 35223 0.99970,上,f 40645 0.99968,个,q 35769 0.99968,了,u 141789 0.99968,能,v 19574 0.99966,也,d 37295 0.99964,从,p 26576 0.99960,大,a 27858 0.99952,和,c 147835 0.99951,并,c 18585 0.99950,Word POS Frequency DC,都,d 24309 0.99949,人,n 36128 0.99949,对,p 54411 0.99946,不,d 62676 0.99942,把,p 19989 0.99942,是,v 138767 0.99942,到,v 30611 0.99940,记者,n 28324 0.99936,地,u 28010 0.99935,有,v 60901 0.99935,一,m 90038 0.99934,结束,v 3255 0.99931,通过,p 8174 0.99928,那些,r 1871 0.99928,汉语语料库建设规范,语料库分词和标注规范,语料库建设规范,选材规范,文本描述规范,加工规范,体系构造规范,主要内容,已有的相关内容,语料库的加工规范的总原则,结构化词表构造原则,切分标注原则,已有的相关研究成果,1,信息处理用现代汉语分词规范,中国国家标准,GB13715,,,1992,年,2,信息处理用现代汉语词类标记集规范,教育部语言文字应用研究所,2002,年,已有的相关研究成果,3,现代汉语语料库文本分词规范,北京语言文化大学语言信息处理研究所,清华大学计算机科学与技术系,1998,年,4,北大语料库加工规范:,切分、词性标注、注音,北京大学计算语言学研究所,2003,年,5,資讯处理用中文分词标准,台湾计算语言学学会,,1996,年,语料库加工规范的总原则,不矛盾性原则:,指切分标注时不能出现两可的情况,即可以同时适用两条或两条以上的规则的情况。

完备性原则:,指规范能够覆盖文本的全部,即不能出现没有适用的规则的情况词表原则,切分标注一般都遵循一个原则,词表原则,把词表中已经收录的词语都作为一个分词单位,不再切分,,所以几乎每一个规范的背后都有一个相应的词表此外切分标注要做的事情主要就是未登录词的处理未登录词包括词的重叠形式(如“点点头、高高兴兴”)、附加形式构成的词(用前后缀构成的词,如“阿明、花儿、人民性、大众化”)、离合形式的词(词的离合形式,如“睡了一觉、理了个发”)、合成数词(如“三千四百五十六”)、新词新词主要是人名、地名等专有名词和未收入词表中的一些低频词词表的构造原则(已有成果),孙宏林在,谈谈汉语分词的标准,(,语言文字应用,1997.4),中提出确定词表的优先顺序:,单用标准,扩展标准,语义标准,音节标准,频度标准孙茂松、张磊在,人机并存,“质”“量”合一,(,语言文字应用,1997.1),中,强调人的理性判断与机器的在“量”上的经验约定孙宏林在,现代汉语语料库分词中的若干问题,(,陈力为、袁琦:计算语言学进展与应用,1995),中,提出了指导分词的三个原则:词是一个句法,语义范畴;词的划分是相对的;应该区分语料。

下载提示
相似文档
正为您匹配相似的精品文档