04第四章 汉语语料库的多级加工

上传人:e****s 文档编号:48485389 上传时间:2018-07-16 格式:PPT 页数:82 大小:973KB
返回 下载 相关 举报
04第四章 汉语语料库的多级加工_第1页
第1页 / 共82页
04第四章 汉语语料库的多级加工_第2页
第2页 / 共82页
04第四章 汉语语料库的多级加工_第3页
第3页 / 共82页
04第四章 汉语语料库的多级加工_第4页
第4页 / 共82页
04第四章 汉语语料库的多级加工_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《04第四章 汉语语料库的多级加工》由会员分享,可在线阅读,更多相关《04第四章 汉语语料库的多级加工(82页珍藏版)》请在金锄头文库上搜索。

1、关毅 研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室第四章 汉语语料库的多级加工回顾n两种计算语言学研究路线基于语言学规则(理性主义)基于统计(经验主义)n从大规模真实语料库中获得语言各级单位上的 统计信息,依据较低语言单位上的统计信息运 用相关统计推理技术计算较高级语言单位上的 统计信息研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院

2、语言技术中心 哈工大-雅虎中国联合实验室语料库语言学(corpus linguistics)n以语料库为主要资源从事语言研究n通过对大规模真实语料的调查来发现并 总结自然语言的各种语言事实和语法规 律n并非新的学科,而仅仅是一种研究手段n经常使用概率统计及信息论中的方法研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室为什么要对语料库进行加工n语料库的多级加工技术是语料库语言学 研究的前沿课题。n它的处理目标是对生语料文本进行多级 加工(分词、词性

3、标注、句法分析、语 义、语用分析等等)形成熟语料。n目的:大规模的语料库中提取应用所需 要的各个语言单位上的语言学知识。 研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室计算机语料库的功能的决定性 因素n语料库的规模 语料库容量的大小直接影响到统计结果的可靠性 n语料的分布 语料分布的考虑则关系到统计结果的适用范围 n语料的加工深度 加工深度则决定了该语料库能为自然语言处理提 供什么样的知识研究生专业必修课 自然语言处理 , 2007年秋季 Co

4、pyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室示例n生语料中国是一个大国n经多级加工后结果(IP (NP-SBJ (NR 中国)(VP (VC 是)(NP-PRD(QP (CD 一)(CLP (M 个)(ADJP(JJ 大)(NP(NN 国)研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室语料的加工顺序n经过不同阶段的处理,语料库包含的各类信息也不断

5、增加,最终将成为一个名副其实的语言知识库。这样 的知识库可以为汉语统计分析、汉语理解和机器翻译 等资源提供重要的资源和有力的支持研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室规范北大计算语言学研究所1994年制订了现 代汉语文本切分与词性标注规范1.0北大计算语言学研究所于1998年10月制订 了现代汉语文本切分与词性标注规范 2.0 后改名为现代汉语语料库加工规范研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 200

6、7. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室现代汉语语料库加工规范主要 内容n切分规范n切分和标注相结合的规范 n标注规范n专有名词的标注研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室分词n主要难点切分歧义n交集型n覆盖型研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算

7、机学院语言技术中心 哈工大-雅虎中国联合实验室分词未登录词n就是在词典中没有登录过的人名 地名,机构名, 新词语等n歧义切分字段在汉语书面文本中所 占的比例并不很大,在实际的书面 文本中,特别是在新闻类文本中, 未登录词的处理是书面文本自动切 分的一个十分突出的问题。这是汉 语书面语自动切分的另一个难点研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室未登录词(OOV)识别n字串本身的特性n上下文特性n两者结合n示例: “于中华” 于中华同志是湖南

8、人 迎奥运活动今天于中华世纪坛举行研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室中国人名识别:人名用字的统 计特征n根据统计, 汉语姓氏大约有1000多个, 姓氏中 使用频度最高的是“王”姓, “王, 陈, 李, 张, 刘” 等5个大姓覆盖率达32%, 姓氏频度表中的前 14个高频度的姓氏覆盖率为50%, 前400个姓 氏覆盖率达99%。 人名的用字也比较集中。 频度最高的前6个字覆盖率达10.35%, 前10个 字的覆盖率达14.936%,

9、前15个字的覆盖率达 19.695%, 前400个字的覆盖率达90%。研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室中国人名识别n第一次出现的人名叫做“定义性出现”, 尔后出现的人名叫做“使用性出现”。 为 此, 在切分时可根据人名在定义性出现 时的限制性成分首先建立人名表n对定义性出现的识别是关键研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学

10、计算机学院语言技术中心 哈工大-雅虎中国联合实验室中国人名识别-上下文特征n人名的限制性成分主要有身份词:表示人的职务,职位,头衔 的词语和亲属称谓的词语。有的出现 在人名之前,如“工人,教师,丈夫 , 妻子,犯人”。有的出现在人名之 后, 如“先生,女士”,有的可以出现 在人名的前面和后面,如“教授,总 理”研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室中国人名识别许多身份词带有后缀字,如“在逃犯 , 理发员,面包师,目击者”中的“犯 ,员,

11、师,者”等。地名和单位名:如“浙江绍兴周树人 , 国家语委冯志伟” 复杂的定语:如“德高望重的吕叔湘 先生”。n根据这些限制性成分,可以有效地识别 人名研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室中国人名识别n中国姓氏用字中有的是专用作姓氏 的,如“赵,邓,潘,冯”等,有的 则兼作其他词语使用,如“顾,黄, 周”等,对于兼作其他词语的姓氏, 需要建立规则来判断。“顾”兼作动词n记者顾小东n只顾短期的经济利益n规则:如果“顾”前有副词(只),则

12、“顾”不 为姓氏。 研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室中国人名识别“黄”兼作形容词n黄曾阳研究概念层次网络n彩色的光带射到黄玻璃上 规则: 如果“黄”后有物质名词,则“黄”不为 姓氏。“周”兼作量词n由周恩来任国务院总理n地球自转一周n规则: 如果“周”前有数词, 则“周”不为姓 氏。研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计

13、算机学院语言技术中心 哈工大-雅虎中国联合实验室外国人名识别英语姓名译名手册中共收英语姓氏, 教名约4万个, 经计算机统计得出英语姓名 译名用字表共476个: “啊阿埃艾爱昂奥巴白柏拜班邦包保堡鲍北贝倍本比彼边别滨宾玻波博勃伯卜布采蔡 藏策查察昌彻陈楚垂茨慈次聪存措达大戴代丹当道德得登邓迪底地蒂第帝丁东 杜敦顿多厄恩耳尔法凡范方菲费芬丰冯佛夫福弗辅富盖甘冈高哥戈葛格各根贡 古顾瓜圭郭果哈海罕翰汉杭豪赫黑亨洪侯胡华怀惠霍基吉季计嘉佳加贾简姜焦 杰捷金津京久居喀卡开凯坎康考柯科可克肯孔扣寇库夸匡奎魁坤昆阔拉腊莱来 赖兰朗劳勒乐雷黎理李里礼荔丽历利立莲连廉良列琳林霖龄留刘流柳龙隆卢鲁 露路吕略伦萝罗

14、洛玛马麦迈满曼芒茅梅门蒙孟米密敏明名摩莫墨默姆木穆拿娜 纳乃奈南内嫩能妮尼年涅宁牛纽农努女诺欧帕派潘庞培佩彭蓬皮匹平泼朴普漆 奇齐契恰钱强乔切钦琴青琼丘邱屈让热仁日荣茹儒瑞若撒萨塞赛三缮桑瑟森莎 沙珊山尚绍舍申生盛圣施诗石什史士寿舒朔斯思丝松孙索所塔泰坦汤唐陶特藤 提惕田铁汀廷亭通透图托脱娃瓦万旺威韦为维伟魏卫温文翁沃乌武伍西锡希悉 席霞夏显香向晓肖歇谢欣辛兴幸姓雄休修雪逊雅亚延扬阳尧耀耶叶依易意因英 永尤雨约宰赞早泽曾扎詹湛章张哲者珍真芝知智治朱卓兹子宗祖佐丕谟葆薇岑 弼娅缪珀瑙赉滕斐熙鸠窦艮麟黛”。 研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HI

15、T. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室外国人名识别利用这个译名表,可初步确定外国人 名在句子中的位置和边界。 设任一连续汉字串C1.Ci.Cn (n1) , 如果对所有的Ci (i=1,.,n),都有 Ci 属于译名表,则初步可认为该汉 字串为外国人名。研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室外国人名识别初步确定外国人名之后,再根据人名前后 的限制性成分,进一步确定外国

16、人名的界 限。 n政府总理卢卡诺夫参加了庆祝活动n英国首相撒切尔夫人访问美国根据译名表切分时会认为“理卢卡诺夫 , 撒切尔夫”是外国人,得出错误的切分 。这时,还要利用限制性成分“总理”和“夫 人”,使译名表中的汉字不能作用于限制性 成分“总理”和“夫人”之上,便可以得到正确 的切分:“总理/卢卡诺夫”, “撒切尔/夫人” 。 研究生专业必修课 自然语言处理 , 2007年秋季 Copyrights 2007. HIT. All Rights Reserved哈尔滨工业大学计算机学院语言技术中心 哈工大-雅虎中国联合实验室外国人名识别n我们也可以利用只能出现在外国人名首 和外国人名末的汉字作为特征字来判定 外国人名的边界。这需要分别建立相应 的字表来作为判定外国人名左右边界的 依据研究生专业必修课 自然语言处理 , 2007年秋

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 工程造价

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号