单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,*,文本结构化技术的初步实现与中文缩略语还原技术初探,指导教师:俞士汶教授,,学生:支流,,,Sunday, September 15, 2024,,内容提要,,文本结构化技术,,建设结构化语料库的必要性,,文本结构化技术实现,,中文缩略语还原技术初探,,中文缩略语的研究意义,,中文缩略语分类框架,,朴素的缩略语还原技术,,缩略语知识库的建设,,内容提要,,文本结构化技术,,建设结构化语料库的必要性,,文本结构化技术实现,,中文缩略语还原技术初探,,中文缩略语的研究意义,,中文缩略语分类框架,,朴素的缩略语还原技术,,缩略语知识库的建设,,综合型语言知识库简介,语法,词典,标注语料库,句法知识,语义词典,概念词典,语义知识,词库,短语规则库,日常用语,术语库-专业用语,单语,平行语料库-双语,现代汉语,古诗-古代汉语,语法,词典,标注语料库,,语法信息词典与语料库之间的缝隙,词语,词类,同形,拼音,频次,例句,注,抄,v,A,chao1,,,照原稿写,抄,v,B,chao1,,,走近道,此类,/r,编著,/v,内容,/n,是,/v,抄,/v,,自,/p,别人,/r,的,/u,,,,,,炮兵,/n,学院,/n,原来,/d,围墙,/n,残缺,/v,,,/w,周边,/n,群众,/n,进城,/v,,,/w,习惯,/v,抄,/v,,近道,/n,。
/w,,文本文件与数据库文件的对应较麻烦,,“词语+词类+同形”为主关键项的数据库文件,,进行了词语切分和词类标注的文本文件,,结构化语料库的格式,切分单位,,长,,年,,月,,日,,版,,篇,,段,,句,,位,,19981201-01-002-001/m,,21,,1998,,12,,01,,01,,02,,001,,01,,00,,圆满,/ad,,07,,1998,,12,,01,,01,,02,,001,,01,,01,,结束,/v,,06,,1998,,12,,01,,01,,02,,001,,01,,02,,对,/p,,04,,1998,,12,,01,,01,,02,,001,,01,,03,,俄罗斯,/ns,,09,,1998,,12,,01,,01,,02,,001,,01,,04,,和,/c,,04,,1998,,12,,01,,01,,02,,001,,01,,05,,日本,/ns,,07,,1998,,12,,01,,01,,02,,001,,01,,06,,的,/u,,04,,1998,,12,,01,,01,,02,,001,,01,,07,,访问,/,vn,,07,,1998,,12,,01,,01,,02,,001,,01,,08,,19981201-01-002-002/m,,21,,1998,,12,,01,,01,,02,,002,,01,,00,,江,/nr,,05,,1998,,12,,01,,01,,02,,002,,01,,01,,泽民,/nr,,07,,1998,,12,,01,,01,,02,,002,,01,,02,,……,,,,,,,,,,,,,,,,,,,,结构化语料库可以方便地进行语料库上的各项数据统计。
例如统计某个时间段某个词出现的频度内容提要,,文本结构化技术,,建设结构化语料库的必要性,,文本结构化技术实现,,中文缩略语还原技术初探,,中文缩略语的研究意义,,中文缩略语分类框架,,朴素的缩略语还原技术,,缩略语知识库的建设,,结构化文本技术的实现,,结构化文本技术的实现几大特点,,,,,可以让用户自主选择需要的属性项,,,有两种输出文件格式供用户选择,,结构化文本技术的实现,,,结构化文本技术的实现,,,内容提要,,文本结构化技术,,建设结构化语料库的必要性,,文本结构化技术实现,,中文缩略语还原技术初探,,中文缩略语的研究意义,,中文缩略语分类框架,,朴素的缩略语还原技术,,缩略语知识库的建设,注:论文中的缩略语部分节选已经被第八届“全国计算语言学联合学术会议”录用,,中文缩略语的研究意义,,缩略语是自然语言的重要组成部分,缩略语规律的探索和缩略语还原是,973,项目“,文本内容理解的数据基础,”的重要组成部分,,与香港大学合作项目,为多语言缩略语共同规律研究提供数据基础和技术借鉴,,,中文缩略语的研究意义(二),,研究达到的最终目标的缩略语的还原和生成,即为缩略语的解码和编码,,近期目标是切分标注好的语料中的缩略语还原,,,内容提要,,文本结构化技术,,建设结构化语料库的必要性,,文本结构化技术实现,,中文缩略语还原技术初探,,中文缩略语的研究意义,,中文缩略语分类框架,,朴素的缩略语还原技术,,缩略语知识库的建设,注:论文中的缩略语部分节选已经被第八届“全国计算语言学联合学术会议”录用,,根据缩略语和全称的,对应方式,分类,,一对一:北大 北京大学,,一对多:人大 人民大学,,全国人民代表大会,,多对一:电扇 电风扇,,风扇,,多对多:南开 南京大学,,南大 南开大学,,,中文缩略语分类框架,,,中文缩略语分类框架(二),,从缩略语的,形成方式,分类,,字面与全称无关,,多为地名型:云南→黔,上海→沪,,字面与全称有关,,在简称中间有()出现的:乡(镇),厅(局)长,寒(暑)假,出国(境),,在简称中没有()出现的,,,中文缩略语分类框架(三),,缩合:大中小学生,乡镇企业,,提取,,北京大学→北大,,婚姻介绍所→婚介所,,欧洲中部→中欧 (,倒序情况,),,节略:清华大学→清华 ,复旦大学→复旦,,提取和节略结合:全国人民代表大会→人大,,总结性:三个代表 ,三好,五好,,特殊缩略语,,局部近义词替代:浮式起重机→浮吊,,局部上位词替代:中华人民共和国教育委员会→国家教委,,,内容提要,,文本结构化技术,,建设结构化语料库的必要性,,文本结构化技术实现,,中文缩略语还原技术初探,,中文缩略语的研究意义,,中文缩略语分类框架,,朴素的缩略语还原技术,,缩略语知识库的建设,注:论文中的缩略语部分节选已经被第八届“全国计算语言学联合学术会议”录用,,测试语料:,1998,年,1,月,1,日至,3,日的,《,人民日报,》,切分标注好语料,共有,33450,个词语,其中缩略语,97,个,朴素的缩略语还原技术,,缩略语数据库,,《,简称略语库,》,中,,,608,条缩略语作为,,种子。
全文索引,,规则排序,,,在文件中找到匹配词组,60%,在文件中未找到匹配词组,40%,,全文索引,,仅,6,个缩略语的匹配结果唯一,,,,52,个缩略语都至少有,2,个匹配结果,,,,其中仅“中”匹配出,57,个不同的词组规则排序,,是否出现在数据库中,距离缩略语的远近,备选全称的内部结构,……,匹配出,31,个缩略语,其中正确的,30,个,正确率,51.7%,,匹配出,45,个缩略语,其中正确的,42,个,正确率,72.4%,正确匹配出,51,个缩略语,,,正确率为,87.9%,,实验结果,,实验结果统计:,,扩大缩略语数据库的规模,缩略语对应的全称的筛选方式仍不完善下一步在使用规则的方法的同时将加入统计的方法,缩略语知识库的建设将是下一步工作的重中之重全国人民代表大会,……,人大,……,人民大学,,内容提要,,文本结构化技术,,建设结构化语料库的必要性,,文本结构化技术实现,,中文缩略语还原技术初探,,中文缩略语的研究意义,,中文缩略语分类框架,,朴素的缩略语还原技术,,缩略语知识库的建设,注:论文中的缩略语部分节选已经被第八届“全国计算语言学联合学术会议”录用,,缩略语知识库的建设,,缩略语,全称,前接词,后接词,属性,3,属性,4,一国两制,一个国家,两种制度,,,,,人大,人民大学,,学生,校长,,,人大,人民代表大会,全国,,,,上海,沪,,,,,……,……,……,……,……,……,,,谢谢,,,,。