文本信息结构化与可视化研究培训资料

上传人:yulij****0329 文档编号:141713372 上传时间:2020-08-11 格式:PPT 页数:24 大小:418KB
返回 下载 相关 举报
文本信息结构化与可视化研究培训资料_第1页
第1页 / 共24页
文本信息结构化与可视化研究培训资料_第2页
第2页 / 共24页
文本信息结构化与可视化研究培训资料_第3页
第3页 / 共24页
文本信息结构化与可视化研究培训资料_第4页
第4页 / 共24页
文本信息结构化与可视化研究培训资料_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《文本信息结构化与可视化研究培训资料》由会员分享,可在线阅读,更多相关《文本信息结构化与可视化研究培训资料(24页珍藏版)》请在金锄头文库上搜索。

1、1,文本信息结构化与可视化研究,赵铁军 哈尔滨工业大学计算机学院 语言技术研究中心 2004年7月12日复旦大学,2,提纲,计算机理解自然语言的表现方式 结构化与图形化 分层次结构化的理解系统 文本信息结构化的若干研究 网页链接结构可视化 汉语动词次范畴化框架自动分析 跨语言结构转换基于实例机器翻译,3,计算机理解自然语言的表现方式,人对自然语言的理解 行为反应 语言能力:问答/文摘/复述/翻译 显式或隐式地表达出语言的结构和意义:心理学家的看法人的理解过程是从词的序列中建构起具有层次安排的命题 计算机对自然语言的理解 面向应用的NLP上述2 对自然语言的多层次分析上述3:自然语言的结构化表示

2、,5,计算机理解自然语言的表现方式,自然语言的可视化或图形化:另外一种理解方式 图像理解自然语言化文本理解图形化 故事理解动画 对语言信息处理结果的一些简单而实用的图形化:词或短语识别结果的反显 / 句法结构树形图 / 依存关系图 / 评分结果的直方图 强调视觉效果,增强技术可信性又增加趣味性,6,文本信息结构化的若干研究(1)网页链接结构可视化,研究背景:挖掘特定专业领域(IT)网页信息关联结构的可视化,富士通研究开发中心有限公司委托研究项目 研究意义:互联网获取相关信息数据库 / 相关信息跟踪,7,网页链接结构可视化,网页实例: 2002秋季英特尔信息技术峰会主体演讲介绍 2002年10月

3、29日18:37 新浪科技 主体演讲: 10月31日星期四上午 A:开幕致词 演讲人: Jason Chen 职位:英特尔公司副总裁、英特尔公司亚太区总裁 相关链接 2002秋季英特尔信息技术峰会技术讲座介绍(2002/10/29 18:24)英特尔通过纳米技术扩展摩尔定律(2002/10/29 17:41)英特尔将至强处理器频率提升至2.80 GHZ(2002/10/29 17:36)英特尔:计算和通信融合是企业竞争优势的关键(2002/10/29 17:29)英特尔推出新技术和基础模块以解决存储难题(2002/10/29 17:27) ,8,网页链接结构可视化,可视化效果,9,网页链接结构

4、可视化,关键技术信息抽取模板 例如:产品模板 产品名称 产品所属公司名称 产品所属类别 产品相关的事件(如:推出、投放) 事件发生地点 事件发生时间 其他如:财务模板/人物模板/技术模板 ,10,网页链接结构可视化,关键技术特征词识别/二元关系确定 特征词表 名实体关系识别规则 类别权重 规则形式(从训练语料中自动获取) if PNverbinComPost then Pn-In:PN; Cur-Com:Com; Cur-Post:Post;,11,网页链接结构可视化,结果示例 中国联通董事长变更 杨贤足去职王建宙接任 Pn-In:王建宙 Cur-Com:中国联通 Cur-Post:董事长 P

5、n-out:杨贤足 Pre-Com:中国联通 Pre-Post:董事长,12,文本信息结构化的若干研究(2)汉语动词次范畴化框架自动分析,研究背景:国家自然科学基金项目(60373101) 研究目标:建立汉语动词次范畴化词汇知识库,服务于汉语文本信息自动处理技术的需要文本信息结构化的一个层次 汉语动词次范畴化框架(SCF)形式化描写:五元组= 其中V谓语动词集合 / TA论元类型集合(11种)/ NA相应谓语动词支配论元个数 / PA相应论元在SCF中的相对位置 / CL广义句法形态常量(“着了过”等6个),13,汉语动词次范畴化框架自动分析,实现过程:获取应用 获取过程 学习SCF预设集合:

6、43000简单句(词典例句+人民日报语料),1774动词非完整句法分析生成原始SCF预设集合统计过滤获得SCF预设集合并计算相应概率分布 / 结果138个SCF框架 从大规模真实文本中自动获取汉语动词SCF:6个月人民日报语料库,3558动词句法分析结果为输入错误校正模式提取SCF生成假设检验,14,汉语动词次范畴化框架自动分析,大规模自动获取结果,该结果可以和英语同类研究最好结果相比 英语53%65% 本研究53%56%,15,汉语动词次范畴化框架自动分析,成果:SCF知识库,动词总数=3502,16,汉语动词次范畴化框架自动分析,17,汉语动词次范畴化框架自动分析,应用:SCF分析过程 /

7、 输入=句法分析器输出,输出=句子SCF框架 示例 我们/r 要/vz 坚持/vg 解放/vg 思想/ng AP实事求是/i 的/usde BNP思想/ng 路线/ng 。/ 坚持: r vz vg vg ng AP BNP 坚持: NP v VP VO花/vg BNPBMP二百/m 元/q 人民币/ng 便/c 能/vz VO欣赏/vg BNT这里/s 一/m 年/q 的/usde 双/m 休/vg 日/q NP下午/t 的/usde 歌剧/ng 表演/vg 。/ 花: VO vg BNP c vz VO vg BNT usde m vg q NP vg 花: NP v NP VP,18,汉

8、语动词次范畴化框架自动分析,应用检验(初步):提高汉语句法分析精度,短语级精确率提高了5.36%,召回率提高了7.1%,句子级精确率和召回率提高了8.04% 今后工作改进:通过语义回退,取得自动获取SCF的更高精确率,19,文本信息结构化的若干研究(3)跨语言结构转换基于实例机器翻译,研究背景:科技部政府间国际科技合作项目(CI-2003-03),与爱尔兰都柏林城市大学合作 研究目标:面向奥运会服务的汉英-英汉翻译系统,重点领域体育、餐饮、交通、旅游 资源支持:国家863计划项目子课题(面向奥运智能信息服务的平行语料加工),汉英日三语句对数70万,20,跨语言结构转换基于实例机器翻译,系统实现

9、,Input,Trans module,Output,Examp base,Bilingual corpus,Auto KA,Examp Sel,Trans Sel,Surface Gen,Sent_align,Word_align,Examp_extrac,21,跨语言结构转换基于实例机器翻译,转换基础:大于词的结构对齐=汉英双语词汇对齐+双语词汇扩展片断对齐 扩展片断示例:原子词汇对齐 / 平行扩展(ab-AB) (bc-BC) (bcd-BCD) (cd-CD) (de-DE) / 非平行扩展(fghi-FGHI),22,跨语言结构转换基于实例机器翻译,翻译过程: 源语言片断匹配实例选择 目标语言片断匹配译文选择,23,翻译结果评测汉英翻译 NIST 2004 MT Evaluation (大规模语料训练) BLEU4:0.1023(区分大小写) NIST5:5.5672(区分大小写) / 5.8331(不区分大小写) 采用面向质量的数据训练策略后,分数提高:对齐质量=2*对齐词数/(汉语词数+英语词数) NIST5:6.34(不区分大小写) NIST5:6.5982(订正输出格式错误以后),跨语言结构转换基于实例机器翻译,24,谢谢各位!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号