HMM词性标注 - 南京大学课件

上传人:我*** 文档编号:142095765 上传时间:2020-08-16 格式:PPT 页数:25 大小:1.24MB
返回 下载 相关 举报
HMM词性标注 - 南京大学课件_第1页
第1页 / 共25页
HMM词性标注 - 南京大学课件_第2页
第2页 / 共25页
HMM词性标注 - 南京大学课件_第3页
第3页 / 共25页
HMM词性标注 - 南京大学课件_第4页
第4页 / 共25页
HMM词性标注 - 南京大学课件_第5页
第5页 / 共25页
点击查看更多>>
资源描述

《HMM词性标注 - 南京大学课件》由会员分享,可在线阅读,更多相关《HMM词性标注 - 南京大学课件(25页珍藏版)》请在金锄头文库上搜索。

1、地理高考试题的试题分析初探,戴新宇 博士 副教授 南京大学课题组,2020/8/16,2,内容概要,试题分析框架 试题手动标注及总结 试题自动标注:分词、实体识别、术语 试题语义分析及表示,2020/8/16,3,试题分析框架,2020/8/16,4,试题手工标注,目的: 通过对若干试题进行规范化、系统化的标注,掌握试题中词法、句法、语义特性, 把握试题的类型、求解目标、知识点分布等, 进而抽象出人工标注过程中学习得到的知识和求解策略 标注结果将来可以作为标注数据,利用自然语言处理和机器学习方法,对新的试题进行自动的标注,这些标注的结果将用于解题。自动标注的时间、地点、术语等可以帮助分析理解试

2、题,标注出的知识点、求解目标、问句模式可以帮助确定查询目标及确定解题策略。,2020/8/16,5,试题手工标注规范,给定的一道试题(选择题)及 ABCD 四个选项,对其进行手工的标注,需要标注的内容包括: 求解目标 (Answer Type): 多实体、单实体、判断、流程、其它; 问句模式 (Question type): 事实、因果、比较、关联、图表计算、其它。(注:四个 选项的求解模式可能不同,因此此项标注以选项为单位); 时间: 标注出该试题及选项中存在的时间名词及短语; 地点: 标注出该试题及选项中存在的地点名词和短语; 术语: 标注出该试题及选项中存在的地理学科专业术语; 课本知识

3、点: 标注出该试题所考察的知识点在书本上对应的书号、章、节; 思维导图知识点: 标注出该试题所考察的知识点在思维导图中所处的位置; 图片: 标注出图片的类型,以及图片中包含的三元组信息。,2020/8/16,6,手工标注总结(求解目标),共28套试卷, 486个选择题, 1944个选项进行了标注,试卷包括2006-2014年北京市高考地理试卷,以及近几年北京市海淀区、西城区、东城区、 朝阳区的模拟试卷。 求解目标: 486个选择题, 其中“判断”357个,“单实体”83 个,“多实体”36 个, “流程”9 个,“其它”1 个。题面中的某些词汇基本可以确定求解目标。 “分别”、“依次”:“多实

4、体”题型 “顺序”、“阶段”:“流程”题型 “正确”、“原因”、“影响”:“判断”题型 ,2020/8/16,7,手工标注总结(求解目标标注示例),2020/8/16,8,手工标注总结(问句模式),问句模式:问句模式以选项为单位,但是有些试题4个选项的问句模式一致, 因此共标注1944个问句模式, 其中“事实”1177个, “因果”363个, “比较”218个,“图表计算”112个,“关联”70个,“其它”4 个。 题面中的某些词汇基本可以确定求解目标。 如“相比”、“最大”、“最高”:“比较”问 句 “看出”、“能够”:“关联”问句 “原因”、“导致”、“因为”、“因 素”:“因果”问句。

5、,2020/8/16,9,手工标注总结(问句模式标注示例),2020/8/16,10,手工标注总结 (时间词),时间词标注:486道试题共标注时间词251个。我们基于时间词及短语的形式进行了归类,将试卷中的时间词及短语分为 9 类,包括: 周期类,如“每天”“每年雨季”“每年10月4 日至10日”等; 时间段,如“1-3 月”“从 2010 年起”等; 季节(包括部分节气),如“春季”“秋冬季”“夏至日”“冬夏之交”等; 不同粒度的时间点,如“2013 年”“午后14点左右”“此日后20日”等; 有条件的时间点,如“气温最低时”“甲天气系统途径菲律宾时”“地震发生后”等; 某时期,如“甲时期”

6、“十二五期间”等; 一天中的某时段,如“日出时间”“日出日落时间”“上午”等; 虚拟指代的时间,如“某年”“该日”等; other:其他。,2020/8/16,11,手工标注总结 (地点词),地点词标注:486道试题共标注地点词1019 个。 我们依据地点词或短语的构造规律,对地点词进行了归类,将试卷中的地点词及短语分为 9 类,包括: 包含经纬度的地点, 如“90E”,“北纬 50”等; 虚拟指代的地点, “图示河流”“该国东北部的某河河口附近”等; 行政区域,国家、省、市、县等等,如“江苏省”“北京市”“苏、皖、浙、闽 四省”等; XX 站,如“空间站”“中山站”等; XX 平原、高原等,

7、包括特例” 公园”,如“长江流域”“台湾岛”“巴西兰索 瓦玛朗汉斯国家公园”等; XX 区,如“喀斯特地貌地区”“中国部分农业主产区”等; 包含方位词, 如“向北”“城市中心”“地中海沿岸”等; 8. other:其它。,2020/8/16,12,手工标注总结 (术语),术语标注:486道试题共提取术语 1547 个。 术语的标注可能存在不一致的问题,比如“太阳年辐射总量”“工业生成成本”等是否归为术语值得进一步探讨。 地理学科术语需要一个规范的、明确的集合,以供构造知识库和试题分析所用。,2020/8/16,13,手工标注总结 (思维导图知识点),思维导图知识点标注: 基于北京大学出版社出版

8、的思维导图伴你学(高中地理 学习导图)一书。 我们知识点的分布进行了考察, “中国地理概况”、“地球和地图”、“人口数量变化和人口的合理容量”等知识点出现的比较频繁, 需要对这类知识点的试题进行重点的研究和突破。 由于思维导图结构相对复杂,部分同学标注不够规范。,“人口老龄化”、“常住人口”、“养老金”: “人口数量变化和人口的合理容量” 。 “信风带”、“副热带”等:“气压带和风带”,2020/8/16,14,手工标注总结 (课本知识点),课本知识点标注: 基于北京市高中地理用书,包括3本必修,和7本选修课本 515 道试题共标注课本知识点总条数921条。其中超过 60% 集中在“必修一”和

9、“必修二”两本书中。,“侵蚀”、“板块”、“堆积”、“岩石”: “必修一 - 第四章”,图表分类,地图 底图:平面图、剖面图 叠加图:网格(如经纬度)、曲面(如海拔)、等值线(如等压线)、散点 表格与图表 表格 图表:柱形图、堆积条形图、散点图、折线图、曲面图 流程图 照片,图表标注举例,2020/8/16,17,手工标注总结,标注标准需要完善,需要更规范的标注体系; 标注质量参差不齐,需要进一步提高; 需要增加新的标注内容:如中心词、谓词等 需要标注更多,2020/8/16,18,试题自动标注,2020/8/16,19,试题自动标注:词法,手工标注了2013-2014 两年的北京高考试题,对

10、其进行手动的分词和术语标注,作为分词、时间词、地点词、术语识别的测试集。 分词结果的F-Score超过了90%, 错误中超过50%是术语识别的错误。10%左右为包含标点的切分错误(如7.8%),10%左右为包含指代的实体识别错误(如“甲地”)。 假设词典包含试卷中的所有术语,加一些额外的后处理,能够达到96%+。,2020/8/16,20,试题自动标注:句法,2020/8/16,21,试题自动标注 (句法语义),Abstract Meaning Representation(AMR) 一种简单的能够表达句子内部概念之间语义关系的一种表示方式。,2020/8/16,22,试题自动标注 (句法语义

11、),Abstract Meaning Representation(AMR) 一种简单的能够表达句子内部概念之间语义关系的一种表示方式。 分析的过程分为三个阶段:concept identification, relation identification, parsing。,2020/8/16,23,试题自动标注 (句法语义),Abstract Meaning Representation(AMR) 一种简单的能够表达句子内部概念之间语义关系的一种表示方式。 分析的过程分为三个阶段:concept identification, relation identification, parsing。,2020/8/16,24,试题自动标注 (句法语义),Abstract Meaning Representation(AMR) 一种简单的能够表达句子内部概念之间语义关系的一种表示方式。 分析的过程分为三个阶段:concept identification, relation identification, parsing。 要想实现面向地理考题文本的AMR 需要确定所有实体及概念的定义 需要给出带有语义框架的中文词典 需要一定规模的AMR 标注语料。 与知识图谱结合,利用知识图谱中的概念及关系作为约束, 帮助确定文本图表示结果。,2020/8/16,25,谢谢,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号