文档详情

面向教育的中文知识图谱自动构建技术-

ji****81
实名认证
店铺
DOCX
157.88KB
约19页
文档ID:270624488
面向教育的中文知识图谱自动构建技术-_第1页
1/19

    面向教育的中文知识图谱自动构建技术*    吕品 贺云艳 许嘉 莫晓琨摘 要:随着知识图谱在教育领域的广泛应用,对根据教学内容自动构建知识图谱的需求越来越迫切针对教育类中文知识图谱生成技术中知识点易遗漏、知识点关系准确率不高、需要人工干预等挑战性问题,文章提出了教育知识图谱的自动构建技术该技术首先自动提取教学课本中关键知识点及关键知识点间的先后顺序,生成基于课本的知识图谱;其次,利用教学类PowerPoint演示文稿中特有的层次关系提取知识点间先后顺序,设置知识点间权重调整影响系数,生成基于PPT演示文稿的知识图谱;最后,将上述两种途径构建的知识图谱进行融合,形成准确率更高的知识图谱在真实数据集上的实验结果表明,该技术能够实现教育领域知识图谱的自动生成,且准确率能够达到90%以上关键词:知识图谱;关系提取;融合;教育:TP391.1      文献标志码:A          :1673-8454(2021)04-0086-07一、引言知识图谱(Knowledge Graph,KG)能够揭示知识之间的关系,近年来被应用于各个领域[1]在教育领域,知识图谱的应用主要分为知识库建设[2]、自适应学习[3]和虚拟学习助手[4][5]三个方面。

随着智能教育与教育的快速发展,教育知识图谱的使用需求不断增大但是目前仍然需要依赖领域专家手工构建知识图谱,远远不能满足教育信息化的需求因此,本文对中文知识图谱的自动构建技术进行研究目前,研究人员在英文知识图谱的自动构建方面已经取得了很多成果[6-8]然而,由于中文与英文有很大差异,难以将英文知识图谱自动构建方案直接应用于中文知识图谱其中主要原因是中文词组间没有可以进行分割的依据(例如空格),使得计算机很难识别有意义的单词或短语[9]尽管中文知识图谱的研究取得了一些进展,但与其他语言相比,中文文本的处理仍然面临着更加困难的情况[10]所以对于中文知识图谱的自动构建仍然存在很大的挑战知识图谱的构建技术主要包括知识点抽取和关系抽取两个步骤现有的教育知识图谱关系抽取技术多在教材的基础上结合诸如Wikipedia的知识库来进行,虽然这种结合方法比较有效,但也大大增加了人工成本为解决上述问题,本文提出了新的知识图谱自动构建技术该技术的不同之处在于提出了将基于教学课本生成的知识图谱与基于教学演示文稿生成的知识图谱相融合的方法生成知识图谱PowerPoint演示文稿(以下简称PPT演示文稿)是教师在教学过程中常用的工具,具有内容精炼、层次清晰等特点,起到了连接“学生—教师—教材”的作用。

PPT演示文稿通常包含教师对教学内容的归纳总结,其中的层次结构有助于提取知识点之间的先后顺序因此,将PPT演示文稿作为构建知识图谱的依据,能够提高知识图谱的准确率教材和PPT演示文稿在构建知识图谱方面各有优点:教材包含的内容较多,提取的知识点容易存在冗余,但其包含的知识点比較全面;PPT演示文稿通常只包含重点知识,导致其包含知识点不全面,但PPT演示文稿内容精炼、结构清晰鉴于此,本文利用两者的优点,针对教学PPT演示文稿的层次结构和计算机类教材的详细内容进行知识点先决关系的提取本文首次提出了以教材与PPT演示文稿相融合的方式自动构建教育领域中文知识图谱,主要贡献如下:①提出了基于教学PPT演示文稿生成知识图谱的技术KG-S(Knowledge Graph based on Slides),该技术充分利用了PPT演示文稿的特点,能生成灵活性较高的知识图谱②提出了面向教育的中文知识图谱自动生成技术KG-T&S(Knowledge Graph based on Text and Slides),该技术能够将基于教材生成的知识图谱与基于教学PPT演示文稿生成的知识图谱融合③针对计算机领域教育用途的中文知识图谱自动生成技术展开研究,基于真实的数据集生成了特定领域知识图谱。

二、相关研究目前教育领域知识图谱构建技术主要分为半自动构建知识图谱技术和自动构建知识图谱技术两类1.基于半自动化的方法构建知识图谱半自动化生成知识图谱是指知识图谱的生成过程有一部分需要人工进行文献[11]作为典型的半自动构建知识图谱的工作,杨玉基等通过对领域知识图谱构建方法进行系统的研究后,提出了“四步法”构建领域知识图谱:首先使用半自动的方法进行领域本体构建,然后进行众包半自动语义标注,再对标注好的语义进行外源数据补全,最后进行信息抽取,得到了高质量的通用领域知识图谱半自动方法生成的知识图谱虽然精度高,但是其过程会耗费大量人力,很难获得大规模的知识图谱,并且生成知识图谱的效率无法得到有效的保证2.基于自动化方法构建知识图谱自动化构建知识图谱是指构建知识图谱的过程中不涉及(或较少涉及)人工干预,主要依赖于计算机处理实现Wang等人认为传统的概念图提取方法包括关键概念提取和概念关系识别两个子问题先前的研究大都独立考虑这两个子问题,但这两个问题实际上是紧密耦合的,独立解决这些子问题可能会导致性能欠佳[12]其提出的框架可以共同优化这些子问题,为后续研究提供了新的思路但框架虽然可以实现将候选概念分类为“关键概念”或“非关键概念”,从而获得该领域的一组关键概念,却没有实现对关键概念及关系的抽取。

黄光轮等人提出了一种利用 Microsoft Office 编程技术、文本挖掘技术和社会网络分析技术自动提取 PPT 文档中的概念术语、概念术语之间的关系及构建概念图的算法[13],为基于教学PPT演示文稿构建知识图谱的后续研究提供了详细的的思路,但由于PPT演示文稿存在包含知识点不完全的特点,所以基于PPT生成的知识图谱准确率不稳定Shyi-Ming Chen等人提出了一种基于数据挖掘技术的自适应学习系统自动构建概念图[14],他们使用Apriori 算法分析学生答题结果,从而挖掘关联规则,进而生成知识图谱但是该方法在某些情况下无法正确构造概念图,Shyi-Ming Chen等人在该工作的基础上提出了一种改进Apriori 算法[15],分析学生答题结果,生成知识图谱Huang 等人在Apriori算法的基础上引入了分类算法[16],首先学生测试记录的分类,以降低应用数据挖掘过程之前的计算复杂性,然后每个子集进行数据挖掘计算各个子集的概念之间的相关度上述工作都只用到了单一形式的数据,没有考虑到数据的多源化,单一形式的数据可能造成所生成的知识图谱包含的知识点不完全,不能生成准确的知识图谱。

文献[17]提出了KnowEdu系统来自动构建教育领域的知识图该系统对教学数据采用神经序列标记算法来提取关键概念,并对学习评估数据采用概率关联规则挖掘来识别与教育意义的关系,取得了不错的结果该工作在构建知识图谱的过程中虽然使用了教材和学生成绩数据,但由于是在不同的阶段分别进行使用的,没有实现两种数据的知识融合本文使用教师上课常用的教学工具(即教材和PPT演示文稿),考虑了数据的多源性,并且利用了不同数据的各自特点来构建知识图谱三、技术整体框架针对现有中文知识图谱自动构建技术的不足,本文提出了计算机领域的面向教育的知识自动图谱构建方法该方法包含三个主要部分:①基于计算机类教材构建知识图谱②基于PPT演示文稿构建知识图谱③将基于教材构建的知识图谱和基于PPT演示文稿构建的知识图谱相融合教育知识图谱构建的关键在于利用知识抽取、知识融合等技术抽取出教育领域中的实体,并建立知识之间的联系[18]知识图谱的基本构建过程如图1所示,从非结构化的数据源(教材和PPT演示文稿)开始,经过知识抽取、知识表示、知识融合等步骤,使得初始数据通过概念抽取和关系抽取转换成三元组(Resource Description Framework,RDF)形式,用于知识的初步表示。

RDF数据再经过实体对齐,加入数据模型,形成标准的知识表示知识融合的过程中如产生新的关系组合,则对这些新的关系组合进行知识推理,进而形成新的知识形态,最后与原有知识共同经过质量评估,完成知识融合,形成完整形态的知识图谱[19]1.KG-T:基于计算机类教材构建知识图谱技术(1)预处理由于计算机类教材中有许多例题和算法例子,经调研发现这些例子占了很大文本篇幅,并且例子中包含的关键概念较少,所以在预处理过程中,本文首先去除掉文本中的例题、图片、算法例子以及表格等内容这个过程大大缩小了正式工作中所要处理的文本内容2)关键概念及关系抽取基于教材文本构建知识图谱的工作中,本文首先导入计算机领域专用词典(https://本文选择使用了较新的Transformer模型提取关键概念关系(https:// Multi-Head Attention 模块抽取文本中重要的特征,并通过将残差网络叠加的方法,将注意力层得到的输出与输入拼接并进行正则化使用堆叠的多层注意力机制,能够有效抽取句子中的关键信息最后將 Transformer 的结果连接至全连接层得到最终的概念间关系的分类结果2.KG-S:基于教学PPT演示文稿构建知识图谱技术基于教学PPT演示文稿构建知识图谱同样包括关键概念提取和概念关系提取两个问题。

先前的研究大都独立考虑这两个子问题,虽然已经获得了一定的成果,但基于PPT演示文稿层次结构的特点,独立解决这两个任务不利于对PPT演示文稿层次结构的利用本文提出的KG-S技术充分利用PPT演示文稿层次结构清晰的特点,考虑上下层关系,把PPT演示文稿的概念提取和关系提取两者结合进行,具体过程如图3所示在基于PPT演示文稿生成知识图谱的过程中,首先提取出包含层次结构的PPT演示文稿的纯文本内容,然后使用模型依次按行提取关键概念,并判断提取的关键概念的层次,再将提取结果依次保存到该层次指定的位置上,对两次保存的结果进行对比,最后依据关系提取规则将对比结果进行结合,并根据赋值规则赋予提取结果一定的权重值1)提取PPT演示文稿文档中的纯文本数据提取的纯文本数据包括文本内容及文本内容间的层次关系本文使用 Microsoft Office 软件将PPT演示文稿文件保存为RTF文件,达到提取目的2)模型介绍本文使用RoBERTa-wwm+BiLSTM+CRF三层模型提取PPT演示文稿层次中的概念BiLSTM+CRF是现在较为主流的实体识别模型(见图4),双向的LSTM模型可以更好地处理输入前后的特征;CRF层使得模型可以使用句子级别的标签信息,从而更好地建模标签之间的限定关系。

在训练过程中,为构建模型的训练语料,本文采用Inside-Outside-Beginning(IOB)标注体系对文本进行标注,获得训练集将训练集中句子输入到 RoBERTa 模型,其输出的结果(词向量)作为BiLSTM的输入图4展示了BiLSTM+CRF模型的框架BiLSTM模型的输出结果是各个标签的概率,作为CRF的输入不使用CRF模型的情况下,BiLSTM模型会输出结果中概率最大的结果作为最终结果但是,当预测结果的得。

下载提示
相似文档
正为您匹配相似的精品文档