基于知识表示增强的类案模型

资源描述

《基于知识表示增强的类案模型》由会员分享，可在线阅读，更多相关《基于知识表示增强的类案模型（19页珍藏版）》请在金锄头文库上搜索。

1、基于知识表示增强的类案推荐模型惠欣恒，白雄文，王红艳，安娜，张萌(中国航天科工集团第二研究院七六所，北京 100854)0 引言随着大数据、人工智能等新一代信息技术的发展，从海量数据中侦查、检察和审判已成为我国建设智慧司法体系的一项重要课题1，也是这一领域的未来的发展趋势2。在办案过程中，参考类似裁判规则的案例，尤其是两高一部发布的指导性案例，能够辅助办案人员在案件事实、案件办理和案件裁判等方面进行判断，以案件相关信息为基础构建知识图谱可以有效提高办案质效3。知识图谱可以描述海量数据中存在的实体、实体属性及关系4，将案件相关信息形成具备丰富语义及潜在语义关系的知识网络结构。本文基于

2、本体构建技术5，6，梳理案件相关信息知识体系与专家知识结合，归纳总结案件相关信息专业术语，定义案件相关信息对应的类及类关系，并使用自然语言处理、深度学习等信息抽取技术将案件信息结构化，与本体类及关系建立映射，形成案件知识图谱。基于知识图谱信息，融合子图知识表示和注意力知识表示，并使用文本卷积神经网络进一步增强案件知识表示，提出一种基于案件知识表示融合及增强的类案推荐模型，将传统的单一需求检索和Key匹配检索转变为办案场景化感知、案件相关的智能知识服务。1 相关工作目前，推荐系统主要分为基于协同过滤、基于内容、基于知识及混合推荐的推荐方法7。基于协同过滤的推荐方法依靠历史数据进行推荐8，由于推荐

3、性能受到冷启动、数据稀疏性等问题的制约，因此引入了聚类、辅助信息以及隐含特征来缓解数据稀疏。基于内容的推荐方法使用描述信息进行推荐，为了与基于知识的推荐方法进行区分，这里的描述信息侧重于文本描述内容，如推荐信息的详细特征描述，由于特征描述容易引入噪声，因此会使推荐精度变差9。基于知识的推荐方法10，11依赖于推荐结果的特征知识的表征，传统的知识表征取决于人工设计的特征知识是否符合推荐偏好，尤其是在众多项目中，特征知识的设计需要具备深入的领域知识，因此，将深度学习、知识图谱等技术引入知识表示，是当前研究的一个热点。混合推荐方法12将多种推荐策略整合一起实现混合设计，特征组合的混合方案将不同种类的

4、输入数据进行组合，会导致推荐行为包含更多噪声，对推荐行为造成干扰。随着人工智能、大数据技术的发展，针对使用知识图谱以及图谱嵌入获取知识特征表示在推荐中的应用11，研究者进行了大量研究，进一步推动了推荐技术的研究和发展。通过构建知识图谱，将领域知识引入点节点与边的定义中4，并使用知识图谱嵌入技术将文本中包含的领域知识、语义信息进行向量化表示，可以得到领域知识图谱的特征表示12。综上所述，本文提出一种基于知识表示增强的类案推荐模型，该模型对文本内容进行知识图谱构建以及图谱嵌入，得到基于知识图谱的知识表征向量，使用注意力机制抓取关键语义信息，通过文本卷积神经网络对知识表征进行增强与融合，最后预测推荐

5、候选集的点击概率。本模型的贡献在于：(1)将知识图谱的构建任务及图嵌入任务进行联合，提高模型对特征知识的表示学习能力；(2)融合子图表示和注意力表示的案件知识表示，增强模型对文本关键特征的语义理解能力，从而进一步提升推荐的准确率；(3)使用文本卷积神经网络进行案件知识增强能够有效提升注意力范围，进一步提升模型对长文本的推荐准确率。2 基于知识表示增强的类案推荐模型本节提出一种基于知识表示增强的类案推荐模型(similar case recommendation model based on knowledge representation enhancement，KRE)，以智能辅助办案中类案

6、推荐任务为例对模型进行介绍。模型框架如图1所示，首先构建案件知识图谱，通过知识图谱嵌入技术学习案件知识表示向量；其次，针对查询案件与候选案件集，获取查询案件与候选案件知识表示和其对应的子图表示，并对查询案件表示向量与候选案件表示向量进行注意力矩阵构建，形成融合子图表示和和注意力表示的案件知识向量；再基于文本卷积神经网络进一步获取深层次案件知识特征；最后，定义模型目标函数及损失函数，训练优化模型超参数，获取最优模型状态。图1 推荐模型整体框架2.1 案件知识图谱构建本文基于司法案件研究相似案例推荐模型，属于对长文本数据的信息处理与加工。知识图谱通过实体与关系的三元组刑事表示案件信息：一是有效缓解

7、长文本带来的数据稀疏性；二是知识图谱的强表达能力，可以更加清晰表示案件的关系信息。案件知识图谱构建的数据类型包括结构化文本和非结构化文本。结构化文本涉及的案件基础信息包括：“案件名称”、“案件罪名”，非结构化文本只包含“案件案情信息”。本文基于本体构建技术，定义案件知识本体涉及类及关系13，并使用信息抽取技术，获取案件信息三元组 (h，r，t)，h，t分别表示案件要素的头实体和尾实体，属于案件要素集合中的元素，r表示案件要素间的关系，属于案件要素关系集合中的元素。将案件知识本体的类及关系与案件要素三元组数据进行映射，形成案件知识图谱，其构建流程如图2所示，由模式层和数据层两大模块组成。图2 案

8、件知识图谱构建(1)模式层模式层作为案件知识图谱构建的核心，本文通过与法学专家研究和讨论，以案件构成要素为基础，对案件案情信息的结构层次及各层次之间的逻辑关系进行分析，提炼案件要素相关概念，定义案件要素类和类属性及关系，形成案件知识图谱模式层结构，即完成案件知识本体构建。本文以案件为核心，依据案件构成要素将案件划分为5个类，分别是“案件相关人”、“案件相关时间”、“案件相关空间”、“案件相关物”及“案件犯罪行为”，并对这5个类的子类进行划分，如图3所示。图3 案件类及子类层次结构对案件类及子类进行划分后，形成案件知识本体整体框架，为了更准确描述案件涉及语义信息，进一步充实案件知识本体的内容，对

9、类及子类的关系属性进行定义，以“盗窃罪”案件案情信息为研究对象，梳理案件知识本体类及关系，见表1。本次案件知识本体设计定义15个类实体，12个关系属性，在定义的关系属性中，存在一个关系对应一个实体对的情况，也存在一个关系对应多个实体对的情况。表1 案件知识本体类实体及关系属性(2)数据层司法案件文书数据包括非结构化数据和结构化数据类型。通过大量案件文书内容分析，发现文书部分信息相对规范，例如报案时间、案件案由等基础信息，可以采用正则规则匹配方式进行信息抽取，而案件案情相关信息相对复杂，采用信息抽取算法抽取案件案情实体，使用知识融合及知识加工技术将所有案件信息进行三元组表示，形成形式。最后，将模

10、式层的定义的类及关系与数据层获取的三元组进行映射，形成案件知识图谱。本文以案件知识图谱作为司法知识类案推荐模型的数据基础，有效解决推荐模型存在的数据稀疏性问题，进一步提升推荐模型的准确性。2.2 知识图谱嵌入案件知识图谱是将案件要素以三元组的方式表示。使用知识图谱嵌入技术将三元组的实体和关系表征为低维连续空间向量，在保留结构信息的基础上方便后续的计算。同时，为考虑知识图谱中实体因长尾分布导致在表征学习过程中变得稀疏，而且知识图谱中往往存在噪音的问题，因此在表征学习时加入图增广缓解噪音问题。2.2.1 图增广在案件知识图谱G中，为保证知识图谱结构的稳定性和可解释性，通过不同的实体来区分生成的增强

11、知识图谱视图，以保证在图增广的过程中知识噪音扰动的不变性。以案件要素e的子图Ge为例，设计数据增广算子，也就是说针对子图Ge的图增广(Ge)(Ge)=(h，r，t)Me(1)这里 (h，r，t) 表示子图Ge的三元组，即在案件知识图谱G中以案件要素e为头实体或者尾实体的三元组，Me0，1 是二元指标，采取随机取值，表示在三元组采样过程中是否选择对应的三元组。通过数据增广算子，生成具有不同扩充结构视图的子图，这样做可以识别对结构变化不太敏感的实体，并对有噪声的实体连接更宽容，使知识图谱嵌入模块更有助于捕捉相关实体间的实际关系，并在表征学习时重点关注。2.2.2 图嵌入考虑到嵌入的多样性，本文使用

12、基于距离评分的翻译向量模型(translating embeddings for modeling multi-relational data，TransE)14和基于相似性匹配的语义匹配能量模型(semantic matching energy，SME)，训练两种不同类型的案件知识图谱嵌入。基于距离评分的TransE，是将知识图谱中的实体集合E和关系集合R表示在同一空间中，给定的案件三元组 (h，r，t)，向量分别表示为h，r，tRd，空间结构如图4所示。在向量空间中对于头实体h和尾实体t以及关系r需要满足h+rt，则对于每一个三元组 (h，r，t)，距离评分函数表达式如下图4 Tr

13、ansE中实体和关系空间表示fr(h，t)=h+r-t1/2(2)其中，表示L2距离。基于相似性匹配的SME在向量表示上与TransE类似，都是将案件三元组 (h，r，t) 的实体与关系映射同一空间中。假设嵌入向量h，r，tRd，头实体嵌入向量h、尾实体嵌入向量t与关系嵌入向量r，如图5所示，SME分别计算头实体与关系、尾实体与关系的语义匹配向量为gu(h，r)、gv(t，r)，并将其结果做点积运算，表达式如下图5 SME模型说明fr(h，t)=gu(h，r)Tgv(t，r)(3)进一步，使用双线性函数组合语义匹配函数gu()、gv()，其表达式如下gu(h，r)=(M1uh)(M2ur

14、)+bugv(t，r)=(M1vh)(M2vr)+bt(4)其中，M1u，M2u，M1v，M2vRdd是对应的参数矩阵，bu，bvRd是对应的偏置向量。在双线性函数中表示哈达玛(Hadamard)积。本文采用两类知识图谱嵌入方法是为了发挥知识图谱特有的空间结构性，基于距离评分的TransE表达图结构的性质信息，基于相似性匹配的SME表达节点间、关系间的相似性。2.3 知识表示增强知识表示增强模块是在图谱嵌入的基础上，融合子图和注意力机制的知识表示，并使用文本卷积网络进一步获取案件信息特征，增强案件知识表达能力。2.3.1 子图知识表示子图表示可以作为图谱嵌入的补充信息，增强实体之间关系语义信息

15、。对于每一个案件要素都可以作为头实体或尾实体与其它案件要素建立关系链接，形成案件要素对应的一阶子图结构，其表示为Ge=(e，r，t)or (h，r，e)|h，tEe；rRe，Ee表示与案件要素e直接链接的案件要素集合，Re是它们之间的关系集合。对给定的案件要素实体ei有对应的子图Gi，ei的子图知识表示为其子图中所有实体与关系的嵌入向量的平均值ei=1|Gi|e，rGi(e+r)(5)(6)其中，d表示知识图谱嵌入维度，n表示案件的案件要素实体数量，4是通道数量。2.3.2 注意力知识表示注意力机制是一种利用有限资源从大量信息筛选有效信息的手段15，本次采用注意力机制将查询案件的知识表示与待查案件的知识表示进行筛选与重新分配，获取注意力矩阵，进一步提升案件特征表达能力。如图6所示，注意力矩阵的构建是通过查询案件知识表示S0，rRdn4与候选案件知识表示S1，rRdm4间矩阵的计算，形成一个大小为nm4的注意力矩阵，具体计算表达式如下图6 注意力知识表示构建(7)其中，score()的计算方式可以是多种，本文的注意力矩阵采用score(x，y)=1/(1+|x-y|) 进行计算，x表示查询案件要素ei的嵌入向量，y表示待查案件要素ej的嵌入向量，|x-y| 是计算两个向量间的欧式距离。在得到注意力矩阵

展开阅读全文