基于语义网的初中数学的自动语义标注方法研究与实现

资源描述

《基于语义网的初中数学的自动语义标注方法研究与实现》由会员分享，可在线阅读，更多相关《基于语义网的初中数学的自动语义标注方法研究与实现（81页珍藏版）》请在金锄头文库上搜索。

1、电子科技大学 UNIVERSITY OF ELECTRONIC SCIENCE AND TECHNOLOGY OF CHINA 硕士学位论文 MASTER THESIS 论文题目基于语义网的初中数学的自动语义标注方基于语义网的初中数学的自动语义标注方法研究与实现法研究与实现学科专业计算机软件与理论计算机软件与理论学号 201121060365201121060365 作者姓名何中山何中山指导教师王庆先王庆先分类号密级 UDC 学位论文基于语义网的初中数学的自动语义标注基于语义网的初中数学的自动语义标注方法研究与实现方法研究与实现何中

2、山何中山指导教师王庆先王庆先副副教授教授电子科技大学电子科技大学成成都都申请学位级别硕士硕士学科专业计算机软件与理论计算机软件与理论提交论文日期 2014 年年 3 月月论文答辩日期 2014 年年 5 月月 28 日日学位授予单位和日期电子科技大学电子科技大学 2014 年年 6 月月 29 日日答辩委员会主席评阅人 SEMANTIC WEB-BASED AUTOMATIC SEMANTIC ANNOTATION OF JUNIOR HIGH SCHOOL MATHEMATICS RESEARCH AND IMPLEMENTATION A Master Thes

3、is Submitted to University of Electronic Science and Technology of China Major: Computer Software and Theory Author: Zhongshan He Advisor: Qingxian Wang School : School of Computer Science ”和“”分别表示“”。此外，所有的标记必须是成对出现，当一对标记出现在另一某个标记中时，必须是正确嵌套出现，出现否则对信息提取会带来极大的不便。由于网页中是以标记为基本单位识别和处理的。经过上面的修正之后，做文本提取，首

4、先针对网络中的大多数网页的特点分析，我们得出如下三大类：网页文本格式描述信息和框架描述信息。网页描述信息是对网页的格式、使用的编码方式、采用的文档协议版本做一个比较详细的说明，对于这类信息，只需要对其丢弃即可。而网页框架描述信息可能是对文档的总的概括，所以对于标注具有很重要的参考，因此，如果有这类信息的话需要把这些信息提取出来。标题、主体文本、说明正文的文字或者图片。正文文本为说明、解释或者叙述某个事物最重要的信息，其次可能还有对主题作说明的文字，也是一个能很好反应文档主题的信息，这些都是网页信息提取的关键对象。链接以及广告信息。这部分中，链接可能是一个对该网页信息主体能够做很好说明的信

5、息，也可能是属于同一类的事物等等，但是这些对文档分析作用不是很大，可以将这些忽略。通常广告设计的表达是图文并茂，但是广告信息中文本信息和图片信息的比例图片拒绝大多数，因为图片看上去更直观，更有说服力，电子科技大学硕士学位论文 28 因此。由于技术上的欠缺，图片中隐藏的信息很难提取并加以利用和挖掘。因此我们将网页中的图片一概过滤掉。 4.3.2 网页文本抽取根据上面分析我们采用四节点结构将这些文本信息以 XML 文档的形式保存下来，即保存标题、主体文本、文档辅助说明和网页 URL（保存 URL 是为了以后重新定位网页使用）。为此，我们所做的文本提取算法步骤如下（下面节点中的 txt表示节点对

6、应的文本）： Step 1. 将网页中的 txt 节点或者嵌套节点内的节点的 txt 节点内容整块保存到结构化文本文档中的 txt 节点中； Step 2. 将网页中的 txt 所有节点整块读取出来，如果不为空则进入步骤 3 的处理； Step 3. 将 txt 里面可能存在的链接信息、文档格式说明信息等去除； Step 4. 将 txt , txt 和 txt 等节点中的内容重复步骤 23 提取信息； Step 5. 最后将步骤 24 中的字符串连接在一起，整块保存在结构化文本文档中的 txt 节点中； Step 6. 如果网页中有说明文本，则将其保存在 txt 节点中，否则将该节点的值置

7、空； Step 7. 将网页 URL 保存在结构化文本文档中的 txt 中，至此，文本信息提取完成。 4.3.3 中文分词处理经过前面的文本处理，接下来便是做分词处理。分词部分主要是利用中文分词工具IKAnalyzer分词器对结构化文档做分词处理，本文采用IKAnalyzer3.x 版本。首先需要说明的是 IKAnalyzer 分词器的体系结构，如图 4-4 所示。 IKAnalyzer 分词器整体分为五个单元，扩展配置管理单元、为 lucene 提供接口的单元、IK Segmentation 主分析器、词元处理单元以及词典配置管理模块。由于本文使用的单元主要有有词典配置管理模块和 IK

8、Segmentation 主分析器，所以将不对其他单元做详细介绍。使用词典配置管理模块用于字典的加载词典文件扩充，IK Segmentation 主分析器用于分词处理。第四章基于语义网的初中数学文档自动语义标注系统 29 IK分词器查询分析器相似度评估器IK Analyzer For Lucene 接口单元IK Segmentation 主分析器字母处理数量词处理中文处理词元处理子单元词典加载管理词典检索算法单元词典文件词典配置管理模块扩展配置管理单元图 4-4 中文分词系统架构图分词是否准确，一个非常关键的因素是要有一个比较完善的分词词典。因此首先要做的工作是生成一个能够

9、词条准确、完备的字典。通过匹配实验知，原词典中有很多的词汇对于分词是多余的，有些术语却在词典中未找到。经过进一步分析得知，实验未能找出这些术语是因为数学中有很多的词汇在是由这些基本词汇组合而成的，例如， “相似三角形” ，这个名词是以“相似”和“三角形”两个词汇分别出现在字典中的，类似的还有“正弦定理” 、 “一元二次方程”和“相似三角形判定定理”等。同时，确实有一部分的词汇是词典中没有的，比如英文字母和汉字组合的“HL 定理” 、以人命名的定理“史坦纳雷米欧司定理”和一些数学中处理公式的方法“降次”等词汇。普通的字典不管是分词的效果不好，还是精度均不能满足要求，因此需要专门重新修正词典来达到

10、这一目的。为了能够辨别出相关专业词汇，还要较为准确的切分出数学中的常用表达词汇。在基于IKAnalyzer 分词器的基础上，通过工具提供的接口可以比较容易的对词典做扩展，更确切的说是对词典做扩展。利用 IKAnalyzer 分词器自带的词典扩充接口、结合初中数学知识本体生成一个专有名词术语字典文件（未包含在初中知识数据库的专有名词），以便于更准确的分词。电子科技大学硕士学位论文 30 4.3.4 同义词替换由于网络的普及性，异构性，可能有许多词汇都能够表达同一个意思，一部分是比较规范的描述，也可能存在不规范的描述，为了能够更好的利用文档有用信息，在中文分词处理之后，将对整个文档中的词汇做

11、一些修正。本文的处理方法是尽可能多的收集网络中存在的各种专业术语，将这些专业术语以 XML 格式保存起来。如果遇到 concept 节点的词汇，则将这些词汇替换为 concept 节点中的术语，即通过同义替换。节点结构如下表所示。表 4-1 同义词词典节点结构表 concept(为本体中定义类、概念或者实例) concept_1，concept_2，concept_n 其中 concept(本体中定义类、概念或者实例) 子节点中 concept 为某一在初中数学知识库中标准定义的类、概念或者实例，而concept_1，concept_2，concept_n 节点中的值concept_1，c

12、oncept_2，concept_n 为网络术语、简称、或者其他表达式，在处理时将 concept_1，concept_2，concept_n 节点中的字符串都将替换成 concept 中的概念。 4.4 丢弃处理模块如下图 4-5 所示是丢弃处理模块框架图。相对前面模块，丢弃模块主要做一些清理工作。丢弃处理模块主要是为了依次丢弃前面无用的机构化文档，分词文档和原始的网页文档，以便于清理掉与主题无关的所有信息，同时记录到专门的文档中，避免后面再次访问到类似或者相同网页。将丢弃处理单独作为一个模块，是基于以下两点原因，一是可以得到很好地扩展，后面如果需要做修改，也很方便，例如后面对丢弃处理还

13、需要做进一步的优化等。另一个重要的原因是丢弃处理模块在该系统中的复用性很高。在预处理模块中需要丢弃提取出的结构化文档，同时需要清理当前的分词文档，还要清理前面存储在本地的网页；在语义标注模块中，除了需要做在预处理模块中所做的工作外，还需要清除对应的分词统计文档；在存储模块中，需要清理已经标注文档的中间过渡文档。第四章基于语义网的初中数学文档自动语义标注系统 31 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?图 4-5 丢弃处理模块框架图 4.5 语义标注模块语义标注模块主要完成两项工作，排除非主题相关网页以及为文档添加标注。虽然可以利用简

14、单的统计分析排除了与主题无关的网页，但是这一类的网页通过统计分析方法不能完全分辨出哪些文档可以排除、而哪些网页可以保留下来。在此处，通过第一阶段的工作，把不相干的网页排除之后，利用前面处理过的信息，为待标注文档做标注。 4.5.1 排除非主题相关文档需要说明的是，排除非相关主题网页放在这个模块，是考虑前面模块的工作量比较大，同时考虑到可扩展性的问题。比如，以后在语义标注的时候，需要将标注工作延伸到其他领域时，修改起来也比较方便。之所以称之为非主题相关，是因为和真正的语义相关网页具有很高的相似性，但是真正描述的可能是其他领域的知识。例如，很有多的电子商务平台以互联网为载体为用户提供的初中数学课

15、本，习题集或者与之相关的辅导书籍，这些网页会为这些书籍做一些简要的介绍，对书本的每个章节都会做一些必要的说明。因此也会出现很多的专有名字在里面。这些都会对网页选材产生相当大的干扰，但是却不是我们想要的结果。除此之外，还有可能存在一些网页，是描述与该领域交叉的文档。比如物理中有很多的词汇，如“坐标系”、“系数”和“变量”等这些都与之相关的专业词汇、名词术语存在重合的情况，因此必须排除这些噪声网页。因此提出了一种计算文档的语义聚合度算法来排除不相干文档。通过文档聚合度来排除这些非主题相关网页。一般情况下，可能会出现两种可能，第一种我们称之为商业性网页。经过分析发现，对于与商业相关的网页经电子科技大学硕士学位论文 32 过分词之后，统计专业词汇的出现知识面比较广泛，杂乱无章，在所有相关的专业术语在整个文档词汇所占比率都比较低；另一种情况是偶尔会出现本体距离算法也很难排除，一种可行的解决问题的办法是通过统计的办法，预先建立一个交叉领域的知识库，如果经统计该文档分词在其中某个库中所占比重比数学知识库要高，则可认为这篇文档为与主题不相关网页，可将其排出。

展开阅读全文