运用结晶方法提高领域本体构造

上传人:cn****1 文档编号:564981663 上传时间:2024-01-06 格式:DOCX 页数:7 大小:60.03KB
返回 下载 相关 举报
运用结晶方法提高领域本体构造_第1页
第1页 / 共7页
运用结晶方法提高领域本体构造_第2页
第2页 / 共7页
运用结晶方法提高领域本体构造_第3页
第3页 / 共7页
运用结晶方法提高领域本体构造_第4页
第4页 / 共7页
运用结晶方法提高领域本体构造_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《运用结晶方法提高领域本体构造》由会员分享,可在线阅读,更多相关《运用结晶方法提高领域本体构造(7页珍藏版)》请在金锄头文库上搜索。

1、运用结晶方法提高领域本体构造摘要本体是一种模型其定义是具有明确规范的领域知识这 特征在人与机器中起到互操作性作用,因此在知识分享与知 识重用方面需要解决模糊性和含糊其辞的问题。本体构造是 个漫长的,成本高的,富有争议性的过程。因此,在自动化 本位构造中出现了许多研究项目。在本体构造过程中,概念 和概念构成的方式决定了本体的结构,这反过来影响了知识 领域的准确性。因此,在本体构造中概念关系的探索是最重 要的过程。这项研究提出概念关系探索方法,这在一个连续性过程结合 了“中间开始”方法和“由上向下”方法的特征并且集合了 雪花状结晶。根据结晶概念探索方式,这项研究实现本体构 造机制并能够自动的挖掘领

2、域概念并决定了概念和构造领 域本体之间的关系.1. 简介本体是一种模型其定义是具有明确规范的领域知识这 特征在人与机器中起到相互操作性作用,因此在知识分享与 重用方面需要解决模糊性和含糊其辞的问题。由于其能力在 提高知识代表性和重用性,本体在一些像知识管理,情报探 索,信息整合,生物信息学等领域中得到了更广泛的运用。 按照本体的重要性,本体构造结构被看作是一个比较突出的 问题。本体构造是个漫长的,成本高的,有争议性的工作。 因此,在自动化本体构造方面出现了很多研究项目。比如; 可汗和罗的自我组织树算法(SOTA)。Navigli, Velardi, and Gangemi (2003), 也根

3、据领域文档,运用 wordnet 和 semcor 提取语义,最后完成本体结构。另一方面 Weng, Tsai, Liu, and Hsu (2006) 形式概念分析法解剖了概念关系。 Li and Ko (2007) 运用层次分簇算法为糖尿病患者的饮食问题倒置本 体的构造方法。但无论是运用各种理论和科技,自动化本体 构造还是涉及到了三个构造过程:文档预处理,概念提取和 概念关系的探索(Chen, Liang, & Pan, 2008; Dahab, Hassan, & Rafea, 2008; Gomez-Perez & Manzano-Macho, 2004).文档预处理指的是在文档维持其

4、意义时滤波噪音。概念提取 指的是在词汇学方面提取领域概念。概念关系探索指的是采 掘关系和概念,并且组织它们完成本体建造过程。在这过程 中概念与此概念关系组织的方式会影响本体的构造。这相反 会影响领域知识的准确性。因此,在本体构造中概念关系探 索被视为构造本体最重要的过程。现存的概念关系探索过程 主要有U schold and Gruninger (1996)提出的以下三个方法。; “由上往下”方法,“由下往上”方法和“由中间开始”方 法。这些方法有自己的优点和缺点。(Fernandez-Lopez & Gomez-Perez, 2002). “由下往上”方法鉴别第一项最显著的 概念并把他们总结

5、成更抽象的概念。但这方法很难在相关概 念中发现其共同点。“由上往下”方法从顶头开始能够选择 和加强任意高级分类。“中间开始”方法识别了基本核心概 念并且对其经行分类和总结。这方法相反在细节级别发面保 持平衡并且要求更少的重新运作,这能够导致更少的整体工 作。这项研究提出概念关系探索方法结合了“中间开始”方 法和“由上向下”方法的特征并且集合了雪花状结晶。当蒸汽附加到一个尘粒形成冰晶体时雪花开始结晶。冰 晶体再使周围的蒸汽结块并逐渐的扩散成更大的冰晶体,这 最终形成雪花。在蒸汽结块过程中冰晶体相对来讲比较坚 固,在蒸汽结块过程中冰晶体是其最核心组成部分。这种凝 聚作用在蒸汽的距离从核心上涨时降低

6、了其凝聚力。 此过程集合了“由上往下”探索方法,这使较低层面上的根 节点和概念之间的核心关系渐渐降低。根据以上分析,雪花 晶体现象集合了一种模式,此模式结合了“中间开始”和“由 上向下”方法的各项特征。这种模式可以称之为结晶概念探 索方法,其中最为显著的概念可视为冰晶体概念并且这概念 可作为种子概念。种子概念在一种领域中被用来保证代表性 知识的准确掌握并且为了探索领域概念保证相互关系的一 定程度可把种子概念当做核心概念。 另外,“由上向下”探索方法与人类本能构造模型更融合并 且能够更好的理解和解释本体的构造方式。根据结晶概念探 索方法,这项研究提出的本体构造机制能够自动的在领域文 档中挖掘领域

7、概念并决定概念之间的关系,以此构建本体, 因此能够在操作性构造过程中降低成本。结晶本体构造机制 包括;1.文档预处理。这过程凭借NLP工具把领域概念从专 家早已选好的文档中提取文档。2概念筹造;这机制分析概念与分散概念之间的同义关系。 3结晶概念探索;这机制探索概念到组成本体之间的层次 很非层次关系。2. 本体构造方法这章节描述了普通本体构造其包括了文档预处理,概念提 取,概念关系探索过程。之后这研究提出结晶本体构造方法 其包括概念筹造,结晶概念和结晶概念探索方法并由此构造 领域本体。2.1 普通本体构造步骤根据上一条本体构造研究 (Chen et al., 2008; Dahab et al

8、.,2008; Gomez-Perez & Manzano-Macho, 2004),这项研究提出 了普通本体构造步骤 (Fig. 1) 确切是把领域文档作为输入, 领域本体作为输出。这包括三个过程;文档预处理,概念提 取,概念关系探索。1. 文档预处理文档预处理运用滤除毫无意义的符号和文字,提取有意义的 项目。因此文字提取过程,符号化和词性分析必须在文档中滤除噪音。近期,一些自然语言方法工具或资源可用为促使文档的预处理其包括 O penNLP (Sanchez & Moreno, 2008),CKIP (Lee et al., 2007) and WordNet (Miller, 1995)

9、.2概念提取根据词汇和同义词的关系概念提取利用一种领域词库或主题地图识别概念。但文档存在一些与不合逻辑的命名相 关的问题这在同义词和同音词中出现,导致语义歧义且调和 概念提取方式的准确性。大部分之前的研究依靠领域词库解 决语义歧义问题并对词汇学中的下义词和同义词下定义。(Kietz, M胐che, Maedche, & Volz, 2000; Tan, Han, & Elmasri,2000). 如果词汇库里的词汇不充足或不能够覆盖全部领域 概念,这些提取的概念因此,不适当的传达领域知识降低本 体的准确性。Concept普通本体构造过程Document set; 文档设置Domain expe

10、rt; 领域专家Ontology engineer; 本体工程师Document preprocess; 文档预处理过程Concept extraction; 概念提取Relation exploration; 关系探索或解剖3概念关系探索概念关系探索指的是挖掘概念与组织概念之间的整体关系。 提取概念中的关系是很重要的。这领域中的很多研究项目运 用“从上往下”,“从下往上”和“中间开始”等方法探索概念(Uschold & Gruninger, 1996),有如下方法;1. 由上往下;概念探索从最基本的概念开始,被称之为种子 概念。2从下往上;概念探索从最基本的概念开始,识别底水平概念并向上上涨

11、覆盖更多的基本概念。(Khan & Luo, 2002;Park, Nam, Hu, & Suh, 2008);3. 中间开始;被视为最显著的概念并定位中级别概念。但所 有这些方法都有其独特的优点和缺点;“由下往上”方法需 要较高的细节级别,对相关概念经行识别。“由上往下”方 法由最顶部开始能够选择并加强任意高级别概念。“中间开 始”方法相反,能够在细节级别和工作量之间保持平衡,并 且在某种意义上能够对这些模式经行一体化。这消除个人模 式的缺陷并能够提高概念关系探索的效率。通常,在普通本 体构造中,从不完整概念提取到不全面关系探索,概念提取 和关系探索的层次上出现了很多问题。本体构造的这两层次 必须要得到改善。因此,这项研究提出的概念提取和结晶概 念探索方法帮助领域专家和本体工程师更有效的为本体构 造提取概念并解释其关系。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号