软件工程毕业设计（论文）-基于WORDNET的XML文档语义相似性计算方法

资源描述

《软件工程毕业设计（论文）-基于WORDNET的XML文档语义相似性计算方法》由会员分享，可在线阅读，更多相关《软件工程毕业设计（论文）-基于WORDNET的XML文档语义相似性计算方法（67页珍藏版）》请在金锄头文库上搜索。

1、毕业设计（论文）说明书学院软件学院专业软件工程年级 2007 级姓名指导教师2011 年 6 月 15 日毕业设计（论文）任务书题目：基于 WORDNET 的 XML 文档语义相似性计算方法学生姓名学院名称软件学院专业软件工程学号指导教师职称教授讲师一、原始依据1、工作基础：近年来，随着互联网技术的飞速发展，网络上的信息资源呈不断的扩张趋势，无论在数量还是领域范围上，都爆炸式增长。这在丰富网络资源的同时，使得有效信息、知识的获取变得更加困难，因此，关于结构及语义相似性测量的研究成为数据挖掘、机器学习等领域中的研究热点之一。事实上，相似性及其度量方法

2、一直是数据挖掘、机器学习等领域中的研究主题之一，也是 Web 数据挖掘系统所要解决的关键问题之一。从 1996 年 W3C提出 XML 工作草案，1997 年召开第一次 XML 会议开始，到近年来 XML、语义网（Semantic Web）及 OWL 等相关技术的研究与发展，使得面向内容的数据挖掘等成为可能。在面向内容的智能信息处理中，基于结构（如树、图）表示模式，计算结构化数据的结构相似性并从中挖掘知识，在数据挖掘及相关领域得到了广泛的研究。但数据的结构相似性研究并不能解决语义冲突问题，不能从根本上消除网络环境下的信息孤岛和实现信息资源的互联互通和资源共享。随着语义网和本体（ontology

3、）的发展，这个问题得到了较好的解决，国内外学者从不同的角度（概念相似度、文档相似度、半结构文档相似度）都进行了深入研究，而 XML 作为一种应用越来越广泛的文档记录方式，对 XML 语义相似度的研究也受到了普遍的关注和研究。但目前对基于 XML 半结构语言计算语义相似性的研究没有一套成熟、高效的计算方法，自然语言与计算机语言之间仍然存在一道鸿沟，严重影响了对互联网信息的应用效率。2、研究条件：在目前研究成果的基础上，依托于南开大学信息学院数据库与信息系统实验室。近 7 年来，该室对 XML 结构相似性计算方法、基于结构相似性计算的Web 挖掘方法等进行了深入研究，在此基础上，展开了 XML 的

4、语义相似性研究。研究平台和应用环境为 Windows 7，软件开发工具为 Visual Studio 2008。3、应用环境：通过本方法，结合适当的领域词典，可对用户需求的信息、知识进行有效匹配，结合南开大学的已有项目，研究成果将应用于 Web 数据挖掘方法与系统；同时，还可以应用于知识工程、数字图书馆、各专业领域的信息检索、信息过滤、自然语言处理、数据集成及语义 Web 等许多方面。4、工作目的：本课题基于由普林斯顿大学设计的认知语言学词典 WordNet，设计并实现一套用于计算 XML 基本语义相似性的计算方法。并以本课题为基础，为将来在更广阔范围的应用做准备。二、参考文献1Lin D.

5、An Information-Theoretic Definition of SimilarityC.In: Proceedings of the Fifteenth International Conference on Machine Learning. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. 1998.296-304.2Tversky, A. 1997. Features of similarity. J. Psychological Rev. 84: 327-352.3Boanerges, A. M., Chris

6、tian, H. W., Satya, S. S., Amit, S. I. and Budak A. 2005. Template based semantic similarity for security applications. Technical Report, LSDIS Lab, Computer Science Department, University of Gerogia, January.4Jiang, J. J., David, W. C. 1997. Semantic similarity based on corpus statistics and lexica

7、l taxonomy. Proc. Int. Conf. Research on Computational Linguistics. Taiwan, pp. 1-15.5Peter, F., Martin, K, Erich J. N. 1991. Semantic vs. structural resemblance of classes to appear in special SIGMOD RECORD issue on semantic issues in Multidatabase Systems, 20: 4.6Goldstone R L, Son J Y. Similarity

8、 J. Psychological Review. 2004, 100: 254-278.7Li M, Chen X, Xin M L, et al. The Similarity Metricc. In: IEEE Transactions on Information Theory. 2003. 863-872.8邱明. 语义相似性度量及其在设计管理系统中的应用 D. 博士，浙江大学，2006.9Bulskov H, Knappe R, Andreasen T. On Measuring Similarity for Conceptual QueryingC. In: Proceeding

9、s of the 5th International Conference on Flexible Query Answering Systems. Springer-Verlag, 2002. 100-111.10宋玲. 语义相似度计算及其应用研究. 博士，山东大学，2009.11黄世国，耿国华 . 语义相似性测度方法研究综述计算机应用与软件 2008（25）.12Yang, D. and Powers, D. M. W. Measuring Semantic Similarity in the Taxonomy of WordNet. In Proc. Twenty-Eighth Aus

10、tralasian Computer Science Conference( ACSC2005), Newcastle, Australia. CRPIT, 38. Estivill-Castro, V., Ed. ACS. 315-322. 2005.13Budanitsky, Alexander. Lexical semantic relatedness and its application in natural language processing. Technical Report CSRG-390, Computer Systems Research Group, Univers

11、ity of Toronto, August. 1999.14周子力. 基于 WordNet 的本体构建及其在安全领域应用关键技术研究. 博士，华东师范大学，2009.15 盛立东. 模式识别导论M北京:北京邮电大学出版社，2010.三、设计（研究）内容和要求研究内容：1. 了解 XML 语义相似性方法；2. 熟悉 WordNet 的使用方法；3. 基于 WordNet 实现基本语义相似性计算算法；4. 编写程序实现上述算法。主要指标与技术参数：本课题用于计算 XML 文档的语义相似性，最终实现的算法有两个技术指标，即算法的合理性和算法的效率。（1）算法的合理性指标：相似性算法通过计算给出两段

12、 XML 文档之间的相似度（结果介于 01，其中，值越大说明两者越相似，取值为 1 是，两者完全一样，取值为零时，两者没有相似性），通过实验者的主观判断和 WordNet词典的词类划分判断结果是否准确。（2）算法的效率：算法要求时间尽可能快，由于算法越精确需要考虑的参数越多，计算量越大，因此最终的算法需要在准确性和效率之间取得平衡。具体要求：基于 WordNet 实现基于语义相似性计算算法。指导教师（签字）年月日审题小组组长（签字）年月日天津大学本科生毕业设计（论文）开题报告课题名称基于 WORDNET 的 XML 文档语义相似性计算方法学院名称软件学院专业名称软件工程学生姓

13、名指导教师一、课题的来源及意义近年来，关于结构及语义相似性测量的研究成为数据挖掘、机器学习等领域中的研究热点之一。这不仅是由于 XML（Extensible Markup Language）等互联网新技术的不断发展对已有技术带来的挑战，更是因为随着互联网技术的飞速发展，网络上的信息资源呈不断的扩张趋势，无论在数量还是领域范围上，都爆炸式增长，人们已经不仅仅满足于以往对信息的简单获取，对知识的需求在不断扩大，以往偏重结构性相似的匹配方法已经不能满足需求，语义相似性测量逐渐成为关注的热点。语义相似性测量方法已经被广泛的应用在了数据挖掘和知识获取方面以及国防安全、企业应用等领域。从 1996 年

14、W3C 提出 XML 工作草案，1997 年召开第一次 XML 会议开始，到近年来 XML、语义网（Semantic Web）及 OWL 等相关技术的研究与发展，使得面向内容的数据挖掘等成为可能。和文本文档相比，XML 文档具有“自描述” 、“树形结构” 、 “结构嵌套”等特点。随着 XML 在数据挖掘、分类聚类、数据交换、内容管理、Web 服务等方面的广泛应用，如何高效的解决 XML 语义相似度的测量方法，成为人们普遍关注的一个焦点。WordNet 是普林斯顿大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的词典。名词、动词、形容词和副词各被组织成一个同义词的网络，每个同义

15、词集合都代表一个基本的语义概念，并且这些集合之间也由各种关系连结。因此我们使用 WordNet 作为参考，判断自然语言之间语义的相似性。这也成为大家普遍接受的一种做法。综上所述，我们使用基于 WordNet 的语义相似性测量方法，最终能够基本辨别不同文档之间的语义相似性，为数据挖掘、知识获取、Web 应用等领域提供一种语义相似性测量的解决方案。二、国内外发展状况目前 XML 文档相似度的研究已经取得了许多进展。由于 XML 文档具有“自描述” 、 “树形结构” 、 “结构嵌套”等结构特点，许多研究通过树的编辑距离来计算 XML 文档之间的相似度，距离和相似度之间成反比例关系，距离越大，相似度越

16、小；另有一些研究直接比较树中节点之间的相似度，先计算文档之间相同节点的个数，通过共同节点和两个文档所有节点个数的比值来衡量文档之间的相似度。这种方法忽略了 XML 文档的结构特点；还有研究基于拥有相似的路径集合则XML 文档相似的假设，通过路径集合的比较计算 XML 文档之间的相似度。这些研究取得了一些成果，但仍有不足，语义和结构相似度不能兼顾。这些年，也有一些研究将节点本身的相似度纳入了考量范围，文献10综合考虑了文档节点的语义相似性和结构特点，但研究尚不成熟，均在计算精度和效率之间难以取舍。三、本课题的研究目标和研究内容研究目标：基于 WordNet，实现 XML 文档基本语义相似度计算算法，为后期语义相似度计算算法与已有结构相似度计算算法的结合做准备。研究内容：

展开阅读全文

软件工程毕业设计（论文）-基于WORDNET的XML文档语义相似性计算方法

最新文档