基于数据挖掘技术的智能答疑系统的研究设计

上传人:jiups****uk12 文档编号:40023106 上传时间:2018-05-22 格式:DOC 页数:121 大小:103KB
返回 下载 相关 举报
基于数据挖掘技术的智能答疑系统的研究设计_第1页
第1页 / 共121页
基于数据挖掘技术的智能答疑系统的研究设计_第2页
第2页 / 共121页
基于数据挖掘技术的智能答疑系统的研究设计_第3页
第3页 / 共121页
基于数据挖掘技术的智能答疑系统的研究设计_第4页
第4页 / 共121页
基于数据挖掘技术的智能答疑系统的研究设计_第5页
第5页 / 共121页
点击查看更多>>
资源描述

《基于数据挖掘技术的智能答疑系统的研究设计》由会员分享,可在线阅读,更多相关《基于数据挖掘技术的智能答疑系统的研究设计(121页珍藏版)》请在金锄头文库上搜索。

1、基于数据挖掘技术的智能答疑系统的研究设计基于数据挖掘技术的智能答疑系统的研究设计太原理工大学硕士学位论文基于数据挖掘技术的智能答疑系统的研究与设计姓名:闫冬冬申请学位级别:硕士专业:计算机应用技术指导教师:闫宏印20100401太原理工大学硕士研究生学位论文基于数据挖掘技术的智能答疑系统的研究与设计摘 要数据挖掘是从大型数据集中,挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。通过对数据的统计、分析、综合和推理,发现数据间的关联性、未来趋势以及一般性的概括知识等,这些知识性的信息可以用来指导高级商务活动。答疑、解惑不仅是课堂教学中的一个必不可少的环节,同时也是网络教学中的一个重要模

2、块。智能答疑系统的研究主要是致力于改革现有的答疑模式, 充分利用教育网中知识库的资源, 通过机器处理, 自动回答学生的问题, 从而实现教育中答疑这一重要的教学环节, 提高教学效率和教学质量。本文分析了现有的答疑系统,研究并实现了一个带有论坛功能的基于web 的智能答疑系统。系统实现了用户的注册、登录、提问和获取答案,同时通过论坛完成用户对问题的的异步答疑,让用户拥有更广阔的探讨平台。另外,本文将数据挖掘技术应用于智能答疑系统后台中,提出了一种基于数据挖掘算法的自动答疑设计方案,目标是实现一个快速准确高效的智能答疑系统。该方案的基本思想是将基于关键词的关联规则应用于文档的相似度计算当中,从每个问

3、题所对应的诸多答案中抽取出一个最佳的答案生成一一对应的问题答案对库,然后执行基于关联规则的文本聚类算法,实现问题的分类存储。将聚类后的每一类问题应用关联规则,可得到更加准确的关联表,与此同时也促使相似度的精确度得以提高。通过以上方案便I太原理工大学硕士研究生学位论文可以得到一个分类存储、答案准确度高的数据仓库。最后利用基于关键词关联度的相似度计算方法进行系统答疑,从而完成了一个答疑准确的智能答疑系统。关键词:数据仓库,数据挖掘,关联规则,相关性分析,文本聚类II太原理工大学硕士研究生学位论文RESEARCH AND DESIGN ON DATA MINING ININTELLIGENT QUE

4、STION ANSWERING SYSTEMABSTRACTData mining is the process of abstracting unaware, potential and usefulinformation and knowledge from plentiful, incomplete, noisy, fuzzy andstochastic data. By statistics , analysis, synthesis and reasoning the dates it findsout the correlation of dates, the future tre

5、nd and general knowledge and so onwhich are used to guide senior businesses.Question and answering is not only a process of classroom teaching butalso an important module of web-based courseThe QA system working formaking full use of the resource of knowledge base in the educational net torealize qu

6、estion answering and improve the quality and efficiency of theteaching.The paper analyzes the existing question-answering system, studies andimplements an intelligent question-answering system based on web with a BBSfunctions. The question-answering system implements the user registration、login、ques

7、tion and answer, and it completes the user asynchronous clarificationthrough the BBS and let users have a wider range of platform. The paper appliesthe data mining algorithm into the QA system, puts forward a set of schemeabout question answering system based on data mining algorithm and realize it.

8、III太原理工大学硕士研究生学位论文The aim of the scheme is to give up some defects of current question answeringsystem and get an efficiency QA system. The general thought:an improvedassociation rules algorithm based on keywords is applied to calculate thecorrelation value between words in order to get the similari

9、ty of questionsThebest answer can be found by the similarity valueWe call get the one to oneQA pairs,then the text clustering is performed on the QA pairsThe questionswould be saved by classifyBy using the association rules algorithm into theevery class after text clustering,the more accurate associ

10、ation table forextracting the better answers from the database can be gotten,and the similaritycould be improved. By this way a comprehensive and accuracy QA database canfinally be formed that can be used to data miningFinally the similarity based onwords association value is used to answer the ques

11、tion that the users asked,andan intelligent QA system could be gottenKey words:data warehouse,data mining,association rules,correlationanalysis,text clusteringIV太原理工大学硕士研究生学位论文第一章 绪 论1.1 论文背景及意义目前,随着信息技术的高速发展,数据库应用的规模、范围和深度不断扩大,网络环境已经成为了主流。人们已经习惯面对这样一个事实,超量的数据充斥着我们的计算机、网络和生活。数据的丰富随机带来了对强有力的数据分析工具的需求

12、。快速增长的海量数据收集存放在大型和大量的数据库中,没有强有力的工具,这些数据就变成了“数据坟墓”无法访问的数据档案。因此数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块” 。在强大的需求的驱动下,我们开始认真的思考如何才能从大容量数据集中获取有用信息和知识的方法,以便提供更高层次的数据处理功能。新的需求推动新技术的诞生。运用基于计算机的方法,从而在数据中获得有用的知识的整个过程,就叫做数据挖掘1,2(数据挖掘本质上是一种新的信息处理技术) 。数据挖掘技术对数据的应用,从低层次的联机查询操作,提高到决策支持、分析预测等更高级应用上。通过对数据的统计、分析、综合和推理,

13、发现数据间的关联性、一般性的概括知识以及未来趋势等,这些知识性的信息可以用来指导高级商务活动。从决策、分析和预测等目的看,原始数据只是未被开采的矿山,需要挖掘和提炼才可以获得有用的规律性知识。随着计算机技术、网络技术和现代教育技术日新月异的发展,诸多的教学信息大量的积累,答疑系统已逐渐成为高校教学当中的重要组成部分之一。现在,已有的答疑系统的实现一般可以通过以下三种基本途径:第一种方式是采用传统的Internet 工具,如Email、BBS、Chat、FAQ 等。这种方式虽然简单,但无法适应网络答疑中大规模、动态性、实时性的特点。第二种方式是基于关键词的答疑方式,即采用关键词或其逻辑组合作为提

14、问方式。即首先由用户输入关键字或关键字的逻辑组合,然后系统在已有的问题和答案数据库中查找相关的资料,返回一大堆与问题相关或不大相关的信息,查找的效果不是很理想,而且这种方式还需要提问的用户具有提取关键字的能力。第三种方式是基于自然语言的自动答疑系统,它允许用户采用自然语言的提问方式,通过对提问内容进行语法和语义分析,根据分析结果在答案库中进行匹配,并将匹配后的答案返回给用户。这种方式不仅提供了较好的人机接口,而且提高了答疑结果的准确性,是网络答1太原理工大学硕士研究生学位论文疑的发展方向。但是,目前这种基于自然语言网络答疑的研究有些比较薄弱,主要体现在:(1)缺乏对返回答案的相似度计算和排序机

15、制,无法给出最相关的答案。 (2)没有考虑用户的提问方式和提问重点,因而难以识别相似问题之间的差异。因而,一种智能化的答疑系统便成为当前迫切的需要。如今的智能答疑系统,实现了抽取问题的智能性、答案评优的智能性和信息维护的自动性,从而使得用户可以更加方便的使用系统,管理员可以更加容易的管理系统,系统返回的答案具有更高的有效性。简而言之,查询更省时,管理更方便,答案更有效。本文中,将数据挖掘技术应用到智能答疑系统中。主要是通过分析大量的后台存储的答疑信息,进而挖掘出问题与答案的相关关系及规则,然后根据这些规则进一步分析出用户提出的新问题,从后台库中找出最相关的答案,给予用户解答提供了一个有指导意义

16、的参考,为决策提供重要依据。1.2 国内外发展现状1.2.1 智能答疑系统发展现状智能答疑系统越发的受到了重视,国内国外都有了非常迅速的发展,接下来简单的介绍一下现在智能答疑系统在国内国外的最新发展动态。国外的教学网站3,4一般来说都有较好的交互、答疑功能和反馈机制,而且每个学生都有专门的教师来负责,利用传真、信件、电话、E-mail 等进行答疑交流。与此同时,国外也出现了一些比较成型的、可以为用户解答不局限领域以及特定领域问题的答疑系统。其中,典型的问答系统有:1. Start 系统:该系统是麻省理工学院开发的问答系统。该系统是第一个面向国际互联网的自然语言问答系统,它能够回答针对 MIT 信息实验室的地理学知识的用户提问。同时,该系统的答案不局限于文本,也可以是图片、声音或者动画等。Start 系统使用主体-关系-对象三元组的形式存放系统知识以及回答问题,系统的精确性比较差。同时,该系统是以英文为母语的,只能识别用英语提交的问题。它于 1993 年开始发布在Internet 上,网址为: 2. AskJeeves 系统:该系统是美国 AskJeeves

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号