知识型交互问答系统的设计与实现

上传人:汽*** 文档编号:490317461 上传时间:2022-09-11 格式:DOC 页数:15 大小:91.50KB
返回 下载 相关 举报
知识型交互问答系统的设计与实现_第1页
第1页 / 共15页
知识型交互问答系统的设计与实现_第2页
第2页 / 共15页
知识型交互问答系统的设计与实现_第3页
第3页 / 共15页
知识型交互问答系统的设计与实现_第4页
第4页 / 共15页
知识型交互问答系统的设计与实现_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《知识型交互问答系统的设计与实现》由会员分享,可在线阅读,更多相关《知识型交互问答系统的设计与实现(15页珍藏版)》请在金锄头文库上搜索。

1、四川省教育信息技术研究“十二五”规划课题知识型交互问答系统的设计与实现开 题 报 告2014年12月18日知识型交互问答系统的设计与实现开题报告一、研究背景1二、当前现状1三、选题目的、意义及创新2四、课题研究思路和方法4五、主要研究人员的学术背景和研究经验9六、课题研究实施步骤及分工10七、课题研究保障措施11八、主要预期研究成果11九、课题研究组织机构12十、参考文献12一、 研究背景 教育工作者经常要收集整理一些课件、教案教学资料,收集试题、试卷等内容对学生学习情况实行检测。Google、百度等搜索引擎虽然功能强大、信息全面,但也由于信息量太大,当我们真正要找到自己想要的内容时,经常要花

2、大量时间实行筛选、甄别。特别是部分站长出于利益的驱使,许多内容都挂羊头卖狗肉,甚至放置病毒在里面,为大家带来不小的麻烦。所以想开发一个专门针对教育领域的专用WEB应用系统用以解决此类问题。 在经过对当前涌现的大量WEB应用实行研究,发现能够针对当前比较热门的问答系统(Question Answering System, QA)实行扩展升华解决所遇到的问题。本文就开发一个针对教育领域中知识型交互问答系统的建设目标、技术架构、功能模块实行研究。二、 当前现状问答系统是一种基于WEB2.0的应用。采用Web2.0技术制作出来的系统更注重用户“互动”,用户既是网站内容的浏览者,也是网站内容的制造者,用

3、户不再像以前一样被动接收信息,而是能够根据自身需求跟网站实行信息传递的交流者。问答系统有两大类,一种是自动问答系统,另一种是互动问答系统。自动问答系统是基于语义匹配的方法得到答案,它使用自然语言理解技术和关键词搜索技术去“思考”提问者的问题,然后在系统中检索出系统认为最匹配的答案反馈提问者,这种问答系统常用于某一特定领域,比如:淘宝的“智能机器人”,当我们在提问时,系统就要根据用户录入的内容不断去动态分析录入内容、检索最佳答案。它的优点就是智能化水准高,但缺点是对提问用户要求较高,对于开放领域有时不能准确反馈结果。特别对于普通上网用户,不知道怎么使用关键字实行提问的,往往不能得到较好的反馈。互

4、动问答系统是基于提问和回答式交互的问答系统,它基本上属于人与人之间互动提问,而采用网络方式实行交流展示的系统。系统起到的核心作用是规范提问回答流程,对问题实行分类整理,但问题解决的核心还是由人工来处理。这类系统的优点是当用户量充足大的时候,任何怪问题都能得到回复,再不规范的提问也能得到答案。本文主要研究的是互动问答系统。当前有许多综合性问答系统,比百度的“知道”,新浪的“爱问”,腾讯的“问问”都属于互动问答系统。而一些专业型的细分互动问答系统有:39健康问答、育儿问答、有问必答网、果壳问答、搜房问答等,他们专门解决某一个细分市场也获得了大量用户群。现在在网络上还出现了专业人员开发的这类互动问答

5、系统程序。如:OASK问答系统,它是一款ASP版源码的仿百度知道程序,它具有广告管理、用户整合、问答采集、各种JS调用、RSS订阅、积分兑换与在线支付、共享资料、手机WAP访问、视频音频问答、中文分词等等相关功能。phpMyFAQ是一款PHP版本的问答系统,具有内容管理功能,图片管理,支持多用户,用户组、新闻系统、用户跟踪、语言模块。还有一些其他类型的问答系统。这类问答系统使用简单,只需要下载它的源码后,按说明安装就可以制作一个类似百度一样的知道系统。互动问答系统都使用一种最简单的方式进行交互:1、需求用户针对自身特定困难提出问题;2、其他用户看见问题后如果有相应的解决方案或能对此问题提供一些

6、线索就对这个问题进行回复;3、需求用户对所有回复的用户信息进行人工筛选、甄别,选择一个认为最优秀的方案设置为最佳答案,最终完成整个回答过程。为了能让回复用户更有积极性,目前几乎所有问答系统都加上一些人性化的积分奖励政策,使得这种应用操作简单却异常活跃。虽然这些互动问答系统可以解决很多实际生活中的问题,但却不能解决教学领域方面的一些应用,特别对教育领域经常用到的试题信息处理显得尤为欠缺。当我们有一个试题需要咨询的时候,只能通过普通提问方式把试题信息及答案等内容合并为一个整体进行询问,却不能把试题按照试题本身结构进行提问。如果我们要对大量回复的试题信息进行管理的话,这种方式完全不能实现,就必须建立

7、一个专门的试题库系统,把所有已经得到回复的试题信息的按照我们的试题库系统结构进行二次录入、整理,大大降低了工作效率。三、 选题目的、意义及创新本课题开发的系统主要参照问答系统的操作步骤和操作方式制作一个针对教学过程中对试题进行提问和处理的特殊问答系统,即可以像普通问答系统一样解决一般问题,又可用于解决处理、整合试题资源建立一个实用试题库,还能用于收集整理试卷、课件、教案等富媒体资源。系统操作流程参照百度“知道”、新浪“爱问”等问答系统设计,在功能上作了更优的扩展:(1)解决一般问答系统中没有对试题类问题进行特殊处理的功能。系统包含普通问答系统的全部功能还针对试题类问题进行特殊处理,使用特定的数

8、据结构存储试题类型、试题题目、试题备选项、试题难度、试题重要性、试题答案、试题分析等。这样做的目的是:当某一个试题类问题得到解决的同时,即实现了一个完整试题信息的录入工作;试题通过使用特定数据结构进行存储,当我们要使用试题的时候就能很好地检索、管理;大量试题存储在一起,形成一个大型的试题库系统,可以方便地用它们来建立无纸化考试系统。(2)解决一般问答系统中冗余数据过多的问题。目前的问答系统一般都会存在冗余数据过多的问题,系统专门为解决这个问题设计了一些规范的流程。在实际操作过程中当某个用户要提交问题,要求先在网站中进行关键词搜索,只有没有搜索到相关信息的时候再去提问,从而有效减少冗余。对于一些

9、用户不搜索问题或者不去认真搜索就提问而导致信息重复冗余的,特意设计一个“举报”功能来解决。具体操作就是当有用户搜索某些问题,或者在浏览问题时发现有两个或多个信息内容相同时,可以点击“举报”让管理员删除冗余信息。系统特别加上了一些激励机制如:发布无效信息、错误信息、重复信息一经核实就扣除大量积分,举报这些信息就奖励大量积分的方式来让用户积极参与这种活动。这种经过人工筛选信息的方式在比起程序设计出来的“智能检索”准确性要高得多。(3)针对特有的试题库系统,开发了分类在线测试系统。系统的试题信息使用特定的数据结构存储处理,试题题型也比很多网上的考试系统存储的题型更全面,因此制作了一个分类在线测试系统

10、。当用户把试题类问题解决后,系统就会把试题放在在线测试模块中,而此模块会根据用户选择的栏目、题型进行分类。当用户需要对自己的知识进行测试时,可以在这个模块进行分章节、分题型进行针对练习,练习完成后系统自动评分,并显示出正确答案和分析。(4)针对教学领域定制,更具有实用性。本系统主要是针对教学领域设计,因此具有其它问答系统所不具有的优点:系统栏目是以书本章节为单位建立;系统专题以知识点结构建立;特有的知识库可以用来存储有价值的笔记、总结等文字资料;资料下载模块为用户提供试卷、课件、教案等多种富媒体资源下载。多种功能的整合使得系统能解决教学过程中教师对绝大多数资料的需求。整个系统使用“蚂蚁雄兵”的

11、策略,使得数据庞大、价值高,准确性高但冗余数据少。四、 课题研究思路和方法本课题是着重于开发一个实用的网络系统,因此主要偏向于软件开发类研究,具体方法如下:(一) 需求分析1. 市场调研在正式确立课题以前必须对课题进行市场调研,以确保课题的针对性、有效性。课题组进行的市场调研主要分为两部分:(1)通过问卷调查、随机访谈、QQ群咨询等形式对课题的用户范围、应用前景及用户需求进行了解,确保课题在完成以后有市场需求,用户操作起来更方便、快捷。(2)通过搜索引擎检索相关网站,查看各种相似的网站功能设计、操作流程、界面设置、用户群体,从而确定课题需要解决的技术性问题及大体研究方向,尽量避免同质化竞争。经

12、过以上两个部分的调研,收集各类信息数百条,了解到各级教育部门、各种培训机构对试题资源、试卷资源、课件资源有较大需求,但却没有高效的管理办法,特别是对试题资源的管理感到力不从心。他们体会到随着收集的试题越多,就会导致重复的试题越多,要清理重复试题就是一个很大的挑战,因此导致效率很低下。2. 用户需求分析及解决方案设计在对各种教师进行调研时,课题组了解到教师需要用到的是一些优秀的课件、笔记、试卷、试题、教学视频、案例分析等。他们的困惑是:这些资料一般通过搜索引擎搜索都能得到结果,但是这些结果却大多不如人意,找到一个理想的资源会花很多时间,效率及其低下,具体表现为:(1)对于用户搜索试题的时候,会有

13、两种情况:1、对于具体化的试题信息,如有试题题目但不知道答案这种搜索,一种是能反馈具体的试题信息和答案,但试题不规范,不能直接使用,需要二次整合;另一种不能搜索到内容,无法解决问题。2、对于没有具体化试题的信息,如想获得某章节的测验试题,由于用户也不知道怎么更准确的描述关键字,所以搜索的信息就五花八门,能够找到真正能使用的很少。系统提供的解决方案是:先按照针对领域中的教学章节建立相应栏目,然后根据知识点建立专题,并从教学出发为试题设置:重要性、难度、来源,从而建立健全试题信息库。为了规范试题库结构和用户操作流程,对目前考试中出现的各种试题进行研究分析,归纳总结出了共类试题,分别为:判断题、单选

14、题、多选题、配伍题、填空题、简答题、综合题。用户在使用过程中先在系统中搜索试题关键字,如果能找到就可以获得规范化的试题结构;如果不能找到,可以马上通过提问的方式向所有用户咨询,待其他用户都对试题进行回复后,发布者对所有用户的回复进行整理归纳,并对有贡献的奖励部分积分,再设定一个最佳答案,最后对所有信息进行整合后制作一个标准答案。整个过程一结束,系统就得到一个完善的试题信息。(2)对于搜索课件、笔记、试卷、案例分析、教学视频等资源时,无论关键字怎么描述搜索结果就有成千上万,分别来自不同网站。大多数资源在下载前优劣无从考查,加上各种网站制定的积分规则限制,导致效率及其低下,甚至有一些恶意网站将病毒

15、伪装成教学资源对用户电脑造成严重危害。系统针对这个问题的解决方案是:按照针对领域中的教学章节建立相应栏目,根据知识点或区域建立专题。需求用户先通过栏目、专题形式查找搜索相关资源,如果能找到,就会在相应页面显示出资源的各种详细描述,如果没有找到用户则在对应栏目中对发布信息,征集教学资源。其他用户都对这个需求贡献资源后,发布需求的用户再对所有贡献的资源进行人工逐一赠别和评审,根据每个贡献者奖励部份积分,设定一个最佳上传者,最后自己对所有资源进行整合后再制作一个标准答案。为了避免资源重复,系统规定每个用户在获求和发布资源的时候必须要对资源进行详细的描述,并对资源来源、重要性进行说明,以为以后需要下载资源的用户提供参考。3. 环境需求分析为了更方便、更有效地使用和推广课题成果,我们把系统做成/构架,本课题项目在开发和过程中所需要的环境需求配置如下。服务器(1)硬件环境奔腾4 3.0GHz或更高频率CPU,2GB或更大容量内存,80G或更大硬盘空间的计算机。在开发过程中使用的服务器可以使用普通台式电脑甚至笔记本电脑代替,在最终进行网络部署时为了保证稳定要求使用真正的服务器,以保证系统的稳定。按目前硬件的发展情况来看任意一台服务器都能满足系统需求。(2)软件环境操作系统:Microsoft Windows 2003 Server及以上服

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号