基于科技文献的专家发现系统设计与实现

上传人:wo7****35 文档编号:87833828 上传时间:2019-04-12 格式:DOC 页数:34 大小:274.50KB
返回 下载 相关 举报
基于科技文献的专家发现系统设计与实现_第1页
第1页 / 共34页
基于科技文献的专家发现系统设计与实现_第2页
第2页 / 共34页
基于科技文献的专家发现系统设计与实现_第3页
第3页 / 共34页
基于科技文献的专家发现系统设计与实现_第4页
第4页 / 共34页
基于科技文献的专家发现系统设计与实现_第5页
第5页 / 共34页
亲,该文档总共34页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《基于科技文献的专家发现系统设计与实现》由会员分享,可在线阅读,更多相关《基于科技文献的专家发现系统设计与实现(34页珍藏版)》请在金锄头文库上搜索。

1、基于科技文献的专家发现系统设计与实现哈尔滨工业大学本科毕业设计(论文)摘 要如今已经跨入了21世纪,知识已经在人类社会中取得了主导位置,掌握一定的专业技能,具有一定的专业经验的人才已经成为社会各界组织,企业的重要财富。 专家则是各个领域的领导者。如何快速有效的利用专家资源已经成为了一个企业、组织或个人能否快速发展的重要因素。专家发现系统则应运而生。专家发现,是一种对实体的检索。它的结果是得到擅长与查询主题相关领域的专家,它的数据依据则有很多种,包括:专家发表过的文献,参加过的调研活动,工作过的部门,社会经历以及与其他专家的社交关系等等。本文设计并实现了一个基于科技文献的专家发现系统。本系统使用

2、了DBLP上的文献数据,构建了专家描述文件,利用信息检索的方法发现候选专家,根据候选专家与查询主题相关的论文数量来对专家进行排序。用户可以通过输入查询主题,点击查询按钮而得到候选专家,并且可以查看每位专家的文献。经由与tangjie的数据集对比,本专家发现系统有较为不错的准确率以及召回率。本文还依据谷歌的专家H-index,人工对发现结果进行评价,候选专家的排序结果基本同H-index升降趋势相同。专家发现的结果比较令人满意。本文专家发现系统的平均等待时间较为合理,用户等待时间也在可承受范围之内。关键词:专家发现;信息检索;相似度计算;专家排序 AbstractThe knowledge al

3、ready has achieved a leading position in the human society in the 21 century. Talents who master certain professional skills have become the important wealth of the organizations and enterprises , Experts are leaders in various fields. How to fast and efficiently make use of the expert resources has

4、 become an important factor that can lead to organization or individual rapid development. So, expert finding appeared . Experts finding is a kind of retrieval of entities. Its result is experts that are good at the query field, its data base has a lot of kinds, including: experts published literatu

5、re, the research activities, experience in some department, social experiences and social relationships with other experts and so on.This paper designs and realizes a experts finding system based on science and technology literature. The system uses the literature on the DBLP data ,and constructs th

6、e expert description file, finds candidate experts by using the method of information retrieval, depending on the amount of the experts paper related to the query ,the system sorts experts. Users can input query subject , click the query button and get the candidate experts, and can also view the do

7、cument of each expert.Through compared with standard data sets,the expert finding system has a relatively good accuracy and recall rate. This article is also based on Googles expert H - index, artificially evaluate the findings, the ranking results of candidate experts with H -index fluctuation tren

8、d is similar. Experts finding system results are satisfactory. the systems average wait time is relatively reasonable, the users waiting time also in an acceptable range.Keywords: expert finding, information retrieval, similarity calculation, expert sortingII目 录摘 要IAbstractII第1章 绪 论1.1 课题背景及研究的目的和意义

9、31.2 专家发现的研究现状31.3 本文的主要研究内容51.4 本章小结6第2章 专家发现系统的总体设计2.1系统结构设计以及工作安排72.2 文献数据采集与分析92.2.1文献数据采集92.2.2 dblp数据的分析92.3 专家描述文件构建102.4 信息检索102.5 结果统计以及排序方法112.6 UI界面的设计112.7 评价方法122.8 系统实现的语言环境122.9 本章小结13第三章 专家发现系统的具体实现3.1 数据采集143.2 数据处理与解析143.3 文献索引的设计与创建163.3.1 document的设计163.3.2 文献索引的建立173.4 根据查询主题检索文

10、献索引183.5 统计查询结果与候选专家的排序193.6 专家发现系统的UI的设计与实现213.7 本章小结23第4章 专家发现系统的结果分析4.1 本文专家发现系统的测试结果244.2 数据集大小对候选专家表的影响264.3 专家发现排序方法对候选专家表的影响274.4 本文测试的不完善之处274.5 本章小结27结论29参考文献30致谢312第1章 绪 论1.1 课题背景及研究的目的和意义如今已经跨入了21世纪,知识已经在人类社会中取得了主导位置,掌握一定的专业技能,具有一定的专业经验的人才已经成为社会各界组织,企业的重要财富,专家则是各个领域的领导者。如何快速有效的利用专家资源已经成为了

11、一个企业、组织或个人能否快速发展的重要因素。专家发现系统则应运而生。专家发现,是一种对实体的检索。它的结果是得到擅长与查询主题相关领域的专家,它的数据依据则有很多种,包括:专家发表过的文献,参加过的调研活动,工作过的部门,社会经历以及与其他专家的社交关系等等。本文旨在于能够为学生,教师,研究人员等群体提供一个用户易用的专家发现系统,使用户能够快速的找到查询领域的专家,以便于用户可以进行学习和学术交流。并且用户还可以找到候选专家的相关文献名,作为相关的学习资料。1.2 专家发现的研究现状专家发现的任务是,给出一个查询主题,通过专家发现系统得到与查询主题相关的专家。而专家发现的研究则面临着以下几个

12、问题:(1) 如何通过专家文献以及活动(所在单位,参加过的科研项目,重大会议等)来识别出相关查询主题的专家。(2) 如何确定候选专家在查询主题领域的知识水平。(3) 除了专家的文献以及相关活动,如何通过其他指标对专家发现的结果进行改进优化。国际文本检索会议TREC(Text Retrieval Conferences)于2005年组织建立了一系列专家发现的讨论,国内外很多高校研究机构也纷纷加入了其中,近年来也出现了一些国际重要学术会议对专家发现进行了讨论研究。逐渐形成了两种基本方法,一种是以文档为个体单位,统计其中的参与专家作为数据依据;另一种方法是以专家作为个体单位,通过统计候选专家的活动(

13、文献,研究工作等),作为数据依据,而最终得到一个依据关联程度排序的候选专家结果表。除此之外出现了许多依据其他相关数据对专家发现结果进行改进和优化的方法。如面向用户的专家发现方法,拓展查询的专家发现方法,基于社交网络的专家发现方法等等。这些方法不仅会将论文,著作以及研究工作这些直接相关的数据作为依据,还会将如地理位置,工作单位,同事关系,邮件关系,合著关系等数据作为依据将专家发现的结果进行优化和改进1。专家发现的两种基本方法如下:1) 基于专家描述文件的专家发现方法一个人是不是某领域的专家,最直接的判断方法是,这个人是否从事过一些相关主题的研究工作,是否撰写过相关的研究论文,是否出过相关书籍,做

14、过相关领域的导师,或是他所在的部门是否为相关领域部门,他在本部门的地位等等,这些专家的个人信息较为直接的表明了此人是否为相关领域的专家。基于专家描述文件的专家发现方法是将专家的个人信息统计到一个描述文件中,再根据信息检索的知识,对查询主题在专家描述文件中进行检索,描述文件与查询主题的检索相似度越高,则此人越可能是该领域的专家2。2)基于文档的专家发现方法基于文档的专家发现方法则与基于专家描述文件的专家发现方法的检索对象不同,基于专家描述文件的方法的检索对象可以说是一个专家,而基于文档的专家发现方法则可以说是对某篇文献,或是某项研究工作进行检索,若这篇文献或研究工作与查询主题相关,则统计参与的人

15、员3。其中专家参与相关领域的研究工作,或是文献越多,则专家越有可能是相关领域的专家。当给定一个查询主题,首先找到与查询主题相关的文档,然后在文档中统计参与其中的专家,根据每个文档的权值以及专家出现的次数对候选专家进行排序,从而得到专家发现结果表。在专家发现的两种基本方法基础上,又有很多人根据不同需求或是为了让结果更准确通过加入其它的一些数据依据对专家发现的结果进行改进。简要介绍如下几种方法。1)面向用户的专家发现方法本方法主要是为了提高用户体验而进行的专家发现的优化4。一个正常的使用者能否达到最佳使用体验主要考虑一下两方面:一个是使用者联系候选专家的难易程度,另一个是候选专家与使用者的相对专业知识水平。使用者联系专家的难易程度,是以如地理位置,候选专家与使用者之间直接或间接关系等相关数据作为依据,优化候选专家的排序表。候选专家与使用者的相对专业知识水平,指的是专家的知识掌握程度比使用者高出多少,将专家发表的文献,参与的项目或是知名程度作为数据依据,来优化候选专家列表。如此则能得到用户最需要的候选专家。2)在组合管理系统中基于目的的专家发现方法在一个管理系统中,通常一个人的地位可以作为专家发现的一个重要指标,地位越高,管理的人越

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号