学术网络重名排岐算法研究

资源描述

《学术网络重名排岐算法研究》由会员分享，可在线阅读，更多相关《学术网络重名排岐算法研究（57页珍藏版）》请在金锄头文库上搜索。

1、华中科技大学硕士学位论文学术网络重名排岐算法研究姓名：林泉申请学位级别：硕士专业：计算机应用技术指导教师：李玉华 2011-01-17 I 摘要摘要在科学家合作网络中，有许多科学家的名字是相同的。目前知名的学术平台如 Arnetminer，Springer，ACM，DBLP，CiteSeer 等在对科学家进行学术能力统计的时候，以科学家的名字来区分科学家，造成了大量的统计误差，也给科学家合作网络研究带来较大偏差，因此重名排岐问题具有很大的研究意义。已有的重名排岐算法在特征的选取上主要集中在共同作者，引用关系，作者单位等，在模型的选择上主要是图模型，存在着精度和召回率

2、都不高的问题。通过分析归纳人在处理重名排岐问题时所用到的方法，将重名排岐这个聚类问题转化为判断两篇学术论文是否为一作者的分类问题。在吸收和改进前人处理重名排岐问题时抽取的特征的基础上，提出了一些新的特征：共同作者（Co-Author），主页（Homepage），引用关系（Citation），作者单位（Co-Org），标题相似度（Titile-Similariy），搜索引擎（Digital-Lib），文献原文（PDF File）。采用感知机来作为分类器，使用个人主页作为约束对感知机的分类结果进行修正。为了进一步提高重名排岐算法的准确性，引入户反馈信息。根据反馈用

3、户的可信程度，将反馈进行分类，从低可信用户反馈中提取特征加入到感知机的输入中，选择了高可信用户反馈作为额外约束来修正感知机的输出，将用户反馈作为训练集对感知机进行持续训练，不断地修正感知机。实验结果表明，引入用户反馈以后，重名排岐算法的准确性能得到大幅的提升，取得了比较好的效果，目前此算法已经运用在 Arnetminer 系统中。关键词：关键词：重名排岐，学术网络，特征提取，约束，用户反馈 II Abstract There are many scientists of same name among the scientist cooperation network. Renow

4、ned academic platforms such as Arnetminer, Springer, ACM, DBLP and CiteSeer have the problem that when they calculate the academic ability of the scientists, they regard several scientists of same name as one person. Because of the ambiguous names, there exist a lot of errors in the scientist cooper

5、ation network, which cause confusion to the research based on it. Thus, name disambiguation is meaningful. Existing name disambiguation algorithms mainly extracted features from co-authors information, authors organization and citation relationship to input to the graph model. These algorithms have

6、a common weakness of low recall and lacking the ability of continuous learning. Name disambiguation is translated into a problem of classification by estimating whether two papers are written by same author. By adopting features used by existing algorithms and analyzing the manual progress of name d

7、isambiguation, such features are extracted: Co-Author, Co-Org, Citation, Homepage, Title Similarity, PDF File, and Dig-Lib. Perceptron is used as the classifier and the feature Homepage is used as the constraint. User feedback is imported into algorithm to improve performance. According to the credi

8、bility of user, user feedback is classified into three types. Two new features are extracted from it as input to the perceptron and feedbacks proposed by high credible users are adopted as extra constraints. By constructed feedbacks as a training stream, perceptron can be enhanced continuously. Expe

9、riments show that after importing user feedback, the algorithm can learn continuously and get a better performance. This algorithm has been used to the Arnetminer. Key words： name disambiguation, academic network， features extraction, constraint, user feedback 独创性声明独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工

10、作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到，本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密

11、，在_年解密后适用本授权书。不保密。（请在以上方框内打“”）学位论文作者签名：指导教师签名：日期：年月日日期：年月日本论文属于 1 1 绪论 1.1 课题研究背景统计表明，中国人重名的概率非常高，使用最常见的前50个名字人口为1453万人，大约占人口总数的1%，重名问题在国外也非常严重，特别是在使用拉丁语系的国家，另外，名字的缩写进一步加大了重名的概率。重名是困扰信息检索领域的问题，特别是互联网应用领域中，信息具有非结构化，不完整性的特点，而重名问题又导致了信息的岐义性，严重影响了检索的质量。重名问题还影响了社会网络研究的开展，在社会网络研究中，

12、社会网络的节点通常是人的名字作为标记，重名问题导致了一个节点可能代表了几个人，从而导致社会网络本身就包含一些错语，建立在其基础上的科学研究偏差就更大了。在学术网络研究中，对科学家学术能力的统计常常以名字为单位，而重名问题使得这个统计不准确，造成对科学家学术能力统计的误差，例如ACM，DBLP，CiteSeer，Arnetminer等知名学术网站都存在这个问题。在学术出版数据库查询中，Cihan Varol1 发现，大约23%的查询是作者名字，因为重名的问题这些查询的结果都是不准确的。 1.2 课题研究的目的和意义信息社会中信息已经成为了相当宝贵的社会资源，互联网环境中蕴藏着大量

13、的信息，并且是海量的，如何快速，准确地获取想要的信息，是信息技要发展的核心问题。在Web1.0时代，信息整合需求使得搜索引擎的出现，搜索引擎系统以网页中的词作为索引，对信息进行分类，并按照一定的算法，对信息进行重要度排序，为互联网用户提供信息检索服务，但这种服务只是停留在信息收集的初级阶段，呈现给用户的是原始的网页，对信息并没有进行处理，用户所需要的信息可能分布在数个网页之中，用户体验很差。在Web2.0时代，将人作为信息的发布者之一，充分调动人的积极性，出现了许多互动类型的“百科”网站，在信息结构化的过程中取得了 2 一定的突破，但是这需要耗费大量的人力，并且人只能看到互联网上

14、的部分信息，信息的完整性难以保证。再加上信息更新速度快，增长速度快，远远超过了人的处理能力，因此，这种方式并不可行，由机器自动地进行信息结构化处理是解决这类问题必由之路。但是在信息由非结构化向结构化转化，将零散的信息合并成完成的信息时，面临着一个严峻的问题，那就是信息描述实体的确定。在互联网世界里，网页是异构的，代表信息实体的名字不统一，另外，多个信息实体可能具有相同的名字，如果直接用名字来作为实体的唯一ID，将导致信息的错乱。如何将具有相同名字，不同实体的信息分开，将代表相同实体的不同名字进行合并，是信息处理自动化的关键。只有解决了同名排岐问题，信息的结构化处理才是正确的，信

15、息的合并才是完整的，才能迎来互联网应用技术的腾飞。科学家合作网络作为社会网络的一种，一直是一个非常热门的研究领域。清华大学Jie Tang1搭建了一个计算机学科学术网络平台Arnetminer2，在此基础上，Chi Wang3提出了一种算法，能在在科学家合作网络挖掘“导师-学生” 。 Jimeng Sun4 给出了一种在大模模科学合作网络中计算科学家学术影响力的方法，Chenhao Tan5 等人提出了一种预测社会网络中科学家行为NTT-FGM模型。 Jie Tang等人将科学合作网络和学术论文建立成一个异构网络6，提出了一种在话题层面寻找专家的方法。张鹏7对科学家合作网络的聚类分析，找出了科学家中的群组。因为科学家也存在重名的问题，以名字来识别科学家所建立的科学家合作网络是不准确的，因此，建立在此基础上的其它研究也是不准确的。因此，必须对重名的科学家进行排岐，只有这样，才能建立一个准确的科学家合作网络，为其它建立在此基础上的科学研究奠定一个坚实的基出。 1.3 国内外相关技术发展现状存在重名排岐问题的领域非常广泛，很多科学家在不同的领域对重名排岐问题都进行过深入的研究，例如百科全书8，维基百科9，参考文献1011121314，网页 1Homepage: 3 151617，电子邮件17，电影数据库等18

展开阅读全文

学术网络重名排岐算法研究

最新文档