关联规则分析在国内图书馆学领域的应用研究

上传人:新** 文档编号:513626985 上传时间:2022-09-28 格式:DOCX 页数:6 大小:54.27KB
返回 下载 相关 举报
关联规则分析在国内图书馆学领域的应用研究_第1页
第1页 / 共6页
关联规则分析在国内图书馆学领域的应用研究_第2页
第2页 / 共6页
关联规则分析在国内图书馆学领域的应用研究_第3页
第3页 / 共6页
关联规则分析在国内图书馆学领域的应用研究_第4页
第4页 / 共6页
关联规则分析在国内图书馆学领域的应用研究_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《关联规则分析在国内图书馆学领域的应用研究》由会员分享,可在线阅读,更多相关《关联规则分析在国内图书馆学领域的应用研究(6页珍藏版)》请在金锄头文库上搜索。

1、关联规则分析在国内图书馆学领域的应用研究摘要:此后人们对关联规则的挖梃问题迸行了大量研究,包括对Apriori算却讹、多层次关联规则算法3、多值属性关联规则算法4等,以提高算法挖械规则的效率,11鲍静,关联规则挖嫂及其在图书流遁雌中的应用研究Q.合肥工1k大学,2007.,20刘俊盛.搜索引擎的搜索、索引和枪索技术的关联分析J.图书馆学研究,2005(09):84-86.摘要:关联规则分析是当前数据挖掘研究的重要模式之一,可以定量地处理图书馆学领域中各类优化问题。本文在简要介绍关联规则分析的基础上,从流通信息、个性化推送、文献计量、信息检索等方面总结了关联规则分析法在国内图书馆学领域的应用。关

2、键词:关联规则分析数据挖掘数字图书馆近年来,挖掘(dataminingr知识发现(knowledgediscoveryindatabases,简称KDD),受到当今图书情报领域的广泛重视,其主要目的就是设计算法,用于从海量数挖掘研究中的一个重要的据中发现未知的、潜在的、读者感兴趣的有用信息。关联规则是研究课题。1 .关联分析规则基本原理Agrawal等人(1993年)最先发现了顾客交易数据库中的项集间存在关联规则,其核心方法是基于频集理论的递推方法,它侧重于确定会中不同属性域之间的联系找出频繁的数据属性域之间的相互关系。定义为:此后人们对关联规则的挖掘问题进行了大量研究,包括对Apriori算

3、法优化2、多层次关联规则算法3、多值属性关联规则算法等,以提高算法挖掘规则的效率。关联规则的挖掘一般可分成两个子问题:找出所有支持度之最小支持度阈值的频繁项集。由频繁模式生成满足可信度阈值的关联规则。第二个问题比较容易,它在第一步的基础上很容易实现,因此关联规则挖掘算法的性能主要由第一个问题决定。因为这个问题的挑战性在于数据量巨大,所以算法的效率是关键。2 .关联规则分析在国内图书馆学领域的应用关联规则分析经过十几年的发展,目前已经在各个领域广泛应用。从国内已有的研究成果来看,国内图书情报界越来越重视关联规则分析在图情领域各类优化问题的定量应用,并针对不同主题进行了一系列的探讨和研究,涉及的主

4、题主要包括关联规则分析在流通信息、个性化推送、文献计量、信息检索、知识管理等方面的应用。2.1 在流通信息统计中的应用在读者日常借阅记录事务中,每天都有大量的借还记录汇入数据库中。读者借阅的对象是文献资源,根据长期的读者借阅历史数据,我们会发现读者对文献的借阅存在着一定的关联,不同学科之间也存在着关联,以及不同的读者对文献的借阅存在着一定的模式。挖掘出这些数据之间的关联,有利于合理配置资源和提高资源的利用率,以提高图书馆的服务水平。图书流通量是反映图书利用率的最重要的技术指标,更是反映图书馆服务质量的重要因素。影响图书流通量的因素是纷繁复杂的,这些因素不仅包括馆藏图书种类和数量的多少、借阅方式

5、的差异、读者群体的大小、借阅权限的区分,而且包括由于读者个体间的差审口不同性别、年龄、不同专业及知识层次的读者对读物产生的不同需求。显然,在上述复杂而又相关的各因素中,既有大量已知信息,又有不少未知信息、非确知信息。图书流通系统的这种既含有已知信息,又含有未知的、非确知的信息,实际上是一种灰色系统5。关联规则的挖掘可以发现图书馆流通数据库中一组借阅书籍之间某种关联关系的规则,其作用在于对图书流通的关联性分析和相关借阅图书的推荐。这样可以优化图书馆馆藏结构、馆内书籍分布,不仅可以帮助师生的学习教研工作,甚至可以发掘不同学科间的隐藏联系6。项之间很难找出强关联淫继华等认为多维数据空间数据的稀疏性,

6、在低层或原始层的规则。在较高的概念层发现强关联规则很可能提供普遍意义的知识。而多层关联规则挖掘是直接面向海量数据库系统的,这类数据库通常有上百个属性和数百万个记录,并且数据表之间包含复杂的关系,这就必然导致数据挖掘过程中搜索维数和搜索空间的激增,利用高性能分布式计算机设计分布式多层关联规则算法来进行高效的分布式挖掘已经成为当前数据挖掘的一个迫切需要解决的问题。聂珍网在分析单库多层关联规则算法SMAM的基础上提出了分布式多层关联规则挖掘算法PMAM,使得其具有较高的分布式特点。在PMAM算法中利用全局频繁与局部频繁之间的关系减少候选集,并利用概念间的层次关系及项集长度的分布规律对事务表进行约减。

7、这样可使算法的效率得到提高,改善了内存的使用率。2.2在个性化推送中的应用未来图书馆的发展趋势是数字化的,然而目前,国内图书馆技术与应用基础薄,起步较晚,网络个性化服务发展更是滞后,其应用仍处于初始探索阶段。鉴于数据挖掘技术在数据的组织、分析与发现等方面存在巨大的潜力,学术界普遍认为它可为数字图书馆的个性化服务提供关键技术。图书推荐服务是图书馆个性化服务的一种,在图书馆巨大的馆藏资源中,每个读者感兴趣的只能是其中的一小部分,如何高效率地找出对读者有用的书目是图书馆学要研究的问题9。数字图书馆个性化服务是基于用户的行为、习惯、偏好、特点及特定需求,向用户提供满足其个性化需求的信息内容和功能的一种

8、服务10。鲍静11运用Apriori算法通过对读者借阅的关联挖掘,挖掘出各年龄层次、各职业、各学历层次及不同职称的读者对图书馆图书资源利用的关联规则,并引入兴趣度,对挖掘出的关联规则做进一步分析,分析正相关关联规则、负关联规则,并根据兴趣度来分析规则的有效性,提出了基于关联挖掘的读者个性化服务模型,由借阅记录数据库、数据挖掘引擎、图形用户界面、匹配器、规则库等部分组成。韩开来12等利用读者五年内书籍的借阅数据,在Apriori关联挖掘算法的基础上,对事务集中每个项集按每个项的最小支持度从小到大排列有序,最小支持度的值采用根据每个项的值结合用户指定的最小支持度上限和下限来计算。针对新书推荐特点,

9、采用新书推荐关联规则挖掘隐藏在借阅历史中的有价值的信息。为个性化服务平台的构建打下基础;转换图书馆的服务模式,由被动转为主动,建立以读者为中心的个性化服务体系。23在文献计量中的应用在文献计量学的研究中,通常需要通过定量分析以确定核心期刊、核心M乍者、核心情报源等等。列,来源一般有两种方式对最优目标或某种具体要求的量化数据列,即标准数据列或最优13,一种是人为指定,另一种是从被分析的项集合的指标值中选取最优值。用关联分析法进行处理,相较其他方法具有更为广泛的适用性,只要是由某些指标数据来对目标项或要求进行优化排序的均可用此法。方法简单,原理直观明了,计算量较少,对指标因素无任何限制,因此应用广

10、泛。科学文献的编排格式为文献计量学提供了可统计的外部特征。邹常诗14从引文、关键词、分类号等外部特征入手,采用文献计量方法分析了文献的关联性相关文献群和相关著者群,并阐述了两个相关群的实际应用。杨代庆等口5分别从合著者、共关键词、共引三个角度对来自于万方数字化期刊群、SCI、EI的院士期刊文献进行关联性分析,通过期刊及院士作为媒介,最终映射到学部之间的关联关系。根据生成的关联图从关联广度、关联孤立性、关联强度分析了学部之间的关联程度及原因,并揭示了作为合著者的外部文献特征与作为关键词、共引的内容特征在学部关联性上的差异。曹志杰16等提出了基于共词分析的隐性关联知识发现方法,用于发现这些尚未被发

11、现的联系或复现这些被主观隐藏的特定联系,揭示出技术发展动向,以提高情报研究质量和情报工作地位。徐慧17等利用频数统计、关联规则算法,对中国中医药期刊文献数据库中19842007年病毒性心肌炎文献涉及的主题词和副主题词进行分析,抽取隐含规律,为病毒性心肌炎的临床诊疗及科研提供思路。2.4在信息检索中的应用金玮18等针对Web信息检索系统在海量数据下的服务质量和效率问题,讨论了数据挖掘技术在Internet信息检索中的运用,在经典的关联规则算法研究基础上,通过引入多维链表结构,提出了利用事务集合匹配运算和链表操作高效地挖掘关联规则的算法ARMLL用于提高Web信息检索质量。实验结果表明该算法是可行

12、的,有较高的效率。黄名选口9等以关联规则挖掘技术的发展为主线,将目前的研究方法归纳为五类:项无加权关联规则挖掘、项加权关联规则挖掘、项完全加权关联规则挖掘、负关联规则挖掘和增量挖掘,对这五类挖掘技术进行整体性阐述和匕限性研究,指出了挖掘技术的局限性。刘俊熙20认为搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,对搜索引擎的相关技术(搜索技术、索引技术、检索技术和接口技术)进行关联分析。于春21等介绍相关性是信息检索科学的核心概念,用户观点则是相关性研究的主要观点;从用户角度研究相关性理论,以试验法为研究方法,力图证明存在一个核心的、可以跨不

13、同用户类型、问题情境和信息源环境的关于信息用户在信息需求检索中的相关性判断的因素集,以此阐述如何提高信息检索的准确率,指导信息用户能够及时、准确地查找到所需信息。除以上几个方面外,关联分析还应用在图书馆学领域的诸多方面。有的学者运用灰色关联度分析法对所调研图书馆读者满意程度进行对比分析,并进一步对读者满意度评价指标进行灰色关联分析,得出影响图书馆读者满意度的主要指标22。还有学者将关联规则分析应用在期刊评价、馆藏建设、专利分析等方面。3.关联规则分析在国内图书馆学领域应用的总结和思考从关联规则分析在国内图书馆学领域应用的文献数量来看,国内学者越来越重视这种分析工具的应用。从近年来文章的主题来看

14、,关联规则分析在国内图书情报领域应用的研究主要集中在以下几个方面:(1)在流通信息统计中的应用;(2)在个性化服务推介方面的应用;(3)文献计量分析;(4)信息检索方面的应用;(5)读者满意度满意度评价,此外还包括期刊评价、馆藏建设、专利分析、编目规则、文献采访、学科馆员选拔、知识管理和竞争情报等。通过对国内研究的分析,可以看到该主题的研究越来越丰富,应用越来越广泛,既有理论研究,又有实践探讨。但是同国外相比,国内的理论探讨不够深入,实证研究相对比较少,因此不论从理论还是实践上都需要向国外借鉴和学习。参考文献:lAgrawalR,SrikantR.Miningassociationrulesb

15、etweensetsofitemsinlargedatabasesA.PrcoACMSIGMODInfIConfManagementofdataC.WashingtonDC,May,1993:207-216.2AgrawalR,SrikantR.FastalgorithmsforminingassociationrulesA.Prco20thInfIConfVeryLargeDatabaseC.Santiago,Chile,Sept,1994:487-499.3SrikantR,AgrawalR.MininggeneralizedassociationrulesA.Proceedingsofthe21thInternationalConferenceonVeryLargeDatabasesC.Zurich,Switzerland,Sept,1995:407-419.4尹阿东等.基于数值属性的关联规则挖掘算法J.微机发展,2003(4):67-70.高波.对高校图书流通的灰关联法分析J.辽宁师范大学学报(自然科学版),2001(03):327-330.王磊,刘东苏.关联规则挖掘在图书馆信息服务中的应用J,情报杂志,2008(2):154-158.7壬呈继华,施鹏飞.多层关联规则的有效挖掘算法J.软件学报,1998(12):937-941.9夏南强,张

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号