文档详情

基于云平台的图书馆数据挖掘技术研究

ss****gk
实名认证
店铺
DOCX
101.14KB
约6页
文档ID:235311984
基于云平台的图书馆数据挖掘技术研究_第1页
1/6

基于云平台的图书馆数据挖掘技术研究周 丰色(济南大学图书馆 济南250020李 萍(济南大学图书馆 济南25002刀文 摘 文章首先介绍了数据挖掘技术、云计算及“云图书馆”的相关理论,其次分析了数据挖掘技术在 图书馆中的应用现状,最后对“云图书馆”利用数据挖掘技术有效提高图书资源的利用率进行了研究,从而有 利于最大程度地满足读者的多种数据信息需求关键词 云计算 云图书馆 数据挖掘技术 图书利用率Studies on Library Data Mining Technology Based on Cloud PlatformZhou Yan(Library University of Jinan, Jinan 250022)Li Ping (Library University of Jinan, Jinan 250022)Abstract: This paper firstly introduces such interrelated theory* as datamining technology; coud cmputing, cloud library.Sccondly, analyze the present application situation of datamining technology in library; finally, we researches the utilization rate of books for cloud library making use of Datamining technology in this paper, so as to satisfy the diversified demands of library user by the greatest extent.Key words: Cloud computing, Cloud library, Datamining technology, Utilization rate of books信息技术的快速发展和图书馆服务模式的转变为以云计算为主的前沿技术在图书馆中的广泛丿、'、z用拓展了空 间。

以云计算为平台的数据挖掘技术适应了用户多样化、迅捷化的需求,有利于用户在图书馆的海最数据信息 中更快、更准确地发现所需信息近年来,国内外诸多学者对数据挖掘技术及其发展趋势进行了研究,普遍认 为在图书馆中采用数据挖掘技术,有助于数字图书馆的自动化建设,提升服务质量丁数字图书馆要适应用户 特定需求,向用户及时、准确地提供所需信息,必须动态地组织和呈现与用户当前信息需求相关的信息内容, 而数据挖掘可以实现这一功能基于云平台的数据挖掘技术是数字图书馆信息资源整合的最佳方法,也是目前 世界备国图书馆潜在数据技术挖掘的技术发展趋势1相关理论综述1.1云计算概述云计算是指基于互联网的一种新型的计算模式,即把存储于个人电脑、移动和其他设备上的大量信息 和处理器资源集中在一起,把信息资源、数据作为服务通过互联网提供给用户云计算是一种新兴的共享基础 架构管理方法,能够把大量的、高度虚拟化的资源管理起来,形成巨大的系统池,统一提供各种IT服务云计 算依靠B/S架构,把计算压力从客户端转移到服务器端,由技术提供商进行远程服务支持,是分布式处理、并 行处理和网格计算的新发展英资源和计算都在异地的设备中完成,而H己的终端设备只需要一个显示设备和 操作设备②。

云计算主要运用虚拟机(虚拟服务器)聚合形成同质服务,强调在某个机构内部的分布式计算资 源的共享图书馆云计算服务是以虚拟化技术为基础的,为用户提供最大限度的信息数据资源云计算技术能实现海 量数据的存储、分析、处理、挖掘,提供高可靠性、高性能的数据挖掘分析,主要是基于数据挖掘平台 PDMiner (Parallel Distributed Miner),实现了对大数据集的处理、分析,向用户提供高效的服务云计算在 对海量的数据存储、读取基础上进行大量的分析,数据的读操作频率远大于数据的更新频率1. 2国内云计算市场发展现状分析目前,我国已经掀起了发展云计算的热潮从政府层面看,政府向来是IT服务方面最稳定的市场,面对社 会经济发展的形势,政府部门已将云计算与政府的工作紧密结合,从而成为经济社会发展的重要支撑;从企业 层面看,国内很多企业已利用云平台对技术、产晶、服务等进行了大肌创新,取得了良好的应用实践效果;从 图书馆内部业务层面看,在云计算时代来临Z际,考虑到服务方式的转变、信息数据的挖掘及未来数据库的采 购等问题,也已经将云计算视为发展的重要保障有学者认为,当前儿乎所有的云服务都可以在图书馆领域得 到应用,包括大量的软件服务、云存储服务、平台服务和互联网整合服务等図。

图书馆充分利用云计算技术, 推进现代化建设和信息服务进程,进一步提升『I身的信息资源建设与信息服务提供能力,显然是一种不可冋避 的选择⑷目前,图书馆界正在积极探讨如何将云计算和云服务应用到图书馆的资源建设与服务提供中中国 高等教育文献保障系统正在完成CALIS数字图书馆云服务平台,构建大型的分布式公共数字图书馆服务网络, 力图将分布在互联网中各个图书馆的资源和服务報合成为一个整体,形成一个可控的白适应的新型服务体系 这一系统架构是以SOA规范为基础,以OSGi标准对各个服务进行统一封装,为服务提供者提供统一的服务发布 功能,为消费者和提供者之间提供统一的通信方式为实现来白不同服务平台、系统的服务報合,CALIS整个 云服务平台提供了统一开放API,统一的API托管以及统一的认证服务CAUS及其成员馆提供了灵活的部署和 应用方式,既能满足CALIS构建公有云服务中心的需要,也能满足图书馆构建私有服务云的需要,还能实现对 这两类服务云的報合到目前为1上,CAL1S云服务平台的基本框架已经完成6国外较有代表性的云服务应用先 例主要有美国国会图书馆与DuraSpace公司共同启动的Dur-aCloud项目。

可以说,云计算对图书馆而言并不显 得虚无缥缈,只有抓住这一大好机遇,明确H己在云计算环境中的发展定位,完善网络服务设施,提高公共服 务的水平,才能进一步提升6身的社会价值与地位1. 3数据挖掘技术相关理论数据挖掘(Data Mining)技术是一种新兴的信息处理技术,源于20枇纪90年代中期,作为知识发现的关 键步骤,数据挖掘对于用户从海量数据中提取有用知识具有重要作用,这一新兴技术涉及到多个学科领域,如 模糊数学、人工智能、机器学习等数据挖掘方法也在近年来不断发展,从仿生算法、数据库法(多维数据分析、 OLAP等)到目前盛行的领域驱动数据挖掘(DDDM)方法,可以说口新月异采用数据挖掘技术可以有效地从图书馆数据仓库中,发现潜在的有用信息和知识,利用务种分析工具在海 量数据中发现模型和数据间关系,从数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中 提取辅助决策的关键性数据随着图书馆信息化稈度的提高,数据量不断积累膨胀,为进一步的数据挖掘提供 了丰富的数据信息资源,可以最大限度地满足各类用户的知识信息需求用户从数据库中提取所需数据,对其 进行进一步的集成和合并,利用合适的数据挖掘技术,对相应信息资源进行務合,从而为决策提供更为有效的 帮助。

2数据挖掘技术及在图书馆中的应用随着图书馆数字化稈度的推进,如何运用新技术挖掘潜在的信息资源,为服务读者和科学管理提供可靠的 依据,成为图书馆界关注的问题主动发掘读者需求,提供读者所需信息,是现代图书馆的重要工作任务Z—由于每一种数据挖掘技术方法都有其H身的特点和实现步骤,因此,成功应用数据挖掘技术达到最终目标的过 稈相当复杂这一过稈是基于约束的、人机结合、往复循环、不断逼近目标、深层次的知识发现过稈其基木 处理流稈包括:数据收集、数据整理、数据挖掘、知识的获取等,数据挖掘的每个过程不是一次就能完成的, 而是一个循环迭代的过稈,只有这样才有可能达到预期的效果血2 1建立数据仓库数据挖掘的技术基础之一是数据仓库,而数据仓库技术是源于数据库的技术,它主要的设计思想是将分析 决策所需的大量数据从传统的操作环境中分离出来,把分散的,难以访河的操作数据转换成集中的、统一的、 随时可用的信息而建立的一种数据库存储坏境人们对数据仓库的定义是面向主题的,集成的,具有时间特征 的,稳定的数据集合,用以支持经营管理中的决策制定过程为什么要建设数据仓库的主要原因在于:数据仓 库可以说是决策支持系统,它是在管理信息系统的基础上发展起来的,数据仓库提供的经过一整理统计归纳的数 据可以给决策者很多信息,并通过数据帮助决策者做出决策。

所以建立数据仓库是很重要的事情建立图书馆的数据仓库,用以收集信息在学校图书馆系统中,我校在2006年9月就己经废弃了以前的图 书借阅证的使用,全面实行校园一卡通,这样为直接收集读者的借阅数据提供了便利下面木人简单说明针对 图书馆数据仓库事实表和维表的设计在借阅过程中,以学生,书籍,借阅时间三方面定义三个维度来建立维表,然后建立事实表,来收集信息 维表包含的是相应维度的描述信息,这些信息用作查询的约束条件,一般是离散的,描述性的,不具有可加性 的如下图所示:根据图书馆数据仓库建立的三个维表:学生维表,图书维表,借阅时间维表图1学生维表图2图书维表图3借阅时间维表数据仓库多,一般多采川多维数据模熨,这样能更好的完成多维数据分析的需要多维数据模熨普遍采用 的一种非常重要的模式就是星形模式,星形模式是由事实表和维表通过星形方式来连接而成,事实表包含的是 借阅数据信息,这些信息用于分析型查询数据取值通常是可度量的,连续型的,且具有可加性,数据量可以 达到几百万英至上一条记录事实表中的借阅数据信息可以从多个维度查看,每一个维度对应一张维表如图在数据仓库星形建模的基本工作完成之后,就应该开始进行数据聚集的设计。

数据聚集是数据仓库系统的 必备内容,它与分析型应用的需求密切相关,且与事实表和维表的设计紧密联系就工作的时间和内容而言, 它是数据仓库多维数据建模的后期工作,是事实表和维表设计工作的延续创建数据聚集首先确定数据聚集的内容,步骤如下:(1) 确定在齐个维的哪些属性上需要进行数据的聚集,这里以时间维的月份和年份,图书维的图书种类, 学生维的专业建立数据聚集2) 确定不同维的属性如何进彳亍组合数据聚集建立后,由于分析型查询一般都比较复杂,数据仓库的数据量一般有比较大,因此建立索引提高 数据仓库中数据的访问速度具有重要意义所以这里还要建立索引明确了数据仓库体系结构的基木方案,完成了数据模型的设计后下面考虑数据预处理问题对事实表和维 表进行一些数据净化等工作数据仓库经过以上经过建设后,我们还要对数据仓库进行运行和维护22在数据仓库中进行数据挖掘数据挖掘建立在数据仓库的基础上,前面己经介绍了一些数据仓库的相关知识,它们二者Z间有着紧密的联 系数据仓库为数据挖掘提供了数据基础,数据仓库完成了数据的收集,集成,存储,管理等工作,数据挖掘 曲对的是进过初步加工的数据,使得数据挖掘能更专注于知识的发现;而且由于数据仓库所具有的新的特点, 乂对数据挖掘技术提出了更高的要求。

可以说,数据挖掘技术和数据仓库技术结合起来,能够更充分的发挥数 据的威力通过利用我校图书馆的数据仓库,采用数据挖掘中的聚类分析技术为解决图书更新周期问题和合理购买新 书的问题提供了技术支持这里我主要应用基于密度聚类的分析方法基于密度的聚类方法是以局部数据特征作为聚类的判断标准,类被看做是一个数据区域,在该区域内对象 是密集的,对彖稀疏的区域将备个类分隔开来多数基于密度的聚类算法形成的聚类形状也可以是任意的,并 且一个类中对象的分。

下载提示
相似文档
正为您匹配相似的精品文档