基于Hadoop的高校大数据平台的设计与实现

上传人:gg****m 文档编号:215059633 上传时间:2021-11-24 格式:DOCX 页数:9 大小:63.87KB
返回 下载 相关 举报
基于Hadoop的高校大数据平台的设计与实现_第1页
第1页 / 共9页
基于Hadoop的高校大数据平台的设计与实现_第2页
第2页 / 共9页
基于Hadoop的高校大数据平台的设计与实现_第3页
第3页 / 共9页
基于Hadoop的高校大数据平台的设计与实现_第4页
第4页 / 共9页
基于Hadoop的高校大数据平台的设计与实现_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《基于Hadoop的高校大数据平台的设计与实现》由会员分享,可在线阅读,更多相关《基于Hadoop的高校大数据平台的设计与实现(9页珍藏版)》请在金锄头文库上搜索。

1、基于Hadoop的高校大数据平台的设计 与实现唐燕刘仁权王苹北京中医药大学信息中心摘要:随着信息化的推进,高校已经建设了很多信息系统,积累了大量数据。如何从海 量数据中,挖掘有价值的信息,支撑智慧校园的建设,成为需要迫切解决的问 题。文中就高校大数据平台的关键技术和架构进行阐述,结合高校实际情况,设 计高校大数据平台架构,通过搭建Hadoop集群环境,以业务系统和平台之间的 数据交互验证平台设计的可行性和优势。通过研究,文中为高校建设大数据平台 提岀一种设计方案,为高校信息化建设提供一种新思路。关键词:大数据;Hadoop; 分布式计算;Hive; 高校信息化;作者简介:唐燕(1977-),女

2、,硕士,讲师,研究方向为大数据技术、数据挖 掘。收稿日期:2017-02-17基金:北京中戻药大学2015基本科研面上课题(2015-JYB-JSMS051)Design and implementa/tion of college and university big data platform based on HadoopTANG Yan LIU Ren-quan WANG PingInformation Center, Beijing University ofChinese Medicine;Abstract:With the development of information t

3、echnology, colleges and universities have bu订t a lot of information systems, accumulated a lot of data. How to mining valuable insight from massive data and support the construction of intelligent campus has become an urgent problem to be solved. In this paper, the key technology and architecture of

4、 university data platform are expounded, and the architecture of university data platform is designed. The feasibility and advantages of platform design are verified by the data interaction between business system and platform by setting up lladoop cluster environment. Through the research, it propo

5、ses a design scheme for the construetion of large data platform in colleges and univers it ies, and provides a new idea for the cons true tion of univers ity informationization.Keyword:big data; Hadoop; distributed computing; Hive; university infonnationization;Received: 2017-02-17o引言随着云计算、互联网、物联网技术

6、的快速发展,各个行业已经进入大数据时代。 大数据包括各个系统中数据库中的结构化数据,也包括由社交媒体、邮件、视频、 音频、文档信息和网页所产生的非结构化数据。大数据技术的目标就是从这些数 据中挖掘信息、预测趋势、提供决策支持。“大数据”被认为是继物联网、云计 算Z后IT产业又一次颠覆性的技术变革111。随着信息化的推进,高校已经建设了很多信息系统,经过多年运营,已经积累 了很多数据。但是,这些系统分阶段建设,由不同部门运营和维护。虽然各业务 系统之间也进行了对接和数据交互,但缺少一个统一支持海量数据处理的平台 来支撑智慧校园的建设。在高校建立数据中心和大数据平台,利用海量数据进行 数据分析、挖

7、掘,为学校管理部门提供决策依据,为师生提供更智能、便捷的信 息化服务,这是高校信息化部门建设智慧校园过程中的必由之路宜。1 Hadoop 平台Hadoop是一个由Apache基金会所开发的分布式系统基础架构oHadoop集群中一 个主控节点控制和管理整个集群的运行,协调多个从节点完成数据和计算任务 。Hadoop系统的核心是分布式文件系统HDFS和MapReduce并行化计算框架。随着Hadoop的快速发展,Hadoop平台成为包含很多子系统大数据的处理生态系 统,如图1所示。图1 Hadoop生态系统 下载原图(1) HDFS:HDFS是分布式计算中数据存储管理的基础,具有高容错、高可靠性、

8、 高扩展性等优点,用户可以使用低廉的硬件部署Hadoop分布式文件系统。HDFS 采用主-从结构,一个HDFS文件系统包含一个主节点Name Node和多个数据节点 DataNodeo主节点Name Node管理整个文件系统的目录结构、数据块与文件名的 映射表、数据块副本的位置信息。数据节点Name Node是文件系统的工作节点,处 理具体的数据读写任务。(2) MapReduce:MapReduce并行计算框架将分析任务分为大量的并行Map任务和 Reduce任务0MapReduce以键值对数据输入方式处理数据。在Hadoop系统中,提 交的作业被划分为多个等长的数据块,对应于多个Map任务

9、。Map任务输出数据 排序后分发给Reduce任务继续处理中间结果,并输出最终结果。(3) HBase:HBase是建立在HDFS之上的分布式数据库,可以存储海量数据在HBase中,数据以列式存储,表中的数据通过行关键字、列关键字和时间戳进 行索引和查询。使用HBase可以完成增、删、查、改等操作,在海量数据中,快 速完成操作。(4) IIivc:IIivc是数据仓库处理工具,用于管理存储于1IDFS或HBase中的结构 化或半结构化数据固。使用Hive可以通过类似SQL的Hive QL语句对数据进行 查询、分析。Hive语句通过转化为MapReduce程序实现功能。2高校现有系统状况近年来,

10、随着智慧校园理念的提出,越来越多的高校认识到信息化建设的重要 性,增加财力、人力、技术投入,加速建设信息化。在信息化建设的过程中,发 现已有系统有重复开发、系统功能不完善不能适应新的需求,各个系统之间数据 冗余,数据不统一,不能实现数据共享,存在“信息孤岛”等现象。以北京中医 药大学为例,在梳理业务系统的过程中,以师生为主线,贯穿日常教学、科研、 医疗服务、口常管理方面展开,主要包括以下业务系统:人力资源系统,教学管 理系统,学生管理系统,财务管理系统,资产管理系统,行政管理系统,科研 管理系统,I矢疗服务系统,安全保卫系统,后勤管理系统模块。这些系统乂由一 些子系统组成,例如人力管理系统包含

11、:人力资源管理系统,退休职工管理系统, 劳资管理系统;教学管理系统包含:本科生教务系统,研究生教务系统,继续教 育教务系统;学生管理系统包括:本科生招生系统,研究生招生系统,学工管理 系统,就业系统,离校系统;后勤管理系统包含:一卡通管理系统、食堂管理系 统、宿舍管理系统、洗浴管理系统、报修管理系统、物业管理系统等。高校部分 系统结构图如图2所示。图2高校部分信息系统结构图下载原图 可以看出,高校业务系统庞大、复杂,在H积月累的运行中产生了大量数据。这 些系统之间数据共享程度低,种类繁杂,存在结构化、非结构化数据,如果无法 提取有用信息,将会造成数据资源的浪费111。在建设智慧校园的过程中,非

12、常 有必要建立数据中心和大数据平台,采集各个业务系统中的数据,进行数据整 合,并进行大数据分析和挖掘。3大数据平台架构设计木文基于Hadoop平台,针对高校信息系统,设计分布式大数据处理系统。整个 系统分为业务系统数据源、数据采集清洗整合、分布式数据存储、数据分析、 Hadoop平台管理、API接口、应用部分。整个平台架构图如图3所示。图3高校大数据平台架构下载原图数据源:包括现运行的高校各个业务系统及校园论坛、文件系统、视频监控等数 据。包括结构化数据和非结构化数据。结构化数据主要存储在OracleSqlscrvcr 等数据库中,各个业务系统中的数据基本以结构化数据为主;非结构化数据有些 以

13、blob存储在数据库中或直接存储在文件系统中。数据集成:数据集成包括数据采集、数据清洗以及数据整合,实现从数据源中抽 取数据到Hadoop平台进行数据分析。数据采集中可以利用Sqoop将关系型数据 库(例如:My SQL, Oracle, Postgrcs等)中的数据导入到Hadoop的I1DFS中或 Hive中。分布式数据存储:Hadoop生态系统中数据存储的技术组件主耍包括HDFS, Hive以及Hbaseo对于结构化数据,可以以表格的格式存储在Hive中,或者转 换为Key-value的方式存储到HBase,也可以以文件的方式存储到HDFS中。对 于非结构化数据,以目录和文件的组织方式存

14、储到HDFS中。抽取业务系统的数 据,以学生、教师、资产、财务、消费等为核心组织数据。大数据分析:Hadoop生态系统中提供多种数据处理和分析的框架,常用的主要 包括MapReduce和Sparko根据不同的应用场景,选择合适的框架和模型对数据 进行离线分析或流式计算。例如,编写MapReduce程序统计分析学生一卡通的消 费情况,学生行为分析,科研情况分析,监控视频分析等。智能分析和可视化:利用机器学习、数据挖掘算法进行深层次的分析。通过数据 展示以图表、导航仪等方式,将数据的分析结果转化为可视图形或文字,使这些 数据分析的结果更容易被理解。常见的数据展示工具有Tableau, D3,以及F

15、lot 等。各种业务数据的分析结果可以在学校门户或移动App程序中以图形方式展 示。API接口及应用:所有处理的数据及分析的结果,都可以以API接口的方式被门 户网站或移动APP等调用。大数据分析处理的结果可以在其他系统中展示和应 用。基于Iladoop的高校大数据平台设计充分考虑分布式计算、内存流式计算、数据 分析、机器学习等方面,基于开放架构,具备较好的扩展处理能力,并能为智慧 校园的多种数据来源提供全面可靠的处理。4实践及测试4.1实验内容为了测试Iladoop大数据平台能顺利将现有业务系统中的数据提取到Ilivc中存储, 同时能将Hive中处理后的数据导出到业务系统数据库。本实验以My

16、 SQL为例, 将My SQL数据库中的学生一卡通部分数据通过Sqoop工具导入到Hive中,并将 Hive中数据导出到My SQL数据库中,实现数据的导入导出。通过实验理解业务 系统和Hadoop平台中Hive之间的数据交互,最后,测试了 Oracle数据库和 Iladoop平台进行数据统计计算的性能,以此验证在大数据规模下Iladoop的优 势。4. 2实验环境在阿里云购买六台ECS服务器,配置如表1所示。表1硬件配置下载原表实验中安装的软件版本,如表2所示。表2软件环境下载原表4. 3实验过程 4. 3. 1 My SQL数据导入到Hive 将My SQL数据导入到Hive,可以通过三步实现。第一步:将My SQL数据先导入 到HDFS中;第二步:在Hive中创建表结构;第三步:将HDFS中数据加载到Hive 已创建的表中。在开始实验前需要查看Master、Sl

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号