大数据教学实验室.doc

上传人:飞****9 文档编号:137241272 上传时间:2020-07-06 格式:DOC 页数:129 大小:11.41MB
返回 下载 相关 举报
大数据教学实验室.doc_第1页
第1页 / 共129页
大数据教学实验室.doc_第2页
第2页 / 共129页
大数据教学实验室.doc_第3页
第3页 / 共129页
大数据教学实验室.doc_第4页
第4页 / 共129页
大数据教学实验室.doc_第5页
第5页 / 共129页
点击查看更多>>
资源描述

《大数据教学实验室.doc》由会员分享,可在线阅读,更多相关《大数据教学实验室.doc(129页珍藏版)》请在金锄头文库上搜索。

1、 数据科学与大数据技术教学科研实验室建设方案Shanghai Realaction Software & Services Co., Ltd.目录一、数据科学与大数据专业人才定位与培养目标11.1 数据科学及大数据人才定位11.2 数据科学及大数据人才培养目标31.2.1 大数据即服务架构设置41.2.2 大数据基础关键技术51.2.3 大数据存储和管理技术51.2.4 大数据分析及挖掘技术51.2.5 多媒体及非结构化数据管理与分析6二、数据科学与大数据专业支撑平台62.1 企业级大数据工程实践系统环境62.2 开放的商用及开源组件共享平台102.3 基于智慧教育云的实践教学平台112.3.

2、1 总体架构112.3.2 虚拟桌面云142.3.3 教学云平台192.4 中国高校大数据课程公共服务平台23三、数据科学与大数据专业教学资源253.1 教学计划支撑253.2核心课程设计及实验303.2.1 大数据技术原理与应用概念、存储、处理、分析与应用303.2.2 大数据即服务:云计算与数据引擎管理333.2.3 大数据基础及实战课程353.2.4 基于数据挖掘工作流的分析与预测433.2.5 R语言企业版443.2.6 大数据可视化及图像分析45四、贯穿教学全过程的大数据项目案例484.1 在线视频点播网站用户行为预测:MoviePlex494.1.1 客户需求概述494.1.2 技

3、术架构及目标描述504.1.3 视频网站门户514.1.4 登录后用户个性化界面514.1.5 用户Profile查询及管理524.1.6 电影详细信息544.1.7 数据采集:FLUME554.1.8 数据组织:HUE-HIVE EDITOR-QUREY584.1.9 数据集成:Oracle Data Integrator604.1.10 数据分析:R-Studio614.1.11 用户推送:WEB呈现624.2 “健康医疗大数据”:流行性感冒数据分析及趋势预测624.2.1 美国疾病控制中心数据集634.2.2 世界卫生组织数据集634.2.3 美国卫生及公共服务部地区分布数据集644.2

4、.4 世界动物健康组织流感数据集654.2.5 世界银行经济发展指标数据集664.2.6 数据科学概述664.2.7 通过公众数据源加载各种科研数据674.2.8 分析及可视化数据674.2.9 使用Apache Spark分析数据69五、科研、师资培训与增值服务735.1为教学与科研提供“全数据”支撑平台735.1.1 数据组织735.1.2 数据类型745.1.3 数据采集765.2 面向教学与科研的增值服务765.2.1 合作开发高校自主版权的教育资源及科研成果775.2.2 领先的行业软件与企业级仿真工程实践环境775.2.3 提供技术讲座及认证优惠资源785.3 校企合作的师资培训与

5、人才培养785.3.1 企业师资支持785.3.2 双证型人才培养计划78六、方案总结与公司简介806.1 方案总结806.2 公司简介80七、大数据实验室配置清单82八、大数据实验室平面图效果图(参考)106一、数据科学与大数据专业人才定位与培养目标当前,在“数字中国”的时代背景下,大数据概念引起了科技界、产业界和政府部门的高度关注。多份国际顶级学术刊物相继出版专刊来专门探讨对大数据的研究,从多个方面介绍了海量数据带来的挑战,特别指出 倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用;大数据的开发与利用已经在互联网、医疗服务、零售业、金融业、制造业

6、、物流、电信、工业4.0等行业广泛展开,并产生了巨大的社会价值和产业空间;政府部门也高度重视大数据技术,2013年初,中科院倡议应将大数据提升为国家战略。由此可见,大数据确实引起并必将掀起一股“数据革命”热潮,在多所高等院校及科研机构间形成共识。计算机科学与技术(数据科学与大数据技术方向)专业为国家新增专业,该专业主要培养大数据科学与工程领域的复合型高级技术人才。毕业生具有信息科学、管理科学和数据科学基础知识与基本技能,掌握大数据科学与技术所需要的计算机、网络、数据编码、数据处理等相关学科的基本理论和基本知识,熟练掌握大数据采集、存储、处理与分析、传输与应用等技术,具备大数据工程项目的系统集成

7、能力、应用软件设计和开发能力,具有一定的大数据科学研究能力及数据科学家岗位的基本能力与素质。毕业后能从事各行业大数据分析、处理、服务、开发和利用工作,大数据系统集成与管理维护等各方面工作,亦可从事大数据研究、咨询、教育培训工作。1.1 数据科学及大数据人才定位大数据是继云计算,物联网之后兴起的又一新兴发展方向,被学术界、工业界乃至政府机构密切关注和广泛研究。大数据不仅仅是面向大型企业,基于数据驱动的决策制定过程,正迅速成为几乎所有行业的标准,这使得在各种各样的行业、组织和学科中,对于数据导向的专业人才的需求空前高涨。从广义上讲,大数据人才就是具备大数据处理能力的科学家和工程师。目前,国际上开设

8、了大量的数据科学方面的课程、数据科学学位计划以及数据科学短期培训班。从国际上设置的培养计划来看,大数据人才应该系统地掌握数据分析相关的技能,主要包括数学、统计学、数据分析、商业分析和自然语言处理等,具有较宽的知识面,具有独立获取知识的能力,具有较强的实践能力、创新意识和团队合作意识。大数据人才首先应具备获取大数据的能力,例如能根据任务的具体要求,综合利用各种计算机手段和知识,收集整理海量数据并加以存储,为支撑相关的决策和行为做好数据准备。同时,应具备分析大数据的能力,对于经过预处理的各类数据,能够根据具体的需求,进行选择、转换、加载,采用有效方法和模型对数据进行分析,并形成分析报告,为实际问题

9、提供决策依据。最后,大数据行业的产生的需求本身来源于业务应用,因此在大数据人才培养的过程中更应该将大数据的理论回归业务应用,加强学生的动手实验操作及技术应用能力。因此,借助行业领先的大数据解决方案,产品,以及教育资源,可以使学生高效的获得大数据知识和动手实践体验,这是现代职业所必备的数据技能。从本专业毕业学生,不但应该具备深入了解数据科学基础理论及大数据核心技术原理,了解大数据基础架构设计,了解大数据项目完整生命周期(采集,访问,处理,集成,分析,可视化,安全,治理,优化)的各个阶段所需要的技能,根据项目需求正确选择行业常用大数据工具,熟练部署与应用相关工具。同时,作为一门源自业务需求的跨学科

10、专业,应该进一步突破IT熟练技工与业务需求绝缘的传统定位,加重行业特性与IT技术的粘合度,结合业务逻辑(如健康管理,医疗卫生),能通过选择先进及适配的IT信息化工具提供高效能解决方案。实现立足技术实施培养,更兼顾行业发展趋势及需求,能准确定位行业发展趋势及科研方向,并实现规划业务流程与大数据技术支撑架构衔接的SOA(面向业务架构设计)级别跨界人才。1.2 数据科学及大数据人才培养目标大数据技术是网络技术、人工智能、数据库技术等现代信息技术的有效结合,具有无可比拟的先进性。同时,大数据产业的发展,对大数据人才提出了新的需求,国内各高校在积极进行大数据学术研究的同时,也开始考虑将大数据相关课程纳入

11、培养体系,以满足社会对大数据人才的需求。因此,大数据技术课程旨在培养能够熟练掌握并利用计算机技术,云计算技术,大数据存储管理技术,大数据分析挖掘技术,具备数据爆炸时代能够解决实际大数据应用问题的理论与实践能力并长的高素质复合型管理人才。1.2.1 大数据即服务架构设置大数据即服务(BigData as a Services BDaaS),旨在为用户提供简单部署在“云计算”架构之上的Hadoop集群的能力,并且部署数据处理框架,如:Hadoop,Spark,Yarn,Strom等。通过简单的配置:比如Hadoop版本、集群结构、节点硬件信息等在用户提供了这些参数后,BDaaS能够迅速的把大数据集

12、群机构部署起来。同时也支持集群的扩容和减容。以Hadoop应用为代表的大数据分析,是最适合在云上运行的业务之一。也正因为如此,AWS、Oracle Cloud、Windows Azure、阿里云等知名“公有云”上都推出了相关服务。同时,高等院校采用Hadoop分布式大数据“云计算”架构,将是一个先进的融合两大热门技术的理想选择。大数据与“云计算”的结合是一个值得关注的方向。毋庸置疑,“云计算”和大数据目前都位列IT领域中最受瞩目的方向之中,而二者的结合则更是不可回避的话题。在这种情况下,BDaaS作为一个典型的、开源的大数据与“云计算”结合方案,必然是值得关注的。特别是,如果希望对这个方向有一

13、个清晰直观的、技术层面上的认识,BDaaS则更是一个可以重点分析学习的对象。1.2.2 大数据基础关键技术大数据时代面临的新挑战,包括大数据集成(数据异构性和数据质量问题)、大数据分析(数据形式多样化、数据处理的实时性、索引结构的复杂性等)、大数据隐私问题(隐私保护和数据分析的矛盾)、大数据能耗问题(低功耗硬件的设计)、大数据处理与硬件的协同、大数据管理易用性问题以及性能测试基准。1.2.3 大数据存储和管理技术如何把采集到的大数据存储起来,建立相应的数据库,并进行管理和调用。主要内容包括:分布式文件系统(HDFS)、去冗余及高效低成本的大数据存储技术、新型数据库技术(键值数据库,列式存数据库

14、、图存数据库以及文档数据库等)、异构数据融合技术、分布式非关系型大数据管理与处理技术、大数据索引技术和大数据移动、备份、复制等技术。1.2.4 大数据分析及挖掘技术从大量数据中寻找其规律的技术,通常由数据准备、规律寻找和规律表示3个阶段组成。数据准备是从上述大数据中心存储的数据中选取所需数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含规律找出来;规律表示则是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等。1.2.5 多媒体及非结构化数据管理与分

15、析大数据不单单意味这数据量发生了巨量提升,更重要的在于数据类型以及可用于业务分析的数据格式也在不断丰富。新的数据类型也正在对传统数据源和熟悉的商务智能活动进行补充。例如,网络日志文件可跟踪网站访问者的运动,这将揭示何人、何时、在何处、访问了该网站。这种数据可揭示人们与您网站的交互情况。社交媒体有助于您了解人们想些什么或者他们对某些事情的感觉。数据可来源于网页、社交媒体网站、微博、博客、“微信”的朋友圈、电子邮件交流、搜索索引、点击流、设备传感器和所有类型的多媒体文件(包括音频、视频和摄影)。随着计算机网络,分布式计算的发展,对多媒体信息进行高效的管理,存取,查询已经成了一种迫切需求。数据科学与大数据人才所采用的数据分析资源不单包括传统的数据源,同时应该有能力将数据库的可靠性、可用性和数据管理扩展到了传统、互联网、电子商务和多媒体应用程序中的多媒体内容。除存储和检索大图像外,还了解如何提取图像属性,包括以下图像的高度、宽度和压缩格式:这些图像包含的像素高达二十亿,或者分辨率高达 46000x46000。二、数据科学与大数据专业支撑平台2.1 企业级大数据工程实践系统环境大数据工程实践系统环境,是面向

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号