南开大学复习资料-大数据导论0001.docx

上传人:人*** 文档编号:494691686 上传时间:2022-10-23 格式:DOCX 页数:22 大小:41.10KB
返回 下载 相关 举报
南开大学复习资料-大数据导论0001.docx_第1页
第1页 / 共22页
南开大学复习资料-大数据导论0001.docx_第2页
第2页 / 共22页
南开大学复习资料-大数据导论0001.docx_第3页
第3页 / 共22页
南开大学复习资料-大数据导论0001.docx_第4页
第4页 / 共22页
南开大学复习资料-大数据导论0001.docx_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《南开大学复习资料-大数据导论0001.docx》由会员分享,可在线阅读,更多相关《南开大学复习资料-大数据导论0001.docx(22页珍藏版)》请在金锄头文库上搜索。

1、大数据导论课程期末复习资料一、客观部分:(单项选择、多项选择)(一)、单项选择以下不是NoSQL数据库的是(D)MongoDBHBaseA. CassandraDB22以下不是目前主流开源分布式计算系统的是(A)AzureA. HadoopSparkStorm3.Apriori算法是一种(A)算法A. 关联规则聚类分类预测(二)、多项选择大数据的特征包括(ABCD )体量大(Volume)多样性(Variety)A. 速度快(Velocity)价值高(Value)按照数据结构分类,数据可分为(ABC )结构化数据A. 半结构化数据非结构化数据无结构数据根据产生主体的不同,大数据可以分为(BC)

2、A. 产量企业应用产生的数据大量个人用户产生的数据由巨量机器产生的数据科研数据数据可根据产生主体的不同分为三类:(1)由少量企业应用而产生的数据。关系型数据库中的数据、数据仓库中 的数据。8. 简述大数据面临存储的问题与挑战。随着结构化数据和非结构化数据数量的不断增长,以及分析数据来源的多样 化,之前的存储系统设计已经无法满足大数据应用的需求。对于大数据的存储,存在以下问题和挑战:1. 容量问题:大数据通常可达到pb级的数据规模,因此大数据存储系统需 要达到相应等级的扩展能力。2. 延退问题:大数据应用还存在实时性的问题,很多大数据应用环境,如涉 及网上交易或者金融类相关的应用,都需要较高的每

3、秒进行读写操作的次数3. 安全问题:某些特殊行业的应用,例如金融数据、医疗信息以及政府情报 等又都自己的安全标准和保密性需求4. 成本问题对于使用大数据环境的企业,成本控制是关键问题5. 数据的积累,需要基于大数据的应用要求较长的数据保存时间,为了实现 长期的数据保存,需要存储厂商开发出能持续进行数据一致性检测、备份和容灾 等保证长期高可用性的技术6. 灵活性大数据存储系统的基础设置规模庞大,保证存储系统的灵活性和 扩展性是一大挑战。为了应对大数据对存储系统的挑战,数据存储领域的工作者通过不懈努力提 升数据存储系统的能力,主要提升有3个方面:提升系统的存储容量、提升系统 的吞吐量、系统的容错性

4、等。9. 简述传统存储系统架构分类经过多年发展,存储系统架构由早期的DAS (Direct-AttachedStorage,直连 式存储)发展到NAS ( Network-AttachedStorage,网络附加存储)和SAN (StoragcArcaNctwork,存储区域网络),现在已经进入到云存储阶段。1. 直连式存储(Direct Attached Storage, DAS)是最早出现的最直接的扩展 数据存储模式,即与普通的PC架构一样,存储设备与主机系统直接相连,挂接 在服务器内部总线上。2. 网络附加存储(Network Attached Storage, NAS )是一种采用直接

5、与网 络介质相连的特殊设备实现数据存储的模式。3. 存储区域网络(Storage Area Network, SAN)指存储设备相互连接并与服 务器群相连而成网络,创造了存储的网络化。通过专用高速网将一个或多个网络 存储设备和服务器连接起来的专用存储系统,数据处理服务器上的操作系统可以 像访问本地盘数据一样对这些存储设备进行高速访问。10. 云存储技术具有哪些特点?并加以解释云存储技术具有以下特点(1) 可靠性。云存储通过增加冗余度提高存储的可靠性。但是增加可靠性受 到可靠性原理、成本及性能等方面的制约,因此在在保证可靠性的同时,提高系 统的整体运行效率是当前一个亟待解决问题。(2) 可用性。

6、企业需要全天候地为世界不同地区的用户提供服务支持,因 此可用性至关重要。对于云存储平台,冗余的架构部分可以减少停机风险。同时, 多路径、控制器、不同的光纤网、RAID技术、端到端的架构控制/监控和成熟的 变更管理过程等方案均可提高云存储可用性。(3) 安全性。云存储服务间传输以及保存的数据都有被截取或篡改的隐患, 因此当服务通过云交付时,数据分片混淆存储和数据加密传输成为了实现用户数 据私密性和保证安全性的重要手段。(4) 动态伸缩性。指的是读/写性能和存储容易的扩展与缩减。一个设计优 良的云存储系统可以在系统运行过程中简单地通过添加或移除节点来自由扩展 和缩减,这些操作对用户来说是透明的。(

7、5) 低成本。云存储可以降低企业级存储成本,包括购置存储的成本、驱 动存储的成本、修复存储的成本及管理存储的成本。11. 云存储架构分哪些层次,各层实现了什么功能?云存储是一个由网络设备、存储设备、服务器、应用软件、公用访问接口、 接入网和客户端程序等组成的复杂系统。以存储设备为核心,通过应用软件来对 外提供数据存储和业务访问服务。云存储的架构由上而下可以分为访问层、应用接口层、基础管理层和存储层。1) 存储层:云存储的最基础部分。云存储中的存储设备通常分布在不同地 域且数量非常庞大,通过互联网、广域网或FC光纤通道网络把各个存储设备连 接在一起。统一存储设备管理系统在存储设备的上一层,它能够

8、完成多链路冗余 管理,存储设备的逻辑虚拟化管理以及硬件设备的状态监控与故障维护。2)基础管理层:云存储最核心最难以实现的部分,基础管理层的主要功能 是使云存储中多个存储设备之间可以协同工作,以便对外提供同一种服务,能够 提供更大、更好、更强的数据访问性能,它所采用的技术主要有集群系统、分布 式文件系统和网格计算等。为了保证云存储中的数据不会被未授权的用户所访问, 它还提供了 CDN内容分发系统以及数据加密技术。同时,为了确保云存储中的 数据不丢失以及云存储自身的安全和稳定,它还采取了各种数据备份、数据容灾 技术和措施。3)应用接口层:云存储中灵活性最好的部分,根据实际业务类型的不同, 不同的云

9、存储运营单位开发的应用服务接口及提供的应用服务也不一样。例如在 线音乐播放应用平台、网络硬盘应用平台、IPTV和视频点播应用平台、远程教 学应用平台等。4)访问层:用户获得云存储系统的授权后,就可以通过标准的公用应用接 口进行登录并享受云存储服务。云存储提供的访问类型和访问手段会根据云存储 运营单位的不同而有所不同。12. 存储虚拟化技术有哪几个实施层次,分别叙述这几个层次的特点。根据不同的虚拟化实现位置,虚拟化还可以分为基于主机虚拟化、基于存储 设备虚拟化和基于存储网络虚拟化。1)基于主机虚拟化。基于主机的虚拟化存储的核心技术是,通过增加一个 运行在操作系统下的逻辑卷管理软件将磁盘上的物理块

10、号映射成逻辑卷号,从而 把多个物理磁盘阵列映射成一个统一的虚拟逻辑块,来进行存储虚拟化的控制和 管理。2)基于存储设备虚拟化。基于存储设备虚拟化技术依赖于提供相关功能的 存储设备的阵列控制器模块,常见于高端存储设备,其主要应用针对异构的SAN 存储构架。3)基于存储网络虚拟化。基于存储网络虚拟化技术的核心是在存储区域网 中增加虚拟化引擎实现存储资源的集中管理,其具体实施一般是通过具有虚拟化支持能力的路由器或交换机实现的。13. 云存储关键技术云存储技术是多种技术的集合体,这些技术涉及硬件、软件和网络等计算机 技术的各个方面,具有高可用性、高可靠性、高安全性和低成本等特征。1. 存储虚拟化。存储

11、虚拟化可以将系统中不同厂商、不同型号、不同通信技 术、不同类型的存储设备映射为一个统一的存储资源池,屏蔽了存储实体之间的 物理位置及异构特征,从而对这些存储资源进行统一分配管理。在虚拟化存储环境中,服务器及应用系统面对的都是物理设备的逻辑映像, 且不会随物理设备的改变而变化,实现了资源对系统管理员的透明性,在降低构 建存储系统成本的同时使管理和维护资源变得容易。云存储的虚拟化将存储资源虚拟化为全局命名空间,并通过多租户技术给使 用者提供存储资源,在此过程中,数据可以在存储资源池中跨节点、跨数据中心 流动。根据不同的虚拟化实现位置,虚拟化还可以分为基于主机虚拟化、基于存储 设备虚拟化和基于存储网

12、络虚拟化。2. 分布式存储。(1)分布式块存储。块存储就是服务器直接通过读写存储空间中的一个或 一段地址来存取数据。(2)分布式对象存储。对象存储是为海量数据提供Key-Value这种通过键 值查找数据文件的存储模式;对象存储引入对象元数据来描述对象特征,对象元 数据具有丰富的语义;引入容器概念作为存储对象的集合。对象存储系统底层基于分布式存储系统来实现数据的存取,其存储方式对外 部应用透明。这样的存储系统架构具有高可扩展性,支持数据的并发读写,一般 不支持数据的随机写操作。(3)分布式文件系统。文件存储系统可提供通用的文件访问接口,如POSIX、 NFS、CIFS、FTP等,实现文件与目录操

13、作、文件访问、文件访问控制等功能。目前的分布式文件系统存储的实现有软硬件一体和软硬件分离两种方式。主 要通过NAS虚拟化,或者基于x86硬件集群和分布式文件系统集成在一起,以 实现海量非结构化数据处理能力。3. 数据缩减云存储中的数据缩减技术,满足了海量信息爆炸式增长趋势,一定程度上节 约企业存储成本,提高效率。(1)自动精简配置。自动精简配置技术是利用虚拟化方法减少物理存储空 间的分配,最大限度提升存储空间利用率。(2)自动存储分层。自动存储分层(AutomatedStorageTierAST)技术主要用 来帮助数据中心最大限度地降低成本和复杂性。(3)重复数据删除。“重复删除技术(De-d

14、uplication)作为一种数据缩减技 术可对存储容量进行优化。它通过删除数据集中重复的数据,只保留其中一份, 从而消除冗余数据。4. 负载均衡。庞大的数据量必然会用来支持海量的请求,云存储一个典型特 点就是实现这些请求在系统内部的负载均衡。在传统的负载均衡中,处于网络边 缘的设备将来自不同地址的请求均匀地、最优化地发送到各个承载设备上。而在 云存储中,除了在网络边缘实现DNS动态均匀解析的负载均衡设备,还有在系 统内部的负载均衡机制,即在节点资源之间的负载均衡。14. NoSQL普遍采用的技术NoSQL系统普遍采用的一些技术有以下几种。(1)简单数据模型。不同于分布式数据库,大多数NoSQ

15、L系统采用更加简 单的数据模型.(2)元数据和应用数据的分离。NoSQL数据管理系统需要维护两种数据:元数据和应用数据。元数据是用于系统管理的,如数据分区到集群中节点和副本的映射数据。应用数据就是用户存储在系统中的商业数据。(3)弱一致性。NoSQL系统通过复制应用数据来达到一致性。这种设计使得更新数据时副本同步的开销很大,为了减少这种同步开销,弱 一致性模型如最终一致性和时间轴一致性得到广泛应用。15. 请分析相比于关系型数据库,NoSQL数据存储管理系统的主要优势与劣势。 相对于关系型数据库,NoSQL数据存储管理系统的主要优势有以下几方面。(1)避免不必要的复杂性。关系型数据库提供各种各

16、样的特性和强一致性, 但是许多特性只能在某些特定的应用中使用,大部分功能很少被使用。NoSQL系 统则提供较少的功能来提高性能。(2)高吞吐量。一些NoSQL数据系统的吞吐量比传统关系数据管理系统要 高很多,如Google使用MapReduce每天可处理20PB存储在Bigtable中的数据。(3)高水平扩展能力和低端硬件集群。NoSQL数据系统能够很好地进行水 平扩展,与关系型数据库集群方法不同,这种扩展不需要很大的代价。而基于低 端硬件的设计理念为采用NoSQL数据系统的用户节省了很多硬件上的开销。(4)避免了昂贵的对象关系映射。许多NoSQL系统能够存储数据对象, 这就避免了数据库中关系模型和程序中对象模型相互转化的代价。虽然NoSQL数据库提供了高扩展性和灵活性

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号