南开大学复习资料-大数据导论

资源描述

《南开大学复习资料-大数据导论》由会员分享，可在线阅读，更多相关《南开大学复习资料-大数据导论（22页珍藏版）》请在金锄头文库上搜索。

1、大数据导论课程期末复习资料一、客观部分：（单项选择、多项选择）（一）、单项选择1.以下不是NoSQL数据库的是（D）A.MongoDBB.HBaseC.CassandraD.DB22以下不是目前主流开源分布式计算系统的是（A）A.AzureB.HadoopC.SparkD.Storm3.Apriori算法是一种（A）算法A.关联规则B.聚类C.分类D.预测（二）、多项选择1.大数据的特征包括（ ABCD ）A.体量大（Volume）B.多样性（Variety）C.速度快（Velocity）D.价值高（Value）2. 按照数据结构分类，数据可分为（ABC ）A.结构化数据B.半结构化数据C.非

2、结构化数据D.无结构数据3. 根据产生主体的不同，大数据可以分为（BC）A.产量企业应用产生的数据B.大量个人用户产生的数据C.由巨量机器产生的数据D.科研数据数据可根据产生主体的不同分为三类：（1）由少量企业应用而产生的数据。关系型数据库中的数据、数据仓库中的数据。（2）大量个人用户产生的数据。社交媒体，如微博、博客、QQ、微信、Facebook、Twitter等产生的大量文字、图片、视频、音频数据）、企业应用的相关评论数据、电子商务在线交易、供应商交易的日志数据。（3）由巨量机器产生的数据。应用服务器日志（Web站点、游戏）、传感器数据（天气、水、智能电网)、图像和视频监控、RFID、二

3、维码或者条形码扫描的数据。4. 根据作用方式不同，大数据可以分为（AC）A.交互数据B.社交数据C.交易数据D.个人数据5. Google分布式计算模型不包括（D）A. GFSB. BigTableC. MapReduceD.RDD6. 根据数据分析深度，可将数据分析分为（BCD ）A. 关联性分析B. 预测性分析C. 规则性分析D. 描述性分析7. 根据数据分析的实时性，可将数据分析分为（AD ）A. 实时数据分析B. 预测性分析C. 规则性分析D. 离线数据分析二、主观部分：（一）、名词解释1. 流处理流处理：“动态数据”转变为“正使用数据”，直接处理（Straight-through P

4、rocess），任务来一件做一件，信息来一点处理一点，有的直接过滤掉，有的存起来。对于流数据，多采用流处理，获得实时智能，速度快。2.磁盘阵列磁盘阵列（Redundant Arrays of Independent Disks，RAID），全称为“冗余的独立磁盘阵列”。冗余是为了补救措施、保证可靠性而采取的一种方法，独立是指磁盘阵列不在主机内而是自成一个系统。磁盘阵列是由很多价格较便宜的磁盘，组合成一个容量巨大的磁盘组，利用个别磁盘提供数据所产生加成效果提升整个磁盘系统效能。RAID可以让很多磁盘驱动器同时传输数据，在逻辑上又是一个磁盘驱动器，故使用此技术可以达到单个磁盘几倍、几十倍甚至上百倍

5、的速率。在很多RAID模式中都有较为完备的相互校验/恢复功能，大大提高了系统容错度和稳定性。3.云存储云存储是在云计算（cloud computing）概念上延伸和发展出来的一个新的概念，是一种新兴的网络存储技术。它是云计算的重要组成部分，也是云计算的重要应用之一。云存储是指通过集群应用、网络技术或分布式文件系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，共同对外提供数据存储和业务访问功能的一个系统。4.NoSQLNoSQL(Not Only SQL)泛指非关系型、分布式和不提供ACID的数据库设计模式，它不是单纯地反对关系型数据库，而是强调键值（Key-Value

6、）存储数据库和文档数据库的优点。5.数据仓库William H. Inmon在1992年出版Building the Data Warehouse一书，第一次给出了数据仓库的清晰定义和操作性极强的指导意见，真正拉开了数据仓库得到大规模应用的序幕。在该书中，将数据仓库定义为：“一个面向主题的（subject oriented）、集成的（integrate），相对稳定的（non-volatile）、反映历史变化（time variant）的数据集合，用于支持管理决策。6.云计算云计算（Cloud Computing）是一种分布在大规模数据中心、能动态的提供各种服务器资源以满足科研、电子商务等领域

7、需求的计算平台。同时，云计算是分布式计算、并行计算和网络计算的发展，是虚拟化、效用计算、 IaaS（基础设施即服务）、PaaS（平台即服务）、SaaS（软件即服务）等概念混合演进并跃升的结果。简单的说，云计算是基于互联网相关服务的增加、使用和交付模式，通过互联网来提供一般为虚拟化的动态易扩展资源。狭义云计算指IT基础设施的交付和使用模式；广义云计算指服务的交付和使用模式。两种云计算均通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算的核心思想，是将大量用网络连接的计算资源统一管理和调度，构成一个计算资源池，向用户按需服务。提供资源的网络被称

8、为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取、按需使用、随时扩展、按使用付费。7.RDDRDD弹性分布式数据集，简单来说，是一种自定义的可并行数据容器，可以存放任意类型的数据。弹性是指有容错的机制，若一个RDD分片去失，Spark可以根据粗粒度的日志数据更新记录的信息（Spark中称为“血统”）重构它：分布式指的是能对其进行并行的操作。除了这两点，它还能通过persist或者cache函数被缓存在内存里或磁盘中，共享给其他计算机，可以避免Hadoop那样存取带来的开销。8.大数据分析大数据分析是大数据理念与方法的核心，是指对海量增长快速、内容真实、类型多样的数据进行分

9、析，从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。9.数据挖掘数据挖掘（Data Mining，DM）简单来说就是在大量的数据中提取或挖掘信息，通过仔细分析来揭示数据之间有意义的联系、趋势和模式。10.关联分析关联分析（Association analysis）是从有噪声的、模糊的、随机的海量数据中，挖掘出隐藏的、事先不知道、但是有潜在关联的信息或知识的过程，或称关联规则学习（Association rule learning）。11.分类分析分类（Classification）任务是在给定数据基础上构建分类模型，根据分类模型确定目标对象属于哪个预定义的目标类别。构建分

10、类模型：通过分析已知训练样本类别的数据集属性，通过训练建立相应分类模型，是监督学习(supervised learning）过程，数据集被称为训练数据集。使用模型分类：评估模型的分类预测准确率，使用测试数据集进行评估；当准确率可以接受时，用分类模型对未知数据进行分类。12.聚类分析聚类分析（Cluster analysis）简称聚类（Clustering），是把数据对象划分成子集（类）的过程，每个子集称为一个簇（Cluster），同一个簇中的数据之间存在最大相似性，不同簇之间的数据间存在最大的差异性。（二）、简答1.人类社会的数据产生方式经历了哪些阶段？简述各阶段的特点。人类历史上从未有哪个时

11、代和今天一样产生如此海量的数据，人类社会的数据产生方式大致经历了3个阶段：运营式系统、用户原创内容阶段、感知式系统阶段。（1）运营式系统：数据库的出现使得数据管理的复杂度大大降低，实际中数据库大都为运营系统所采用，作为运营系统的数据管理子系统，如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录等。人类社会数据量第一次大的飞跃正是建立在运营式系统广泛使用数据库开始，这些数据规范、有秩序、强调数据的一致性，且这些数据的产生方式是被动的。（2）用户原创内容阶段：互联网的诞生促使人类社会数据量出现第二次大的飞跃，但真正的数据爆发产生于Web2.0时代，其重要标志就是用户原创内容。以博客、微

12、博为代表的新型社交网络的出现和快速发展，使得用户产生数据的意愿更加强烈；新型移动设备出现，易携带、全天候接入网络的移动设备使得人员在网上发现自己意见的途径更为便捷数据结构复杂，无秩序，不强调数据的一致性或只强调弱一致性，这些数据的产生方式是主动的。（3）感知式系统：人类社会数据量第三次大的飞跃最终导致了大数据的产生，这次飞跃的根本原因在于感知式系统的广泛使用。微小带着处理功能的传感器设备广泛布置于社会的各个角落，通过这些设备对整个社会的运转进行监控，这些设备会源源不断地产生新数据，这些数据的产生方式是自动的，数据呈现多源异构、分布广泛、动态演化等。简单来说，数据产生经历了被动、主动和自动三个

13、阶段，这些被动、主动和自动的数据共同构成了大数据的数据来源。2. 大数据处理的关键技术都有哪些？并做简要描述。大数据处理的关键技术主要包括：数据采集和预处理、数据存储、数据计算处理、数据分析和挖掘、数据可视化展示等。1).数据采集，又称数据获取，是大数据生命周期的第一个环节，通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。2).数据预处理是数据分析和挖掘的基础，是将接收数据进行抽取、清洗、转换、归约等并最终加载到数据存储的过程。3).数据存储，需要将采集到的数据进行存储管理，建立相应的数据库。4).数据计算处理。单台计算

14、机必然无法完成海量的数据处理工作，需要分布式架构的计算平台。5).数据分析与挖掘，是基于商业目的，有目的的进行收集、整理、加工和分析数据，提炼有价值信息的一个过程。6).大数据可视化技术，可以提供更为清晰直观的数据表现形式，将错综复杂的数据和数据之间的关系，通过图片、映射关系或表格，以简单、友好、易用的图形化、智能化的形式呈现给用户，供其分析使用。3. 简述网络大数据的一般采集过程。大数据采集主要包括：系统日志采集、网络数据采集、数据库采集和其他数据采集四种。网络数据采集常用的是通过网络爬虫或网站公开API等方式从网站上获取数据信息。该方法可以将非结构化数据从网页中抽取出来，将其存储为统一的本

15、地数据文件，并以结构化的方式存储。它支持图片、音频、视频等文件或附件的采集，附件与正文可以自动关联。网络大数据的一般采集过程：先在URL队列中写入一个或多个目标链接作为爬虫爬取信息的起点；爬虫从URL队列中读取链接，并访问该网站；从该网站爬取内容；从网页内容中抽取出目标数据和所有URL链接；从数据库中读取已经抓取过内容的网页地址；过滤URL，将当前队列中的URL和已经抓取过的URL进行比较；如果该网页地址没有被抓取过，则将该地址（Spider URL ）写入数据库，并访问该网站；如果该地址已经被抓取过，则放弃对这个地址的抓取操作；获取该地址的网页内容，并抽取出所需属性的内容值；将抽取的网页内容写入数据库，并将抓取到的新链接加入URL队列。4. 解释为什么要进行数据预处理。高质量的数据是能够满足应用需求的数据。数据质量涉及很多因素，包括准确性、完整性、一致性、时效性、可信性和可解释性。1)不完整数据的出现可能有多种原因：重要的信息并非总是可以得到、用户输入时的遗漏、用户理解错误导致相关数据没有记录、设备故障导致的输入缺失、记录中不一致数据的删除、记录历史或被修改的数据被忽略、缺失的数据，特别是某些属性缺失值的元组。2)不正确数据的出现原因有：收集数据的设备出现故障、人为

展开阅读全文