最全的大数据术语合集

上传人:小** 文档编号:55832792 上传时间:2018-10-07 格式:DOC 页数:7 大小:48KB
返回 下载 相关 举报
最全的大数据术语合集_第1页
第1页 / 共7页
最全的大数据术语合集_第2页
第2页 / 共7页
最全的大数据术语合集_第3页
第3页 / 共7页
最全的大数据术语合集_第4页
第4页 / 共7页
最全的大数据术语合集_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《最全的大数据术语合集》由会员分享,可在线阅读,更多相关《最全的大数据术语合集(7页珍藏版)》请在金锄头文库上搜索。

1、最全的大数据术语合集 大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,一亦在国外的 一个网站上扒来了常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考 了相应的博客文章。当然,这份术语表并没有 100%包含所有的术语。一个常见的大数据 术语表 大数据的出现带来了许多新的术语,但这些术语往往比较难以理解。因此,我们通过本文 给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。其中部分定义参考了相应的 博客文章。当然,这份术语表并没有 100%包含所有的术语,如果你认为有任何遗漏之处, 请告之我们。 A 聚合(Aggregation) 搜索、合并、显示数据的过程 算

2、法(Algorithms) 可以完成某种数据分析的数学公式 分析法(Analytics) 用于发现数据的内在涵义 异常检测(Anomaly detection) 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种:outliers, exceptions, surprises, contaminants.他 们通常可提供关键的可执行信息 匿名化(Anonymization) 使数据匿名,即移除所有与个人隐私相关的数据 应用(Application) 实现某种特定功能的计算机软件 人工智能(Artificial Intelligence) 研发智

3、能机器和智能软件,这些智能设备能够感知周遭 的环境,并根据要求作出相应的反应,甚至能自我学习B 行为分析法(Behavioural Analytics) 这种分析法是根据用户的行为如“怎么做” , “为什么 这么做” ,以及“做了什么”来得出结论,而不是仅仅针对人物和时间的一门分析学科,它 着眼于数据中的人性化模式 大数据科学家(Big Data Scientist) 能够设计大数据算法使得大数据变得有用的人 大数据创业公司(Big data startup) 指研发最新大数据技术的新兴公司 生物测定术(Biometrics) 根据个人的特征进行身份识别 B 字节 (BB: Brontobyt

4、es) 约等于 1000 YB(Yottabytes),相当于未来数字化宇宙的大小。 1 B 字节包含了 27 个 0! 商业智能(Business Intelligence) 是一系列理论、方法学和过程,使得数据更容易被理解C 分类分析(Classification analysis) 从数据中获得重要的相关性信息的系统化过程; 这类数 据也被称为元数据(meta data),是描述数据的数据 云计算(Cloud computing) 构建在网络上的分布式计算系统,数据是存储于机房外的(即 云端) 聚类分析(Clustering analysis) 它是将相似的对象聚合在一起,每类相似的对象

5、组合成一 个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性 冷数据存储(Cold data storage) 在低功耗服务器上存储那些几乎不被使用的旧数据。但这 些数据检索起来将会很耗时 对比分析(Comparative analysis) 在非常大的数据集中进行模式匹配时,进行一步步的对 比和计算过程得到分析结果 复杂结构的数据(Complex structured data) 由两个或多个复杂而相互关联部分组成的数据,这类数据不能简单地由结构化查询语言或工具(SQL)解析 计算机产生的数据(Computer generated data) 如日志文件这类由计算机生成

6、的数据 并发(Concurrency) 同时执行多个任务或运行多个进程 相关性分析(Correlation analysis) 是一种数据分析方法,用于分析变量之间是否存在正相 关,或者负相关 客户关系管理(CRM: Customer Relationship Management) 用于管理销售、业务过程的一 种技术,大数据将影响公司的客户关系管理的策略D 仪表板(Dashboard) 使用算法分析数据,并将结果用图表方式显示于仪表板中 数据聚合工具(Data aggregation tools) 将分散于众多数据源的数据转化成一个全新数据源 的过程 数据分析师(Data analyst)

7、从事数据分析、建模、清理、处理的专业人员 数据库(Database) 一个以某种特定的技术来存储数据集合的仓库 数据库即服务(Database-as-a-Service) 部署在云端的数据库,即用即付,例如亚马逊云服 务(AWS: Amazon Web Services) 数据库管理系统(DBMS: Database Management System) 收集、存储数据,并提供数据的 访问 数据中心(Data centre) 一个实体地点,放置了用来存储数据的服务器 数据清洗(Data cleansing) 对数据进行重新审查和校验的过程,目的在于删除重复信息、 纠正存在的错误,并提供数据一致

8、性 数据管理员(Data custodian) 负责维护数据存储所需技术环境的专业技术人员 数据道德准则(Data ethical guidelines) 这些准则有助于组织机构使其数据透明化,保证 数据的简洁、安全及隐私 数据订阅(Data feed) 一种数据流,例如 Twitter 订阅和 RSS 数据集市(Data marketplace) 进行数据集买卖的在线交易场所 数据挖掘(Data mining) 从数据集中发掘特定模式或信息的过程 数据建模(Data modelling) 使用数据建模技术来分析数据对象,以此洞悉数据的内在涵 义 数据集(Data set) 大量数据的集合 数

9、据虚拟化(Data virtualization) 数据整合的过程,以此获得更多的数据信息,这个过程 通常会引入其他技术,例如数据库,应用程序,文件系统,网页技术,大数据技术等等 去身份识别(De-identification) 也称为匿名化(anonymization),确保个人不会通过数据被 识别 判别分析(Discriminant analysis) 将数据分类;按不同的分类方式,可将数据分配到不同 的群组,类别或者目录。是一种统计分析法,可以对数据中某些群组或集群的已知信息进 行分析,并从中获取分类规则。 分布式文件系统(Distributed File System) 提供简化的,高

10、可用的方式来存储、分析、处 理数据的系统 文件存贮数据库(Document Store Databases) 又称为文档数据库(document-oriented database), 为存储、管理、恢复文档数据而专门设计的数据库,这类文档数据也称为半结构 化数据E探索性分析(Exploratory analysis) 在没有标准的流程或方法的情况下从数据中发掘模式。 是一种发掘数据和数据集主要特性的一种方法 E 字节(EB: Exabytes) 约等于 1000 PB(petabytes), 约等于 1 百万 GB。如今全球每天所 制造的新信息量大约为 1 EB 提取-转换-加载(ETL:

11、Extract, Transform and Load) 是一种用于数据库或者数据仓库的处 理过程。即从各种不同的数据源提取(E)数据,并转换(T)成能满足业务需要的数据,最后 将其加载(L)到数据库F 故障切换(Failover) 当系统中某个服务器发生故障时,能自动地将运行任务切换到另一 个可用服务器或节点上 容错设计(Fault-tolerant design) 一个支持容错设计的系统应该能够做到当某一部分出现 故障也能继续运行G 游戏化(Gamification) 在其他非游戏领域中运用游戏的思维和机制,这种方法可以以一 种十分友好的方式进行数据的创建和侦测,非常有效。 图形数据库(G

12、raph Databases) 运用图形结构(例如,一组有限的有序对,或者某种实体) 来存储数据,这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引 功能,也就是说,数据库中每个元素间都与其他相邻元素直接关联。 网格计算(Grid computing) 将许多分布在不同地点的计算机连接在一起,用以处理某个 特定问题,通常是通过云将计算机相连在一起。Hhadoop 一个开源的分布式系统基础框架,可用于开发分布式程序,进行大数据的运算 与存储。 Hadoop 数据库(HBase) 一个开源的、非关系型、分布式数据库,与 Hadoop 框架共同使 用HDFS Hadoop 分布式文件

13、系统(Hadoop Distributed File System);是一个被设计成适合运 行在通用硬件(commodity hardware)上的分布式文件系统 高性能计算(HPC: High-Performance-Computing) 使用超级计算机来解决极其复杂的计算 问题I 内存数据库(IMDB: In-memory) 一种数据库管理系统,与普通数据库管理系统不同之处 在于,它用主存来存储数据,而非硬盘。其特点在于能高速地进行数据的处理和存取。 物联网(Internet of Things) 在普通的设备中装上传感器,使这些设备能够在任何时间任 何地点与网络相连。J 法律上的数据一致

14、性(Juridical data compliance) 当你使用的云计算解决方案,将你的数 据存储于不同的国家或不同的大陆时,就会与这个概念扯上关系了。你需要留意这些存储 在不同国家的数据是否符合当地的法律。K 键值数据库(KeyValue Databases) 数据的存储方式是使用一个特定的键,指向一个特定 的数据记录,这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编 程语言中基本数据类型的数据。L 延迟(Latency) 表示系统时间的延迟 遗留系统(Legacy system) 是一种旧的应用程序,或是旧的技术,或是旧的计算系统,现 在已经不再支持了。 负载均衡(Lo

15、ad balancing) 将工作量分配到多台电脑或服务器上,以获得最优结果和最 大的系统利用率。 位置信息(Location data) GPS 信息,即地理位置信息。 日志文件(Log file) 由计算机系统自动生成的文件,记录系统的运行过程。M M2M 数据(Machine2Machine data) 两台或多台机器间交流与传输的内容 机器数据(Machine data) 由传感器或算法在机器上产生的数据 机器学习(Machine learning) 人工智能的一部分,指的是机器能够从它们所完成的任务中 进行自我学习,通过长期的累积实现自我改进。MapReduce 是处理大规模数据的一

16、种软件框架(Map: 映射,Reduce: 归纳)。 大规模并行处理(MPP: Massively Parallel Processing) 同时使用多个处理器(或多台计算机)处 理同一个计算任务。 元数据(Metadata) 被称为描述数据的数据,即描述数据数据属性(数据是什么)的信息。MongoDB 一种开源的非关系型数据库(NoSQL database) 多维数据库(Multi-Dimensional Databases) 用于优化数据联机分析处理(OLAP)程序,优 化数据仓库的一种数据库。 多值数据库(MultiValue Databases) 是一种非关系型数据库(NoSQL), 一种特殊的多维数 据库:能处理 3 个维度的数据。主要针对非常长的字符串,能够完美地处理 HTML 和 X

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号