数据基础知识及数据处理

上传人:M****1 文档编号:469735086 上传时间:2022-09-01 格式:DOCX 页数:20 大小:403.41KB
返回 下载 相关 举报
数据基础知识及数据处理_第1页
第1页 / 共20页
数据基础知识及数据处理_第2页
第2页 / 共20页
数据基础知识及数据处理_第3页
第3页 / 共20页
数据基础知识及数据处理_第4页
第4页 / 共20页
数据基础知识及数据处理_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《数据基础知识及数据处理》由会员分享,可在线阅读,更多相关《数据基础知识及数据处理(20页珍藏版)》请在金锄头文库上搜索。

1、数据处理(从小数据到大数据)一、小数据1、信息的度量在计算机中:最小数据单位:位(bit)Bit: 0或1(由电的状态产生:有电1,无电0)基本数据单位:字节(Byte, B)1B=8bit1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB。2、不同数制的表示方法十进制(Decimal notation), 如 120, (120) 10, 120D二进制(Binary notation),如(1010)2 , 1010B八进制(Octal notation),如(175)8 , 175O十六进制数(Hexdecimal notation),如(2BF)16,2BF

2、03H十进制数二进制数八进制数十六进制数000011112102231133410044510155611066711177810001089100111910101012A11101113B12110014C13110115D14111016E15111117F161000020103、不同数制之间的转换方法(1) 任意其他进制(二、八、十六)转换成十进制,可“利用按权展开式展开”。例如:10110.101B=1 X24 + 0X23+1X22+1 X21+0X20+1 X2-1 +0X2-2 +1 X2-3=22.625D347.6O=3X82+4X81+7X80+6X8-1=231.75

3、DD5.6H=DX 161 + 5 X I60+6X 16-1 =213.375D(2)十进制转换成任意其他进制(二、八、十六),整数部分的 转换可按“除基取余,倒序排列”的方法,小数部分的转换可按“乘 基取整,顺序排列”的方法(除倒取,乘正取)例,十进制数59转换为二进制数111011B例:十进制数0.8125转换为二进制数0.1101B同理:317 D= 100111101B = 475O = 13DH0.4375D = 0.0111B = 0.34O = 0.7H(3)八进制数转换成二进制数可按“逐位转换,一位拆三位的方法。(8421 法)例如:3107.4603107=011 001

4、000 111 .100110 B=11001000111.10011B(4)十六进制数转换成二进制数,可按“逐位转换,一位拆四位”的方法(8421法)例如:4A7.1CH=4 A 7 . 1 C H=0100 1010 0111 . 0001 1100 B=10010100111.000111B(5)二进制数转换成八进制数,可按“三位合一位,分节转换 的方法(8421法,三位时为/21法)例如:11010101.1101B=011 010 101 . 110 100B=325 .64 O=325.64 O(6)二进制数转换成十六进制数可按“四位合一位,分节转换”的方法。例如:10110101

5、01.11101B=0010 1101 0101. 1110 1000 B=2 D 5 . E 8 H=2D5.E8H二、大数据大数据(big data),指无法在一定时间范围内用常规软件工具进 行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的 决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。大数据特征:(Volume大量)、(Variety多样)(Velocity高速)、(Value (价值)核心特征)()Volume (大量,1PB)1 PB = 1,024 TB = 1,048,576 GB1 EB = 1,024 PB = 1,048,576 TB1

6、 ZB = 1,024 EB = 1,048,576 PB1 YB = 1,024 ZB = 1,048,576 EB1 BB = 1,024 YB = 1,048,576 ZB1 NB = 1,024 BB = 1,048,576 YB1 DB = 1,024 NB = 1,048,576 BBmW357GGB(二)Variety (多样)在大数据这个房间里,住着各种各样的“人”,它们分别叫做视频、聊天记录、人口普查结果、天气预报(三)Velocity (高速)以一个存储1PB的数据为例,即使带宽(网速)能达到1G/s, 且电脑的容量足够且24小时运行,要将1PB的数据存入电脑也需要 12天

7、。大数据通过云计算,可以实现将12天才能存储完毕的数据, 在20分钟之内完成。渚旧存注个黑爱穿会7 需要3天20分钟4、Value (价值)这是大数据的核心特征,其最大价值在于从大量不相关的各类数 据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器 学习(MachineLearning)、人工智能(ArtificialIntelligenc 或数据挖掘(DataMining)等方法深度分析,发现新规律和新知识,并运用于社会各领域,从而达到改善社会治理、提高生产效率、推进 科学研究的效果。云计算云计算,作为一个新兴的技术时尚名词,正受到计算机软件和互联网技能人 员及商业模式研究人员的高

8、度追捧,他们百折不回地认为云计算能把他们带出创 新枯竭的互联网应用沙漠,并让他们跃升到同行中更高的岗位。他们视其为救命稻草,他们计划抓住云计算这根看起来模模糊糊的稻草,正 是如此,云计算文章铺天盖地,种种格局的研讨会此起彼伏,以致已经生长到以 讹传讹、神乎其神、不能自拔的田地了。到底什么才是云计算呢?来看看下面这 段对话吧!最开始,人们使用算盘后来,人们用电脑再后来,人们有了网络就匡-号:cluud_zrclLl网再后来,中国人口大爆炸,男女比例:男的比女的多3700万,这三千多万 人没事干,都去上网。于是服务器吃不消了。于是人们就发明了很牛的技术,用更好更多的服务器再后来,人更多了,于是服务

9、器也更多了但事实上这样的效果并不好,过度繁重的结构加大了网站设计和构架的难度, 而且越是复杂的系统越是不稳定。有可能一个出问题,这样一个完整的系统就彻 底挂掉。如果考虑到系统的崩溃情况,那势必要引入一个更复杂的方案来保证不 同的服务器可以做不同的支援。这是一个无解的循环,大量的计算资源被浪费在 无限制的互相纠结中,很快到了瓶颈。-L翎房号:口心囹人们想,那我不用这么乱七八糟复杂的系统,我上个极其牛的服务器不就好 了?可是,太贵了而且最牛的也还没制造出来于是人们突然想到了一个好办法:把所有计算资源集结起来看成是一个整体 (一朵云 ),通过并发使用资源完成操作请求。每个操作请求都可以按照 一定的规

10、则分割成小片段,分发给不同的机器同时运算,每个机器其实只要做很 小的计算就可以,哪怕286机器都轻松完成的。最后将这些机器的计算结果整合, 输出给用户。对用户看来,他其实根本面对的不是许多机器,而是一个似乎真正存在的计 算能力巨牛无比的单个服务器。事实上这个服务器是不存在的,但它拥有着成千 上万台服务器的能力。大数据技术基础知识1. 大数据的概念“大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据 分析、数据挖掘等围绕大数据商业价值的利用,已逐渐成为行业人士争相追捧的利润焦点。早在1980年,著名未来学家阿尔文托夫勒便在第三次浪潮一书中,将大数据热情 地赞颂为“第三次浪

11、潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网 信息技术行业的流行词汇。美国互联网数据中心指出,互联网上的数据每年将增长50%, 每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据又并 非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数码传 感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化, 也产生了海量的数据信息。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行 专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提 高对数据的“加工能力

12、”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然 无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘, 但它必须依托云计算的分布式处理、分布式数据库、云存储和或虚拟化技术。随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。著云台的分析师 团队认为,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在 下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起, 因为实时的大型数据集分析需要像MapReduce 一样的框架来向数十、数百或甚至数千

13、的电 脑分配工作。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。计算 机学报刊登的“架构大数据:挑战、现状与展望”一文列举了大数据分析平台需要具备的 几个重要特性,对当前的主流实现平台一并行数据库、MapReduce及基于两者的混合架构 进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据 分析方面的努力进行了介绍,对未来研究做了展望。对于“大数据”,研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才 能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从某种程度上说,大数据是数据分析的前沿技术。

14、简言之,从各种各样类型的数据中, 快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该 技术具备走向众多企业的潜力。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈 论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的 规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大 数据的规律及其与自然和社会活动之间的关系。2. 大数据的特征大数据的4个“V”,或者说特点有四个层面:(1)数据体量巨大从TB级别,跃升到PB级别。最小的基本单位是Byte,按顺序给出所有单位:bit、Byte、 KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率 1 024(2 的十次 方)来计算。1 Byte = 8 bit1 KB= 1 024 Bytes1 MB= 1 024 KB = 1 048 576 Bytes1 GB = 1 024 MB = 1 048 576 KB1 TB = 1 024 GB = 1 048 576 MB1 PB = 1 024 TB = 1 048 576 GB1

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号