02.《大数据》配套之二:第2章-数据采集与预处理教学文案

上传人:yulij****0329 文档编号:134129134 上传时间:2020-06-02 格式:PPTX 页数:42 大小:11.18MB
返回 下载 相关 举报
02.《大数据》配套之二:第2章-数据采集与预处理教学文案_第1页
第1页 / 共42页
02.《大数据》配套之二:第2章-数据采集与预处理教学文案_第2页
第2页 / 共42页
02.《大数据》配套之二:第2章-数据采集与预处理教学文案_第3页
第3页 / 共42页
02.《大数据》配套之二:第2章-数据采集与预处理教学文案_第4页
第4页 / 共42页
02.《大数据》配套之二:第2章-数据采集与预处理教学文案_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《02.《大数据》配套之二:第2章-数据采集与预处理教学文案》由会员分享,可在线阅读,更多相关《02.《大数据》配套之二:第2章-数据采集与预处理教学文案(42页珍藏版)》请在金锄头文库上搜索。

1、 全国高校标准教材 云计算 姊妹篇 剖析大数据核心技术和实战应用 大数据 刘鹏主编张燕张重生张志立副主编 BIGDATA 刘鹏 2 1大数据采集架构 第二章数据采集与预处理 如今 社会中各个机构 部门 公司 团体等正在实时不断地产生大量的信息 这些信息需要以简单的方式进行处理 同时又要十分准确且能迅速满足各种类型的数据 信息 需求者 这给我们带来了许多挑战 第一个挑战就是在大量的数据中收集需要的数据 下面介绍常用的大数据采集工具 of 42 4 2 1 1概述 2 1大数据采集架构 第二章数据采集与预处理 of 42 5 2 1 2常用大数据采集工具 数据采集最传统的方式是企业自己的生产系统产

2、生的数据 除上述生产系统中的数据外 企业的信息系统还充斥着大量的用户行为数据 日志式的活动数据 事件信息等 越来越多的企业通过架设日志采集系统来保存这些数据 希望通过这些数据获取其商业或社会价值 2 1大数据采集架构 第二章数据采集与预处理 of 42 6 在Flume中 外部输入称为Source 源 系统输出称为Sink 接收端 Channel 通道 把Source和Sink链接在一起 ApacheChukwa项目与Flume有些相类似 Chukwa继承了Hadoop的伸缩性和鲁棒性 也内置一个功能强大的工具箱 用于显示系统监控和分析结果 互联网时代 网络爬虫也是许多企业获取数据的一种方式

3、Nutch就是网络爬虫中的娇娇者 Nutch是Apache旗下的开源项目 存在已经超过10年 拥有大量的忠实用户 Flume体系架构 2 1大数据采集架构 第二章数据采集与预处理 of 42 7 2 1 3ApacheKafka数据采集 ApacheKafka被设计成能够高效地处理大量实时数据 其特点是快速的 可扩展的 分布式的 分区的和可复制的 Kafka是用Scala语言编写的 虽然置身于Java阵营 但其并不遵循JMS规范 Topics 话题 消息的分类名 Producers 消息发布者 能够发布消息到Topics的进程 Consumers 消息接收者 可以从Topics接收消息的进程

4、Broker 代理 组成Kafka集群的单个节点 基本Kafka集群的工作流程 2 1大数据采集架构 第二章数据采集与预处理 of 42 8 1 Topics Topics是消息的分类名 或Feed的名称 Kafka集群或Broker为每一个Topic都会维护一个分区日志 每一个分区日志是有序的消息序列 消息是连续追加到分区日志上 并且这些消息是不可更改的 2 日志区分 一个Topic可以有多个分区 这些分区可以作为并行处理的单元 从而使Kafka有能力高效地处理大量数据 Topics与日志分析 2 1大数据采集架构 第二章数据采集与预处理 of 42 9 3 Producers Produc

5、ers是向它们选择的主题发布数据 生产者可以选择分配某个主题到哪个分区上 这可以通过使用循环的方式或通过任何其他的语义分函数来实现 4 Consumers Kafka提供一种单独的消费者抽象 此抽象具有两种模式的特征消费组 Queuing和Publish Subscribe 5 ApacheKafka的安装及使用 因为Kafka是处理网络上请求 所以 应该为其创建一个专用的用户 这将便于对Kafka相关服务的管理 减少对服务器上其他服务的影响 2 1大数据采集架构 第二章数据采集与预处理 of 42 10 使用useradd命令来创建一个Kafka用户 sudouseraddkafka m 使

6、用passwd命令来设置其密码 sudopasswdkafaka 接下来把kafaka用户添加到sudo管理组 以便kafaka用户具有安装ApacheKafka依赖库的权限 这里使用adduser命令来进行添加 sudoadduserkafkasudo 这时就可以使用kafka账户了 切换用户可以使用su命令 su kafka 在ApacheKafka安装所依赖的软件包前 最好更新一下apt管理程序的软件列表 sudoapt getupdate ApacheKafka需要Java运行环境 这里使用apt get命令安装default jre包 然后安装Java运行环境 sudoapt get

7、installdefault jre 通过下面的命令测试一下Java运行环境是否安装成功 并查看Java的版本信息 java version 2 1大数据采集架构 第二章数据采集与预处理 of 42 11 机器有如下显示 2 1大数据采集架构 第二章数据采集与预处理 of 42 12 2 1大数据采集架构 第二章数据采集与预处理 of 42 13 2 1大数据采集架构 第二章数据采集与预处理 of 42 14 2 1大数据采集架构 第二章数据采集与预处理 of 42 15 6 使用Java来编写Kafka的实例 首先 编写KafkaProducer properties文件 zk connec

8、t localhost 2181broker list localhost 9092serializer class kafka serializer StringEncoderrequest required acks 1 下面的代码是使用Java编写了一个Kafka消息发布者 importkafka javaapi producer Producer importkafka producer KeyedMessage importkafka producer ProducerConfig publicclassMyKafkaProducer privateProducerproducer

9、privatefinalStringtopic publicMyKafkaProducer Stringtopic throwsException InputStreamin Properties class getResourceAsStream KafkaProducer properties Propertiesprops newProperties props load in ProducerConfigconfig newProducerConfig props producer newProducer config publicvoidsendMessage Stringmsg K

10、eyedMessagedata newKeyedMessage topic msg producer send data producer close publicstaticvoidmain String args throwsException MyKafkaProducerproducer newMyKafkaProducer HelloTopic Stringmsg HelloKafka producer sendMessage msg 2 1大数据采集架构 第二章数据采集与预处理 of 42 16 下面创建Comsumer 首先编写KafkaProperties文件 zk conne

11、ct localhost 2181group id testgroupzookeeper session timeout ms 500zookeeper sync time ms mit interval ms 1000 上述参数配置 十分容易理解 具体的详细说明 可以参考Kafka的官方文档 下面的代码是使用Java编写了一个Kafka的Comsumer importjava io InputStream importjava util HashMap importjava util List importjava util Map importjava util Properties im

12、portkafka consumer ConsumerConfig importkafka consumer ConsumerIterator importkafka consumer KafkaStream importkafka javaapi consumer ConsumerConnector importkafka consumer Consumer publicclassMyKafkaConsumer privatefinalConsumerConnectorconsumer privatefinalStringtopic publicMyKafkaConsumer Stringt

13、opic throwsException InputStreamin Properties class getResourceAsStream KafkaProducer properties Propertiesprops newProperties props load in ConsumerConfigconfig newConsumerConfig props consumer Consumer createJavaConsumerConnector config this topic topic publicvoidconsumeMessage MaptopicMap newHash

14、Map topicMap put topic newInteger 1 Map consumerStreamsMap consumer createMessageStreams topicMap List streamList consumerStreamsMap get topic for finalKafkaStreamstream streamList ConsumerIteratorconsumerIte stream iterator while consumerIte hasNext System out println message newString consumerIte

15、next message if consumer null consumer shutdown publicstaticvoidmain String args throwsException StringgroupId testgroup Stringtopic HelloTopic MyKafkaConsumerconsumer newMyKafkaConsumer topic consumer consumeMessage 全国高校标准教材 云计算 姊妹篇 剖析大数据核心技术和实战应用 大数据采集架构 of 42 17 2 2数据预处理原理 第二章数据采集与预处理 通过数据预处理工作 可

16、以使残缺的数据完整 并将错误的数据纠正 多余的数据去除 进而将所需的数据挑选出来 并且进行数据集成 数据预处理的常见方法有数据清洗 数据集成与数据变换 of 42 18 2 2数据预处理原理 第二章数据采集与预处理 数据属性分为数值属性和非数值属性进行处理 通过利用已存数据的多数信息来推测缺失值 数据属性分为数值属性和非数值属性进行处理 通过利用已存数据的多数信息来推测缺失值 大量采用同一属性值 可能会误导挖掘程序得出有偏差甚至错误的结论 数据偏离的问题小 但该方法十分费时 不具备实际的可操作性 通常当在缺少类标号时 通过这样的方法来填补缺失值 利用均值替换缺失值 用同类样本的属性均值填充缺失值 使用最可能的值填充缺失值 of 42 19 2 2 1数据清洗 2 2数据预处理原理 第二章数据采集与预处理 of 42 20 噪声是被测量的变量的随机误差或方差 给定一个数值属性 如何才能使数据 光滑 去掉噪声 下面给出数据光滑技术的具体内容 2 2数据预处理原理 第二章数据采集与预处理 of 42 21 数据清洗可以视为一个过程 包括检测偏差与纠正偏差两个步骤 可以使用已有的关于数据性质的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号