02.《大数据》配套之二：第2章-数据采集与预处理教学文案

资源描述

《02.《大数据》配套之二：第2章-数据采集与预处理教学文案》由会员分享，可在线阅读，更多相关《02.《大数据》配套之二：第2章-数据采集与预处理教学文案（42页珍藏版）》请在金锄头文库上搜索。

1、全国高校标准教材云计算姊妹篇剖析大数据核心技术和实战应用大数据刘鹏主编张燕张重生张志立副主编 BIGDATA 刘鹏 2 1大数据采集架构第二章数据采集与预处理如今社会中各个机构部门公司团体等正在实时不断地产生大量的信息这些信息需要以简单的方式进行处理同时又要十分准确且能迅速满足各种类型的数据信息需求者这给我们带来了许多挑战第一个挑战就是在大量的数据中收集需要的数据下面介绍常用的大数据采集工具 of 42 4 2 1 1概述 2 1大数据采集架构第二章数据采集与预处理 of 42 5 2 1 2常用大数据采集工具数据采集最传统的方式是企业自己的生产系统产

2、生的数据除上述生产系统中的数据外企业的信息系统还充斥着大量的用户行为数据日志式的活动数据事件信息等越来越多的企业通过架设日志采集系统来保存这些数据希望通过这些数据获取其商业或社会价值 2 1大数据采集架构第二章数据采集与预处理 of 42 6 在Flume中外部输入称为Source 源系统输出称为Sink 接收端 Channel 通道把Source和Sink链接在一起 ApacheChukwa项目与Flume有些相类似 Chukwa继承了Hadoop的伸缩性和鲁棒性也内置一个功能强大的工具箱用于显示系统监控和分析结果互联网时代网络爬虫也是许多企业获取数据的一种方式

3、Nutch就是网络爬虫中的娇娇者 Nutch是Apache旗下的开源项目存在已经超过10年拥有大量的忠实用户 Flume体系架构 2 1大数据采集架构第二章数据采集与预处理 of 42 7 2 1 3ApacheKafka数据采集 ApacheKafka被设计成能够高效地处理大量实时数据其特点是快速的可扩展的分布式的分区的和可复制的 Kafka是用Scala语言编写的虽然置身于Java阵营但其并不遵循JMS规范 Topics 话题消息的分类名 Producers 消息发布者能够发布消息到Topics的进程 Consumers 消息接收者可以从Topics接收消息的进程

4、Broker 代理组成Kafka集群的单个节点基本Kafka集群的工作流程 2 1大数据采集架构第二章数据采集与预处理 of 42 8 1 Topics Topics是消息的分类名或Feed的名称 Kafka集群或Broker为每一个Topic都会维护一个分区日志每一个分区日志是有序的消息序列消息是连续追加到分区日志上并且这些消息是不可更改的 2 日志区分一个Topic可以有多个分区这些分区可以作为并行处理的单元从而使Kafka有能力高效地处理大量数据 Topics与日志分析 2 1大数据采集架构第二章数据采集与预处理 of 42 9 3 Producers Produc

5、ers是向它们选择的主题发布数据生产者可以选择分配某个主题到哪个分区上这可以通过使用循环的方式或通过任何其他的语义分函数来实现 4 Consumers Kafka提供一种单独的消费者抽象此抽象具有两种模式的特征消费组 Queuing和Publish Subscribe 5 ApacheKafka的安装及使用因为Kafka是处理网络上请求所以应该为其创建一个专用的用户这将便于对Kafka相关服务的管理减少对服务器上其他服务的影响 2 1大数据采集架构第二章数据采集与预处理 of 42 10 使用useradd命令来创建一个Kafka用户 sudouseraddkafka m 使

6、用passwd命令来设置其密码 sudopasswdkafaka 接下来把kafaka用户添加到sudo管理组以便kafaka用户具有安装ApacheKafka依赖库的权限这里使用adduser命令来进行添加 sudoadduserkafkasudo 这时就可以使用kafka账户了切换用户可以使用su命令 su kafka 在ApacheKafka安装所依赖的软件包前最好更新一下apt管理程序的软件列表 sudoapt getupdate ApacheKafka需要Java运行环境这里使用apt get命令安装default jre包然后安装Java运行环境 sudoapt get

7、installdefault jre 通过下面的命令测试一下Java运行环境是否安装成功并查看Java的版本信息 java version 2 1大数据采集架构第二章数据采集与预处理 of 42 11 机器有如下显示 2 1大数据采集架构第二章数据采集与预处理 of 42 12 2 1大数据采集架构第二章数据采集与预处理 of 42 13 2 1大数据采集架构第二章数据采集与预处理 of 42 14 2 1大数据采集架构第二章数据采集与预处理 of 42 15 6 使用Java来编写Kafka的实例首先编写KafkaProducer properties文件 zk connec

8、t localhost 2181broker list localhost 9092serializer class kafka serializer StringEncoderrequest required acks 1 下面的代码是使用Java编写了一个Kafka消息发布者 importkafka javaapi producer Producer importkafka producer KeyedMessage importkafka producer ProducerConfig publicclassMyKafkaProducer privateProducerproducer

9、privatefinalStringtopic publicMyKafkaProducer Stringtopic throwsException InputStreamin Properties class getResourceAsStream KafkaProducer properties Propertiesprops newProperties props load in ProducerConfigconfig newProducerConfig props producer newProducer config publicvoidsendMessage Stringmsg K

10、eyedMessagedata newKeyedMessage topic msg producer send data producer close publicstaticvoidmain String args throwsException MyKafkaProducerproducer newMyKafkaProducer HelloTopic Stringmsg HelloKafka producer sendMessage msg 2 1大数据采集架构第二章数据采集与预处理 of 42 16 下面创建Comsumer 首先编写KafkaProperties文件 zk conne

11、ct localhost 2181group id testgroupzookeeper session timeout ms 500zookeeper sync time ms mit interval ms 1000 上述参数配置十分容易理解具体的详细说明可以参考Kafka的官方文档下面的代码是使用Java编写了一个Kafka的Comsumer importjava io InputStream importjava util HashMap importjava util List importjava util Map importjava util Properties im

12、portkafka consumer ConsumerConfig importkafka consumer ConsumerIterator importkafka consumer KafkaStream importkafka javaapi consumer ConsumerConnector importkafka consumer Consumer publicclassMyKafkaConsumer privatefinalConsumerConnectorconsumer privatefinalStringtopic publicMyKafkaConsumer Stringt

13、opic throwsException InputStreamin Properties class getResourceAsStream KafkaProducer properties Propertiesprops newProperties props load in ConsumerConfigconfig newConsumerConfig props consumer Consumer createJavaConsumerConnector config this topic topic publicvoidconsumeMessage MaptopicMap newHash

14、Map topicMap put topic newInteger 1 Map consumerStreamsMap consumer createMessageStreams topicMap List streamList consumerStreamsMap get topic for finalKafkaStreamstream streamList ConsumerIteratorconsumerIte stream iterator while consumerIte hasNext System out println message newString consumerIte

15、next message if consumer null consumer shutdown publicstaticvoidmain String args throwsException StringgroupId testgroup Stringtopic HelloTopic MyKafkaConsumerconsumer newMyKafkaConsumer topic consumer consumeMessage 全国高校标准教材云计算姊妹篇剖析大数据核心技术和实战应用大数据采集架构 of 42 17 2 2数据预处理原理第二章数据采集与预处理通过数据预处理工作可

16、以使残缺的数据完整并将错误的数据纠正多余的数据去除进而将所需的数据挑选出来并且进行数据集成数据预处理的常见方法有数据清洗数据集成与数据变换 of 42 18 2 2数据预处理原理第二章数据采集与预处理数据属性分为数值属性和非数值属性进行处理通过利用已存数据的多数信息来推测缺失值数据属性分为数值属性和非数值属性进行处理通过利用已存数据的多数信息来推测缺失值大量采用同一属性值可能会误导挖掘程序得出有偏差甚至错误的结论数据偏离的问题小但该方法十分费时不具备实际的可操作性通常当在缺少类标号时通过这样的方法来填补缺失值利用均值替换缺失值用同类样本的属性均值填充缺失值使用最可能的值填充缺失值 of 42 19 2 2 1数据清洗 2 2数据预处理原理第二章数据采集与预处理 of 42 20 噪声是被测量的变量的随机误差或方差给定一个数值属性如何才能使数据光滑去掉噪声下面给出数据光滑技术的具体内容 2 2数据预处理原理第二章数据采集与预处理 of 42 21 数据清洗可以视为一个过程包括检测偏差与纠正偏差两个步骤可以使用已有的关于数据性质的

展开阅读全文