Hive仓库在公安工作中的应用研究

资源描述

《Hive仓库在公安工作中的应用研究》由会员分享，可在线阅读，更多相关《Hive仓库在公安工作中的应用研究（14页珍藏版）》请在金锄头文库上搜索。

1、中文摘要（摘要）随着互联网的发展，日志信息日趋增多，产生的PB甚至TB的日志信息已经难以用传统的数据处理方法进行处理。面对海量的数据，Hadoop的分布式文件系统和MapReduce并行计算框架已成当今互联网产业之所需，其高扩展，高可靠，高效率，低成本的性质确立了其在数据处理方面的关键地位，其中Hadoop分布式文件系统的多个数据节点（NameNode）共同保存一组数据的特点也保证了数据不会因某个节点发生故障而丢失。Hive执行HiveQL语句，作用与数据库中SQL语句类似，具有插入，筛选，合并，查询，分析等功能，与复杂的MapReduce计算框架不同，Hive数据仓库主要将重点放在了数据分析

2、领域，这一特点也有助于公安机关利用Hive仓库，将海量数据简单化，保证侦查人员高效准确的得到自己想要的信息。面对日益增多的海量数据，基于Hadoop平台下的Hive仓库必将占据公安工作侦查分析数据方面的一席之地。本文主要分为四个部分对Hive仓库及其应用进行论述。第一部分对Hive仓库和Hadoop技术的基本概念和主要特点进行概括。第二部分对Hive仓库的构建进行了研究，并考虑到构建后相关优化问题。第三部分主要介绍了Hive仓库在公安工作中的应用实例，阐述了相关实际案例并探讨Hive仓库在其他类型侦查中的应用。第四部分是Hive仓库在案件中的应用，通过结合视频监控日志信息，具体阐述了Hive数

3、据仓库的应用方法。关键词: Hive仓库 Hadoop技术日志信息数据分析 ABSTRACT窗体顶端窗体顶端窗体底端窗体顶端窗体底端窗体顶端窗体底端窗体顶端窗体底端With the popularity and development of the Internet and electronic technology, a tremendous change has taken place in the traditional form of evidence, which is in fact a qualitative move. As a critical evidence for

4、m in lawsuits, data involved in the case is inevitably greatly influenced by Internet technology. At present, a high level of visualization degree of case data cannot be fully realized so it is also not prepared to conform to the Interne era. zTree is a multifunctional “tree plug-in” based on jQuery

5、, featuring on outstanding performance, flexible configuration and a combination of multiple functions.This paper is aimed to realize the visualization of data involved in a pyramid selling case based on the in-depth study of zTree, using zTree to design the atlas of group members and show the patte

6、rn of staff structure in this pyramid selling case. First, personal information is put into a database. Then a page is required to load node data asynchronously in order to finally demonstrate the hierarchical structure of pyramid sellers.This paper is divided into four parts to discuss zTree contro

7、l and its application. In the first part, the article summarizes the basic concepts and main features of zTree. In the second part, the paper discusses the research results of zTree, which is mainly divided into five aspects: API document, data format, style file, DOM structure and data loading. The

8、 third part introduces the use method of zTree, elaborates the preparation work of zTree and the process of compiling the code, and explains the difficulty of application. The fourth part introduces the application in the case of zTree, by combining pyramid selling case, the article expounds the zTr

9、ee involved in the application of data visualization methods, this article puts forward the idea of optimization experiment after experiment, and the outlook of involved data visualization.Key words: ZTree, Load Asynchronously, Pyramid Selling Case目录引言11 简介21.1Hadoop技术概述和特点21.2Hive仓库简介与特点22 Hive仓库的构

10、建方法32.1Hadoop的构建32.1.1Hadoop的构建思路32.1.2Hadoop的系统框架32.1.3Hadoop的系统的搭建52.1.4Hadoop系统核心文件的配置52.2Hive的构建62.3Hive环境部署62.4数据ETL自动化 62.5数据处理实现73 Hive仓库在公安工作中的应用实例实际案例解析93.1现有信息环境现状93.2数据保护分析93.3方案设计描述103.3.1公安内网设计方案103.3.2公安外网数据中心设计方案114 应用关键问题研究124.1档案数量与类型庞大复杂124.2需求针对服务共享困难144.3数据资源共享问题15结语16参考文献17致谢18I

11、II引言随着互联网技术的发展，世界大部分地区经济飞速发展，电商平台的访问量日趋增加，TB甚至PB级的日志信息使传统的日志存储方法不在可行，一种新型的数据存储（基于Hadoop平台下的Hive数据仓库）逐渐取代了传统数据仓库，其Hadoop分布式处理系统、MapReduce并行计算及简单的HiveQL语言使复杂的操作简单化，其高效、准确的特点也使得公安机关可以依据Hive数据仓库分析案件案情、固定犯罪证据，从而保证破案的效率。目前新型网络犯罪正逐步取代传统的犯罪，网络赌博与诈骗案件不胜枚举，数据证据链条与跨地域抓捕成为了公安工作的一大难点，保证涉案数据证据真实准确成了热点问题。Web访问日志中包

12、含了大量的用户行为信息（基于Hive的日志仓库构建研究），如访问信息，浏览信息，购买信息，偏好等，通过对这些数据有效建模，可以得到有价值的信息，如用户属性，兴趣爱好，银行账户，交易流水，访问IP等，在由MapReduce任务对这些数据进行分类，可有效的精确到个体的将数据信息整合，用HiveQL查询语言来进行简单的查询便可很快理清犯罪嫌疑人间的人物关系或者违法企业的人员结构，具有较好的公安应用前景。1 简介1.1Hadoop技术概念与特点 Hadoop 系统来源于 Apache 的 Nutch 项目，是由HDFS（Hadoop Distributed File System）分布式系统和MapR

13、educe并行计算框架合并命名而来。他是一个相对开源的平台，运行于普通服务器组成的集群中，并利用此集群来处理和存储数据。该集群存在一个控制节点NameNode和许多数据节点DataNode。NameNode节点主要管理和控制集群的正常工作，管理DataNode节点的数据存储和计算；DataNode节点主要负责数据的存储和计算，受NameNode节点管理和调动有关数据。MapReduce任务使分布在多个DataNode节点上的数据并行计算成为了可能，该框架有效调度和管理集群中的数据节点来完成并行化数据计算和程序的执行， JobTracker是其中的主控节点，负责数据的管理和调动数据，而计算任务是

14、由其从节点TaskTracker来完成的。Hadoop分布式系统基础框架如图1所示应用数据与其他数据数据集成数据计算数据分析数据存储数据库日志数据 Hadoop 是目前应用最为广泛的分布式系统，有着如下优点：1.良好的扩展性：海量数据通过同一服务器的不同集群来处理，控制节点NameNode将大数据分发给集群中的数据节点DataNode，以此来对数据存储是计算，由此用户便可通过增加服务器的数据节点来对整个集群进行扩展。2.高容错性：由于一份数据可以保存在多个数据节点中，所以即使Hadoop系统中的某一个节点出现了故障，其也可保证数据的完整性与准确性，为用户提供可靠的数据。3.高效性。MapRed

15、uce并行计算框架的存在保证了Hadoop系统中的数据可以在各个数据节点中并行计算，这种机制保证了系统处理数据的极高的效率。4.成本低。Hadoop系统可部署在普通计算机集群上，不需要硬件很好的服务器，对硬件配置要求较低。与传统的数据仓库和数据集市不同，不需要昂贵的硬件和软件授权，项目的软硬件成本较低。1.2Hive仓库简介Hive 是一个架构于Hadoop分布式系统上的开源的数据仓库，执行HiveQL语言，利用HiveQL语言来使MapReduce任务得以运行，具有类似SQL语言的功能。Hive能够将结构化数据转化成二维的数据表，具有选择、插入、合并、子查询等功能，使用户可以分析查询结构化数据。1.3Hive仓库特点1.数据集成。由于Hive仓库中各数据来源于不同渠道，而不同的数据有不同的存储和处理方式，所以在面对不同种类数据的时候，要先进行相应的数据格式转换与汇总，以便于数据的汇总分析查询。2.相对稳定。Hive数据仓库的数据是一次写入多次读取，不支持修改，因此其中的数据具有相对稳定性。 3.较高的灵活性。Hive仓库支持自定义函数，用户可以根据自己的需求去定义函数。4.大数据处理。由于Hive仓库架构在Hadoop上，而HD

展开阅读全文