【精编】联通大数据公安情报应用技术方案培训资料

上传人:tang****xu3 文档编号:122184667 上传时间:2020-03-02 格式:DOCX 页数:47 大小:2.54MB
返回 下载 相关 举报
【精编】联通大数据公安情报应用技术方案培训资料_第1页
第1页 / 共47页
【精编】联通大数据公安情报应用技术方案培训资料_第2页
第2页 / 共47页
【精编】联通大数据公安情报应用技术方案培训资料_第3页
第3页 / 共47页
【精编】联通大数据公安情报应用技术方案培训资料_第4页
第4页 / 共47页
【精编】联通大数据公安情报应用技术方案培训资料_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《【精编】联通大数据公安情报应用技术方案培训资料》由会员分享,可在线阅读,更多相关《【精编】联通大数据公安情报应用技术方案培训资料(47页珍藏版)》请在金锄头文库上搜索。

1、联通“大数据”公安情报应用技术方案联通“大数据”公安情报应用技术方案 中国联通贵州省分公司2015年11月目录第1章 概述51.1 项目背景51.2 项目建设目标51.3 项目建设内容6第2章 系统总体架构6第3章 系统网络及硬件环境7第4章 数据能力开发84.1 联通总部大数据平台能力介绍84.2 数据采集94.2.1 实时数据采集94.2.2 定时数据采集94.2.3 网页数据(非结构化)数据采集94.3 实时数据加工和处理104.3.1 Spark平台104.3.2 Spark Streaming实时数据加工104.4 定时数据存储及加工114.4.1 数据存储策略114.4.2 Had

2、oop存储与加工124.4.3 Oracle数据展现17第5章 应用功能开发185.1 数据查询185.1.1 号码位置查询185.1.2 详单查询模块195.1.3 号码轨迹查询模块205.1.4 基站信息查询215.1.5 机主信息查询模块225.2 数据推送235.2.1 用户基本信息推送235.2.2 手机标记信息推送235.2.3 数据接口245.3 监控告警245.3.1 标记管理245.3.2 号码位置告警255.4 统计分析255.4.1 区域热力255.4.2 关键词热力265.5 数据分析275.5.1 号码碰撞分析275.5.2 联系人分析275.5.3 关系人分析285

3、.5.4 外来人员分析295.5.5 网上异动分析30第6章 项目实施316.1 人员组织安排316.2 项目实施步骤326.2.1 平台搭建326.2.2 功能开发336.2.3 应用及优化336.3 项目投入估算34附件1.大数据平台相关技术原理说明341.Hadoop基础平台341.1.HDFS341.2.Yarn361.3.Zookeeper372.Hbase高速即时查询382.1.Hbase基础组件382.2.Hbase封装组件403.Spark实时数据处理42附件2.可对外提供数据合作的数据431.用户位置数据432.用户特征数据(标签)443.网上搜索关键词数据46第1章 概述1

4、.1 项目背景2014年中国联通集团大数据平台建设完成,平台具备2000个计算节点和20PB数据量,形成了全国性的数据中心,能够基于全国用户数据加工数据应用产品。2015年贵州公安厅计划将大数据应用在数据查询、预警分析、综合分析、治安管理、指挥调度等公安情报应用上。为此双方将联通公司的大数据进行开发利用,为公安情报应用服务。1.2 项目建设目标建设联通“大数据”公安情报应用平台,服务贵州公安情报应用,具体包括八类公安情报应用需求: 电子地图、人员布控:划定某一区域实时查询号码个数和明细,调取通话记录;当特定号码进出某一区域进行实时预警,并显示号码活动轨迹。 预警分析(涉恐类):设定敏感号码关注

5、,对号码进入/离开预定区域进行预警;设定涉恐敏感词、网页、APP,对发送、访问、使用涉恐敏感词、网页、APP的号码进行预警。 预警分析(涉稳类):对号码进行标签管理,进入限定区域预警;群体性事件人员分别热力图;网上串联异动分析。 综合分析(案件侦查类):对前科人员号码进行标签管理,进入某个地市预警;查询犯罪嫌疑人上网数据、宽带数据、上网行为习惯、网上关系人等;对上网详单、短信详单文本进行关键字过滤;找出在逃人员的各种关系人数据; 综合分析(个案分析):对人员和区域标记管理;号码位置查询、号码碰撞分析,目标号码进出固定区域告警;检索异常人群关键词;分析出目标号码使用的新手机号码; 服务治安管理:

6、区域内人员热力分布;外来人员信息获取。 服务指挥调度:警员手机号的定位,群发信息。 战略分析:长期上网行为分析;网上特定信息分析;全国话单调取服务;群体“迁徙”分析。1.3 项目建设内容利用中国联通全国大数据优势,搭建联通“大数据”公安情报应用平台,服务贵州公安情报应用。 平台及网络环境搭建:建设大数据应用平台,具备数据计算与存储环境,打通与用户单位的网络连接。 数据采集:具备对移动网络信令、详单、业务日志等数据采集功能。 数据实时计算:开发对用户位置和轨迹、区域热力、实时告警等功能的数据加工处理能力。 数据定时加工存储:实现通信行为、通信内容、号码轨迹、用户特征的数据存储和高速查询;实现分析

7、模型、统计汇总、应用模型的开发;为应用功能加工所需数据。 应用功能开发:开发数据查询、数据推送、监控告警、统计分析、数据分析应用功能。第2章 系统总体架构系统总体架构分为三层架构,硬件平台、数据能力、应用功能。系统硬件平台位于联通网络,服务器由X86服务组成,用于搭建Hadoop集群环境和Oracle数据环境。网络交换机统一采用万兆交换机。数据能力由数据采集、实时数据加工、定时数据存储加工组成。应用功能由数据查询、数据推送、监控告警、统计分析、数据分析五大模块组成。第3章 系统网络及硬件环境“大数据”公安情报应用平台位于联通网络,公安用户通过专线访问大数据应用平台。(1)服务器统一由X86服务

8、组成,X86服务器硬件如下: 2路*8核双线程CPU,内存128G,硬盘16TB,网卡6千兆;(2)大数据应用平台硬件组成: Hadoop集群20台X86服务器; Speak实时计算平台8台X86服务器; 传统Oracle平台2台X86服务器; FTP接口机1台X86服务器; WEB应用服务2台X86服务器; ETL流程控制1台X86服务器; 万兆交换机3台;第4章 数据能力开发4.1 联通总部大数据平台能力介绍(一)总部大数据系统每日采集并处理全国31省生产数据。数据量B/M域170多亿条,O域2700多亿条,其中涉及数据源: BSS域18个总部横向系统,包括集中结算,集中渠道等; BSS域

9、省经分系统将31个不同版本的BSS系统按照统一接口规范加工上传总部。 MSS域13个总部集中系统,包括ERP核心系统等。(二)上线设备整体配备存储容量6.78PB,X86存储服务器共1301台,分别搭建了Greenplum和Hadoop环境。Oracle数据库:3*2节点RAC数据库。4.2 数据采集4.2.1 实时数据采集(一)采集内容采集内容包括手机信令数据、手机短信日志。1、手机信令数据:MC口手机信令采集数据包含手机号码、基站LAC、基站CELLID、触发时间字段。2、手机短信日志:从短信平台手机短信发送日志采集数据包含手机号码、发送时间、被叫号码、短信内容字段。(二)采集方式1、手机

10、信令数据:通过文件接口联机采集,即MC口系统将信令数据转为TXT文本,每5分钟接口生成一次接口文件,FTP到接口机上。2、手机短信日志:通过文件接口联机采集。短信平台从短信发送日志中生成接口数据文件,FTP到接口机上。4.2.2 定时数据采集(一)采集内容1、详单数据:移动网语音详单、流量详单、短信详单。l 语音详单采集数据内容包括电话号码、主/被叫号码、呼叫时间、呼叫时长、长途类型、漫游类型、基站LAC和ID。l 流量详单采集数据内容包括电话号码、通信时间、通信时长、上行流量、下行流量、访问URL地址、基站LAC和ID。l 短信详单采集数据内容包括电话号码、发送时间、接收号码。2、用户信息:

11、包括用户基本信息,用户标签。l 用户基本信息有用户号码、姓名、证件号码、联系地址、性别、年龄。l 用户标签包括用户业务标签和互联网标签。4.2.3 网页数据(非结构化)数据采集网页数据通过网络爬虫采集数据。网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。爬虫系统有四个存储结构:待抓取 URL 库、原始网页库、链出 URL库和 xml库。这四个存储结构都是存在于 Hadoop的分布式文件系统以 HDFS为载体。(1)待抓取 URL 库:存放当前层需要抓取的 URL集合,实际上就是一个记录着待抓取 URL的文本文件,其中 URL之间以“n”为分隔

12、符。在第一层抓取之前,这个文本文件是用户提交的 URL种子集合作为爬虫进入互联网的入口。(2)原始网页库:存放每一层抓取下来的原始网页。这里的网页是未经过任何处理的 HTML 信息,其存放形式是 key值为 URL,value值为 URL对应的网页 HTML信息。(3)链出 URL 库:存放每一层解析出来的链出链接,其存放形式是 key值为 URL,value值为 URL对应网页包含的链出链接集合。(4)xml库:存放所有层抓取下来的网页经过转化的 XML信息。这里的转化相当于对 HTML信息的预处理。其存放形式是 key值为 URL,value值为URL对应的网页的 XML信息。4.3 实时

13、数据加工和处理4.3.1 Spark平台实时计算平台采用Spark组件替换Hadoop的MapReduce,数据存在HDFS上,计算时读入内存进行运算,运算结果输出至HDFS。(1)信令数据,在HDFS上存储数据包含手机号码、基站LAC、基站CELLID、触发时间字段。存储方式是文本,压缩存储。(2)短信日志,在HDFS上存储数据包含手机号码、发送时间、被叫号码、短信内容字段。存储方式是文本,压缩存储。4.3.2 Spark Streaming实时数据加工Spark streaming是构建在spark上的实时流计算框架,扩展了spark流式大数据处理能力。本项目中Spark streamin

14、g具体完成工作如下:(一)基站下用户信息查询(人数统计、号码明细提取)。1、基站与用户对应关系口径:当用户与该基站发生信令交互时,用户在此时归属该基站。如用户未与其他基站发生信令交互,则一直归属该基站,直到用户与另一个基站发生信令交互后,才归入另一个基站。2、基站用户统计口径:先统计归属该基站的联通用户,并根据用户来源地的联通市场份额占比,反推出该位置的全量人数。计算所涉及的数据字段:用户号码、用户归属地市、基站LAC和ID、基站经纬度、全国各地市联通市场份额占比。(二)号码当前位置和号码今日轨迹。1、号码当前位置计算口径:按该号码最近一次交互的基站位置作为号码当前位置。2、号码今日轨迹计算口

15、径:从凌晨0时起,根据信令数据,按基站与用户对应关系口径记录号码与基站发生交互的变化顺序,号码与基站对应关系不重复记录。号码轨迹记录字段包括手机号码、日期、位置经纬度、进入时间、退出时间、停留时间。(三)区域热力(人流聚集分布)。1、区域热力计算。按5分钟一次时间间隔,根据基站用户统计口径,汇总统计区域内基站用户数,形成人流聚集区域热力图。2、区域热力动态计算。根据基站人流量变化趋势,计算区域内人员流向及动态,形成人员数量动态变化的预判,并通过区域热力图告警实现。例如有100人正向区域中心聚集。计算所涉及的数据字段:用户号码、日期及时间、基站LAC和ID、基站经纬度。(四)实时告警。1、号码位置告警。已经标记的号码进入或离开限定区域,系统实时告警。进入告警

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号