非结构化数据处理技术在运营管理中的运用( 52张)

上传人:资****亨 文档编号:139267494 上传时间:2020-07-20 格式:PPT 页数:53 大小:4.94MB
返回 下载 相关 举报
非结构化数据处理技术在运营管理中的运用( 52张)_第1页
第1页 / 共53页
非结构化数据处理技术在运营管理中的运用( 52张)_第2页
第2页 / 共53页
非结构化数据处理技术在运营管理中的运用( 52张)_第3页
第3页 / 共53页
非结构化数据处理技术在运营管理中的运用( 52张)_第4页
第4页 / 共53页
非结构化数据处理技术在运营管理中的运用( 52张)_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《非结构化数据处理技术在运营管理中的运用( 52张)》由会员分享,可在线阅读,更多相关《非结构化数据处理技术在运营管理中的运用( 52张)(53页珍藏版)》请在金锄头文库上搜索。

1、海量非结构化数据处理技术 在运营管理中的运用,大数据很有价值,但数据获取很关键,目录,2,银行数据全生命周期管理探讨,1,海量非结构化数据特点及使用,2,规划、设计、线上、近线、离线、下线、调阅、销毁? 结构化数据是哪些,非结构化数据是哪些,如何获取?,海量非结构化数据技术要点与实现,3,3,银行数据全生命周期管理-系统数据、业务数据,设计阶段落实数据管理:,投产前明确数据管控手段:,生产数据管理备份与归档:,历史数据调用分析使用:,提出应用系统数据管理规范 定义应用系统数据管理协议 明确不同类型数据的管控手段,定义,控制,维护,使用,明确各类数据的特性 确定各类数据的存在环境 系统及业务数据

2、的采集方式 设计各类数据的备份与恢复,生产数据性能及容量管理 生产数据的备份与归档 数据在线、近线、下线管理 备份数据有效性验证与管理,系统数据监控与分析 业务数据的调用与登记 业务数据的翻新与备份,4,银行数据全生命周期管理目标,科技服务之一:结构化/非结构化数据的全生命周期管理与使用,数据管理如何实现 哪些是结构化数据 哪些是非结构化数据,银行各类数据的产生、分布、状态、用途.,基础运行产生 技术相关数据,业务执行产生 动态与静态数据,信息,操作,安全,账务,银行单笔业务的执行,引起整体架构各层面产生各类关联性数据,接入,网络,服务器,存储,规范,发展,变更 管理,虚拟化,安全,应用,分析

3、哪里存在数据、什么形式、特征如何、如何管理、如何使用,7,应用系统数据管理协议、日志输出标准化.,有效运用各类数据的基础是对其进行全程管理与控制,8,业务标识设计:为业务全程分析埋下“线索”、染色,请求: 请求发起端,超时、成功率,连接 网络转发、动态分配,后端状态,转换 快速转接、转换,是否有堵塞,服务 业务服务原子交易,速度、可靠,短连接: 资源共用、容量大、连接耗时,关注异常波动,长连接: 资源专用、效率高,关注超时及挂起状态,系统间会话,业务流程,单系统交易,业务标识:可用于故障定位、容量系数、业务分析.,9,9,银行数据生命周期管理:从源头控制与实施,日志标准化 日志分类:应用系统,

4、应将交易流水日志、系统debug日志,系统报错日志 日志分级:各类日志应设置级别控制,通过动态开关,控制日志写出的粒度 日志格式:各类应用日志,尤其是系统报错日志,应遵守统一的格式要求 日志传输:日志写出并传输的方式,应采用全行统一的传输方式 交易报文标准化 统一交易标识:全行统一的交易标识,在多系统中传输,便于监控和故障诊断 报文加密策略:对中间件、应用服务器的报文加密进行统一规定,数据管理基础:结构化/非结构化数据可采集、可加工、可分析利用,数据管理如何实现 哪些是结构化数据 哪些是非结构化数据,A Composite Web Application, Involving J2EE, In

5、tegration Middleware and Legacy Systems,结构化数据及其采集使用:交易流水.,数据管理如何实现 哪些是结构化数据 哪些是非结构化数据,13,非结构化数据:运行产生的各类日志【静态】,运行过程中产生的各类日志为非结构化特性,数据输入,日志的结构化程度很低 日志的字段标示等非标准化 跨日志关联性高,但搜索线索难以自动化 日志生成的形式多种多样(文件名不定),难以采集、归档、查询 非标准日志难以定期清理 难以保证日志的完整性 难以做上下文关联分析,XX系统应用协议分析: WTC+SOP是基本结构,SOP内还封装其他协议 封装XML、封装|分隔的key-value

6、 pair,非结构化数据:运行产生的网络报文【动态】,生产环境中的各类数据的关联性、多样性、复杂性,短会话连接情况 (标准输出) 网络报文 系统日志(SYS LOG),WEB-SERVER 日志(文本/XML) 用户打开页面 详细记录(文本) 系统日志(SYS LOG),中间件日志(文本, 每台服务器每个服务 一个) 交易日志(group文件 ,每台服务器50个) 程序报错日志(XML) 系统日志(SYSLOG),数据库日志(多 个文本) 系统日志 (SYSLOG) 数据库表,系统间会话网络报文、交易报文、文本日志、数据库流水,目录,16,银行数据全生命周期管理探讨,1,海量非结构化数据特点及

7、使用,2,动态数据、静态数据、结构化、非结构化、多层分布、逻辑相关 运行监控、趋势分析、容量管理、数据归档、查询统计、运营分析,海量非结构化数据技术要点与实现,3,数据分类及采集 日志类采集及使用 报文类采集及使用,18,根据不同类型数据的特点,采取不同的技术手段,利用Hadoop、Storm等主流大数据技术,采集归档并分析海量非结构化日志,可完成跨层面跨节点的多维度查询与分析;,网络报文为动态瞬时存在数据,采集、解读、处理难度大,但数据为强客观性,分析与利用价值高;,利用GoldenGate等数据库同步技术采集结构化数据,实现离线状态下实时交易性能分析;,监控预警 运营分析 业务支持,19,

8、采集方式,适用场景,根据不同类型数据的特点,采取不同的技术手段,数据分类及采集 日志类采集及使用 报文类采集及使用,日志类数据采集:生产日志分析与监控的需求,日志类数据采集:日志关键字分析使用样例,日志类数据采集:非结构数据结构化的使用,数据分类及采集 日志类采集及使用 报文类采集及使用,25,25,网络交换机,流量交换机,探针,监控服务器,将流量通过网络交换机镜像端口镜像到流量交换机,流量过滤,报文拆分 不影响网络运行,将二进制流转换为可读的Pcap包,按照通讯协议和报文格式解包,网络交易报文采集分析实现原理,26,通过网络报文分析、提前预警故障隐患,通过网络报文分析、观察关键业务会话状态,

9、28,业务分析、创新支持,数据归档、查询服务,运行采集、容量管理,估值预警、隐患分析,综合监控、聚焦定位,综合采集使用,日志+报文+数据库,29,运行状态综合展现:观测发现、聚焦定位、诊断分析,服务台视图,告警中心视图,告警大屏视图,交易视图,应用关联性视图,交易详情视图,交易路径视图,资源使用视图,告警热度图,会话性能视图,一线视图,二线视图,通过各种视图有效运用,能够把监控系统采集到的各类数据,展示给不同角色的用户,在日常运维、重保值守,故障影响分析、故障定向定位等方面发挥重要作用。,系统容量数据采集:系统数据、应用数据、交易数据,31,历史数据综合查询:海量归档、转结构化、多维查询,32

10、,业务运行状态分析:业务类型分布、业务类型趋势,用户行为分析:操作行为、过程行为、结果选择,目录,34,银行数据全生命周期管理探讨,1,海量非结构化数据特点及使用,2,采集与传输、归档与处理、查询与统计、分析与展现、集成与运用 采集的复杂性、传输的可靠性、处理的高效性、结构化能力.,海量非结构化数据技术要点与实现,3,35,技术要点与实现架构:明确数据对象、设计技术手段,日志类采集技术要点 网络报文采集技术要点 数据整体管理与展现,采集与传输: 采集:根据业务、运维、监控、审计的需要,能够按照关联性、完整性、统计性等要求,采集各技术层面、各类生产环境、各中类型的生产日志; 传输:能够将采集到的

11、各类日志,按照要求(是否可丢失),安全、稳定、可靠的进行传输,传送到日志采集服务器; 归档与查询: 归档:将采集到的各类日志,按照系统、模块、节点等架构规则,采集时间、保存周期等周期规则,业务、系统等属性规则,进行多维度归档与备份; 查询:按照归档的多维度属性,能够进行跨系统、跨节点、跨文件综合查询; 分析与使用: 分析:针对非结构化数据,能够完成各类逻辑分析(如:周期内同一事件的发生次数、比例等) 使用:根据分析规则,能够产生各类、各级报警信息,并集成到监控系统,提供业务运行状态实时数据及分析结果,提供业务运行特征分析结果;,日志类数据采集关键技术要点,38,虚拟设备VS 管道程序,开发和移

12、植方面:管道兼容普通LINUX 及类UNIX 系统,而设备方式除了linux 通用外,每一个UNIX都是一套新的设备程序。 日志采集能力方面:设备方式可以采集任何写入文件的日志,而管道方式只能采集 ”a+”(无文件则创建,有文件则追加) 文件。 日志采集范围方面:设备方式是一个设备可以采集该操作系统上所有应用日志,而管道方式,每多一个日志文件,必须对应多增加一个进程或线程来采集。,在不修改应用系统的情况下,采集各类日志: 固定文件名、时间变量文件、名称变量、路径变化、目录下新增日志.,虚拟设备日志采集方式,开始,记录日志,系统VFS,日志文件,设备控制信息,拦截write,日志输出,设置拦截路

13、径,开启/关闭采集,应用,虚拟设备,配置控制程序,拦截,syslog,控制,其他相关设置,管道程序采集日志方式,开始,打开日志文件(管道文件),写入日志 (管道文件),建立日志文件(管道文件),读取日志文件(管道文件),日志输出,应用,管道程序,读取管道,syslog,采集系统,Data-IP:日志文件全路径,Ip+地址,Ip+地址,Mapping,Hadoop,块,块,块,块,App标识,块,块,块,块,App标识,块,块,块,块,App标识,HDFS,mr(),NameNode,/,应用1,应用2,应用3,.,日志的归档与索引,42,大数据平台-逻辑架构,Flume:是Cloudera提供

14、的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。,43,大数据平台-逻辑架构,Kafka 是由 LinkedIn 开发,主要是用来处理 LinkedIn的大面积活跃数据流处理(activity stream)1. 可持久化消息2目标是高流量处理3消费状态信息并不保存在服务端,而是保存在消费端 4支持分布式。,44,大数据平台-逻辑架构,Storm :是一套分布式的、可靠的,可容错的用于处理流式数据的系统。处理工作会被委派给不同的任务处理组件

15、,每个组件负责一项简单的、特定的处理任务。,45,大数据平台-逻辑架构,Hadoop :是一种可靠、高效、可伸缩的数据处理平台。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop依赖于普通的服务器,因此它的成本比较低。,日志类采集技术要点 网络报文采集技术要点 数据整体管理与展现,47,开发解码程序,SOA中广泛使用的协议: XML、SOAP、XML_over_TCP、Java序列化传

16、输(RMI、Socket、EJB、JMS)、JSON、BSON等 金融行业常用协议: 8583类、IFX for ATM/POS、SNA、CICS(http封装)、WAS(soap/jms)、WESB/WMB(soap/jms)、DB2_DRDA、Oracle TNS、CUPS、VISA、Mastercard、AE、JCB、三大运营商短信、Flexcube(核心银行)、TATA Bancs(核心银行)、FiServe(核心银行)、先进数通前置、天源迪科ESB、上交所新一代等,网络报文分析:应用协议及交易,48,应用报文,SOP/XML报文,报文解析过程,读取交易代码、返回码。 计算交易量,响应时间、成功率、

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号