数据采集解决方案汇编

上传人:最**** 文档编号:117181908 上传时间:2019-11-18 格式:PPTX 页数:16 大小:3.89MB
返回 下载 相关 举报
数据采集解决方案汇编_第1页
第1页 / 共16页
数据采集解决方案汇编_第2页
第2页 / 共16页
数据采集解决方案汇编_第3页
第3页 / 共16页
数据采集解决方案汇编_第4页
第4页 / 共16页
数据采集解决方案汇编_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《数据采集解决方案汇编》由会员分享,可在线阅读,更多相关《数据采集解决方案汇编(16页珍藏版)》请在金锄头文库上搜索。

1、 航空公司数据驾驶舱 目录 1 2 3 4 航空业务背景 分析思路 数据质量提升解决方案 数据采集解决方案 随着产业互联网时代的到来,各行业开始认真思考大数据带来的商业价值。所有的企业都希 望能提高信息系统的数据分析能力、获取隐含在数据中的额外商业价值。大数据已经在为企业提 高运营质量、指导高层决策中发挥着重要贡献。 目前航空公司的信息系统不断发展,使运行数据大量堆集,由于设计和管理不规范导致数据 质量问题越来越突出。根据“garbage in,garbage out”的原理,错误的数据最终会误导决策 ,降低企业运营质量。因此数据质量的高低成为信息系统建设成败的关键因素,直接关系到信息 系统的

2、有效应用。 亚信基于电信行业多年数据分析经验,指导航空公司在数据质量提升、数据采集等方向布局 ,提出基于数据稽核+清洗的常态化质量提升方案,以及通过亚马逊云计算和分布式爬虫的数据 采集方案,以此为智慧航运奠定基础。 大数据形势 业务背景 数据质量提升 数据采集 l l从常旅客数据入手,通过构建端到端的数据质量管理平台,构建从常旅客数据入手,通过构建端到端的数据质量管理平台,构建 了一套端到端的数据质量核查、预警、清洗和知识沉淀体系。了一套端到端的数据质量核查、预警、清洗和知识沉淀体系。 l l获取竞争对手的运价等航线信息,对运营决策、营销活动等有获取竞争对手的运价等航线信息,对运营决策、营销活

3、动等有 比较重要的参照。比较重要的参照。 数据质量是信息变现的基石 据IDC公司一份质量报告所述,全球范围内的98.7%的BI系统受数据质量所困不能充分发挥其价值,在这 其中80%全球以上的系统正因数据质量问题二遭受投资者的质疑,如何对系统数据进行有效的质量管理 ,已成为IT界的一项世界性难题 信息是企业重要的战略资源,使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差 之毫厘,谬以千里。 数据质量问题分类 模型 重复 时效 管理 完整 数据结构不 规范 数据冗余 度大 过期数据 目标数据 缺失 录入错误 信息仓库 目录 1 2 3 4 业务背景 分析思路 数据质量提升解决方案 数据

4、采集解决方案 数据质量的问题原因分解 模型 时效 管理 完整 信息仓库 重复 人员 业务流程培训 应用 系统缺陷修复 新数据 规范信息模型 存量数据 数据稽核清洗 解决思路 数据质量的提升是一项系统 工程,任何一方面的缺失都 会导致数据质量的降低,因 此,数据质量提升应该综合 考虑数据处理、业务应用和 使用人员三大方面的因素 目录 3 2 1 4 数据质量提升解决方案 分析思路 业务背景 数据采集解决方案 稽核 作业 稽核 作业 稽核 作业 稽核 作业 数据清洗解决方案 CRM EDW 行业信息库 客服系统 电子商务 more 数据稽核数据清洗 统计报 告 人工审核 人机 界面 数据装载 离线

5、FTP 稽查审核清洗审核 ETL抽取 待清洗目标 数据来源 其它数据源 规则配置流程配置 清洗 作业 清洗 作业 清洗 作业 清洗 作业 数据源管理 数据源管理 知识总结 实时消息 机器学习 目录 1 2 3 4 业务背景 分析思路 数据质量提升解决方案 数据采集解决方案 数据采集解决方案 走势预测机票报表价格监控 业务层 应用展现 舆情分析 消息总线 More REST+WEBSERVICE MR+Hive+Storm OTA 航空公司 国外网站 分布式爬虫分布式爬虫分布式爬虫 大数据中心 亚太节点 内部数据库 欧洲节点北美节点 RDBMS 采集调度 处理层 采集站点 采集层 大数据之上,丰

6、富的应用场景 桌面插件桌面插件 手机客户端手机客户端 短短/ /彩彩信、信、邮件邮件主动推送主动推送 企业大屏信息企业大屏信息 WEBWEB站点站点 AWS部署方案 动态Web服务 EC2、Auto Scaling RPC服务 EC2、Auto Scaling MySQL数据库 RDS 负载均衡服务 ELB DNS服务 Route 53 爬虫服务 弹性存储 S3 弹性存储 S3 Region 3(亚太)Region 2(欧洲)Region 1(北美) 爬虫服务爬虫服务 爬虫服务爬虫服务 AWS内网传输 Hadoop集群 EMR AWS上设多个Regions, 欧洲、北美 作为采集节点,亚太Region作为采集 和运算节点,并提供动态Web服务访 问。 Thank you

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号