微软银行业大数据解决方案交流

上传人:F****n 文档编号:96414535 上传时间:2019-08-26 格式:PPT 页数:44 大小:4.32MB
返回 下载 相关 举报
微软银行业大数据解决方案交流_第1页
第1页 / 共44页
微软银行业大数据解决方案交流_第2页
第2页 / 共44页
微软银行业大数据解决方案交流_第3页
第3页 / 共44页
微软银行业大数据解决方案交流_第4页
第4页 / 共44页
微软银行业大数据解决方案交流_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《微软银行业大数据解决方案交流》由会员分享,可在线阅读,更多相关《微软银行业大数据解决方案交流(44页珍藏版)》请在金锄头文库上搜索。

1、微软银行业大数据解决方案交流,Presales Architect,微软服务部,目录,大数据分析挑战,微软解决方案介绍,大数据案例分享,大数据就是资本 但究竟什么是大数据?,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7ZB(1ZB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1ZB数据相当于美国国会图书馆中存储的数据的4000多倍。 “大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”维基百科,大数据的挑战,大数据的4V特点: Volume, Variety, Veloc

2、ity, Value 传统DW系统不适用于大数据的分析 数据量过于庞大 绝大部分大数据是垃圾 大数据的多样化格式 时效性高 需要革新性的技术手段 海量数据“分而治之”-批量分布式并行计算Hadoop 海量数据“灵活多变”-实时分布式高吞吐高并发数据存取处理NoSQL 海量数据“实时响应”-大数据流计算模型,我们希望从大数据获得什么?,更高一层数据层面整合企业内外部,大数据改变数据分析思维 过去,由于数据获取的困难程度,人们在分析数据时倾向于使用抽样数据,并通过不断改进抽样方法以提升样本的 精确性,从而对整体数据进行推算,并竭力挖掘数据间的因果关系。但当前数据处理思维方式正逐步向全体性、混沌性以

3、及相关性演变,以适应数据量的爆发式增长。,10,大数据改变数据分析思维,全体数据,混杂数据,精确数据,抽样数据,因果关系,相关关系,采样的目的在于用最少的数据得到最多的信息, 但在样本分析过程中不可避免会有一部分信息 丢失。在可以获得海量数据的情况下,对全体 数据进行挖掘和分析可以获得更多信息,。,只有15%的数据是结构化且能适用于传统数据化 的,接受不精确性能使更多的非结构化数据得 到利用。,建立在相关关系分析法上基础上的预测是大数据的核心。,传统,大数据,大数据分析不同于传统BI分析,11,如果业务需求是分析多种来源的数据。,来源:Forrester Research,2012 年 6 月

4、全球大数据在线调查,数据仓库与大数据的整合,超越传统数据仓库概念的大数据分析,流,Internet 级别,传统 数据仓库,In-Motion Analytics,Data Analytics, Data Operations & Model Building,Results,Internet Scale,Database & Warehouse,At-Rest Data Analytics,Results,Ultra Low Latency Results,传统/关系型 数据源,非传统/非关系型 数据源,传统/关系型 数据源,非传统/非关系型 数据源,STREAMING,大数据分析平台,大数据

5、技术是一系列技术的集合,是传统数据结构化数据与非结构化技术与数据的整合,并基于这些技术与数据进行综合的商业智能应用,包括数据分析与数据挖掘等。,目录,大数据分析挑战,微软解决方案介绍,大数据案例分享,微软的大数据分析视角 面向业务分析的愿景,非结构化数据,大数据中结构化与非结构化数据的整合,建立对非结构化数据进行SQL语法查询的支持,实现与结构化数据的集成关联(key),数据获取,结构化数据,数据集市,数据集市,EDW,结构化 元数据,Hadoop,建立非结构化信息的标签、摘要、索引、日志、内容等,提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合,ODS,SQL,声誉度分析

6、,品牌分析,服务质量分析,竞争产品分析,产品评价,市场动态跟踪,数据分析路径,Information Flow Semi-structured data to BI,Information Flow Search,数据分析路径,建设大数据BI系统的思考,17,常见架构,+,PB,TB,传统的BI系统架构并非一无是处,同样值得我们学习借鉴,+,+,MS大数据解决方案总体架构,微软大数据产品架构,Volume,Velocity,Variety,管理几乎来自任意来源的数据,横向扩展,大规模并行处理引擎 Massively Parallel Processing (MPP) PDW作为SQL Serv

7、er的横向扩展解决方案,MPP 提供线性横向扩展能力 Massively Parallel Processing (MPP) 大规模并行处理架构 横向扩展: 按需添加硬件实现线性扩展 无共享架构 最小 (0TB) 到最大 (6PB) 从几个TB的小型数据仓库开始 扩展到 6 PB,比SMP DW快10倍,复杂作业计算,线性扩展,扩展灵活方便 (No forklift),聚沙成塔 成长无限,容量最大 随需扩容 PB,宕机为零 高枕无忧,Hadoop的典型应用场景,用户行为分析 跟踪用户在网站上的点击路径,分析其购买习惯 根据用户属性,猜测用户感兴趣的商品,定向推广 根据N度客户,发掘潜在的客户群

8、体 日志存储、分析 日志分布在多台服务器,查找问题困难,跨系统应用日志分析、系统性能分析等 上传文件存储 各业务系统上传的文件、图片统一保存,MS与Hadoop,基于Apache Hadoop的Windows Server和Windows Azure,以及AD的支持 HDInsight Server HDInsight Service Hive ODBC Driver 和 Add-in for Excel JavaScript Framework for Hadoop SQL Server and SQL Server Parallel 数据 Warehouse connections for

9、 Hadoop Sharepoint, Powerpivot和Powerview作为前端展示,数据生命周期& 数据规模,HDP在hadoop上增加了:集群管理能力,工作流,安全管理,并融入了数据分析,机器学习技术以及文本数据分析挖掘。 所有的这些增强都是为了更好的使得该方案能适用于复杂的,海量数据的分析。 HDP是对传统数据仓库的一种补充和延伸,整体构成一个更广义的海量数据仓库。,HDP 海量大数据仓库,Hive、Sqoop,当前大数据分析面临的挑战,Warehouse,要求学习和掌握Map-Reduce技术,需要IT人员将 HDFS 中的数据倒入数据仓库或集市中,才能用于后继的分析,HDFS

10、 (Hadoop),HDFS (Hadoop),大量新技术需要学习掌握、周期长、见效慢,传统BI,EDW Connector for Hadoop ETL/ELT,Hadoop:成本低、扩展性好、数据加载快、并发处理强 EDW:SQL查询执行性能高,包括Ad-hoc、OLAP、报表等,Hive ODBC Driver,基于PolyBase的全方位数据整合能力,穿越结构化和非结构化数据的访问 数据库和Hadoop的混合分析支持 透明的应用访问,非结构化数据,结构化数据,数据库,文件系统 HDFS,关系型 数据库,通过统一的查询,同时访问结构化和非结构化数据 沿用标准的SQL语句进行访问 Sele

11、ct, From Where,低延迟可扩展流数据计算平台StreamInsight,用于大数据领域实时高频数据分析处理 一个处理流数据的低延迟平台 毫秒级,甚至微妙级端到端的延迟 一个可高度扩展的,用于实时分析的高性能平台 通过横向增加硬件获得近线性的处理能力扩展 高达125个节点扩展 一个灵活的、动态的平台 Streams应用灵活部署 支持动态部署新的分析应用,每秒数以百万计的事件,微秒级延迟,传统/非传统数据源,实时决策,强大分析,算法交易,Telco churn predict,Smart Grid,网络安全入侵监测 Cyber Security,Government / Law enf

12、orcement,ICU Monitoring,环境监控,27,使用熟悉工具来分析结构化和非结构化数据,MicrosoftSpeech SDK,Microsoft Speech SDK是微软公司提供在Windows平台上开发语音识别和语音合成应用程序的开发包,简称为SAPI,内含SR(Speech Recognition)和SS(Speechsynthesis)引擎,因此可以很方便地在自己的应用程序中添加这些功能。 该语音引擎支持多种语音的识别和朗读,包括英文、日文、中文等。微软推出的应用编程接口API,虽然现在不是业界标准,但是应用比较广泛。 识别基本流程: 从音频输入设备获取原始音频并编码

13、或直接调用音频文件。 设定语音引擎和识别上下文等内容,配置本地访问属性。 分析处理得到的文本结果 请求接口 请求方式:本地访问 请求数据:编码后的音频数据 音频编码格式:wav 音频采样频率:8000Hz、11025Hz、16000Hz、22050Hz、24000Hz、32000Hz、44100Hz、48000Hz 主要优点 基于COM组件,便于与DirectShow中的组件整合。 语音识别引擎位于本地,便于访问,识别速度较快。 待识别音频的大小、时长无限制。,MAVIS“微软研究院音视频索引系统,目录,大数据分析挑战,微软解决方案介绍,大数据案例分享,银行面临大数据时代的业务挑战,小微企业贷

14、款市场逐渐被侵蚀,电子商务公司和第三方支付厂商紧贴最终用户,依靠市场优势,对银行的议价能力极 强,比如:银行的支付交易手续费被支付宝压到 3甚至更低,侵蚀银行信用卡的收入。第三方支付企业使得客户和银行的关系进一步疏远:本来是银行自己的持卡客户,银 行却根本不知道他们的购物明细,只能知道他们花了多少钱。这在未来以数据取胜的 时代对银行很不利。 银行系电子商务开展不顺利:整个银行系的电子商务市场份额总共不到2%。 贷款模式使得客户减少对于银行的依赖:目前来看,贷款模式使得资金的供求 方和需求方可以自行撮合。这使得客户对于银行的贷款依赖逐渐减小。,银行与零售客户越来越远,银行面临大数据时代的技术挑战

15、,数据缺口 专业人才缺乏 IT技术成熟度 隐私安全,中国银行业大数据应用场景,风险管理和合规 反欺诈 反洗钱 多点检测,营销 实时营销 事件式营销 全渠道营销,客户 360客户视图 客户定价 客户分类,银行数据 银行交易数据 用户金融信息 电话录音,互联网数据 浏览信息 搜索信息 SNS信息,用户数据 身份信息和偏好数据 地理位置信息 用户事件,电子商务数据 商品浏览信息 交易数据 消费趋势信息,银行大数据源,大数据应用,P2P业务 人人贷 小额信用贷 利率市场化,解决信息孤岛:分布式信息日志集中汇聚索引,中信、农行、工行、建行、交行、民生、招行、光大、阿里巴巴等大数据应用试点项目,摩根大通基

16、于Hadoop的大数据应用,已经开始使用Hadoop技术以满足日益增多的用途,包括诈骗检验、IT风险管理和自助服务。 150PB在线存储数据、30,000个数据库和35亿个用户登录账号。,Hadoop能够存储大量非结构化数据,允许公司收集和存储Web日志、交易数据和社交媒体数据。 数据被汇集至一个通用平台,以方便以客户为中心的数据挖掘与数据分析工具的使用。,微信贷公司,“大数据+机器智能学习” 利用海量数据挖掘和算法来做一些贷款业务 大量使用了社交媒体和其他的网络工具 每个贷款人都拥有6000到8000条数据,特点: 它的每笔贷款额度都很小,太多的资金额度需要更多次的检验 不良贷款会迅速暴露。,模型的反馈和改进 违约率高 利率很高,Wonga LendingStream Zestcash

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号