微软银行业大数据解决方案交流

资源描述

《微软银行业大数据解决方案交流》由会员分享，可在线阅读，更多相关《微软银行业大数据解决方案交流（44页珍藏版）》请在金锄头文库上搜索。

1、微软银行业大数据解决方案交流,Presales Architect，微软服务部,目录,大数据分析挑战,微软解决方案介绍,大数据案例分享,大数据就是资本但究竟什么是大数据?,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院（MGI）估计，全球企业2010年在硬盘上存储了超过7ZB（1ZB等于10亿GB）的新数据，而消费者在PC和笔记本等设备上存储了超过6EB新数据。1ZB数据相当于美国国会图书馆中存储的数据的4000多倍。 “大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”维基百科,大数据的挑战,大数据的4V特点： Volume, Variety, Veloc

2、ity, Value 传统DW系统不适用于大数据的分析数据量过于庞大绝大部分大数据是垃圾大数据的多样化格式时效性高需要革新性的技术手段海量数据“分而治之”-批量分布式并行计算Hadoop 海量数据“灵活多变”-实时分布式高吞吐高并发数据存取处理NoSQL 海量数据“实时响应”-大数据流计算模型,我们希望从大数据获得什么？,更高一层数据层面整合企业内外部,大数据改变数据分析思维过去，由于数据获取的困难程度，人们在分析数据时倾向于使用抽样数据，并通过不断改进抽样方法以提升样本的精确性，从而对整体数据进行推算，并竭力挖掘数据间的因果关系。但当前数据处理思维方式正逐步向全体性、混沌性以

3、及相关性演变，以适应数据量的爆发式增长。,10,大数据改变数据分析思维,全体数据,混杂数据,精确数据,抽样数据,因果关系,相关关系,采样的目的在于用最少的数据得到最多的信息，但在样本分析过程中不可避免会有一部分信息丢失。在可以获得海量数据的情况下，对全体数据进行挖掘和分析可以获得更多信息,。,只有15%的数据是结构化且能适用于传统数据化的，接受不精确性能使更多的非结构化数据得到利用。,建立在相关关系分析法上基础上的预测是大数据的核心。,传统,大数据,大数据分析不同于传统BI分析,11,如果业务需求是分析多种来源的数据。,来源：Forrester Research，2012 年 6 月

4、全球大数据在线调查,数据仓库与大数据的整合,超越传统数据仓库概念的大数据分析,流,Internet 级别,传统数据仓库,In-Motion Analytics,Data Analytics, Data Operations & Model Building,Results,Internet Scale,Database & Warehouse,At-Rest Data Analytics,Results,Ultra Low Latency Results,传统/关系型数据源,非传统/非关系型数据源,传统/关系型数据源,非传统/非关系型数据源,STREAMING,大数据分析平台,大数据

5、技术是一系列技术的集合，是传统数据结构化数据与非结构化技术与数据的整合，并基于这些技术与数据进行综合的商业智能应用，包括数据分析与数据挖掘等。,目录,大数据分析挑战,微软解决方案介绍,大数据案例分享,微软的大数据分析视角面向业务分析的愿景,非结构化数据,大数据中结构化与非结构化数据的整合,建立对非结构化数据进行SQL语法查询的支持，实现与结构化数据的集成关联（key）,数据获取,结构化数据,数据集市,数据集市,EDW,结构化元数据,Hadoop,建立非结构化信息的标签、摘要、索引、日志、内容等,提取结构化的元数据信息，如类别、标引、摘要等；实现与结构化数据的整合,ODS,SQL,声誉度分析

6、,品牌分析,服务质量分析,竞争产品分析,产品评价,市场动态跟踪,数据分析路径,Information Flow Semi-structured data to BI,Information Flow Search,数据分析路径,建设大数据BI系统的思考,17,常见架构,+,PB,TB,传统的BI系统架构并非一无是处，同样值得我们学习借鉴,+,+,MS大数据解决方案总体架构,微软大数据产品架构,Volume,Velocity,Variety,管理几乎来自任意来源的数据,横向扩展,大规模并行处理引擎 Massively Parallel Processing (MPP) PDW作为SQL Serv

7、er的横向扩展解决方案,MPP 提供线性横向扩展能力 Massively Parallel Processing (MPP) 大规模并行处理架构横向扩展：按需添加硬件实现线性扩展无共享架构最小 (0TB) 到最大 (6PB) 从几个TB的小型数据仓库开始扩展到 6 PB,比SMP DW快10倍,复杂作业计算,线性扩展,扩展灵活方便 (No forklift),聚沙成塔成长无限,容量最大随需扩容 PB,宕机为零高枕无忧,Hadoop的典型应用场景,用户行为分析跟踪用户在网站上的点击路径，分析其购买习惯根据用户属性，猜测用户感兴趣的商品，定向推广根据N度客户，发掘潜在的客户群

8、体日志存储、分析日志分布在多台服务器，查找问题困难,跨系统应用日志分析、系统性能分析等上传文件存储各业务系统上传的文件、图片统一保存,MS与Hadoop,基于Apache Hadoop的Windows Server和Windows Azure，以及AD的支持 HDInsight Server HDInsight Service Hive ODBC Driver 和 Add-in for Excel JavaScript Framework for Hadoop SQL Server and SQL Server Parallel 数据 Warehouse connections for

9、 Hadoop Sharepoint, Powerpivot和Powerview作为前端展示,数据生命周期& 数据规模,HDP在hadoop上增加了：集群管理能力，工作流，安全管理，并融入了数据分析,机器学习技术以及文本数据分析挖掘。所有的这些增强都是为了更好的使得该方案能适用于复杂的，海量数据的分析。 HDP是对传统数据仓库的一种补充和延伸，整体构成一个更广义的海量数据仓库。,HDP 海量大数据仓库,Hive、Sqoop,当前大数据分析面临的挑战,Warehouse,要求学习和掌握Map-Reduce技术,需要IT人员将 HDFS 中的数据倒入数据仓库或集市中，才能用于后继的分析,HDFS

10、 (Hadoop),HDFS (Hadoop),大量新技术需要学习掌握、周期长、见效慢,传统BI,EDW Connector for Hadoop ETL/ELT,Hadoop：成本低、扩展性好、数据加载快、并发处理强 EDW：SQL查询执行性能高，包括Ad-hoc、OLAP、报表等,Hive ODBC Driver,基于PolyBase的全方位数据整合能力,穿越结构化和非结构化数据的访问数据库和Hadoop的混合分析支持透明的应用访问,非结构化数据,结构化数据,数据库,文件系统 HDFS,关系型数据库,通过统一的查询，同时访问结构化和非结构化数据沿用标准的SQL语句进行访问 Sele

11、ct, From Where,低延迟可扩展流数据计算平台StreamInsight,用于大数据领域实时高频数据分析处理一个处理流数据的低延迟平台毫秒级，甚至微妙级端到端的延迟一个可高度扩展的，用于实时分析的高性能平台通过横向增加硬件获得近线性的处理能力扩展高达125个节点扩展一个灵活的、动态的平台 Streams应用灵活部署支持动态部署新的分析应用,每秒数以百万计的事件,微秒级延迟,传统/非传统数据源,实时决策,强大分析,算法交易,Telco churn predict,Smart Grid,网络安全入侵监测 Cyber Security,Government / Law enf

12、orcement,ICU Monitoring,环境监控,27,使用熟悉工具来分析结构化和非结构化数据,MicrosoftSpeech SDK,Microsoft Speech SDK是微软公司提供在Windows平台上开发语音识别和语音合成应用程序的开发包，简称为SAPI，内含SR（Speech Recognition）和SS（Speechsynthesis）引擎，因此可以很方便地在自己的应用程序中添加这些功能。该语音引擎支持多种语音的识别和朗读，包括英文、日文、中文等。微软推出的应用编程接口API，虽然现在不是业界标准，但是应用比较广泛。识别基本流程：从音频输入设备获取原始音频并编码

13、或直接调用音频文件。设定语音引擎和识别上下文等内容，配置本地访问属性。分析处理得到的文本结果请求接口请求方式：本地访问请求数据：编码后的音频数据音频编码格式：wav 音频采样频率：8000Hz、11025Hz、16000Hz、22050Hz、24000Hz、32000Hz、44100Hz、48000Hz 主要优点基于COM组件，便于与DirectShow中的组件整合。语音识别引擎位于本地，便于访问，识别速度较快。待识别音频的大小、时长无限制。,MAVIS“微软研究院音视频索引系统,目录,大数据分析挑战,微软解决方案介绍,大数据案例分享,银行面临大数据时代的业务挑战,小微企业贷

14、款市场逐渐被侵蚀,电子商务公司和第三方支付厂商紧贴最终用户，依靠市场优势，对银行的议价能力极强，比如：银行的支付交易手续费被支付宝压到 3甚至更低，侵蚀银行信用卡的收入。第三方支付企业使得客户和银行的关系进一步疏远：本来是银行自己的持卡客户，银行却根本不知道他们的购物明细，只能知道他们花了多少钱。这在未来以数据取胜的时代对银行很不利。银行系电子商务开展不顺利：整个银行系的电子商务市场份额总共不到2%。贷款模式使得客户减少对于银行的依赖：目前来看，贷款模式使得资金的供求方和需求方可以自行撮合。这使得客户对于银行的贷款依赖逐渐减小。,银行与零售客户越来越远,银行面临大数据时代的技术挑战

15、,数据缺口专业人才缺乏 IT技术成熟度隐私安全,中国银行业大数据应用场景,风险管理和合规反欺诈反洗钱多点检测,营销实时营销事件式营销全渠道营销,客户 360客户视图客户定价客户分类,银行数据银行交易数据用户金融信息电话录音,互联网数据浏览信息搜索信息 SNS信息,用户数据身份信息和偏好数据地理位置信息用户事件,电子商务数据商品浏览信息交易数据消费趋势信息,银行大数据源,大数据应用,P2P业务人人贷小额信用贷利率市场化,解决信息孤岛：分布式信息日志集中汇聚索引,中信、农行、工行、建行、交行、民生、招行、光大、阿里巴巴等大数据应用试点项目,摩根大通基

16、于Hadoop的大数据应用,已经开始使用Hadoop技术以满足日益增多的用途，包括诈骗检验、IT风险管理和自助服务。 150PB在线存储数据、30,000个数据库和35亿个用户登录账号。,Hadoop能够存储大量非结构化数据，允许公司收集和存储Web日志、交易数据和社交媒体数据。数据被汇集至一个通用平台，以方便以客户为中心的数据挖掘与数据分析工具的使用。,微信贷公司,“大数据+机器智能学习” 利用海量数据挖掘和算法来做一些贷款业务大量使用了社交媒体和其他的网络工具每个贷款人都拥有6000到8000条数据,特点：它的每笔贷款额度都很小，太多的资金额度需要更多次的检验不良贷款会迅速暴露。，模型的反馈和改进违约率高利率很高,Wonga LendingStream Zestcash

展开阅读全文