04-清华大学-大数据技术及产业应用

上传人:飞*** 文档编号:48519539 上传时间:2018-07-16 格式:PPTX 页数:27 大小:4.65MB
返回 下载 相关 举报
04-清华大学-大数据技术及产业应用_第1页
第1页 / 共27页
04-清华大学-大数据技术及产业应用_第2页
第2页 / 共27页
04-清华大学-大数据技术及产业应用_第3页
第3页 / 共27页
04-清华大学-大数据技术及产业应用_第4页
第4页 / 共27页
04-清华大学-大数据技术及产业应用_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《04-清华大学-大数据技术及产业应用》由会员分享,可在线阅读,更多相关《04-清华大学-大数据技术及产业应用(27页珍藏版)》请在金锄头文库上搜索。

1、1大数据问题及技术与产业应用清华大学苏研院 大数据处理中心林辉,赵勇海量数据212+ TBs of tweet data every day25+ TBs of log data every day? TBs of data every day2+ billion people on the Web by end 2011 30 billion RFID tags today(1.3B in 2005)4.6 billion camera phones world wide100s of millions of GPS enabled devices sold annually76 milli

2、on smart meters in 2009200M by 2014 数据分析复杂度大数据Big Datav大数据是指无法在一定时间内用常规软件工具对 其内容进行抓取、管理和处理的数据集合 v大数据 = “海量数据”+“复杂类型的数据” v涉及各个行业领域 电力、电信、经贸、教育、医疗、金融、石油、民航 天文、气象、基因、医学、物理、互联网 与人类社会活动有关的网络数据4大数据特征5不同结构的复杂数据:关系 型数据、日志和文本数据流量大:数据处理从批 处理转向流处理大容量:从TB、PB到ZB数据即资源,体现价值,数 据中能挖掘出价值信息Variety:Velocity:Volume:Valu

3、e: 数据=价值6数据正在成为各行各业,乃至每个人最关心、最有价值的东西医生需要了解病人病历以及典型病人治疗方式相关数据,以便对症治疗; 疾病预防中心需要了解疫情爆发、扩散的相关数据,以便做好疫情防御; 医院需要病床、药品及季节行流行病相关数据,以便统一部署医疗设施;股票经济人需要对股票行情数据分析,判定下一个市场投资热点 ; 公司供应链需要了解产品进销存数据,以便下一步备料生产; 企业经营者需要对市场数据进行分析,以便制定企业下一步的市场策略; 投资者需要靠数据进行投资前景、可行性进行分析评估,确保投资收益;民航、酒店需要了解旅客的出行规律,以便更好的服务客户 ; 商场、商家需要了解顾客的生

4、活习惯、购物心理,制定最有效市场推广方式 ; 商业网站则需要了解用户的网络浏览方式,以便推出更贴切客户习惯的产品 ;癌症研究者需要了解分子结构和癌分子的绑定数据,以便研制新型的抗癌药 ; 石油勘探需要需要了解地质数据并分析建模; 气象工作者需要了解海洋气候数据,以便发布及时准确发布;大数据蓝海7区域发展气候信息行业信息市场信息国家战略 投资信息经济信息生活咨询贸易信息旅游咨询计算应用分析 加工 个人生活相关 (投资理财、居家生活、旅游出行) 企业发展相关 (投资前景、市场战略、市场先机) 区域经济发展 (区域规划、城市发展、发展先机) 国家发展战略 (全球经济、国计民生、政策法规)大数据影响到

5、我们生活周边的各个方面。大数据处理的意义8云计算等新兴信息技术正在真正地落地和实施 云计算等新兴信息技术恰恰是是解决大数据问题的核心关键大数据不是噱头,是技术发展的必然阶段有充足的应用场景 有一个系统科学的方法论 合理的人才和知识储备 有极为广泛的创新动机应用背景对大数据的推动作用大于其他条件关键技术和核心技术各国之间的差距不是很大,这是追赶和减少绑架进而实 现自主创新的最大契机大数据是一个不可多得的发展机遇海外市场环境v 美国奥巴马政府2012年推出了“大数据研究和 发展倡议” ,并投资2亿美金支持大数据的研发, 说明大数据已成为信息科技领域的热点。 v 资本市场高度关注大数据技术型企业的发

6、展 风投机构Accel Partners设立1亿美元专项基金 大数据分析公司Splunk,首日上市IPO即上涨109% 大数据软件提供商Birst公司今年已经从红杉资本等机构获得了 2600万美元的投资 为开源大数据技术Hadoop的商业版本提供销售和支持服务的 Cloudera获得7500万美元投资 MapR、10Gen、DataStax等大数据软件服务商近期都完成了千万美 元级的融资。9市场预测10根据Wikibon最近发布的报 告,大数据市场正处在井 喷式增长的前夕,未来五 年全球大数据市场价值将 高达500亿美元。国内云计算及大数据市场已经初 步具备发展态势,据研究表明, 大数据市场规

7、模也将从2010年的 167亿元增长到2013年的1174亿 元,年均复合增长率达到91.5% 。市场规模11 2012年政府、互联网、电信、金融的大数据市场规模较大,四 个行业将占据一半市场份额。大数据问题12导入导出问题 统计分析问题 检索查询问题 实时响应问题 速度方面的问 题多源问题 异构问题 原系统的底层架 构问题种类及架构问 题线性扩展问题 动态调度问题体量及灵活性 问题大机与小型服务 器的成本比对 原有系统改造的 成本把控成本问题数据分析与挖掘 问题 数据挖掘后的实 际增效问题价值挖掘问题结构与非结构 数据安全 隐私安全存储及安全问 题数据标准与接口 共享协议 访问权限互联互通与

8、数 据共享问题大数据技术13报表、图形、可视化工具、增强现实查询、统计、分析、预测、挖掘、图谱、 BI计算结果展现分布式文件系统,分布式数据库 数据计算ETL工具,数据总线数据存储云计算平台、云存储、分布式文件系统等 数据采集基础架构支持行业大数据应用的挑战14清华大学大数据产品及成果计算、网络、存储资源的虚拟化管理、调度、监控跨数据中心的虚拟资源池部署、配置、管理云计算管理平台:分布式自容错、自恢复的云存储系统虚拟资源池管理系统:高效率的、支持综合查询及事务的分布式数据库大规模分布式云存储系统:结合多模态的大数据综合处理平台分布式闪电数据库:分布式数据挖掘平台行业大数据处理平台:多媒体综合检

9、索、识别及语义分析平台数据挖掘算法平台:3D数字化建模及体感交互控制技术视频处理平台:3D建模及体感交互技术:15行业大数据解决方案v 云燕:大规模任务流程管理系统 应用定制 复杂流程管理 自动容错机制 可视化 v 云鹰: 大规模任务调度系统 轻型高效的任务调度:每秒分发几千个任务 高可扩展性支持:上千万任务、数十万CPU 跨数据中心资源协同使用 自动负载均衡 v 云龙:云资源管理监控系统 集中统一的计算平台:资源共享,弹性调度 虚拟镜像:自动应用环境部署 完善的监控及日志功能 16云燕系统架构17云燕解决海量数据计算中数据的多样复杂性、系统的异构性、系 统流程管理问题; 自动实现并行化的运行

10、,能够运行于集群、网 格、超级计算机及云平台上。管理调度160000个CPU核18应用效果:医药学靶点分析19CPU核: 118784 任务数: 934803 运行时间: 2.01 小时 CPU年: 21.43 利用率: 持续: 99.6% 总体: 78.3%吞吐量 (任务/秒) 完成任务数 处理器数目时间 (秒)处理器 活动的任务 完成的任务 吞吐量(任务/秒)大数据应用20大数据智慧安全智慧商业国家电网中航信工商总局审计中移动智慧城市智能交通智能社区智能政务国家电网21中航信v动态航班联程 300万航班实时路径搜索与规则匹配 90%的查询操作在50ms内完成 v跨数据中心同步 v分布式数据

11、库22中移动v营销数据分析及建模 移动终端促销 数据业务/手机应用推广23社保审计大数据处理24政策分析模型绩效监测模型分析型监测模型合法性合规性监测模型基础数据统计业务审计、财务审计、 复核审计供养比、替代率、基尼系数可持续性、政策一致性等地市区划或行业划分业务流程险种企业职工 基本养老保险发放数据A市职工基本 医疗保险征缴数据清华大数据中心运营模式25企业企业研究院研究院生产一线生产一线企 应用专家组政 政府扶持力量海外资源产 专家委员会研 专业研究人员学 师资团队企业化平台合约关系优势: 企业化运营 独立法人机构 研发、实施、运 维、服务 以现代服务业理 念服务于行业需求大数据应用建议正确应对 大机、单 机问题从应用端 的单一问 题,简单 问题出发 ,以解决 问题入手深入生产 一线去发 现问题建立我们 自己的大 数据创新 机制和方 法论与咨询、 培训机构 合作,培 养自己的 技术队伍央企在转 型升级中 要发挥排 头兵和主 力军的作 用26总结与展望27大数据是未 来几年的发 展热点掌握数据就 掌握了资源 和价值大数据技术 是自主创新 和突破垄断 的最大契机行业大数据 应用是促进 产业升级的 关键

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号