互联网峰会

上传人:小** 文档编号:87414159 上传时间:2019-04-05 格式:PPT 页数:12 大小:1.29MB
返回 下载 相关 举报
互联网峰会_第1页
第1页 / 共12页
互联网峰会_第2页
第2页 / 共12页
互联网峰会_第3页
第3页 / 共12页
互联网峰会_第4页
第4页 / 共12页
互联网峰会_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《互联网峰会》由会员分享,可在线阅读,更多相关《互联网峰会(12页珍藏版)》请在金锄头文库上搜索。

1、2014.4.18,一把好铲子,掘金大数据,关于永洪科技,. 公司驻扎于北京中关村留创园(Experience),. 自主研发的数项软件产品,涵盖大数据分析和BI前端,. 专注于数据治理和数据价值发掘的产品和服务工作,. 已获得两轮投资机构主导的Pre-A投资,一些客户场景,. 广西移动流量监控平台 这是我们给电信级用户打造的大数据监控平台,五分钟延迟,对全省各条电信链路的互联网数据进行准实时监控和准实时分析。每天采集的机器数据(Log),内含互联网流量数据小十亿条(Similar Product)。,. 上海电信大数据交换平台 . 湖北移动数据报告平台 在电信行业,类似的实时大数据分析需求持

2、续冒出来。这些需求共同的特点是:预算不太高,但大数据分析能力要足够。(Analysis vs Transaction),. AdMaster调查平台 AdMaster做互联网和移动的广告、调查、监测,做得很好很成功(Hong)。随着客户量的累积,AdMaster的数据越来越多,我记得有一个大表让人印象深刻,字段数已经上万,分析组合的字段一多,前端发出的分析请求,后端响应速度可能要几分钟。,一些客户场景,. 艾瑞咨询集团大数据平台 这次互联网峰会,艾瑞主动邀请我们来做关于大数据的分析,对永洪是一个惊喜。(Thought) 以前,艾瑞交付给客户的分析报告是线下交付,比如Excel文件、Word文件

3、。 如今,艾瑞不这么做了:给用户一个服务账号,自己登陆进来看,不仅仅能看,还能动手分析,省事又强大。(Comment) 艾瑞移动、艾瑞电信研究院。(Similar Requirement) (Visit),大数据是什么,Gartner是这样定义大数据的:“大数据”是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。(4V),. 信息资产:大数据首先是信息资产,是生产资料。以前大家买原料做产品,现在海量数据就是原料之一。,. 新处理模式:这意味着之前的处理办法搞不定,或者代价太昂贵。所以我们需要找新办法,新模式。(Storage: MPP & Weak

4、Consistency)(Computing: 3 Types ),. 取得优势:我们有了大数据,有了新处理模式,这还不够,必须获取优势。比如优化流程、强化决策力、提升洞察力等等。如果没有得到实实在在的好处,那就不要搞大数据。,大数据,我们能干什么?,从商业价值上考虑,应该围绕自己的核心业务,结合线上线下多源数据,收集、存储并消化自有大数据,分步打造有价值的数据应用。(Landing),. 每天产生的机器数据,比如日志文件,没法很好地管理起来,导致企业的运维能力较低。结合大数据和BI技术,我们可以把运维搞起来,让业务能更好地运行。,. 每天的线上交易数据,由于数据量大,只能预先设定并计算几个静

5、态的KPI去看业务,导致企业的洞察力较低。结合大数据和BI技术,我们能够提升洞察力。,商业决策需要什么分析报告,一般会让IT部门出,这也许要经过N多工序,需要一两周才搞出来,导致决策层无法通畅决策。结合大数据和BI技术,我们可以提升决策能力。解决这一问题。,大数据,应用的困惑,. 用不用开源 这是我们客户经常讨论的问题。永洪认为,最基本的要求是能解决问题。利用一些成熟的开源项目未尝不可,行之有效的办法是取长补短,融汇贯通,很多永洪的客户都这么干。,. 应用方向 每个企业有自己的特点,有自己的需求。类似大数据应用的方向性选择这种问题,没有对错,永洪也说不好。,. 源数据质量 如果企业的源数据管理

6、水平不高,永洪可以做很强的数据分析产品,也没有办法在短期内提升企业的源数据归集能力等,这也是永洪未来的研究课题。,我们先看一个传统的企业数据仓库架构(图),看上去一层一层的,这个架构有一个形象的比喻,Layer-Cake,夹心蛋糕:底层是数据源,上层是数据分析和BI,中间是集中管控的EDW。这是一个经典的架构,曾经在很多企业发挥过重要作用。,大数据,传统架构难以胜任,.存储:数据只能存储在DW中。每种类型的数据,我们要么把它存储在DW中,要么丢弃。这像一架豪华飞机,没有经济舱。数据要么坐头等舱,要么没座位。,.结构化:EDW只能存储结构化数据,不是结构化数据的存不了,也用不了。,.刚性:传统架

7、构的刚性已经不能满足今天的需求。Forester的调查报告显示:迄今为止,打造了传统的企业数据仓库的机构,有83%的用户没有用数据仓库做数据分析,而是继续使用Excel等工具做数据分析。这是为什么呢?因为这个架构太刚性了,有新需求改起来费劲,需要很长的时间,也需要很有经验的工程师。,大数据,推荐的架构,我们探讨了传统架构存在的问题。那么大家会问,大数据中心到底应该怎么建? 2013年初,带着这个问题,Forester调研了很多客户。发现很多公司都采用了一个新架构,我们称之为Hub & Spoke,也就是辐射架构。(Years & Yonghong Comment),支持结构化和半结构化。中心H

8、ub的主要作用,就是把原始数据(Raw Data)安全地存储起来。有的用户用Hadoop HDFS,有的用户用商业产品。,轻Meta。传统数据仓库的Meta层很厚,有很重的数据模型。这种把数据和Meta耦合在一起的架构,一旦满足不了需求,或者需求变化,就很麻烦。但Hub,只是存储原始数据(Raw Data),Meta很轻。以前EDW是ETL,现在是把数据提取并装载(EL)到Hub中,而在分发过程中,可以按照需求把数据转换并装载(TL) 到Spoke中使用。,横向扩展(Scale-Out)。一般我们要采购数台PC Server把集群建起来。如果数据量增长到集群支撑困难,我们可以再按需添置PC S

9、erver,避免出现很大的预先投入。,区别对待。对于性能要求低的计算,我们可以用低成本方式解决。(Sample)。对于性能要求高的计算,我们可以把数据及时转发到某个高性能的Spoke去处理。这样,根据不同的需求,可在各个Spoke安排不同的数据仓库、数据集市和BI工具去满足需求。,大数据,BI前端,探讨了数据层,我们接着探讨BI前端。选取分析前端,永洪是这样理解的:,分析报告不能只能看而不能动。永洪认为:数据展现是起点,而不是终点。看到了数据,我们要能交互式分析,要能发现问题,要能找到答案,还要能采取行动。我们称之为【探索式BI】。 TDWI有个数据:利用探索式BI工具,48%的BI用户能从大

10、数据中找到他们想要的答案;如果不是探索式BI工具,那么只有23%的BI用户能做到这一点。,分析报告,能不能让非IT部门的同事直接在分析平台上做出来?如果能,我们称之为【自服务BI】。我们不能把所有的分析报告需求都提交到IT部门,这样会累坏我们IT部门。永洪认为:一半以上的分析需求应该在自服务BI平台上搞定,少数分析需求才提交到IT部门做支撑。,分析报告需求,也许需要数据层的改动,这要求IT部门去改进数据层和业务层,改进周期很重要。传统BI平台也许需要一两个月去梳理模型,设计Meta和DWD和DWA,做ETL,打Cube。我们能不能在一两天之内做好?如果满足这一要求,企业的洞察力决策力会好很多,

11、我们叫【敏捷BI】。,打开分析报告,如果需要等上三五分钟才出结果,那会让用户很痛苦,很多人会放弃。懂IT的知道原因,也许是因为数据量增长到了10T,数据库支撑不上。不过,谁愿意去用这样的BI平台呢?BI前端,无论打开什么分析报告,无论多大的数据量,一定要足够快,最好是秒级响应。这样公司上下才乐意去用,才能提升公司的业务水平,我们称之为【高性能BI】。,没有必要高性能的分析需求,可以结合低成本的方式去做。比如有的场景,延迟一天的T+1分析就足够,如果数据存储在Hadoop中,我们可以基于Hive把报表做好,再通过Email推送出来,这种需求最好不要搞成交互式系统。,大数据,成本控制,搭建一个BI

12、平台,单单BI前端,很多厂商的报价动辄七八十万上百万,成本成了大问题。永洪认为成本还不能贵,最好几十万就能把几个T到几十个T的前后端都包括了,BI平台就建起来了。各种分析还能达到秒级响应。,永洪观点:大数据,小投入。,结束语,数据是互联网企业重要的生产资料。我们要把数据这个生产资料用好,去提升运维能力、洞察力、决策力等等,不过,预算还不能太大。无论数据量大小,掘金数据,不用选金铲子,最好选合适的好铲子。 永洪专注于BI和实时大数据分析的产品和服务,产品和服务已经很成熟,力求为业界提供一把好铲子,希望能有机会为朋友们服务,一起把数据这个生产资料用好。,我们在会场外搭了一个展台,在那里能更充分地交流,欢迎大家去聊聊。谢谢大家!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号