陈纯-大数据需要实时智能分析

上传人:q****9 文档编号:50782171 上传时间:2018-08-11 格式:DOC 页数:6 大小:47KB
返回 下载 相关 举报
陈纯-大数据需要实时智能分析_第1页
第1页 / 共6页
陈纯-大数据需要实时智能分析_第2页
第2页 / 共6页
陈纯-大数据需要实时智能分析_第3页
第3页 / 共6页
陈纯-大数据需要实时智能分析_第4页
第4页 / 共6页
陈纯-大数据需要实时智能分析_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《陈纯-大数据需要实时智能分析》由会员分享,可在线阅读,更多相关《陈纯-大数据需要实时智能分析(6页珍藏版)》请在金锄头文库上搜索。

1、-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 陈纯:大数据需要实时智能分析“从时间角度来看,大数据可以 分成两类,一类是历史的大数据,即批 式大数据;另一类是实时的大数据,即 流式大数据。作个通俗的比喻,大数据 等同于水库,那么存在水库里的水就是 批式大数据,而随时流进水库的水就是 流式大数据。 ”一开场,计算机应用专家、 浙江大学计算机科学与技术学院教授、 中国工程院院士陈纯就用一个通俗易懂 的比喻把晦涩难懂的专业术语阐述得简 单明了。也真是因为有了这个比喻,让 距离这个专业十万八千里的笔者,听起 他的主题演讲来也并非想象中的那么云 里雾里。 中国论文网 /9/view-129

2、37130.htm-精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 迫切需要研发具有快速、高效、 智能且自主可控特点的流式大数据实时 智能处理平台 目前主流的大数据处理技术体系 是 Hadoop 及其衍生系统,主要由 Yahoo、Facebook 等公司支持,实现并 优化了 MapReduce 框架。2006 年首次 发布以来,Hadoop 技术体系已经从传 统的三架马车HDFS、MapReduce 和 Hbase 发展为 60 多个相关组建的庞 大生态。值得一提的是,从 2012 年开 始,才有了专门流式大数据的组件,如 Tez、Spark Streaming。也就是说,在 201

3、2 年之前,所有的大数据算法和系统 只关注批式大数据。Spark Streaming 是 建立在 Spark 基础之上的流式大数据处 理框架。与 Tez 相比,具有吞吐量高、 容错能力强等特点,并支持多种数据输 入源和输出格式。 2017 年 1 月,Apache 基金会发 布了 Beam 项目。其前身是 Google Dataflow 数据处理服务,本身不是一个-精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 流式大数据处理平台,而是支持批式大 数据和流式大数据融合处理的统一编程 处理框架,可集成多种大数据处理平台, 包括 Spark、SQL、Hadoop、Flink、Spark

4、Streaming、Apache Storm、Stream Cube。 稻萘鞔理的应用场景主要两 类,第一类是互联网和移动互联网,通 过提供个性化服务来不断提升用户体验, 它对实时性的要求是达到亚秒级的响应; 第二类是物联网的传感数据,通过对实 时数据和历史数据的智能分析,在事中 作出决策和处理,它对实时性的要求是 达到毫秒级的响应。 现有的解决方案在做实时处理上 都有困难,不管是 Hadoop 技术体系, 还是流式大数据组件。Hadoop 技术体 系是分布式、集群式的架构,它的好处 是数据量大,但是难以实时响应;而学 过计算机的人都知道,要想计算的快的 化,数据一定要存在内存里,但是内存-精

5、选财经经济类资料- -最新财经经济资料-感谢阅读- 4 再怎么大,也是有限的,这也就是流式 大数据组件的短处虽然其计算很快, 但数据规模受限。所以,我们迫切需要 研发具有快速、高效、智能且自主可控 特点的流式大数据实时智能处理平台。 “流立方”实时智能处理平台提供 基于时间窗口漂移的动态数据快速处理 技术 “流立方”提供基于时间窗口漂移 的动态数据快速处理技术,支持计数、 求和、平均、最大、最小、方差、标准 差、K 阶中心矩、递增/递减、最大连续 递增/递减、唯一性判别、采集、过滤等 多种分布式统计计算模型。 “流立方”平台+实时智能处理分 析模型(规则)集把处理引擎和计算逻 辑分开,避免计算

6、逻辑变化造成二次开 发。 批式大数据处理性能以排序作为 公认的评测基准,但是流式大数据实时 处理性能尚未无公认的评测基准。在 8 台 PC Serve、单台服务器配置为 12 核-精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 CPU、256G 内存的测试环境下, “流立 方”实时处理系统性能指标达到单节点 写入 43000+TPS,8 节点读取 100 万 +TPS,平均延时 10-20 毫秒。 “流立方” 平台在银联商务招标测试中综合性能排 名第一,打败了 IMB、Oracle、CFCA。在当前的电子支 付上,除了蚂蚁金服和微信支付是自己 做的风控以外,基本上所有的银联系统 的风

7、控都是基于流立方来做的。 此外,还可以利用“流立方”平台 来反爬虫。当前,40%60%的流量由 爬虫贡献,且日渐趋于智能化发展,遍 布了包括银行类、政府类、社交类、票 务类、电商类等在内的各类网站,正在 消耗网站内资源、影响正常分访问、增 加网站运营成本、混淆网站用户生态、 爬取产品和价格信息进行不正当竞争。 而现在的“流立方”实时反爬虫系统,可 以增加数据服务,把数据的指南、人机 的识别、爬虫的行为分析都用安全专家、 网络专家规则的形式考虑进去,在微秒-精选财经经济类资料- -最新财经经济资料-感谢阅读- 6 级延时中识别爬虫和作出反击,达到积 极主动的实时爬虫修补。 总而言之,大数据实时智

8、能处理 是大数据时代信息化的重要抓手,采用 “事中”甚至“事前”模式实现分析、判断、 决策等功能的智能系统需要流式大数据 实时处理平台的支撑。物联网实时传感 数据需要与历史数据相结合,进行实时 处理、分析和决策;互联网/移动互联网 上的各类应用(App)需要将流式数据 与历史数据相结合,进行实时的个性化 服务。同时,大数据实时智能处理可以 为大数据驱动的深度学习提供计算框架 的支撑平台,基于大数据实时智能处理 平台,研制能融合传统符号人工智能、 众包人工智能、神经网络人工智能等多 种形态的统一计算框架,为下一代数据 驱动和知识引导相结合的人工智能技术 研究和产品研发提供高效可靠的基础设 施。 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 7

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号