大数据成功关键－金锄头文库

资源描述

《大数据成功关键》由会员分享，可在线阅读，更多相关《大数据成功关键（25页珍藏版）》请在金锄头文库上搜索。

1、大数据成功关键 - - 高效地实现大数据的移动,刘春霞 IBM软件部资深信息整合顾问,3,InfoSphere：维护信息供应链,事务和协作应用,业务分析应用,外部信息源,分析,整合,管理,多维数据集,流,大数据,主数据,内容,数据,流信息,数据仓库,内容分析,整合和清洗,可靠信息移动的速度,敏捷用户想要快速地访问数据，几分钟内和小时级内（如自主的数据整合),对分析的需求,两者都需要！,权威性在一个流程框架内内的可靠信息避免信息冗余,需要敏捷和可靠的数据访问,任何数据到大数据大数据到任何数据大数据中心,批量数据整合（用于大数据）,任何数据,ETL / ELT,ETL / ELT,ELT

2、,加载获益利用探索性分析方法最佳性能/最小批处理窗口和实时流数据,提取获益从多种来源提取数据：机器数据、社交数据、多结构成熟的整合工具，更高的生产力,数据中心获益以大数据形式产生和分析的数据从不清除用于完成大数据运行时内的工作的图形工具,将现有的企业数据引入一个探索性分析平台将社交数据和机器数据引入一个企业数据仓库系统自动化一个低成本数据暂存区域的工具对数据的推送处理（不是其他方法）,InfoSphere BigInsights 的批量数据整合,DataStage,DataStage,子集,细节和摘要,与大数据来源交换信息将企业信息转移到大数据来源，使它可包含在分析中

3、获取 Hadoop 的分析结果，并将它们应用于其他 IT 解决方案并行性和规模对 HDFS 的支持通过信息服务器并行引擎提供了大规模可伸缩性作业血统与大洞察来源/目标步骤使用信息服务器中的扩展性功能,大数据文件组件,使用 BDFS 作为来源,BDFS 引入了新来源选项 Namenode Cluster Host 和 Port BDFS 可并行读取文件模式 BDFS 可使用 Readers 选项并行读取单个文件,BDFS 数据流程图,名称节点,文件请求,BDFS,数据节点,BDFS,数据,数据,PX,PX,BDFS 使用多个读取器流程并行化 HDFS 读取,InfoSphere Data

4、Stage,使用 BDFS 作为目标,BDFS 引入了新的目标选项 Namenode Cluster Host 和 Port BDFS 通常写入单个文件 BDFS 能够并行写入多个文件,BDFS 示例,客户情绪倾向性分析作业可以通过分析电子邮件在 InfoSphere BigInsights 中执行。客户情绪倾向性摘要将被更新到仓库中。 InfoSphere DataStage 作业将挑选信息并更新数据仓库（使用 SCD 阶段的客户维度）可执行基于分类的电子邮件的风险识别。可以将电子邮件分类为高风险和低风险。,12,BDFS：可扩展性和性能,Information Server Big d

5、ata integration,DataStage Nodes (2) Server: Intel Westmere-EX (4 sockets) CPU: Intel(R) Xeon(R) CPU E7- 4870 2.40GHz Storage: 1TB,BigInsights Nodes Servers: x3630 M3 Number of Systems: 26 (5 used for the test) CPU: Intel(R) Xeon(R) CPU X5675 3.07GHz Memory: 48GB Storage: 4TB,13,Information Server Bi

6、g data integration,- 读写都具有近线性的可扩展能力 - 最高可达5.2 TB/小时 - DataStage节点翻倍，处理效率翻倍直至磁盘资源全部占用,BDFS：可扩展性和性能,平衡的优化从 DataStage 生成 Hadoop MapReduce 作业,使用 DataStage Design 流程生成 ETL 作业使用 Balanced Optimization 将其编译为在 BigInsights 上运行。将支持完全下推 Hadoop 内的所有处理（如果可能）混合下推内部的一些处理和外部剩余处理，具体取决于来源和目标,15,通过Information Ser

7、ver和Hadoop 数据文件系统 (HDFS)的整合，强化了IBM在大数据的领导地位通过 Job Sequencer 对 Big Insights 和其他 MapReduce 作业进行编程调用，结合 DataStage 和 Hadoop 实现端到端工作流。利用设计器用户界面和标准阶段结构来生成 MapReduce 作业，为用户提供处理 BigData 来源的能力，可以使用 Hadoop 更高效地处理这些来源。实现 InfoSphere DataStage 和 InfoSphere Streams 之间的直接数据流整合，结合两个平台的强大功能和应用范围通过所有用例提供丰富元数据支持。

8、,自动化的大数据作业生成,从 DataStage 调用 Oozie 工作流,Oozie 是 Hadoop 中的一个工作流计划引擎 Oozie 提供了一个 Java API 来调用 Oozie 工作流调用者是 Oozie 客户端 DS 可充当 Oozie 客户端使用 Oozie API，我们构建了一个 Oozie 调用者模块该模块是同步的成功执行工作流时返回 1 发生错误时返回 0 作业调度程序有一个执行命令阶段 Oozie 调用者模块从执行命令阶段执行使用返回代码在发生错误时放弃作业序列,序列,InfoSphere Streams-Information Server 连接器,1)

9、用户希望向现有 DataStage 作业添加 Streams 分析 2) 用户希望向现有 Streams 应用添加 DataStage 处理 3) 从头创建一个 DataStage 作业和 Streams 应用。这些整合可能具有以下数据流： DataStage - Streams DataStage - Streams - DataStage Streams - DataStage,联邦整合（用于大数据）,18,分析和报告工具 Web 应用,建模查询交付,搜索分析可视化,Vivisimo Velocity,InfoSphere Federation,Hive (odbc),InfoS

10、phere Database Federation 可能是 IBM Vivisimo 等大数据联邦解决方案的另一个企业数据来源,新用户以灵活、简单的方式检索数据的能力 “只需一次单击” 只需几次单击，便可在文件/数据库与 BigInsights 之间移动数据满足需求，以便：生成用于个人开发工作的沙盒用户界面显示了一些策略选项，无需任何编码即可将它们自动化。基于所选的策略和源系统功能来利用 InfoSphere DataStage 和 InfoSphere Data Replication。整合的设计和操作元数据，用于内置治理,用于大数据的 InfoSphere Data Cli

11、ck：敏捷和可控的整合,InfoSphere Data Click,BigInsights,分析应用,数据仓库,转换/复制,分析存储,分析,DS/ CDC,实时整合（用于大数据）,20,InfoSphere 数据复制,应用程序事务,日志,高速双向数据对实时信息的低延迟捕获,分析极大规模的移动信息每秒 TB 级数据，每天 PB 级数据。,分析各种信息分析原生格式的各种信息流音频、视频、空间等信息,非扩散性的记录捕获从事务数据库日志中读取数据，将数据分发给任何目标包括 Big Data Streams、ETL for Warehouses 或 Big Insights,RDBMS,消

12、息队列,ETL,Hadoop 系统,流系统,仓库,21,InfoSphere Data Click 实时数据高性能传递,Journal Log Redo/Archive Logs,Source Engine And Metadata,Target Engine And Metadata,TCP/IP,Netezza,Targets,Sources,Oracle,DB2,提升数据仓库数据及时性, 动态的数据仓库结合 ETL/ELT优化批处理从源到目标更少的时间和处理即使禁止抽取，数据也可以获取为转换清洗ETL提供实时的数据降低数据集市的成本,22,1st Click,2nd Click

13、,预选数据源和目标 Tab页上显示的核对标志表明所需的配置完成,复查配置,Execution!,InfoSphere Data Click 点击两下完成数据整合,23,顶级性能加速时间价值: Information Server高速的Netezza Connector,InfoSphere Information Server (Intel Xeon E7-4870) OS: Red Hat EL 5.3 x86-64 Processor Type: Intel Xeon E7- 4870, 40 cores/80 threads Processor Speed: 2.4GHZ Memory

14、Size: 1 TB RAM Disk Space: 2 TB total disk space Network Card: Intel10 Gigabit CX4,IBM Netezza 1000-12 Appliance (TwinFin-12) 12 S-Blades 96 CPU cores Processor: Intel Xeon E5520 2.27GHz Storage Space: 128 TB* * 4x compression ratio Network Card: Intel10 Gigabit CX4 63 writer option enabled,10G Ethe

15、rnet,Netezza,All performance data was obtained in the specific operating environment and under the conditions shown and is presented as an illustration only. Performance obtained in other operating environments may vary, and customers should conduct their own testing.,卸载速度= 2.58 TB / hour,加载速度= 2.38 TB / hour,24,大数据清洗（验证、充实和匹配）,对传统数据和大数据的统一和整合访问,验证、标准化、充实和匹配数据,值得信任的数据存储实现了整体视图,业务洞察,事务数据,传统应用,源,社会网络,视频和照片,整合,数据质量,仓库,风险仪表板,流计算,Information Server 提供市场上最全面的数据集成和数据管理解决方案,独特优势,优点,

展开阅读全文