大数据成功关键－金锄头文库

资源描述

《大数据成功关键》由会员分享，可在线阅读，更多相关《大数据成功关键（25页珍藏版）》请在金锄头文库上搜索。

1、大数据成功关键大数据成功关键 - - 高效地实现大数据的移动高效地实现大数据的移动刘春霞IBM软件部资深信息整合顾问InfoSphere：维护信息供应链信息治理信息治理治理治理质量量安全和安全和隐私私生命周期生命周期标准准事事务和和协作作应用用业务分析分析应用用外部信息源外部信息源分析分析整合整合管理管理多维数据集流流大数据大数据主数据主数据内容内容数据数据流信息流信息数据数据仓库内容分析内容分析3Thirst for Information可靠信息移可靠信息移动的速度的速度敏捷用户想要快速地访问数据，几分钟内和小时级内（如自主的数据整合)对分析的需求分析的需求两者都需要！两者都需要！权威性

2、在一个流程框架内内的可靠信息避免信息冗余需要敏捷和可靠的数据访问任何数据到大数据任何数据到大数据大数据到任何数据大数据到任何数据大数据中心大数据中心批量数据整合（用于大数据）任何数据ETL / ELTETL / ELTELT加加载获益益利用探索性分析方法最佳性能/最小批处理窗口和实时流数据提取提取获益益从多种来源提取数据：机器数据、社交数据、多结构成熟的整合工具，更高的生产力数据中心数据中心获益益以大数据形式产生和分析的数据从不清除用于完成大数据运行时内的工作的图形工具将现有的企业数据引入一个探索性分析平台将社交数据和机器数据引入一个企业数据仓库系统自动化一个低成本数据暂存区域的工具对数据的

3、推送处理（不是其他方法）BigInsightsHadoopInfoSphere BigInsights 的批量数据整合集市集市数据数据仓库仓库集市集市DataStage数据数据库FilesFiles文件文件并行并行写入写入DataStage子集子集并行并行读取取细节和和摘要摘要与大数据来源交换信息将企业信息转移到大数据来源，使它可包含在分析中获取 Hadoop 的分析结果，并将它们应用于其他 IT 解决方案并行性和规模对 HDFS 的支持通过信息服务器并行引擎提供了大规模可伸缩性作业血统与大洞察来源/目标步骤使用信息服务器中的扩展性功能大数据文件组件使用 BDFS 作为来源BDFS 引入了新

4、来源选项 Namenode Cluster Host 和 PortBDFS 可并行读取文件模式BDFS 可使用 Readers 选项并行读取单个文件BDFS 数据流程图名称节点名称节点文件请求文件请求BDFS数据数据节点点BDFS数据数据数据数据PXPXBDFS 使用多个读取器流程并行化 HDFS 读取InfoSphere DataStage使用 BDFS 作为目标BDFS 引入了新的目标选项 Namenode Cluster Host 和 PortBDFS 通常写入单个文件BDFS 能够并行写入多个文件BDFS 示例客户情绪倾向性分析作业可以通过分析电子邮件在 InfoSphere Big

5、Insights 中执行。客户情绪倾向性摘要将被更新到仓库中。InfoSphere DataStage 作业将挑选信息并更新数据仓库（使用 SCD 阶段的客户维度）可执行基于分类的电子邮件的风险识别。可以将电子邮件分类为高风险和低风险。分析作分析作业输出出风险分分类BDFS：可扩展性和性能Information Server Big data integrationDataStage Nodes (2)Server: Intel Westmere-EX (4 sockets)CPU: Intel(R) Xeon(R) CPU E7- 4870 2.40GHzStorage: 1TB BigIn

6、sights NodesServers: x3630 M3Number of Systems: 26 (5 used for the test)CPU: Intel(R) Xeon(R) CPU X5675 3.07GHzMemory: 48GBStorage: 4TB12Information Server Big data integration- 读写都具有近线性的可扩展能力- 最高可达5.2 TB/小时- DataStage节点翻倍，处理效率翻倍直至磁盘资源全部占用BDFS：可扩展性和性能13平衡的优化从 DataStage 生成 Hadoop MapReduce 作业使用 Data

7、Stage Design 流程生成 ETL 作业使用 Balanced Optimization 将其编译为在 BigInsights 上运行。将支持完全下推 Hadoop 内的所有处理（如果可能）混合下推内部的一些处理和外部剩余处理，具体取决于来源和目标通过Information Server和Hadoop 数据文件系统 (HDFS)的整合，强化了IBM在大数据的领导地位通过 Job Sequencer 对 Big Insights 和其他 MapReduce 作业进行编程调用，结合 DataStage 和 Hadoop 实现端到端工作流。利用设计器用户界面和标准阶段结构来生成 MapR

8、educe 作业，为用户提供处理 BigData 来源的能力，可以使用 Hadoop 更高效地处理这些来源。实现 InfoSphere DataStage 和 InfoSphere Streams 之间的直接数据流整合，结合两个平台的强大功能和应用范围通过所有用例提供丰富元数据支持。自动化的大数据作业生成15从 DataStage 调用 Oozie 工作流Oozie 是 Hadoop 中的一个工作流计划引擎Oozie 提供了一个 Java API 来调用 Oozie 工作流调用者是 Oozie 客户端DS 可充当 Oozie 客户端使用 Oozie API，我们构建了一个 Oozie 调用者模

9、块该模块是同步的成功执行工作流时返回 1发生错误时返回 0作业调度程序有一个执行命令阶段Oozie 调用者模块从执行命令阶段执行使用返回代码在发生错误时放弃作业序列序列序列InfoSphere Streams-Information Server 连接器1) 用户希望向现有 DataStage 作业添加 Streams 分析2) 用户希望向现有 Streams 应用添加 DataStage 处理3) 从头创建一个 DataStage 作业和 Streams 应用。这些整合可能具有以下数据流： DataStage - Streams DataStage - Streams - DataStage

10、 Streams - DataStage联邦整合（用于大数据）分析和报告工具Web 应用建模建模查询查询交付交付搜索搜索分析分析可视化可视化Vivisimo VelocityInfoSphere FederationHive(odbc)InfoSphere Database Federation 可能可能是是 IBM Vivisimo 等大数据等大数据联邦解决方邦解决方案的另一个企案的另一个企业数据来源数据来源18新用户新用户以灵活灵活、简单的方式检索数据的能力 “只需一次单击”只需几次单击，便可在文件/数据库与 BigInsights 之间移动数据满足需求，以便：生成用于个人开发工作

11、的沙盒用户界面显示了一些策略策略选项，无需任何编码即可将它们自动化。基于所选的策略和源系统功能来利用 InfoSphere DataStage 和 InfoSphere Data Replication。整合的设计和操作元数据，用于内置治理内置治理用于大数据的 InfoSphere Data Click：敏捷和可控的整合DB2/ORACLEInfoSphere Data ClickBigInsights分析分析应用用数据数据仓库转换/复制复制分析存分析存储分析分析DS/CDC实时整合（用于大数据）InfoSphere数据复制数据复制应用程序事务日志高速双向数据高速双向数据对实时信息的低延迟捕

12、获分析极大分析极大规模的移模的移动信息信息每秒 TB 级数据，每天 PB 级数据。分析各种信息分析各种信息分析原生格式的各种信息流音频、视频、空间等信息非非扩散性的散性的记录捕捕获从事务数据库日志中读取数据，将数据分发给任何目标包括 Big Data Streams、ETL for Warehouses 或 Big Insights RDBMS 消息队列ETLHadoop 系统流系统仓库20InfoSphere Data Click 实时数据高性能传递Journal LogRedo/Archive LogsSource EngineAnd MetadataTarget EngineAnd

13、MetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升数据仓库数据及时性, 动态的数据仓库结合 ETL/ELT优化批处理从源到目标更少的时间和处理即使禁止抽取，数据也可以获取为转换清洗ETL提供实时的数据降低数据集市的成本21221st Click2nd Click预选数据源和目标Tab页上显示的核对标志表明所需的配置完成复查配置 Execution!InfoSphere Data Click 点击两下完成数据整合顶级性能加速时间价值:Information Server高速的Netezza ConnectorInfoSphere Information

14、Server (Intel Xeon E7-4870)OS: Red Hat EL 5.3 x86-64Processor Type: Intel Xeon E7- 4870, 40 cores/80 threadsProcessor Speed: 2.4GHZMemory Size: 1 TB RAMDisk Space: 2 TB total disk spaceNetwork Card: Intel10 Gigabit CX4 IBM Netezza 1000-12 Appliance (TwinFin-12)12 S-Blades96 CPU coresProcessor: Intel

15、 Xeon E5520 2.27GHz Storage Space: 128 TB* * 4x compression ratio Network Card: Intel10 Gigabit CX463 writer option enabled 10G EthernetNetezzaAll performance data was obtained in the specific operating environment and under the conditions shown and is presented as an illustration only. Performance

16、obtained in other operating environments may vary, and customers should conduct their own testing.卸载速度= 2.58 TB / hour加载速度= 2.38 TB / hour23大数据清洗（验证、充实和匹配）对传统数据和大数据数据和大数据的的统一和整合一和整合访问验证、标准化、准化、充充实和匹配数据和匹配数据值得信任的数得信任的数据存据存储实现了了整体整体视图业务洞察洞察事务数据传统应用源社会网络视频和照片整合数据质量仓库风险仪表板流计算24Information Server 提供市场上最全

17、面的提供市场上最全面的数据集成和数据管理解决方案数据集成和数据管理解决方案独特优势独特优势Business/IT collaboration on data quality objectivesAutomated business / IT collaborationEstablish framework for metadata lineageUnderstand your dataIncludes automated data discoveryCleanse and validate dataHighest performance tools in the marketMonitor d

18、ata qualityOnly solution offering real time / in-flight data validation and monitoringFlexibilitySOA enabledBreadth of supported sources and targets优点优点Lowest Total Cost of Ownership (TCO)Enables shared services and centralized rule managementProvides a shared metadata repositoryBest in class data quality analysis toolsUnderstand the content, quality, and structure of data sources Automate data profiling and analysisMonitor data quality over timeUnique parallel processing engineDelivers unmatched ability to scale for huge data volumes

展开阅读全文

大数据成功关键

最新文档