赛普期刊(第四期)

上传人:我*** 文档编号:133015019 上传时间:2020-05-23 格式:PDF 页数:107 大小:8.93MB
返回 下载 相关 举报
赛普期刊(第四期)_第1页
第1页 / 共107页
赛普期刊(第四期)_第2页
第2页 / 共107页
赛普期刊(第四期)_第3页
第3页 / 共107页
赛普期刊(第四期)_第4页
第4页 / 共107页
赛普期刊(第四期)_第5页
第5页 / 共107页
点击查看更多>>
资源描述

《赛普期刊(第四期)》由会员分享,可在线阅读,更多相关《赛普期刊(第四期)(107页珍藏版)》请在金锄头文库上搜索。

1、REAL ESTATE MANAGEMENT 其次 确定标准 化成果的建立形式 再次 确定标 准化成果的应用方式 REAL ESTATE MANAGEMENT 一些地产应用系统 如 ERP SCM eHR 等系统也逐渐与数据 挖掘集成起来 用以提高系统的 决策支持能力 这方面的研究热 点包括数据挖掘与商业智能 BI CRM 等系统的结合 基于软件进行数据挖掘的发 展历程 到现在基于云计算的并 行数据挖掘的方式 经历了五个 阶段 数据挖掘是目前国际上数据 库和信息决策领域的最前沿研究 方向之一 已引起学术界和工业界 的广泛关注 如果把知识发现理解 为一个过程或系统 数据挖掘就是 二 什么是数据挖

2、掘 这一过程或系统的一个可自动执 行的工具 数据挖掘包括商业需 求 大量的数据和挖掘算法三部 分 其中挖掘算法是数据挖掘的重 要组成部分 为解决特定的商业问 题 一种或多种算法需要被选择 编译 在适于挖掘的数据环境下实 施挖掘任务 第一阶段是单独算法 单个 系统 单个机器 而且是向量数据 第二阶段和数据库结合起来 有多 个算法 第三阶段跟预测模型更多 集成起来 而且它支持 Web 数据 半结构化的数据 是一种网络化计 算 第四阶段是分布式数据挖掘 时间主要发生在 2000 年到 2005 年左右 基本上是基于网格计算的 概念来做多个算法 分布在多个 节点上的方式进行数据挖掘 第 五阶段 就是现

3、在基于云计算的 并行数据挖掘与服务的模式 同 一个算法可以分布在多个节点上 多个算法之间是并行的 多个资 源实现按需分配 而且分布式计 算模型采用云计算模式 文件数 据是用 DFS REAL ESTATE MANAGEMENT PRACTICE 089 OA ERP 云存储 企业自有应用 人力资 源 随着云时代的到来和 SaaS 概 念的引入 越来越多的地产企业 开始选择由 SaaS 应用提供商 运 营商等通过互联网平台提供 SaaS 应用服务 比如 CRM 云 人力资 源云服务 例如赛普的人力资源 测评云服务 等 SaaS 应用的数 据量面临着 TB 级的增长速度 不 同的 SaaS 应用体

4、系 提供的数据 结构也不完全相同 数据有文本 图形甚至小型数据库 SaaS 应用 数据随着云服务平台的分布性特 点 有可能分布在不同的服务器 上 如何对这些异构异源的数据 进行数据挖掘 也是云时代地产 企业所面临的难题 与传统数据处理不同 海量 数据处理是一项更加复杂的工作 存在着容错问题 资源问题 时 效问题 对地产企业而言 如何将各 种 SaaS 应用数据进行整合挖掘 提炼出适合其使用特点的商业信 息是地产企业的一大急迫需求 传统的 BI 模式大多基于数据仓库 是关系型数据库的模式 面对急 剧增长的异构数据 传统的数据 仓库和原有的并行计算技术由于 挖掘效率低 已经不能解决海量 数据挖掘工

5、作 影响着数据的及 时提取 云时代的地产企业数据 三 云时代海量数据挖掘的背景分析 专有云 数据位置 存储分布式文件系统 文件以固 定尺寸的数据块形式分散存储在服务器中 数据结构 结构化数据 公有云 数据位置 企业使用 SaaS 提供的服务 企业数据位于 SaaS 应用数据库 数据结构 异构化数据居多 企业私有云 数据位置 企业自有应用数据库 企业应用数据 数据结构 结构化数据居多 挖据面临如下挑战 1 挖掘效率 进入云计算 时代后 BI 的思路发上了转换 以前是基于封闭的地产企业数据 进行挖掘 而面对引入互联网应 用后海量的异构数据 据预计到 2020 年 爆发式增长的数据量将 突破 35Z

6、B 1ZB 10 亿 TB 时 目前并行挖掘算法的效率很低 2 多源数据 引入云计算后 地产企业数据的位置有可能在提供 公有云服务的平台上 也可能在地 产企业自建的私有云上 如何面对 不同数据源进行挖掘也是一个挑战 图 2 地产企业面临着在不同数据源上进行数据挖掘的挑战 3 异构数据 Web 数据的 最大特点就是半结构化 如文档 报表 网页 声音 图像 视频等 而云计算带来大量的基于互联网模 式提供的 SaaS 应用 如何梳理有 效数据是很大挑战 SaaS 应用的数据挖掘希望能 够通过海量数据存储平台 引入快 速并行的挖掘算法 提高数据挖掘 的质量 REAL ESTATE MANAGEMENT

7、 PRACTICE 090 从外部特征来看 基于云计 算的低成本分布式并行计算环境 对数据挖掘来说 所带来的首要 好处就是中小型地产企业的数据 处理成本将大大降低 一些地产 企业用云计算平台对某些数据的 处理 不再依赖于大型高性能机 一直以来 商业智能系统往 往基于传统的 SMP 架构小型机 而构建 随着近年来 X86 平台的 性能与日俱增 可用性日渐提升 扩展性飞速增长 X86 平台在越 来越多的市场领域开始侵蚀小型 机份额 商业智能也成为 X86 架 构向 RISC 小型机发起进攻的另 一个战场 例如 Oracle 推出的 基于英特尔至强平台的 Exadata 数据库云服务器 通过独有的

8、smartscan 技术 以及数据处理 过程下移的设计 在 X86 架构基 础上同时提供了较高的 OLAP 性 能 数据仓库应用 和 OLTP 性能 此 外 IBM 也 推 出 了 基 于 X86 平台的商业智能解决方案 基于 IBM 独有的 EX5 架构服务器和 XIV 网格存储系统提供了不输于小 型机的智能信息处理能力 四 基于云计算进行数据挖掘的好处 五 基于云应用进行数据挖掘的基础设施的选择建议 其次就是开发方便 屏蔽掉了底 层 利用云计算平台来做数据挖 掘 在并行化条件下 我们利用 原有设备使得大规模处理数据能 力大为提高 另外可以方便地增 加结点 容错性比较强 选择建议 1 高可用

9、性 BI 的基础架 构层 需要建立起数据挖掘云服 务平台 而这个平台 必然是高 可用性的 从高可用性来看 需要集中 解决两个方面的问题 数据保护 和可扩展性 数据保护 需要利用 CRC ECC 等硬件机制来对传输的数据 进行校验 纠错 如果无法纠正 就将损坏的数据进行隔离 以保 证不造成更大的数据 避免系统 的重启和宕机 目前英特尔至强 7500 或 E7 合作的方案拥有诸多优势 如成 本低 性能高 可靠性 RAS 高 可扩展性好等优势 在可扩展性 能上 X86 平台横向的向外扩展 功能 即由两台以上的机器构成 集群 能满足大多数地产企业关 键应用环境的负载需求 包括对 数据挖掘云服务还是要依

10、赖于虚拟化技术 要计算 资源自主分配和调度 也就是说虚拟化技术是数据挖掘 云服务技术的支撑 管理信息化IT Oriented Managemengt地产管理实践 2013 04 REAL ESTATE MANAGEMENT PRACTICE 091 1 数据仓库建模阶段 为了应对 SaaS 应用大量异构 数据 引入 XML 标记和交换数据 由于 XML 能够使不同来源的的结 构化数据很容易地结合在一起 因 而使搜索多样的不兼容的数据库 成为可能 从而为解决 Web 数据 挖掘难题带来了希望 XML 的扩 展性和灵活性允许 XML 描述不同 种类应用软件中的数据 从而能 描述搜索的Web页中的数

11、据记录 引入MapReduce算法 提高数 据抽取转换的效率 MapReduce 算法是 Google 提出的一个软件 框架 用于大规模数据集 大于 1TB 的并行运算 当前的实现 方法是指定一个 Map 映射 函 数用来把一组键值对映射成一组 新的键值对 指定并发的 Reduce 函数用来保证所有映射的键值对 六 适合云应用的数据挖掘的模式建议 内存和 CPU 要求都较高的数据库 商业应用和虚拟化 进而避免传 统 UNIX 双机方案 成本高昂 备 机资源平时严重闲置浪费 主机 故障切换期间用户服务被迫停顿 等诸多困境 2 虚拟化 数据挖掘云服 务还是要依赖于虚拟化技术 要 计算资源自主分配和

12、调度 也就 是说虚拟化技术是数据挖掘云服务 技术的支撑 3 合适的数据挖掘平台 大数据有很多种不同的使用情况 因此 地产企业需要根据自身业务 情况采用不同的的数据挖掘平台 对于那些注重应用分析和处理要求 的地产企业客户来说 有很多专门 的解决方案 例如惠普 Vertica 此 外还有很多高性能 NAS 或者目标 系统 同样地 对于注重视频 安 防监控 闭路电视 模拟仿真 大 带宽或吞吐量的话 可以考虑惠 普 Ibrix 戴尔 Exanet BlueArc HDS NetApp Data Direct Networks Oracle 7000 EMC Isilon 和 VNX 等 中的每一个共享

13、相同的键组 完善和健壮的低成本开源解 决方案是 MapReduce 最大的特 点 比如由 Apache 基金会开发 的 Hadoop 就是一个这样的开源 解决方案 它提供高传输率 high throughput 来 访 问 应 用 程 序 的数据 适合那些有着超大数据 集 large data set 的应用程序 Hadoop 是一个分布式系统基础 架 构 由 Apache 基 金 会 开 发 Apache Software Foundation 公司受到最先由 Google Lab 开 发的 MapReduce 和 Google File System GFS 的启发 在 2006 年 3

14、月 份 MapReduce 和 Nutch Distributed File System NDFS 分别被纳入称为 Hadoop 的项目中 引入 HDFS FastDFS 的分布 式存储模式 HDFS FastDFS 系统 都是分布式文件系统 架构精简 利于提高实施效率 适合海量数 据挖掘 都是采用 单一主控机 多台工作机 的模式 通过数 据分块和复制来提供更高的可靠 性和性能 REAL ESTATE MANAGEMENT PRACTICE 092 引 入 Hive 架 构 Hive 是 建 立在 Hadoop 上的数据仓库基础 构架 是一种可以存储 查询和分 析 Hadoop 中大规模数据

15、的机制 提供了一系列工具用来进行数据 ETL 操作 Hive 定义了简单的类 SQL 查询语言 成为 HQL 它允 许熟悉 SQL 的用户查询数据 可 以进行复杂的分析工作 2 数据挖掘阶段 引入数据分析中间件 提供 数据处理 数据探索 数据建模及 模型应用等一系列功能 开发多种 数据挖据算法和统计建模方法 并 企业数据层 企业数据来源 于各类应用 如 SaaS 应用 地产 企业内部应用数据和专有云应用 数据仓库层 Data Wareho use 主要引入 HDFS FasDFS 分布存储系统和 Hive 体系架构 通过 MapReduce 算法对数据梳 理和提取 数据挖掘层 引入基于 XML

16、 数据分析中间件 实现统计查询和 数据挖掘功能 数据分析和 BI 应用层 将 BI 以 SaaS 服务的模式提供给地产企 业使用 能够方便 快捷 高效地处理海量 数据 为商业智能的应用提供更方 便 更灵活的工具和服务 3 数据呈现阶段 BI 作为云计算的一种 SaaS 服务提供给地产企业 建立行业数 据库 面对林林总总的 SaaS 应用 BI 同样可作为一种 SaaS 服务提供 给企业 同时数据挖掘工具进行数 据分析 可以发现重要的数据模式 这对构建知识库作出了巨大贡献 数据和信息之间的鸿沟要求系统地 开发数据挖掘工具 将数据 孤岛 坟墓 转换成知识 金块 数据分析与商业智能应用 数据分析中间件 统计查询 数据挖掘等 Hive体系 基于云模式HDFS FastDFS分布 式存储系统 DW SaaS 应用数据 地产企业内 部应用数据 私有云 应用数据 图 3 数据挖掘模式图 地产企业的数据挖掘云服务 将很快兴起 随着云时代的到来 地产企业面临的应用方式更加多元 化 通过云的手段提供海量数据挖 掘的方法 提高了挖掘的效率 增 加了挖掘的精度 更利于挖掘应用 的推广以及专业的行业知识库的构

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号