基于 hbase 的多决策反馈式计算模型的研究与实现

上传人:E**** 文档编号:115089169 上传时间:2019-11-12 格式:PDF 页数:69 大小:1.02MB
返回 下载 相关 举报
基于 hbase 的多决策反馈式计算模型的研究与实现_第1页
第1页 / 共69页
基于 hbase 的多决策反馈式计算模型的研究与实现_第2页
第2页 / 共69页
基于 hbase 的多决策反馈式计算模型的研究与实现_第3页
第3页 / 共69页
基于 hbase 的多决策反馈式计算模型的研究与实现_第4页
第4页 / 共69页
基于 hbase 的多决策反馈式计算模型的研究与实现_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《基于 hbase 的多决策反馈式计算模型的研究与实现》由会员分享,可在线阅读,更多相关《基于 hbase 的多决策反馈式计算模型的研究与实现(69页珍藏版)》请在金锄头文库上搜索。

1、 代号代号 分分 类 号类 号 学号学号 密级密级 1070110701 TP311.5TP311.5 公开公开 09211213710921121371 题题(中、英文)(中、英文)目目 基于基于 HBaseHBase 的多决策反馈式计算模型的研究与实现的多决策反馈式计算模型的研究与实现 Research and Implementation of MultiobjectiveResearch and Implementation of Multiobjective FeedbackFeedbackinging Computing Model Based on the HBaseComput

2、ing Model Based on the HBase 作 者 姓 名作 者 姓 名 何伟岗何伟岗 陈平陈平 教授教授 工工 学学 提交论文日期提交论文日期 二一二二一二年一月年一月 计算机软件与理论计算机软件与理论 指导教师姓名指导教师姓名、职称职称 学 科 门 类学 科 门 类 学科、专业学科、专业 西安电子科技大学 学位论文独创性(或创新性)声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技

3、大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名: 日期 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再攥写的文章一律署名单位为西安电子科技大学。

4、(保密的论文在解密后遵守此规定) 本学位论文属于保密,在 年解密后适用本授权书。 本人签名: 日期 导师签名: 日期 摘 要 随着计算机网络技术的迅速发展和互联网的高速普及,信息数据量已由 TB 级升至 PB 级,并仍呈爆炸式地增长。因此,如何对大型数据集进行深度分析, 并提出更加高效的且较通用的分布式计算模型,是当今大数据处理领域的研究重 点。 本文针对以上需求,从当前多种学科领域的数据密集型信息提取等实际问题 出发,通过分析其中的共性与特性,抽象出能够适用于现今大多数多目标决策以 及反馈式动态更新问题的并行计算逻辑。然后,本文借鉴 MapReduce 等计算模型 和计算中间件,基于 HBa

5、se 数据库,设计并实现了一个 MTDF(Multiobjective Targets and Dynamiclly Feedback) 分布式计算模型。另外,针对现有模型在计算和 资源管理效率方面的问题,本模型使用了一些较高效且实用的解决方法,使得开 发者能够充分地利用系统中现有的资源。本文最后通过一个股票预测的实验,说 明了如何在此计算模型的基础上进行开发,也验证了该模型的性能和有效性。 关键词关键词: 大数据大数据 分布式计算模型分布式计算模型 HBaseHBase 多目标多目标 反馈式反馈式 Abstract With the rapid development of the Inte

6、rnet technology, the total data volumn of Internet has increased from TB to PB level, and is still growing dramatically. Therefore, how to deeply analyze these big data and put forward more effective and more general distributed computing model, becomes the key point in the field of big data process

7、ing. This paper introduces parallel computing logic which is used for solving multi-objective decision-making and dynamically feedback problems according to both the requirement mentioned above and some practical issues, such as data-intensive information measurement. Moreover, a distributed computi

8、ng model named MTDF (Multiobject Targets and Dynamiclly Feedback) has been proposed based on MapReduce, HBase, etc. With respect to the calculation and resource management efficiency of current models, this model puts forward some solutions, which enable developers to fully utilize available resourc

9、es in the system. Finally, an stock trend prediction experiment illustrates how to develop applications based on this calculating model, and the results show the efficiency and feasibility of this model. Keywords: Big Data Distributed Computing Model HBase Multiobjective Feedback 目录 目 录 第一章 绪论 . 1 1

10、.1 项目背景 . 1 1.2 国内外研究现状 . 2 1.2.1 MapReduce 2 1.2.2 Pregel . 3 1.2.3 多目标进化算法 5 1.3 论文的工作内容 . 5 1.4 论文的组织结构 . 6 第二章 相关理论与技术 . 7 2.1 传统分布式计算技术 . 7 2.2 HBase 数据库 9 2.3 AOP 技术 . 10 2.4 ZeroC Ice 中间件 . 11 2.5 小结 . 12 第三章 多决策反馈式计算模型的分析与设计 . 13 3.1 需求分析 . 13 3.2 MTDF 计算的定义与性质 14 3.2.1 多目标决策计算 . 15 3.2.2 动态

11、反馈式计算 . 15 3.3 计算模型的体系结构 . 16 3.4 各模块设计 . 17 3.4.1 元信息管理模块 . 17 3.4.2 任务调度模块 . 19 3.4.3 资源管理模块 . 20 3.4.4 计算逻辑模块 . 22 3.4.5 用户交互模块 . 24 3.5 小结 . 25 第四章 多决策反馈式计算模型的实现 . 27 4.1 元信息管理模块 . 27 4.1.1 元信息结构 . 27 4.1.1 元信息映射 . 29 4.2 任务调度模块 . 31 基于 HBase 的多决策反馈式计算模型的研究与实现 4.2.1 作业创建控制 31 4.2.1 作业调度策略 33 4.3

12、 资源管理模块 34 4.3.1 资源分配策略 35 4.3.2 通信模式 37 4.4 计算逻辑模块 39 4.5 用户交互模块 42 4.5.1 数据绑定 42 4.5.1 消息订阅与发布 44 4.6 小结 45 第五章 实验研究 47 5.1 实验的建立和配置 47 5.1.1 依赖环境配置 47 5.1.2 股票预测实验 49 5.2 实验结果与分析 51 5.3 小结 52 第六章 总结与展望 53 6.1 工作总结 53 6.2 进一步工作展望 54 致谢 55 参考文献 57 在研期间研究成果 59 第一章 绪论 1 第一章 绪论 1.1 项目背景 近年来,随着大规模互联网应用

13、的普及和深化,网络信息与服务趋于海量, 用户体验需求不断增长,数据海量、分布异构、处理复杂、使用繁琐等问题逐渐 突显。现有基于客户端/服务器结构的分布式计算框架在性能、灵活性、可伸缩 性、可用性和经济性等方面无法满足日益复杂的分布式应用需求,成为制约企业 和组织信息系统建设和发展的瓶颈之一。如何构建新型高性能分布式计算框架, 支持灵活、高效的分布式应用,已经成为以加州大学伯克利分校、卡耐基梅隆 大学、IBM、谷歌、微软和亚马逊等为代表的主流学术界和企业界的研究热点。 “大数据”(大型数据集)是继云计算、物联网之后 IT 产业又一次颠覆性的 技术变革。对国家治理模式、对企业的决策、组织和业务流程

14、、对个人生活方式 都将产生巨大的影响。全球著名咨询公司麦肯锡,近期发布了一份有关“大数 据”的研究报告,指出分析“大数据”将成为竞争的关键。麦肯锡研究了“大数 据”中尚未开发的巨大价值。例如,充分利用“大数据”的零售商将能够将营业 利润率提高到 60%以上。“大数据”在公共领域也有极大潜力可以挖掘。数据应 用是 ICT 带来的一项长期性影响,然而当前“大数据”所产生的影响的规模与范 围正处于拐点。企业产生的信息量在不断增长,再加上多媒体、社会化媒体和物 联网的兴起,在可预见的未来,数据量将呈指数型增长。目前“大数据”对各个 经济领域都产生了影响。“大数据”将创造新的增长机会,以及促进新型公司的

15、 诞生。这些公司将获取并处理大量有关产品与服务、买家与供货商、消费者喜好 与意图的信息1。在“大数据”时代的背景下,王珊教授2等人对现有数据残酷 系统的实现方案,根据研究立足点的不同,将该领域归为三大类:并行数据库、 MapReduce、并行数据库和 MapReduce 技术的混合架构。而本文主要是针对第三 类问题进行深入研究。 所谓多目标决策问题,是指在同一份数据集中,需要对多个优化的目标同时 进行计算,而反馈式是指在以后的计算都是在第一次计算的基础上进行的(考虑 到第一次计算需要花费很多代价),即每次反馈都把最新的数据或上一次计算结 果的评价,迭代进去进行计算。随着数据量由 TB 级升至

16、PB 级爆炸式地增长,并 且其在现今不同学科领域的都存在扩大的趋势,以及跨学科需求由常规分析转向 深度分度,大数据结合跨学科领域计算是势在必行。如何充分发挥及改进现有技 术为社会带来便捷,如何结合各领域数据和计算的特性与共性,也是现今的研究 重点,而本文也是基于这一研究进行的,主要针对的是众多领域中大数据的多目 基于 HBase 的多决策反馈式计算模型的研究与实现 2 标决策和反馈式计算两大特点,抽象出一套较完整的计算模型。 1.2 国内外研究现状 1.2.1 MapReduce Google 发现大多数分布式运算可以抽象为 MapReduce3操作。Map 是把输入 Input 分解成中间的 Key/Value 对,Reduce 把 Key/Value 合成最终输出 Output。这 两个函数由程序员提供给系统,下层设施把 Map 和 Reduce 操作分布在集群上运 行,并把结果存储在分布式文件系统上。 ClientJobTra

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号