开题报告-屈戈

上传人:豆浆 文档编号:19484611 上传时间:2017-11-19 格式:DOCX 页数:9 大小:66.81KB
返回 下载 相关 举报
开题报告-屈戈_第1页
第1页 / 共9页
开题报告-屈戈_第2页
第2页 / 共9页
开题报告-屈戈_第3页
第3页 / 共9页
开题报告-屈戈_第4页
第4页 / 共9页
开题报告-屈戈_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《开题报告-屈戈》由会员分享,可在线阅读,更多相关《开题报告-屈戈(9页珍藏版)》请在金锄头文库上搜索。

1、北京邮电大学硕士研究生学位论文开题报告- 1 -文题目 基于深度学习的草图检索研究选题来源 论文类型 基础研究开题日期 开题地点 教三 727 北京邮电大学硕士研究生学位论文开题报告- 2 -一、立题依据(包括研究目的、意义、国内外研究现状和发展趋势,需结合科学研究发展趋势来论述科学意义;或结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。附主要参考文献目录) (不少于 800 字)北京邮电大学硕士研究生学位论文开题报告- 3 -二、研究内容和目标(说明课题的具体研究内容,研究目标和效果,以及拟解决的关键科学问题。此部分为重点阐述内容) (不少于 2500 字)本课题主要为了

2、实现光互联数据中心中基于分布式计算应用的资源分配策略及调度机制,具体的研究内容包括以下几个方面:1. 数据中心内应用通信特征及通信模型的研究随着互联网应用如 Web 搜索、社交网络等产生的数据量级的飞速增长,处理这些大数据集的大规模分布式集群计算框架也发展迅速。这些计算框架(如:MapReduce、Dryad、Spark 、Pregel 等)都由一系列具有相互依存关系的任务组成,并按照某种工作流的方式实现最终的计算任务。这种工作流一般可以采用有向无环图(DAG: Directed Acyclic Graph)来表示,如图 1-1 表示 MapReduce 计算框架的由 DAG 表示的工作流任务

3、结构。图 1-1DAG 中的节点:每个节点代表一个具体的计算任务。M 表示 Map 任务,R 表示 Reduce 任务。DAG 中的边:每条边表示所连接节点间的通信关系。从图 1-1 中可以看到,MapReduce 计算框架涉及到的通信关系有多对多,一对一通信。同样对其他分布式计算框架进行分析也能得出类似的工作流结构。在本课题中,需要对现有数据中心内具有代表性的计算框架都进行分析,进而得到每个计算框架中包含的通信关系以及它们的相似点,并分析出适用于大规模集群计算数据中心的应用通信模型。进而可以针对这些通信模型来进行网络资源的分配和调度,实现通信时间的优化。同时研究不同分布式应用的工作流程来得到

4、它们的通信特征,使得进一步的在光网络中资源分配和调度能够考虑这些特征进行调度。例如,在 Hadoop 中,每个 Map 任务执行完成之后,会告知资源管理器它要进行数据通信的数据量是多少,已经要传给哪个 Reduce 节点。在已知数据传输量的基础上,调度器就可以预先分配网络资源(波长或时隙资源)来满足它的通信需求。2. 结合应用通信需求的资源分配策略研究分布式计算系统内存在资源使用者和资源提供者。资源使用者提出资源请求,资源提供者根据请求的内容以及资源使用情况来向资源使用者提供资源分配。任务只有被分配到所需的网络资源上才能获得较高的执行效能。数据中心内的资源可以大致分为计算资源,存储资源和网络资

5、源。但是通常,一个分布式计算应用进行任务在集群内部署时,只表达对计算资源和存储资源的需求,例如 CPU 数目和内存大小需求,集群内的资源管理器根据计算和存储资源的充足情况来进行资源分配。为了缩短通信时间,资源管理器会同时考虑到数据的本地性(Locality) ,即在满足计算和存储资源的基础上,尽量把任务分配在和输入数据通信代价小的地方,如同一个 server 内或者同一个 rack 内。但这种分配策略只是考虑到了一小部分网络,并没有把网络的拓扑结构以及网络资源考虑进去,例如,如果底层的光网络采用 OBTN 环网的结构,根据 OBTN 在多播方面的优势,具有一对多通信模型的应用可以把计算任务分配

6、在环网的节北京邮电大学硕士研究生学位论文开题报告- 4 -点上利用环网优势进行数据传输。本课题中,针对资源分配策略的研究在基于现有的考虑计算和存储资源的基础上,同时也要考虑把应用的通信模型,通信需求(如:在某个特定 Deadline 之前完成)和网络的拓扑信息,网络资源信息作为输入,提出一个资源分配策略。分配策略可以通过把任务分配在网络拓扑的不同位置来优化通信时间。同时这种分配策略等效于多维资源在数据中心资源内的映射求取最优方案。分配策略的研究可以参考现有的一些线性规划算法。3. 针对应用通信特征和通信模型的调度机制研究调度机制通过实现方式可以分为三种:中心式、无中心式、分成式。中心式调度采用

7、一台主机管理调度,适用于集中式控制。无中心式调度也叫做分布式调度,在分布式系统中,每个节点的地位式相同的,具有很好的扩展性和容错能力。分层式调度由两层或者多层组成,位于高层的调度系统可以控制底层的系统。本课题针对调度机制的研究,首先要根据数据中心的特征来选择出一个合适的调度机制实现方式。其次,在已经明确了调度机制的目标是优化数据中心内分布式计算应用的网络通信性能的基础上,需要进一步的研究,来明确调度对象是什么。调度对象可以是一个数据流,或者是分布式计算应用中两个不同计算阶段之间的传输的总的数据流,或者是由多个具有相同通信目标的数据流的集合,也可以是一个分布式应用所产生的所有的数据流。针对不同调

8、度对象的调度效果应该存在差异。目前在针对计算任务方面的调度中,已经提出了针对不同调度对象的调度机制,例如以分布式计算应用的调度对象时,不同的应用有不同的优先级,优先级较高即对通信时间较敏感的应用的数据流优先进行传输。可以对这些现有的调度机制进行研究分析,最终选择出适合光互联网络的数据中心内的调度对象。再其次是对调度机制内容的研究。网络资源的调度必须结合实际应用所造成的流量特征。一般来说,大规模计算系统中,网络中普遍以东西向流量为主,并且流的行为模式多种多样,例如在数据中心中存在占比很大的诸如 MapReduce、Hadoop 等“分散-汇聚 ”型流量分布模式,也存在数据迁移备份等点到点固定交互

9、。在对数据中心内应用的通信模型进行调研之后,可以考虑针对不同的通信模型进行采用不同的网络调度机制。调度机制的研究可以参考现有的针对数据中心内应用任务的调度获得一些启发。最后,基于已提出的调度机制,结合底层光网络的资源类型,选取合适的资源维度进行调度,例如,当带宽量需求大但延时不敏感时就建立新的波长连接,而带宽需求小但 延时要求高时, 则相应地建立快速子波长交换连接。本课题研究目标和效果:1. 基于对现有数据中心内的分布式计算应用的研究,总结分析出数据中心内分布式计算应用的通信特征和通信模型。2. 结合数据中心内分布式计算应用的通信特征和通信模型,以及数据中心内底层的光网络资源和拓扑信息,提出资

10、源分配策略,在满足应用计算和存储资源的基础上同时满足应用的通信需求。3. 基于资源分配策略的分配结果,提出网络资源调度机制,调度机制应具备多重目标,从而能够切实地实现应用的通信目标,提高分布式计算应用的综合性能。通过理论分析以及仿真验证,进一步评估所提所提出的资源调度机制的效果。需解决的关键科学问题:数据中心由于其特定的应用特征,需要处理多种多样的并发任务,这些任务不但对网络资源本身的调度要求很高,还需要结合上层计算和存储资源的分配情况统一控制,才能得到最优的任务执行效率。针对这种多层资源互相关联耦合的情况,如何设计合理的控制机制,能够进行智能决策和动态资源调整,是本课题关注的一个重要科学问题

11、。同时,考虑到大规模计算系统的数据交换网络在通信模式和流量特征上都与传统电信网络显著不同,因此需要首先给出针对性的资源调度机制。并且要同时考虑如何用光互联技术将其实现。北京邮电大学硕士研究生学位论文开题报告- 5 -北京邮电大学硕士研究生学位论文开题报告- 6 -三 、 研 究 方 案 设 计 及 可 行 性 分 析 ( 包 括 : 研 究 方 法 , 技 术 路 线 , 理 论 分 析 、 计 算 、 实 验 方 法 和 步骤 及其 可 行 性 等 ) (不少于 800 字)研究路线:首先要对现有数据中心内的应用特征进行调研,并分析这些应用的计算特征,工作流程,以及通信模式。可以通过阅读数据

12、中心内分布式计算框架提出时的相关论文,并尽可能结合对这些计算框架的实际使用来进行着部分的研究。最后的研究结果可能是针对某种数据中心内普遍使用的应用模式,而不是针对数据中心内现有的所有应用类型。同时要调研数据中心内光网络的现状,包括数据中心内光互联的拓扑结构有哪些,这些拓扑结构能够提供什么特性。并研究光网络资源的调度机制,例如针对波长调度、时隙调度。根据数据中心内应用的通信需求选取一个最优的底层光互联架构,来承载这些分布式应用。可以通过阅读相关文献来进行这部分的研究。其次,要对数据中心内的流量特征进行分析,因为涉及到信息的保密性等因素,数据中心内的流量信息通常并不开源提供,但是也有一些文献来提供

13、数据中心内流量特征的发展趋势,可以通过阅读这些文献进行了解。再其次,基于对数据中心内应用的计算特征,通信需求的研究,来进行数据中心内资源分配策略的实现。分配策略首先要基于已有的对计算和存数资源的分配,然后把网络资源考虑进去,同时考虑底层架构的特点和针对底层架构的资源调度方式。最后针对提出的分配策略,进行仿真来分析其性能,并和已有的策略进行对比。最后,基于分配策略的结果,提出在应用计算过程中进行的网络资源调度机制。调度机制首先要明确它的实现方式,是中心式无中心式还是分层式,根据数据中心的实际特征来选择合适的实现方式。其次明确调度对象,针对不同调度对象的调度,产生的效果会有一定差异。对调度对象的选

14、择可以通过阅读现有的在数据中心内针对任务调度的文献中,所提出的调度机制,可以从中获得启发。最后是调度算法的研究,调度算法应该把数据中心内应用的通信模型和通信需求作为输入的一部分。调度机制应具备多重目标,从而能够切实地实现应用的通信目标,提高分布式计算应用的综合性能。通过理论分析以及仿真验证,进一步评估所提所提出的资源调度机制的效果。北京邮电大学硕士研究生学位论文开题报告- 7 -四 、 本 研 究 课 题 可 能 的 创 新 之 处 (不少于 500 字)针对本研究课题的主要研究内容,分别对应以下创新点,其中包括:针对优化数据中心内分布式计算应用的通信时间的调度机制的研究:目前大部分集中在对分

15、布式计算任务的调度,例如调度不同任务对资源的使用顺序,少有考虑到对网络资源进行动态调度来满足应用的通信需求。同时,现有的数据中心内的网络调度大部分基于 IP 网络,转换到光网络架构之后,底层的通信机制转换为由管理平面或控制平面按需建立连接的网络。在新的网络场景下的调度机制研究成为创新点针对分布式计算应用的不同任务在数据中心内的放置策略:现有的研究中主要利用计算数据的本地性(Locality) ,即把计算任务放在离输入数据近的地方来减少通信时间,如同一 Server 内或同一 Rack 内。当任务数量多于 Server 或 Rack 能够承载的数量之后,这种策略将不再发挥优势,需要根据网络的使用

16、情况来放置任务从而满足任务的通信需求,如在特定 Deadline 之前完成数据传输。同时,在光互联的数据中心内,由于光网络自身具备的一些特性,如 OBTN 环网在多播方面的优势可以很好的利用在分布式计算任务中的一对多通信模型,本课题对任务的放置策略不仅考虑到计算数据的本地性和网络资源使用状况,同时也考虑到底层网络的特性和通信模型的结合。通过使底层光网络根据应用特征来进行动态调度,使应用在分配任务是考虑到底层网络信息,突破网络和应用之间的壁垒,也是本课题的主要创新点。北京邮电大学硕士研究生学位论文开题报告- 8 -五 、 研 究 基 础 与 工 作 条 件 ( 1.与 本 项 目 相 关 的 研 究 工 作 积 累 基 础 2.包 括 已 具 备 的 实 验 条 件 , 尚 缺 少 的实 验 条 件 和 拟 解 决 途 径 ) (不少于 500 字)1. 知识储备:阅读过数据中心内使用广泛的一些分布式计算框架提出时发表的文献,对这些计算框架有一定的基础了解。在实验室提供的 6 台高性能服务器上进行过 OpenSta

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号