设计和分析自适应处理器

资源描述

《设计和分析自适应处理器》由会员分享，可在线阅读，更多相关《设计和分析自适应处理器（53页珍藏版）》请在金锄头文库上搜索。

1、-设计和分析的自适应处理器TAKANO,三洋大规模集成电路设计系统软。一个新的putationmodel称为缓存(缓存架构ConfigurableHardware引擎)在这篇文章中。该模型不需要一个专用的主机处理器及其软件利用重构。自动重新配置应用working-set datapaths执行。缓存模型有很多副作用;缓存、资源分配和部署位置和路由和碎片整理,处理数组本身和一个专用存放器称为working-set注册文件。模型旨在减少三个主要工作负载:(1)处理器和应用程序设计工作负载,(2)运行时资源管理和调度工作负载,和(3)重新配置负载。在为了减少这些工作负载,处理器体系构造无疑是不同于传

2、统的计算模型及其微处理器体系构造。有三个主要的思想构建计算系统:(1)收发器working-set modelmainly为了控制流的加载和存储,即控制交通量引入管理费用,(2)一个芯片上的僵局主要是为了管理资源和属性模型不断配置相应datapaths working-set窗口,(3)缓存存技术为这些模型工作,相当于working-set窗口机制,和缓存存的过程相当于资源请求、获取和释放死锁的属性。第一个模型集中到流媒体应用程序,例如向量和矩阵运算,过滤器,等等,这需要粗粒度的操作,如整数操作c语言。关于性能相比需求方,来自不断的在不同的规模的应用程序吞吐量。此外,扩展模型中,我们称之为In

3、stantmodel datapath公司的自动生成实例,优于需求方。这论文展示了其计算模型、体系构造、底层设计和分析根本特征的执行。类别和SubjectDescriptors:C.1.2ProcessorArchitecture:多个数据流体系构造-数组和向量处理器一般条款:设计、管理额外的关键词和短语:可重构体系构造、运行时重新配置,运行时管理,流处理、设计和分析工作集模型芯片,芯片,死锁属性模型堆栈构造ACM参考格式:Takano,s . 2021。设计和分析的自适应processor.ACMTrans。Reconfig。工艺。1系统。5日,第五条(2021年3月),34页。DOI =

4、 10.1145/2133352.2133357 2133357 1。介绍微处理器是演变成类似于fpga many-core处理器,与概念层次粒度many-core处理器之间唯一的区别和一个FPGA。这就引入了many-core处理器和fpga的主要问题。硅半导体技术的改良提供了一个更大的预算一样的芯片尺寸缩小设计规则和设计空间扩大。这是众所周知的摩尔定律(摩尔1995年)。然而,这种收缩了努力使数字或许可的副本局部或全部个人或教室使用的这项工作没有提供拷贝不了费用或分布式的利润或商业优势和此通知副本显示在第一页或初始屏幕显示连同完整的引用。的组件拥有的这项工作比ACM必须尊敬别人。抽象与

5、信用是允许的。复制否则,再版,贴的效劳器上,重新分配列表,或使用的任何组件之前工作在其他工作需要特定的权限和/或费用。权限可能要求出版物、ACM,Inc .,2佩恩广场,701套房,纽约,美国纽约10121 - 0701, + 1(212)869 - 0481,或发至permissionsacm.org。c 2021 ACM 1936 - 7406/2021/03 art5 10.00美元DOI 10.1145/2133352.2133357 ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2021年3月。2 sTakano更多wire-delay金属互连层Matzke 1997。此

6、外,片装和off-chip带宽差距增加了。需要大量的周期外部主存,这是一个memory-wall沃尔夫和麦基1995。这可以被看作是一个时机来改变目前的架构。先前的研究Kozyrakis 1999;纳et al . 2001检查芯片上多个存银行(MMBs)。为了执行并行执行,这样的记忆银行必须在相对较短的同时延迟。大规模的单处理器会降低其复杂性的可伸缩性,其中的设计参数问题的宽度和指令窗口大小(Palacharla et al . 1997年)。而不是一个单一的大规模的处理器,chipmultiprocessor(CMP)讨论哈蒙德et al。1997。多核小指令宽度有更好的之间的权衡问题应

7、用程序的并行性和处理器的并行性,以适应应用程序计算机系统有效Olukotun et al . 2007。今天,数以万计的处理器和地方的记忆芯片可以放在Wentzlaff et al . 2007。这样的芯片需要更多的存。这将创立一个memory-wall因为更高包的局限性。因此,通过结合百万桶和CMP,数以万计的存元素和处理元素(Sankaralingam可以放置在同一芯片et al . 2006年)。另一方面,fpga正开场被用来加速计算,而不是仅仅用于测试和验证逻辑电路,在90年代,现场可编程自定义计算机器如Vuillemin et al。1996。今天,fpga是耦合的与主机处理器(s

8、)和用于科学应用et al . 2007过活。他们的field-programmability和灵活性能够找到最优的组合软件和硬件的应用程序。然而,可重构计算(RC),混合传统的基于微处理器的运算称为时间计算,应用程序加速器使用fpga计算称为空间计算介绍了复杂性,使应用程序设计师有必要了解软件和硬件设计(Mangione-Smith et al . 1997年)。指令和数据等信息的流动决定了计算机系统体系构造。一些应用程序域都有自己的特定的数据流模式。计算机架构师决定计算机基于配置文件的规的教学构造,分布的寻址模式,解决inde*-lengths,等等。架构师必须设计考虑减少此类信息流量和

9、额外的交通预测或猜想。传统的处理器有一个减少大量的逻辑电路,在后面的小节中讨论。关于钢筋混凝土系统,有三种类型的流:主机的指令流处理器,数据流在主机和RC硬件,配置数据流在RC硬件。RC模型必须照顾的管理和调度其顺序和配置系统中的数据流。映射到应用程序任务计算资源必须灵活或浮动有效地支持任务级别的并行计算。小规模的百万桶& CMP处理器执行浮动映射任务的核心芯片上的环网(安斯沃思和品克斯顿2007;西勒et al . 2021年)。今天的大规模百万桶&CMP处理器往往执行静态映射任务在每个核心Sankaralingamet al . 2006;Wentzlaff et al . 2007;e

10、t al . 2021;Tran et al . 2021,或静态映射暂时VLIW指令的执行任务(Khailany et al . 2001年)。增加核心芯片的数量不能被容忍,因为我们面临一个资源管理和调度困难类似于钢筋混凝土模型。操作系统必须照顾超过数以万计的处理和存资源。这包括资源分配和任务,位置和更换,碎片整理,和路由。静态调度应用程序编译器是由多更复杂的与一个复杂的系统体系构造。发布一个产品,需要时间 ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2021年3月。设计和分析的自适应处理器反映了上市时间的需求。计算机硬件和应用程序需要验证时间(Ludden et al .

11、2002;Manolios 2005)和优化时间,分别。验证所需的时间努力继续增加甚至对于一个处理器使用多核,小更新造成的核心实现SMT(同步多线程),它允许存资源共享在线程(Victor et al . 2005年)。传统的基于处理器的系统已经到达了极限,顺序执行系统即将成为并行处理系统。尽管RC系统放松限制,它需要复杂的设计应用程序设计人员的努力。的减少交通需要高效的计算涉及到众多的逻辑电路,一个大在操作系统上的工作量,和/或优化应用程序设计人员的努力。操作系统执行资源管理的困难的工作和调度,涉及多个任务。我们称之为努力参与设计的处理器、编译器和应用程序,作为一个工作负载,可以减少适当的

12、分配信息交通量及其管理和调度。为了解决这些问题,我们的工程主要集中在“新居的三个主要领域:(1)处理器和应用程序设计工作量减少,(2)运行时资源管理和调度工作量减少,(3)重新配置工作量减少。这些都是基于一个特定的构造处理数组,以克制这些问题不需要额外的硬件资源和系统软件在主机。这些减少是基于一个简单的计算模型,是在一个可伸缩的核心为核心处理数组。这个简化的计算模型可以减少很多处理器和应用程序设计的工作,尽管我们的根本知识计算模型和处理器体系构造是必需的。本文也有目标作为一个根本的信息指南。一个新的处理器管道作为一种资源任务datapath公司请求,并行任务取得,获得资源释放。我们考虑一个自

13、治RC构造数组的重构技术datapath公司不能配置一个大型应用程序。这种方法使用应用程序依赖基于working-set大型应用程序重新配置datapaths。通过使用cycle-accurate模拟,我们演示和分析重新配置序列及其计算模型。下一节解释了模型的根底。新重组的机制第三节解释技术。第四局部解释了存过程涉及重新配置。的解释常见的逻辑电路提供用于处理单元在第五局部。第六个节讨论相关工作编译器减少工作负载,存流量减少、资源管理和调度和重构方法。第七局部州的工作量减少处理的优点之前的局部。讨论了根本模型的扩展在第八局部。第九局部显示了评估结果,和第十节总结了纸。2。缓存模式本节介绍了计

14、算模型称为缓存(缓存架构可配置硬件引擎)。首先,计算的根本思想是解释说。working-set模型(1968年丹宁)和死锁属性模型霍尔特1972应用于资源分配和任务。缓存和碎片整理技术介绍了处理元素数组被称为一个对象数组(对象空间)。对象数组和一套专用存放器,working-set存放器用于自动地点和路线。working-set,整个datapath公司的一局部,和配置在运行时发布。表我显示了摘要的方法来减少工作量。 ACM交易可重构技术和系统,5卷,1号,第五条,出版时间:2021年3月。五 sTakano表一、减少工作负载及其方法计算系统模型处理器和应用资源管理重新配置设计工作负载和调度

15、工作负载工作负载减少了简单计算减少Working-set模型中,死锁属性模型,模型:缓存机制(堆栈构造化对象数组):配置数据显示开掘处理器流水线处理器管道dency对象之间的资源请求,获取,获取阶段激活依赖配置datapath公司和释放阶段对象流量减少换入/出栈的栈构造构造芯片Working-set模型-确定性放置地点和路线的支持资源管理:寻找可替换的对象死锁属性模型芯片Working-Set存放器文件Working-Set注册文件工作地点为这些模型-检查能力限制获取信号的选择高速缓冲存储器技术端口可伸缩的架构与原因,消除交通引起的基于位置的地方和路线能够响应2.1。粗粒度的计算与分布式存块通

16、过memory-wall很高,很长的延迟意味着漫长的根本路径ALU andmainmemory之间的长度。这一事实可能导致一个分布式的使用存块芯片上,这可能需要多个周期加载和存储,和沟通存块和ALU之间。不需要理想的概念存层次构造。此外,而不是一个存块,多个存块应该实现和并行来提高性能。中可以看到这个向量处理器(Espasa 1997;Asaovi c1998;Kozyrakis 1999。有90/10的经历法则,10%的静态程序在近90%的动态执行时间。我们专注到热点与可重构加速处理元素的计算有很多资源和存块。这引入了一个working-set模型假设一点新的资源和请求版本可能大量资源。我们将这一概念应用于可重构计算系统,即局

展开阅读全文