如何在ARM平台上开发低功耗的软件系统

资源描述

《如何在ARM平台上开发低功耗的软件系统》由会员分享，可在线阅读，更多相关《如何在ARM平台上开发低功耗的软件系统（5页珍藏版）》请在金锄头文库上搜索。

1、如何在ARM平台上开发低功耗的软件系统如何在ARM平台上开发低功耗的软件系统类别：嵌入式系统摘要：在强调便携式设备的电池寿命时，看起来比较奇怪是，很少有软件工程师在其日常项目任务中真正做到了减少能耗。我猜想对这个课题有所想法的那些人可能都是本着荣辱自担的想法才关注此课题的。我们到了要做些改变的时期。随着电池寿命和性能要求的矛盾持续，我们作为软件工程师不得不要用更多时间来找出如何才能以节能方式来设计和编写我们的软件，至少在工具能满足我们要求之前需要这样做。我们这些软件工程师都热衷于为我们遇到的问题找出完美的解决方案。但奇怪的是，我们会发现在这个特定的领域，没有一个完美的解决方案。聪明的技巧可能

2、会节省一些功率，但是这个领域是由其他更简单的因素支配的。就象房间里有几头很大的大象，我们必须要先小心翼翼地猎取我们可以看到的大象，然后再花精力去猎捕体型小的动物。在考量某个系统的功耗时，重要的是要弄清楚我们实际测量的对象是什么。我们说的“节省功耗”可能意味着几个方面。它意味着“功率”还是“能量”。实际上，我们既需要功率也需要能量。大多数手持便携式设备均具有以下两个不同的预算：功率预算它管理着瞬间功耗、避免过热或产生热应力，而能量预算则管理着长期使用的能量总数。而软件则需要满足短期的功率预算和长期的能量预算。很明显，我们可以把任何设备的功耗降低到接近零，只要不让它做任何操作或任何有意义的操作

3、即可！不得已的是，实现有用的功能就需要耗费能量。因此，我们只能在有意义的操作和节能二者中不断采取折衷方案。为了实现所需的功能，我们必须耗能；但我们必须尽量确保以节能的方式来实现这些功能。功耗时间积有关该主题的学术材料中常用的更好度量方式是采用“功耗时间积”。尽管既没有标准单位也没有具体方法，但是这种度量方式将能耗和性能度量结合到了一起。增加能耗或降低性能会增加功耗时间积的值，因此我们的目标是找出最低的可接受的功耗时间积的值，换句话说，最低的能耗要与允许的时间内所需任务的执行保持一致。能量去哪儿了？所有计算器械均会执行两个基本功能。这两个功能都是必需的，没有这两个功能就不能完成任何有意义

4、的任务。我们首先想到的自然是计算或数据处理。通常，计算是对机器寄存器中保存的值实施的操作。为了尽可能高效地实施计算任务，我们需要在最短的时间内执行最少的指令。最重要的是，高效计算允许以下二选一：要么我们可以早点完成计算去睡觉，要么我们调慢时钟且仍然在规定时间内完成计算任务。这里经常被人忽视的是数据通信（数据移动）。在大多数架构中（A R M采用加载/存储架构，也不例外），数据移动是必需的。如果不将信息从一个位置移动到另一个位置且经常返回原来的位置，用户就无法处理任何信息。例如，内存中的值需要移动到寄存器中进行处理，然后把结果写回到内存中。但是哪个耗用的能量更多呢？最大的偿付在哪儿？图1

5、显示了普遍存在的事实，与程序有关的内存存取操作中有大约60%是指令抓取，另外40%才是数据存取。图1：内存存取分布图2：内存存取能耗图2显示了A R M进行的一些研究。如果执行一条指令的能耗是1，那么，紧耦合存储器(TCM)存取的能耗约为1/25，缓存存取的能耗大约为1/6。而外部R A M存取的能耗则是指令执行能耗的7倍。换言之，对于每次外部R A M存取所用的能耗，我们可以执行7条指令，40次缓存存取或大约170次TCM存取。计算廉价但通信昂贵因此，似乎数据移动要比数据处理更昂贵。因此，第一头大象就是数据效率。我们可以为内存存取的能耗管理提出两个规则。近距离 - 从能量角度

6、讲，内存越靠近核心，访问内存的相对能耗越低。少存取 - 减少内存存取次数比减少指令数量更加重要。充分利用片上存储器从我们的能量图可以清楚地看出，TCM是到目前为止系统具有的最高效存储器类型。不是所有的系统均具有A R M称为TCM的存储器（通过专用和优化的接口连接到内核），但是大部分系统至少具有某种片上快速存储器类型。为了便于讨论，我们指的是常见的片上存储器(SPM)。假定S PM单次存取能耗大约是外部R A M存取能耗的1/170，充分利用这种SPM存储器应该是首选。图3：SPM的能量优势图3中的图表显示了简单的“多类”基准，甚至128个字节的S PM区域都可以减少大约一半的功耗。

7、1k字节的存储器最大可减少70%的功耗。本次研究(Mar wedel, 2004)中采用的方法是从外部R AM到S PM动态重定位代码和数据片段。甚至在按需移动各项开销方面，不仅降低了能耗，性能也提高了大约60%。很显然，我们在某个点上正在损失回报。这种情况下，S PM超过1k时，性能提升幅度变缓，系统总能耗也会稍微升高。在这里，我们实际上在承担这种特定应用无法使用的S P M能耗，因为这种应用程序本身并不够大。您还可以注意到，在结合了所使用的分配算法时，这种特定的应用无法使用小于64字节的S P M区域，因为没有足够小的可用片段与之相配。本次研究中还展示了一个更加成熟的算法，可以在最佳状

8、况下节省能耗可以超过80%。永远做缓存友好的事分析缓存优点有时可能比分析S PM优点更加复杂。一方面，缓存基本上是自我管理的。另一方面，缓存不是对单个存储位置进行操作，而是对固定大小的“线路”进行操作。因此，访问单个可缓存的存储位置可能加载整条线路，从而造成突发的内存存取。如果该附加的数据从未被访问过，则所消耗的能量就浪费了。另一个不利之处是缓存所需的其他逻辑成本（就硅片面积和功耗而言）。图4：缓存的能量优势图4摘自普林斯顿（Brooks，2000）一份论文，显示了针对某简单应用基准的三套数据。针对不同的缓存大小，这些条块分别代表性能IP C（单位周期指令数）、功耗和功耗时间积(ED

9、 P)。总的来说，性能会随着缓存大小的增加而提升。但是，系统的功耗也会增加，因为增大缓存单元会相应增加功耗。功耗时间积允许我们在性能和缓存大小之间取得平衡。在这个例子里，存在一个最佳点，即缓存大小为64k时，此时的功耗时间积最小。最大限度减少数据内存存取 A RM架构的一个特性是其常量是不确定的，特别是，不可能用单条指令把一个任意32位常量放到一个寄存器中。实际上，所有内存存取必须按寄存器中的地址操作，这就意味着程序需要把这些地址和其他常量频繁地放到寄存器中，而这一点很难做到。解决此问题的标准方法是把常量作为文字数据嵌入到代码段中，在运行时使用PC相关的加载进行加载。因此，这种最大限度减少

10、常量影响的方法很实用。确保在编译时这些常量是已知的，如果可能，最好能把这些常量嵌入到单条ARM指令中。为了存取全局变量，尽可能减少加载基址指针的需求。这就需要确保全局变量在运行时都在内存中，这样才能使用单个指针存取多个变量。实现这个目标最简单的方式是将全局变量放到一个结构中。尽管A R M的堆栈访问相对高效（堆栈访问可较好地加载和存储多条指令），但是程序员还可以通过很多方式来减少堆栈访问：减少活动变量、避免占用本地变量地址、可能时充分利用尾部调用优化、将传递到函数的参数数量减少到四个以下、允许编译器主动内联函数等。递归情形和避免递归情形的做法更加复杂。通常编译器可以对归函数很好地进行尾部优

11、化。实际上将所有数据存储到堆栈中可以比其他做法获得更好的局部性。或许建议可能最好表达为“除非其他做法让数据局部性更糟或您确信编译器可以对递归调用进行尾部优化，否则不要使用递归算法”。应编写异常处理程序，增加尾部连锁的机会，进而避免堆栈环境内不必要的保存和恢复。现在我们把注意力转到这个问题的第二头大象，即指令执行。最大限度减少指令数目事实上，减少指令执行次数本质上与性能优化是相同的，执行的指令数越少，能耗就越低。另外，还要增加一些明显的指针。首先，正确地配置工具。在编译器和链接器完全了解目标平台，甚至无法实施一些基本的优化。编写代码时要保持敏锐，才能避免不必要的操作。对于A R M架构

12、，32位数据类型是高效的：一般8位和16位数据类型，尽管占用的存储空间较少，但是处理效率也较低。在v6和v7架构中，打包和接包指令以及S IM D操作一定程序上对此有些帮助，但是要注意，在主程序中无法从C访问这些指令。编写循环时要当心可以按照以下一些简单的规则来编写循环：使用无符号的整数计数器，向下倒数，并把是否等于零作为终止条件。这可以让循环更短，速度更快，使用的寄存器更少。还要记住，要采用矢量化来编写循环。即使在尝试展开和矢量化最简单的循环时，有关控制结构和数据声明的一些简单规则都可以让编译器的作业变得更简单。图5：循环展开图5显示了与一个特定循环优化有关的一些数据，这个循环优化就

13、是循环展开（Brooks，2000）。按照预期，随着展开因子的增加，执行时间和指令数目会减少。我们看到了减少循环开销和减少地址计算的效果。功率结果更加有趣，但不太明显。因为预测器可用来训练其行为的分支更少且针对循环结束失败的最终错误预测比例大增，所以随着循环进一步展开，分支预测器的准确性出现下降。但是，因为顺序取指的连续数据流不经常被中断，所以取指阶段的效率可以提升。组合的结果是减少了每条指令的净能耗。因此尽管执行时间基本上低于展开因子4，但是因为功耗持续降低，所以所有重要的功耗时间积也随之降低。因此有能耗意识的编译器或开发人员与只考虑执行时间的编译器或开发人员相比，会更倾向于展开循环。精

14、度满足需求即可还必须考虑输出要求的精度。即使有浮点硬件可用，定点实现的计算通常比浮点实现的计算更有效率。如果您正在渲染一个供屏幕查看的图像，可能并不需要完全符合标准，您只需要渲染出可以接受的图像。对标准M P E G- 4解码函数进行递进优化的一项研究(S h i 2002)已经表明，把软浮点切换为定点二进制可以把能耗降低72%。精度损失意味着该结果不再符合标准，但是在所研究的系统上仍然足以满足渲染用途。关于Thumb T humb指令集专门设计用于改进代码密度，还可以提升窄内存系统的性能。但是，在代码密度确实改进的同时，指令数也同时增加了。这是因为，与A R M指令相比，减少了个别Th

15、umb指令的功能。因此Thumb重新编译会造成能耗增加，这看起来是合理的，而我们看到的事实也的确是这样。上述研究表明，如果代码大小减少4%，指令执行数增加38%，而能耗增加28%。为了找到第三头大象，我们需要走出处理器及其内存的领域，着眼于范围更大的系统。我们这些天使用的系统已经被我们的硬件设计同事组合到了一起，这个系统提供了大量节能选项。更广系统中的节能显而易见，没有使用的组件应尽可能置于低功耗状态。这也是所有敏锐的设计系统不可分割的组成部分，这些组件应包括内存和缓存系统、甚至是处理器本身。在多核系统中，我们必须考虑在处理要求相对低时中止一个或多个内核运行的可能性。首先，一个很小但值

16、得考虑的问题是：处理外设时，要始终尝试使用中断机制，而不是轮询机制。轮询循环只会耗用能量而无任何目的。几乎所有架构均包括了某种等待中断的指令，可以把这种情况下的系统置于待机状态。对于A R M系统，内核通常带有时钟门控，只保留静态漏电。通过设计中断架构来增加拖尾连锁，一般可以避免不必要的睡眠唤醒循环。ARM Cortex-M3架构可以自动实现这一点。对于个别计算单元，选择一种关机方案是很容易的。对于可以预测需要与否的单元，在不需要时通过应用程序或操作系统就可以停止运行这些单元。对于不可预测需要与否的单元，可以通过按需通电启动系统，也可以在空闲超过某段时间之后再自动断电。子系统断电的时标可以通过以下两方面来得出：通电但处于空闲状态时的功耗以及睡眠唤醒循环的能耗。从根本上讲，这取决于应用场合。但是，动力循环代码的简单循环计数将是最明显的起

展开阅读全文