DSP芯片的基本结构和特征

资源描述

《DSP芯片的基本结构和特征》由会员分享，可在线阅读，更多相关《DSP芯片的基本结构和特征（25页珍藏版）》请在金锄头文库上搜索。

1、第 2 章 DSP 芯片的基本结构和特征2.1 引言可编程 DSP 芯片是一种具有特殊结构的微处理器，为了达到快速进行数字信号处理的目的， DSP 芯片一般都具有程序和数据分开的总线结构、流水线操作功能、单周期完成乘法的硬件乘法器以及一套适合数字信号处理的指令集。本章将首先介绍 DSP 芯片的基本结构，然后介绍 TI 公司的各种 DSP 芯片的特征，最后简要介绍其他公司的 DSP 芯片的特点。2.2 DSP芯片的基本结构为了快速地实现数字信号处理运算， DSP 芯片一般都采用特殊的软硬件结构。下面以 TMS320 系列为例介绍 DSP 芯片的基本结构。TMS320 系列 DSP 芯片的

2、基本结构包括：（1）哈佛结构；（2）流水线操作；（3）专用的硬件乘法器；（ 4）特殊的 DSP 指令；（5）快速的指令周期。这些特点使得 TMS320 系列 DSP 芯片可以实现快速的 DSP 运算，并使大部分运算（例如乘法）能够在一个指令周期内完成。由于 TMS320 系列 DSP 芯片是软件可编程器件，因此具有通用微处理器具有的方便灵活的特点。下面分别介绍这些特点是如何在TMS320 系列 DSP 芯片中应用并使得芯片的功能得到加强的。2.2.1 哈佛结构哈佛结构是不同于传统的冯诺曼（ Von Neuman）结构的并行体系结构，其主要特点是将程序和数据存储在不同的存储空间

3、中，即程序存储器和数据存储器是两个相互独立的存储器，每个存储器独立编址，独立访问。与两个存储器相对应的是系统中设置了程序总线和数据总线两条总线，从而使数据的吞吐率提高了一倍。而冯诺曼结构则是将指令、数据、地址存储在同一存储器中，统一编址，依靠指令计数器提供的地址来区分是指令、数据还是地址。取指令和取数据都访问同一存储器，数据吞吐率低。在哈佛结构中，由于程序和数据存储器在两个分开的空间中，因此取指和执行能完全重叠运行。为了进一步提高运行速度和灵活性， TMS320 系列 DSP 芯片在基本哈佛结构的基础上作了改进，一是允许数据存放在程序存储器中，并被算术运算指令直接使用，增强了芯片

4、的灵活性；二是指令存储在高速缓冲器（Cache ）中，当执行此指令时，不需要再从存储器中读取指令，节约了一个指令周期的时间。如 TMS320C30 具有 64 个字的 Cache。2.2.2 流水线与哈佛结构相关， DSP 芯片广泛采用流水线以减少指令执行时间，从而增强了处理器的处理能力。 TMS320 系列处理器的流水线深度从 26级不等。第一代 TMS320 处理器采用二级流水线，第二代采用三级流水线，而第三代则采用四级流水线。也就是说，处理器可以并行处理26条指令，每条指令处于流水线上的不同阶段。图2.1所示为一个三级流水线操作的例子。图2.1三级流水线操作在三级流水线操作中，取指

5、、译码和执行操作可以独立地处理，这可使指令执行能完全重叠。在每个指令周期内，三个不同的指令处于激活状态，每个指令处于不同的阶段。例如，在第N个指令取指时，前一个指令即第N-1个指令正在译码，而第 N-2个指令则正在执行。一般来说，流水线对用户是透明的。2.2.3 专用的硬件乘法器在一般形式的FIR滤波器中，乘法是 DSP的重要组成部分。对每个滤波器抽头，必须做一次乘法和一次加法。乘法速度越快，DSP处理器的性能就越高。在通用的微处理器中，乘法指令是由一系列加法来实现的，故需许多个指令周期来完成。相比而言，DSP芯片的特征就是有一个专用的硬件乘法器。在TMS320系列中，由于具有专用的硬件

6、乘法器，乘法可在一个指令周期内完成。从最早的TMS32010实现FIR的每个抽头算法可以看出，滤波器每个抽头需要条乘法指令MPY :LT;装乘数到T寄存器DMOV；在存储器中移动数据以实现延迟MPY；相乘APAC;将乘法结果加到 ACC中其他三条指令用来将乘数装入到乘法器电路（LT），移动数据（DMOV ）以及将乘法结果（存在乘积寄存器 P中）加到ACC中（APAC）。因此，若采用256抽头的FIR滤波器，这四条指令必须重复执行 256次，且256次乘法必须在一个抽样间隔内完成。在典型的通用微处理器中，每个抽头需要30 40个指令周期，而TMS32010只需4条指令。如果采用特殊的DSP指

7、令或采用 TMS320C54X等新一代的DSP芯片，可进一步降低 FIR抽头的计算时间。2.2.4 特殊的DSP指令DSP芯片的另一个特征是采用特殊的指令。节中介绍的DMOV就是一个特殊的DSP指令，它完成数据移位功能。在数字信号处理中，延迟操作非常重要，这个延迟就是由DMOV来实现的。TMS32010中的另一个特殊指令是 LTD，它在一个指令周期内完成 LT、DMOV和APAC三条指令。LTD和MPY指令可以将FIR滤波器抽头计算从 4条指令降为 2条指令。在第二代处理器中，如TMS320C25 ,增加了 2条更特殊的指令，即RPT和MACD 指令，采用这2条特殊指令，可以进一步将每个抽

8、头的运算指令数从2条降为1条：RPTK 255;重复执行下条指令 256次MACD； LT, DMOV , MPY 及 APAC2.2.5 快速的指令周期哈佛结构、流水线操作、专用的硬件乘法器、特殊的DSP指令再加上集成电路的优化设计，可使DSP芯片的指令周期在 200ns以下。TMS320系列处理器的指令周期已经从第一代的200ns降低至现在的20ns以下。快速的指令周期使得DSP芯片能够实时实现许多DSP应用。2.3 TI定点DSP芯片自1982年TI推出第一个定点 DSP芯片TMS32010以来，TI的定点DSP芯片已经经历了 TMS320C1X、TMS320C2X/C2XX、TMS

9、320C5X、TMS320C54X、TMS320C62X 等几代产品，产品的性能价格比不断提高，应用越来越广泛。下面分别介绍这些芯片的主要特征。2.3.1 TMS320C1X2.3.1.1 基本特点第一代 TMS320 系列 DSP 芯片包括：TMS32010、TMS32011、TMS320C10、 TMS320C15/E15 和 TMS320C17/E17。其中，TMS32010 和 TMS32011 采用 2.4m 的 NMOS 工艺，而其他几种则采用 1.8m CMOS工艺。这些芯片的典型工作频率为 20MHz o TMS320 第一代DSP芯片的主要特点如下：指令周期：160ns/

10、200ns/280ns 片内 RAM : 144 字/256 字(TMS320C15/E15/C17/E17 )* 片内 ROM : 1.5K 字/4K 字(TMS320C15/C17 )* 4K 字片内程序 EPROM (TMS320E15/E17 )* 4K字外部全速存储器扩展并行乘法器：乘积为 32位*桶形移位器：将数据从存储器移到ALU并行移位器允许文本交换的4X 12位堆栈*两个间接寻址的辅助寄存器双通道串行口( TMS32011,TMS320C17/E17 )片内压扩硬件(TMS32011,TMS320C17/E17 )协处理器接口( TMS320C17/E17 )器件封装：40脚

11、双列直插(DIP) /44脚塑封(PLCC)2.3.1.2 TMS320C10TMS320 DSP芯片的第一代产品是基于TMS32010和它的CMOS版本TMS320C10的结构。TMS32010于1982年推出，是第一个能够达到5个MIPS的微处理器。TMS32010采用改进的哈佛结构，即程序和数据空间相互独立。程序存储器可在片内 (1.5K字)或片外(4K字)。片内数据RAM为144字。有四个基本的算术单元：算术逻辑单元(ALU )、累加器(ACC )、乘法器和移位器。(1) ALU : 32位数据操作的通用算术逻辑单元。ALU可进行加、减和逻辑运算；(2) ACC :累加器存储 ALU

12、的输出，也是 ALU的一个输入。它采用 32位字长操作，分高16位和低16位两部分。处理器提供高16位和低16位的专门指令：SACH (高16位)和SACL (低16位)；(3) 乘法器：16X 16位并行乘法器由三个单元组成：T寄存器、P寄存器和乘法器阵列。T寄存器存储被乘数，P寄存器存储32位乘积。为了使用乘法器，被乘数首先必须从数据 RAM中装入到T寄存器，可用LT、LTA和LTD指令。然后执行 MPY (乘)或MPYK (乘立即数)指令。乘和累加器操作可用LTA、LTD和MPY、MPYK指令在两个指令周期内完成；(4) 移位器：有两个移位器可用于数据移位。一个是桶形移位器，另一个是并

13、行移位器。桶形移位器又称定标移位器。当数据存储器的数据送入累加器或与累加器中的数据进行运算时，先通过这个移位器进行016位左移，然后再进行运算。并行移位器即输出移位器，其作用是将累加器中的数据左移0、1或4位后再送入数据存储器中，以实现小数运算或小数乘积的调整。在TMS32010/C10基础上又派生了多个处理器，它们可提供不同的处理器速度、存储器扩展和各种I/O集成。2.3.1.3 TMS320C1X 的其他芯片1 . TMS320C15/E15TMS320C15/E15与TMS32010的代码和管脚全兼容，提供256字的片内 RAM 和4K字的片内 ROM (C15)或 EPROM (

14、E15)。TMS320C15 的指令周期有 200ns 和 160ns (TMS320C15-25 )两种。2. TMS320C17/E17TMS320C17/E17是一个专用的微处理器。它有4K字的片内程序 ROM ( C17 )或EPROM (E17), 一个全双工串行通信的双通道串行口，片内硬件压扩器(卩律/A律),一个用于串行通信的串行口定时器，及一个协处理器接口。协处理器接口可以在处理器和4/8/16位微处理器之间提供直接接口。TMS320C17/E17与TMS32010目标代码兼容，且可用相同的开发工具。该处理器是基于TMS320C10的CPU内核，外加片内的外设存储器和I/O模

15、块。TMS320C17/E17可认为是半定制的 DSP芯片。表2.1是TMS320第一代产品的比较表。表2.1 TMS320第一代处理器DSP 芯片指令周期（ns）制造工艺片内程序ROM（字）片内程序EPROM （字）片内数据RAM（字）片外程序（字）TMS32010200NMOS1.5K1444KTMS32010-25160NMOS1.5K1444KTMS32010-14280NMOS1.5K1444KTMS32011200NMOS1.5K144TMS320C10200CMOS1.5K1444KTMS320C10-25160CMOS1.5K1444KTMS320C15200CMOS4K2564KTMS320C15-25160CMOS4K2564KTMS320E15200CMOS4K2564KTMS320C17200CMOS4K256TMS320C17-25160CMOS4

展开阅读全文