文档详情

第2章--DSP芯片的基本结构和特征

壹****1
实名认证
店铺
DOC
311.50KB
约27页
文档ID:520164060
第2章--DSP芯片的基本结构和特征_第1页
1/27

第2章 DSP芯片的基本结构和特征2.1 引 言可编程DSP芯片是一种具有特殊结构的微处理器,为了达到快速进行数字信号处理的目的,DSP芯片一般都具有程序和数据分开的总线结构、流水线操作功能、单周期完成乘法的硬件乘法器以及一套适合数字信号处理的指令集本章将首先介绍DSP芯片的基本结构,然后介绍TI公司的各种DSP芯片的特征,最后简要介绍其他公司的DSP芯片的特点2.2 DSP芯片的基本结构为了快速地实现数字信号处理运算,DSP芯片一般都采用特殊的软硬件结构下面以TMS320系列为例介绍DSP芯片的基本结构TMS320系列DSP芯片的基本结构包括:(1)哈佛结构;(2)流水线操作;(3)专用的硬件乘法器;(4)特殊的DSP指令;(5)快速的指令周期这些特点使得TMS320系列DSP芯片可以实现快速的DSP运算,并使大部分运算(例如乘法)能够在一个指令周期内完成由于TMS320系列DSP芯片是软件可编程器件,因此具有通用微处理器具有的方便灵活的特点下面分别介绍这些特点是如何在TMS320系列DSP芯片中应用并使得芯片的功能得到加强的2.2.1 哈佛结构哈佛结构是不同于传统的冯·诺曼(Von Neuman)结构的并行体系结构,其主要特点是将程序和数据存储在不同的存储空间中,即程序存储器和数据存储器是两个相互独立的存储器,每个存储器独立编址,独立访问。

与两个存储器相对应的是系统中设置了程序总线和数据总线两条总线,从而使数据的吞吐率提高了一倍而冯·诺曼结构则是将指令、数据、地址存储在同一存储器中,统一编址,依靠指令计数器提供的地址来区分是指令、数据还是地址取指令和取数据都访问同一存储器,数据吞吐率低在哈佛结构中,由于程序和数据存储器在两个分开的空间中,因此取指和执行能完全重叠运行为了进一步提高运行速度和灵活性,TMS320系列DSP芯片在基本哈佛结构的基础上作了改进,一是允许数据存放在程序存储器中,并被算术运算指令直接使用,增强了芯片的灵活性;二是指令存储在高速缓冲器(Cache)中,当执行此指令时,不需要再从存储器中读取指令,节约了一个指令周期的时间如TMS320C30具有64个字的Cache2.2.2 流水线与哈佛结构相关,DSP芯片广泛采用流水线以减少指令执行时间,从而增强了处理器的处理能力TMS320系列处理器的流水线深度从2~6级不等第一代TMS320处理器采用二级流水线,第二代采用三级流水线,而第三代则采用四级流水线也就是说,处理器CLKOUT1执行译码取指NN-1N-2N+1N-1N+2NNN+1可以并行处理2~6条指令,每条指令处于流水线上的不同阶段。

图2.1所示为一个三级流水线操作的例子图2.1 三级流水线操作在三级流水线操作中,取指、译码和执行操作可以独立地处理,这可使指令执行能完全重叠在每个指令周期内,三个不同的指令处于激活状态,每个指令处于不同的阶段例如,在第N个指令取指时,前一个指令即第N-1个指令正在译码,而第N-2个指令则正在执行一般来说,流水线对用户是透明的2.2.3 专用的硬件乘法器在一般形式的FIR滤波器中,乘法是DSP的重要组成部分对每个滤波器抽头,必须做一次乘法和一次加法乘法速度越快,DSP处理器的性能就越高在通用的微处理器中,乘法指令是由一系列加法来实现的,故需许多个指令周期来完成相比而言,DSP芯片的特征就是有一个专用的硬件乘法器在TMS320系列中,由于具有专用的硬件乘法器,乘法可在一个指令周期内完成从最早的TMS32010实现FIR的每个抽头算法可以看出,滤波器每个抽头需要一条乘法指令MPY:LT ;装乘数到T寄存器DMOV ;在存储器中移动数据以实现延迟MPY ;相乘APAC ;将乘法结果加到ACC中其他三条指令用来将乘数装入到乘法器电路( LT),移动数据(DMOV)以及将乘法结果(存在乘积寄存器P中)加到ACC中(APAC)。

因此,若采用256抽头的FIR滤波器,这四条指令必须重复执行256次,且256次乘法必须在一个抽样间隔内完成在典型的通用微处理器中,每个抽头需要30 ~ 40个指令周期,而TMS32010只需4条指令如果采用特殊的DSP指令或采用 TMS320C54X等新一代的DSP芯片,可进一步降低FIR抽头的计算时间2.2.4 特殊的DSP指令DSP芯片的另一个特征是采用特殊的指令2.2.3节中介绍的DMOV就是一个特殊的DSP指令,它完成数据移位功能在数字信号处理中,延迟操作非常重要,这个延迟就是由DMOV来实现的TMS32010中的另一个特殊指令是LTD,它在一个指令周期内完成LT、DMOV和APAC三条指令LTD和MPY指令可以将FIR滤波器抽头计算从4条指令降为2条指令在第二代处理器中,如TMS320C25,增加了2条更特殊的指令,即RPT和MACD指令,采用这2条特殊指令,可以进一步将每个抽头的运算指令数从2条降为1条:RPTK 255 ;重复执行下条指令256次MACD ;LT, DMOV, MPY 及 APAC2.2.5 快速的指令周期哈佛结构、流水线操作、专用的硬件乘法器、特殊的DSP指令再加上集成电路的优化设计,可使DSP芯片的指令周期在200ns 以下。

TMS320系列处理器的指令周期已经从第一代的200ns降低至现在的20ns 以下快速的指令周期使得DSP芯片能够实时实现许多DSP应用2.3 TI定点DSP芯片自1982年TI推出第一个定点DSP芯片TMS32010以来,TI的定点DSP芯片已经经历了TMS320C1X、TMS320C2X/C2XX、TMS320C5X 、TMS320C54X、TMS320C62X等几代产品,产品的性能价格比不断提高,应用越来越广泛下面分别介绍这些芯片的主要特征2.3.1 TMS320C1X2.3.1.1 基本特点第一代TMS320系列DSP芯片包括:TMS32010、TMS32011、TMS320C10、 TMS320C15/E15和TMS320C17/E17其中,TMS32010和TMS32011采用2.4mm的 NMOS 工艺,而其他几种则采用1.8mm CMOS工艺这些芯片的典型工作频率为20MHzTMS320第一代DSP芯片的主要特点如下: 指令周期:160ns/200ns/280ns 片内RAM:144字/256字(TMS320C15/E15/C17/E17) 片内ROM:1.5K字/4K字(TMS320C15/C17) 4K字片内程序EPROM(TMS320E15/E17) 4K字外部全速存储器扩展 并行乘法器:乘积为32位 桶形移位器:将数据从存储器移到ALU 并行移位器 允许文本交换的4×12位堆栈 两个间接寻址的辅助寄存器 双通道串行口(TMS32011,TMS320C17/E17) 片内压扩硬件(TMS32011,TMS320C17/E17) 协处理器接口(TMS320C17/E17) 器件封装:40脚双列直插(DIP)/44脚塑封(PLCC)2.3.1.2 TMS320C10TMS320 DSP芯片的第一代产品是基于TMS32010和它的CMOS版本TMS320C10的结构。

TMS32010于1982年推出,是第一个能够达到 5 个MIPS的微处理器TMS32010采用改进的哈佛结构,即程序和数据空间相互独立程序存储器可在片内(1.5K字)或片外(4K字)片内数据RAM为144字有四个基本的算术单元:算术逻辑单元(ALU)、累加器(ACC)、乘法器和移位器1) ALU:32位数据操作的通用算术逻辑单元ALU可进行加、减和逻辑运算;(2) ACC:累加器存储ALU的输出,也是ALU的一个输入它采用32位字长操作,分高16位和低16位两部分处理器提供高16位和低16位的专门指令:SACH(高16位)和SACL(低16位);(3) 乘法器:16×16位并行乘法器由三个单元组成:T寄存器、P寄存器和乘法器阵列T寄存器存储被乘数,P寄存器存储32位乘积为了使用乘法器,被乘数首先必须从数据RAM中装入到T寄存器,可用LT、LTA和LTD指令然后执行MPY(乘)或MPYK(乘立即数)指令乘和累加器操作可用LTA、LTD和MPY、MPYK指令在两个指令周期内完成;(4) 移位器:有两个移位器可用于数据移位一个是桶形移位器,另一个是并行移位器桶形移位器又称定标移位器当数据存储器的数据送入累加器或与累加器中的数据进行运算时,先通过这个移位器进行0~16位左移,然后再进行运算。

并行移位器即输出移位器,其作用是将累加器中的数据左移0、1或4位后再送入数据存储器中,以实现小数运算或小数乘积的调整在TMS32010/C10基础上又派生了多个处理器,它们可提供不同的处理器速度、存储器扩展和各种I/O集成2.3.1.3 TMS320C1X的其他芯片1.TMS320C15/E15TMS320C15/E15与TMS32010的代码和管脚全兼容,提供256字的片内RAM和4K字的片内ROM(C15)或EPROM(E15)TMS320C15的指令周期有200ns和160ns(TMS320C15-25)两种2.TMS320C17/E17TMS320C17/E17是一个专用的微处理器它有4K字的片内程序ROM(C17)或EPROM(E17),一个全双工串行通信的双通道串行口,片内硬件压扩器(m律/A律),一个用于串行通信的串行口定时器,及一个协处理器接口协处理器接口可以在处理器和4/8/16位微处理器之间提供直接接口TMS320C17/E17与TMS32010目标代码兼容,且可用相同的开发工具该处理器是基于TMS320C10的CPU内核,外加片内的外设存储器和I/O模块TMS320C17/E17可认为是半定制的DSP芯片。

表2.1 是TMS320第一代产品的比较表表2.1 TMS320第一代处理器DSP芯片指令周期(ns)制造工艺片内程序ROM(字)片内程序EPROM(字)片内数据RAM(字)片外程序(字)TMS32010200NMOS1.5K1444KTMS32010-25160NMOS1.5K1444KTMS32010-14280NMOS1.5K1444KTMS32011200NMOS1.5K144TMS320C10200CMOS1.5K1444KTMS320C10-25160CMOS1.5K1444KTMS320C15200CMOS4K2564KTMS320C15-25160CMOS4K2564KTMS320E15200CMOS4K2564KTMS320C17200CMOS4K256TMS320C17-25160CMOS4K256TMS320E17200CMOS4K2562.3.2 TMS320C2X第二代TMS320 DSP芯片包括TMS32020、TMS320C25/E25、TMS320C26及TMS320C28在这些芯片中,TMS32020是一个过渡的产品,其指令周期为200ns,与TMS32010相当,而其硬件结构则与TMS320C25一致。

下载提示
相似文档
正为您匹配相似的精品文档