用FPGA实现数字匹配滤波器的优化方法

资源描述

《用FPGA实现数字匹配滤波器的优化方法》由会员分享，可在线阅读，更多相关《用FPGA实现数字匹配滤波器的优化方法（3页珍藏版）》请在金锄头文库上搜索。

1、用用 FPGA 实现数字匹配滤波器的优化方法实现数字匹配滤波器的优化方法摘要:本文利用 Xilinx 公司 Virtex 系列器件的特殊结构,提出了一种比较新颖的数字匹配滤波器设计方法,它在保证了该匹配滤波器与传统匹配滤波器性能不变的前提下,最大限度的减少了占用的 FPGA 资源(与 Xilinx 公司推荐的设计方法相比较减少了 50%以上的资源消耗). 该设计被应用于全数字直接序列扩频接收机中,并取得了满意的效果. 关键词:取样、量化、数字匹配滤波、直接序列扩频 Optimized Realization of Digital Matched Filter in DSSS System

2、Abstract: Making use of the structure of Virtex series devices producted by Xiinx Incorporation, this paper give a new method that realize Digital Matched Filter(DMF). This method decreases the FPGA resources greatly (decreases 50% resources than the method Xilinx recommends), but its performance is

3、 same as the traditional DMF structure. And in the application of all digital DSSS receiver, this DMF behaved very well.Keyword: quantization、sampling、Digital Matched Filter(DMF)、DS/SS、FPGA 1、引言随着数字技术的飞速发展,通信终端的数字化和集成化已经成为通信技术发展的主流趋势.在直接序列扩频系统中,数字匹配滤波器成为其实现的关键.由于传统数字实现的匹配滤波器对资源的消耗是非常大的,即使经过部分改进后仍

4、然占用了较大资源,资源消耗大成为数字匹配滤波器应用和实现的瓶颈.本论文中的数字匹配滤波器结构是在全数字扩频接收机的背景下提出的,设计的目的就是以最小的资源消耗实现接收机匹配滤波性能的要求. 过采样率和量化比特位数是影响数字匹配滤波器的两个关键参数,为了保证匹配滤波器性能, 必须合适的选择这两个参数. 1.1 过采样率和量化比特位数的选择过采样增加了一个码片(chip)宽度中的取样次数.其目的是便于确定每个码元的中心位置,在确定上一个码元中心位置的情况下可以很容易的找到下一个码元的中心位置.由参考文献1、 2知:在噪声样点间相互独立的情况下,过采样每增加一倍,处理增益可以提高大约 3dB

5、,但是当噪声归一化带宽小于过采样率的一半时,不断增加过采样的值并不总能有效的提高处理增益.虽然从理论上说高的过采样率能得到较好的相关性能,但是同时也导致了高的处理速率并且占用了更多的 FPGA 资源.折中的考虑可以采用 4 倍的过采样. 由于从模数转换器来的信号一般至少有 8bit 以上,这样宽的数据对于数字匹配滤器来说资源消耗是相当大的,必须要减少滤波器输入端的量化比特数.由参考文献1、2 的分析可以知道:当数字匹配滤波器的输入端量化达到 3bit 时理论上就足够了,再增加量化比特位数并不能明显改善系统性能.为了留有一定冗余空间保证滤波器的性能我们采用了 4bit 量化.即使将

6、 8bit 量化减少至 4bit 量化,数字匹配滤波器对于寄存器的占用仍然是相当大的,假设扩频码为 256 位,采用 1 倍 chip 采样,需要 256*4 个 D 触发器(512 个 Slice),采用 4 倍 chip 采样则需要 256*4*4=4096 个 D 触发器(2048 个 Slice). 由此可见,提高过采样率和增加量化比特位数以改善滤波器性能与减少资源占用率成为一对矛盾,如何实现两者的折中成为优化数字匹配滤波器的关键.在此我们采用了 4bit 量化、4 倍过采样,在满足较高滤波器性能的前提下,利用 FPGA 的结构特点最大程度的减少资源的占用. 1.2 Slic

7、e 中 LUT 实现的 SRL16E 的结构特点由于利用了 Virtex 系列器件中的 SRL16E 结构,所以需要对其结构特点作简要的介绍(参见文献3).Virtex CLB 的基本模块是逻辑单元 LC(Logic Cell).每个 LC 包括一个 4 输入函数发生器,一个进位逻辑和一个存储单元.LC 中函数发生器的输出同时驱动 CLB 的输出和触发器的输入.每 2 个 LC 组成一个切片(Slice),每个 CLB 则由两个 Slice 组成.其中的函数发生器实际上是个查找表(LUT),每个 LUT 能提供 1 个 16*1 位的同步 RAM.同时每个 Slice 中的 2 个 L

8、UT 可以组成一个 16*1 位的双端口同步 RAM,此外 LUT 还能构成 1 个 16 位的移位寄存器,这个结构就是本方法中所要利用的,它可以通过宏 SRL16E 的调用来实现.其不足之处在于:这个 16 位的移位寄存器只能有一个输入端口和一个输出端口,不能从移存器中间引出输出端口. 2、数字匹配滤波器的实现 2.1 传统的 DMF 实现传统匹配滤波器的结构与具有+1 和-1 系数 FIR 滤波器结构相同,对于 256 位码序列、4 比特量化、4 倍过采样的匹配滤波器用这样的结构实现需要耗费的资源为: 触发器数目=256*4(4 倍采样)*4(4bit)=4096(2048 个

9、Slice) 如果用 8 级加法器树实现求和,共需要 255 个加法器,再加上用以实现与 PN 码相乘还需要 4 位加法器 256 个.那么还需要 2546 个触发器,这样总共使用了 6642 个触发器,可以发现用触发器来作延时链存储数据是非常浪费资源的. Xilinx 公司文章中推荐的倒置型 FIR 折叠滤波器对于数字匹配滤波器相似于+1 和-1 系数 FIR 滤波器结构的特点,也可以考虑采用倒置型的 FIR 滤波器来实现,其滤波器结构如图 1 所示: 图 1 倒置型 FIR 折叠滤波器结构 (其中 Z-n 表示 n 级移位寄存器) 图 2 采用 SRL16E 实现的倒置型 FIR 折叠

10、滤波器抽头 (m 为量化比特数,N=log2PN 码长度) 如果输入数据能顺利的加载到抽头乘法器,那么可以省去所有抽头上的寄存器,在 Virtex 器件中,与每个加法器相联系的时延无需占用额外的资源.其中的延时链可以方便的用 Virtex 器件的 SRL16E 结构来实现.每级倒置型 FIR 滤波器抽头可以简化表示为图 2. 可以看出此结构的加法器的位数比较大(每级加法器的位数与最后相关结果的位数相等),这样无疑增加了资源的消耗.具体的介绍参见参考文献4. 为了进一步减少资源的占用,可以考虑采用较高的时钟来换取资源的消耗.对于倒置的 FIR 型滤波器来说可以采用折叠滤波的方式来实现.即把

11、N 个 PN 码折叠存放,每 M(M 为折叠次数)个工作时钟输出一个有效的相关值.具体的硬件实现方法见参考文献4.M 倍的折叠滤波需要将工作时钟提高 M 倍,但是资源占用率却可以减少到原来的 1/M.由参考文献4可得: 触发器数目=(256/4)*12(加减运算)+14(SRL 延时)+2(编码位) =1792(896 个 Slice) 工作时钟=数据速率*码长*过采样率*单个采样中需要的工作时钟数 =过采样速率*单个采样中需要的工作时钟数目 2.3 利用 SRL16E 结构提出的 DMF 实现方式根据上面对两种方法的分析可以发现:倒置型 FIR 折叠型滤波器的的加法器位数过大占用了很

12、多原本不需要占用的资源,而传统的结构又因为用触发器来存储采样点占用了大量资源.综合考虑前两种滤波器结构,提出了新的优化滤波器的方法,其总体框图如图 3 所示: 图 3 优化的匹配滤波器总体框图因为传统滤波器用触发器来存储 chip 采样而耗费了大量资源,而每个 SRL16E(16 位移位寄存器)恰好可以存储 4 个 chip 的 16 个采样点(4 倍过采样),那么 256 位码序列只需要级联 64 个 SRL16E 结构就可以完成存储.这样对于 4bit 量化来说只需要 64*4=256 个 SRL16E(相当于 256 个触发器)就可以了.但是由于 SRL16E 只能有一个输入一个

13、输出,不能从中间提取抽头,所以不能象传统的数字 FIR 滤波器那样存储数据,需要采用新的存储格式.这里以 256 位码序列、4 比特量化、4 倍过采样的数字匹配滤波器为例,工作时钟为 4 倍的过采样速率.在采样数据的输入端加上图 4 所示的选择寄存器结构: 图 4 选择寄存器内部框图图 5 多级加法器的内部框图当计数器值为 0 时通过 MUX 将采样数据送入寄存器,其它时刻将移位寄存器链的末端反馈回的数据送入寄存器,这样从第一个工作时钟采样点开始输入到 4096 个工作时钟结束,256 个 chip 的 1024 个采样被全部存入移位寄存器链,其存储结构如图 6 所示: 图 6 经过

14、 4096 个工作时钟后移位寄存器链中数据存储的格式其中 i.j 表示第 j 个 chip 的第 i 个采样.可以发现移位寄存器链中的第一部分对应的是 256 个 chip 的第一组采样点,第二部分对应的是 256 个 chip 的第二组采样点,以此类推.这样匹配滤波器中需要相关累加的抽头部分被移位寄存器链连续的存储在了一起,可以方便的通过类似于传统匹配滤波器中所用的加法器树来实现求和,其实现框图如图 5.图 5 中由一个 6 级加法器树和一个 12 位累加器来实现,每经过 4 个工作时钟输出一个相关累加的有效值. 在移位寄存器链和累加单元之间还需要有一个相关器,实现本地 PN 码序列

15、与采样值的乘法, 因为 PN 码序列值只有 1 和-1 两个值,所以可以用加法器方便的实现.这样所有加法器所消耗的资源为: 加上移位寄存器链所消耗的 256 个触发器,一共占用了 896 个触发器. 3、三种实现方法的比较当实现 256 位码序列、4 比特量化、4 倍过采样的匹配滤波器时,前面所介绍三种方法的性能比较如表 1 所示: 表 1 三种方法的性能比较设计方法使用的时钟频率占用的资源(触发器) 传统滤波器法采样速率 6642 倒置型 FIR 滤波器法非折叠采样速率 7168 折叠 4 倍采样速率 1792 本论文中方法 4 倍采样速率 896 4、总结本文介绍的数字

16、匹配滤波器被应用于全数字直扩接收机的扩频码捕获过程,经过实际应用,其性能与采用传统方法和倒置型 FIR 折叠滤波器法实现的滤波器一样,但是节省了大量的 FPGA 资源,适合于用在 FPGA 器件实现数字解扩的场合.其中用 SRL16E 实现移位寄存器链的设计思想也可以应用于数字滤波器的实现中,用以减少资源的占用率. 参考文献: 1 郭南,洪福明,李乐民. 软限幅效应、量化阶数及取样间隔对直扩数字匹配滤波性能的影响J. 通信学报,1996 17(1):1217 2 郭南,洪福明. 直接序列扩频数字匹配滤波器J.电子科技大学学报,25(5):455459 3 徐志军,徐光辉. CPLD/FPGA 的开发与应用M. 北京:电子工业出版社,2002:51574 Application Note of Virtex Series and Virtex- Series . Xilinx Incorporation San Jose USA,2001.

展开阅读全文