图像处理的gpu加速技术研究与评价

资源描述

《图像处理的gpu加速技术研究与评价》由会员分享，可在线阅读，更多相关《图像处理的gpu加速技术研究与评价（5页珍藏版）》请在金锄头文库上搜索。

1、图像处理的图像处理的 GPU 加速技术研究与评价加速技术研究与评价刘伟峰蒋楠宋付英孟凡密陈芳莉（中国石油化工股份有限公司石油勘探开发研究院信息技术研究所，北京，100083，）摘摘要要: 针对大多数图像处理问题的计算密集性，提出了图像处理的GPU加速技术。首先，描述了相对于CPU，采用GPU能够带来计算效率提升的体系结构基础。其次，将直方图生成和快速傅里叶变换计算二维卷积两个具有代表性的图像处理算法移植至GPU。最后，利用同样市场价格组合的CPU和GPU进行实验，利用多分辨率图像作为测试数据，比对CPU和GPU方案的计算效率。结果显示，与相同算法的CPU实现相比，其GPU实现分别将计

2、算效率最高提高到了17倍和40倍。关键词关键词: 图形处理器；直方图；快速傅里叶变换；二维卷积；统一计算设备架构Evaluation and Comparative Research of GPU Acceleration Techniques of Image ProcessingLIU Wei-feng，JIANG Nan，SONG Fu-ying，MENG Fan-mi，CHEN Fang-li(Information and Technology Station, SINOPEC Exploration & Production Research Institute, Beijing

3、100083)Abstract: For the compute-intensive character of image processing, we propose GPU acceleration techniques of image processing. In this paper, first, we describe the efficient architecture of GPU. Second, we implement two representative image processing algorithms, histogram generation and Fas

4、t Fourier Transformation-based two-dimensional convolution, on GPU. Finally, using the same market price CPU and GPU as hardware platform, and using multi-resolution images as test datasets, we compare the computational efficiency of GPU with CPU. The results show the speed of the two algorithms imp

5、lemented on GPU can be improved by up to 17 times and 40 times compared to CPU-based implementations. Keywords: GPU；histogram；FFT；2D convolution；CUDA1 引言引言随着科学技术的迅猛发展，图像处理技术已经成为了近代信息处理领域一项非常重要的技术，并已在遥感、医学、生物特征鉴别、运动分析等领域得到了广泛应用。由于大多数图像处理问题是计算密集型的，所以许多串行处理方法在应用中遇到了难以实时计算的困难。随着并行计算机及并行处理技术的发展，并行图

6、像处理技术应运而生，但这些技术往往要么运行于大型集群上，要么还在被作为测试并行机性能的辅助技术使用，其推广完全受制于硬件环境的推广。本文利用已被广泛接受并使用的 GPU（graphics processing unit, 图形处理器）作为硬件载体，在其上并行地实现了两个图像处理的常用算法直方图生成和快速傅里叶变换计算二维卷积，并对其执行性能数据与 CPU 上的相同算法执行性能数据进行了比对。实验结果显示，同样的图像处理算法， GPU 组合对比于同样市场价格的 CPU，其计算效率是后者的 17-40 倍。可得出结论，将原有 CPU 执行的算法移植至 GPU 执行能够获得很高的效率

7、提升，而且是经济、可行的。2 GPU介绍介绍过去的二十年间，中央处理器遵循摩尔定律发展，在不断提升性能的同时降低价格，为高性能计算提供了有效的支持。然而，自 2003 年以来，这种趋势发生了变化，不断提高的 CPU 频率带来了高功耗和高发热量，使得 CPU 频率止步于 4 GHz，并向提高频率以外的方向发展。从那时起，以游戏加速和图形处理为初衷设计的 GPU 以超出摩尔定律的速度发展，并开始在高性能计算领域被大量使用。图 1 为近年来 CPU 和 GPU 的浮点运算速度对比图1。图1 GPU和CPU的FLOPS理论峰值Fig.1 Theoretical peak FLOPS

8、on GPUs and CPUs带来这种数据处理能力差别的主要原因在于 GPU 是典型的关注于计算而不太在乎如何访问存储器的流处理机，流式编程模型的约束使得 GPU 以并行的方式运行高运算强度（arithmetic intensity，即算法运算时间开销和存储器操作时间开销的比率）的应用，因此可以同时处理很多数据元素。一般来讲，能够在 GPU 上高效执行的算法都是可将问题分割为高度独立单元且每个单元都具有高运算强度的算法。高度重复且仅局部相关的图像处理属于这一类算法，例如，滤波运算对所有像素执行同样的运算，而且是处理顺序无关的，这样的运算可以通过对每个像素执行相同的指令在

9、GPU 上并行实现。 2.1 体系结构体系结构 GPU 的流式数据并行模型保证在多数据流上执行相同指令，以 nVidia G80 核心为代表的 GPU 包含 1-16 个多处理器（multiprocessors），每个多处理器包含 8 个流处理器（stream processors）和 2 个专用于执行如平方根倒数等标量运算的特殊功能单元（special functional units）。其中一个多处理器内部的所有流处理器以 SIMD（单指令多数据）的结构执行同样指令，而不同的多处理器可以以 MIMD（多指令多数据）结构执行不同的指令。从线程角度讲，每个多处理器可并行运行 76

10、8 个活动线程，即包含 16 个多处理器的 GPU 可并行运行 12288 个活动线程。从存储器角度讲，每个多处理器有 16 KB 可读写共享内存（shared memory）、 8 KB 只读常量内存（constant memory）、8 KB 只读纹理内存（texture memory）和 8192 个寄存器（Registers）。图 2 表示了这种架构。在图像处理的 GPU 加速算法设计中，如何针对这种架构分割像素或图像块以映射到并行线程进行处理，再经由多级存储器将被处理的像素或图像块重新组合成结果图像是高效算法设计的关键。GPU 设设备备多多处处理理器器 N多多

11、处处理理器器 2多多处处理理器器 1.共共享享内内存存寄寄存存器器寄寄存存器器寄寄存存器器常常量量内内存存纹纹理理内内存存指指令令单单元元特特殊殊功功能能单单元元 1特特殊殊功功能能单单元元 2流流处处理理器器 8流流处处理理器器 2流流处处理理器器 1.设设备备内内存存图2 nVidia G80 GPU架构简图(N = 1, 2, 4, 8, 12, 14, 16)Fig.2 Simplified view of the nVidia G80 GPU architecture开始在 GPU 上计算之前，需要加载输入数据到 GPU 的设备内存（显存）中，计算过后，如果

12、 CPU 需要计算结果，就要从 GPU 把结果数据读回 CPU，数据流图见图 3。与此相对，在 CPU 上执行程序不需要这些额外的操作。所以评估 GPU 性能时，必须考虑数据加载和读回造成的性能损耗2。2.2 编程接口编程接口一直以来，编写 GPU 程序主要是通过图形 API（OpenGL 或 DirectX）来完成，但由于图形编程的学习曲线相对较长，运用 GPU 进行高性能运算由于软件层面的限制难以大面积普及3。2007 年，由 nVidia 推出的 CUDA（Compute Unified Device Architecture，统一计算设备架构）编程接口弥补了这一不足。利用

13、CUDA 编程接口，可以用 C 语言直接调用 GPU 资源，而无需将其映射到图形 API，为 GPU 的非图形编程普及消除了障碍。并行执行加载数据到 GPU读回数据到 CPU输入数据结果数据CPUGPU图3 GPU程序的数据流Fig.3 GPU application data flow3 实验设计实验设计采用价格完全相等的两套硬件平台进行实验， CPU 实验平台选用 1500 元人民币（2008 年 3 月价格，下同）的 Intel Core2 Duo E6750 CPU 和 Intel GMA3100 集成显卡（计 0 价格）；GPU 实验平台选

14、用 400 元人民币的 Intel Pentium Dual-Core E2140 CPU 和 1100 元人民币的 nVidia GeForce 8800GT GPU（14 个多处理器/256 MB 显存）。内存配置均为 2GB 800MHz DDR2 内存。测试数据选用 44 像素到 81928192 像素（以 22倍数依次递增）的真实图像各 3 张，共 36 张。实验结果取 3 张图像运算时间的平均值。由于篇幅所限，本文不给出算法运算结果或图像处理前后对比图。4 算法实现和实验结果分析算法实现和实验结果分析基于以往经验，选用 256-bin 直方图生成和快速傅里叶变换计算二

15、维卷积两个常用图像处理算法进行图像处理的 GPU 加速实验。对 GPU 程序，使用 CUDA 编程接口实现与 CPU 端完全相同的算法，并统一采用 32-bit 浮点数运算，以保证结果的公平性。 4.1 256-bin 直方图直方图直方图描述图像中像素强度的分布，是多种图像处理技术的基础。本算法生成 256-bin 直方图，根据经验，此级别的直方图对一般应用是足够的。其 CPU 实现相对简单，不再赘述。在 GPU 上，算法需改为并行处理：(1)将图像拆分成子序列分给执行线程；(2)每线程执行子序列并将执行结果存储为子直方图；(3)将多个子直方图合并成最终结果。其中步骤(

16、2)中子直方图数量的设置是算法的关键，多个线程将计算结果写入同一个子直方图可以减少子直方图数量以减低存储空间需求，但也会带来费时的共享内存冲突问题。直观的解决方案是每线程对应单独的子直方图，但目前 GPU 可分配给单线程的共享内存为 85 bytes，最多可以存储 1 byte/bin 的 64-bin 子直方图，不足以存储 4 bytes/bin 的 256-bin 的子直方图，所以本文使用每 warp（GPU 上 32 个线程组成的 SIMD 集合）对应一个子直方图的方案，并用线程标记的方法协助控制共享内存冲突，其中每线程标记占用 5 bits（每 warp 32 个线程， 32 = 25）。从实验结果来看，控制共享内存冲突给整体性能带来的额外开销很小。CPU/GPU 生成 256 灰度级直方图的实验数据对比见表 1（由于篇幅所限，只在表中列出 6 个尺寸级别的实验数据，下同）。表 1 CPU/GPU 算法生成

展开阅读全文