矩阵乘法的OpenMP实现与性能分析报告

资源描述

《矩阵乘法的OpenMP实现与性能分析报告》由会员分享，可在线阅读，更多相关《矩阵乘法的OpenMP实现与性能分析报告（13页珍藏版）》请在金锄头文库上搜索。

1、下载可编辑一.实验目的1) 用OpenMP实现最基本的数值算法“矩阵乘法”2) 掌握for编译制导语句3) 对并行程序进行简单的性能二.实验环境1) 硬件环境：32核CPU、32G内存计算机；2) 软件环境：Linux、Win2003、GCC、MPICH、VS2008；4) Windows登录方式：通过远程桌面连接192.168.150.197，用户名和初始密码都是自己的学号。三.实验内容1. 用OpenMP编写两个n阶的方阵a和b的相乘程序，结果存放在方阵c中，其中乘法用for编译制导语句实现并行化操作，并调节for编译制导中schedule的参数，使得执行时间最短，写出代码。方阵a和b的初

2、始值如下：输入：方阵的阶n、并行域的线程数输出：c中所有元素之和、程序的执行时间提示：a,b,c的元素定义为int型，c中所有元素之各定义为long long型。Windows计时:用中的clock_t clock( void )函数得到当前程序执行的时间Linux计时:#include timeval start,end;gettimeofday(&start,NULL);gettimeofday(&end,NULL);coutexecution time: (end.tv_sec-start.tv_sec)+(double)(end.tv_usec-start.tv_usec)/ 100

3、0000seconds endl;答：在windows下使用Microsofe Visual Studio编程，源代码如下：#include #include #include #define NN 2000int aNNNN, bNNNN;long long cNNNN;void solve(int n, int num_thread)int i, j, t, k, time;clock_t startTime, endTime;long long sum;omp_set_num_threads(num_thread);for(i=0;in;i+)/对矩阵a和矩阵b进行初始化t=i+1;fo

4、r(j=0;jn;j+)aij=t+;bij=1;startTime=clock();sum=0;#pragma omp parallel shared(a,b,c) private(i,j,k)#pragma omp for schedule(dynamic)for(i=0;in;i+)for(j=0;jn;j+)cij=0;for(k=0;kn;k+)cij+=aik*bkj;for(i=0;in;i+)for(j=0;jn;j+) sum+=cij;endTime=clock();time=endTime-startTime;printf(sum=%lld time=%dmsn,sum,

5、time);int main()int n, num_thread;while(scanf(%d%d,&n,&num_thread)!=EOF)solve(n,num_thread);return 0;2. 分析矩阵相乘程序的执行时间、加速比和效率：方阵阶固定为1000，节点数分别取1、2、4、8、16和32时，为减少误差，每项实验进行5次，取平均值作为实验结果。答：串行执行时程序的执行时间为：T = 15.062s加速比=顺序执行时间/并行执行时间效率=加速比/节点数表1 不同节点数下程序的执行时间（秒）节点数实验结果12481632第1次16.6408.1724.0782.1251.0

6、930.594第2次16.4228.1564.1722.1411.0780.578第3次16.4068.2664.0782.1251.0940.563第4次16.7818.1724.0792.1091.0940.563第5次16.4228.1714.0782.1251.0930.578平均值16.53428.18744.09702.12501.09040.5752图1 不同节点数下程序的执行时间图2 不同节点数下程序的加速比图3 不同节点数下程序的效率执行时间的分析：随着节点数的增加，程序的执行时间减少，大概可以从结果中得出，随着节点书的增加一倍，执行时间减少一半加速比的分析：随着节点数的增加

7、，程序的加速比增加，大概可以从结果中得出，随着节点书的增加一倍，加速相应的增加接近一倍效率的分析：随着节点数的增加，程序的效率逐渐减少3. 分析矩阵相乘程序的问题规模与效率的关系：固定节点数为4，让方阵阶从200到1600之间变化，每隔100取一个值。（为了减少时间，每项实验可只执行1次）答：表2 相同节点数下不同问题规模程序的执行时间与效率方阵阶数并行执行时间串行执行时间效率2000.0150.0470.7833333000.0160.1091.7031254000.0630.2971.1785715000.1560.6571.0528856000.4061.641.0098527000.9

8、073.5780.9862188001.6096.360.9881919002.57810.1090.98031410003.81214.8910.97658711005.3921.0320.9755112007.34428.7340.97814513009.68837.9370.978969140012.42248.640.978908150015.65660.9380.973077160019.23474.8290.972614图3.1 不同问题规模下程序的效率问题规模与效率的关系分析：随着问题规模的增加，程序的效率趋于稳定，但是略微有点下降。嵌套循环中,如果外层循环迭代次数较少时,如果将

9、来CPU核数增加到一定程度时,创建的线程数将可能小于CPU核数。另外如果内层循环存在负载平衡的情况下，很难调度外层循环使之达到负载平衡。下面以矩阵乘法作为例子来讲述如何将嵌套循环并行化，以满足上述扩展性和负载平衡需求。一个串行的矩阵乘法的函数代码如下：/*矩阵串行乘法函数param int*a -指向要相乘的第个矩阵的指针param int row_a -矩阵a的行数param int col_a -矩阵a的列数param int *b 指向要想成的第个矩阵的指针param int row_b -矩阵b的行数param int col_b -矩阵b的列数param int *c -计算结果的矩

10、阵的指针param int c_size -矩阵c的空间大小（总元素个数）return void 无*/void Martrix_Multiply(int *a, int row_a,int col_a,int*b,int row_b,int col_b, int*c,int c_size) If(col_a!=row_b|c_sizerow_a*col_b) return;int i,j,k;/#pragma omp for private(i,j,k) for(i = 0;irow_a;i+) int row_i=i*col_a; int row_c=i*col_b; for(j=0;jc

11、ol_b;j+) crow_c+j=0; for(k=0;krow_b;k+) crow_c+j+=arow_i+k*bk*col_b+j; 如果在外层循环前面加上OpenMP的for语句时，它就变成了一个并行的矩阵乘法函数，但是这样简单地将其并行化显然无法满足前面所述的扩展性需求。其实可以采用一个简单地方法将最外层循环和第2层循环合并成一个循环，下面便是采用合并循环后的并行实现。void Parallel_Matrix_Multiply(int *a,int row_a,int col_a,int *b,int row_b,int col_b,int *c,int c_size) If(co

12、l_a!=row_b) return;int i,j,k;int index;int border=row_a*col_b;i=0;j=0;/#pragma omp parallel private(i,j,k) num_threads(dtn(border,1) for(index = 0;indexborder;index+) i=index/col_b; j=index%col_b; int row_i=i*col_a; int row_c=i*col_b; crow_c+j=0; for(k=0;krow_b;k+) crow_c+j+=arow_i+k*bk*col_b+j; 从上面代码可以看出，合并后的循环便捷border=row_a*col_b；即等于原来的两个循环边界之积，然后再循环中计算出原来的外层循环和第2层循环的迭代变量i和j，采用除法和取余来求出i和j的值。需要值得注意的是，上面求i和j的值必须要保证循环迭代的独立性，即不能有循环迭代间的依赖关系。不能讲求i和j的值得过程优化成如下的形式if(j=col_b) j=0; i+;/.此处代表实际的矩阵乘法代码j+；上面这种优化，省去了除法，效率高，但是只能在串行代码中使用，因为它存在循环迭代间的依赖关系，无法将其正

展开阅读全文