南开大学21秋《并行程序设计》在线作业一答案参考69

资源描述

《南开大学21秋《并行程序设计》在线作业一答案参考69》由会员分享，可在线阅读，更多相关《南开大学21秋《并行程序设计》在线作业一答案参考69（15页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋并行程序设计在线作业一答案参考1. 两个矩阵相乘，若矩阵规模大于cache大小，则优化访存的可行方法是( )。A.先将两个矩阵读入cache再进行乘法B.先转置第一个矩阵再进行乘法C.先转置第二个矩阵再进行乘法D.以上皆错参考答案：C2. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是( )。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案：B3. 当条件判断_时，控制流语句SIMD并行化可能达到较好效果。A.绝大部分结果为真B.绝大部分结果为假C.全部结果都一样D.绝大部分结果都

2、一样参考答案：D4. 采用划分子矩阵(大小b*b)的方法实现n*n矩阵乘法，一次乘加运算涉及的子矩阵可全部放入cache，则整个计算过程中，两个输入矩阵的每个元素会产生次访存。A.nB.tC.n-tD.n/t参考答案：D5. 任务依赖图中权重之和最长的路径称为( )。A.最大任务B.关键路径C.平均并发度D.最短路径参考答案：B6. 超级计算机制造越来越关注的一个新的指标是_。超级计算机制造越来越关注的一个新的指标是_。A.计算能力B.存储能力C.占地面积D.功耗参考答案：D7. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，还需进行SIMD寄存器中几个元素的( )

3、操作才能得到结果矩阵的一个元素。A.排列B.交换C.广播D.归约参考答案：D8. OpenMP的缺点不包括_。A.常见并行结构的表达并不总可行B.局部性处理不易C.不易编写多核单核通用程序D.性能控制不易参考答案：C9. 编写矩阵乘法的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行( )路循环展开。A.2B.4C.8D.16参考答案：B10. 实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。A.omp parallelB.omp barrierC.omp criticalD.omp red

4、uce参考答案：C11. 每个AVX寄存器宽度为_位。每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案：D12. pthread_rwlock_wrlock是对读写锁进行_操作。pthread_rwlock_wrlock是对读写锁进行_操作。A.加锁B.解锁C.加读琐D.加写锁参考答案：D13. 多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )。A.读取x存在数据依赖，不能并发进行B.累加顺序被改变，结果是错误的C.加法操作是简单运算，无需同步D.加法操作不是原子操作，需要同步保证数据依赖

5、参考答案：D14. OpenMP中指定多线程中只有主线程执行代码块的指令是_。A.omp singleB.omp masterC.omp slaveD.omp parallel参考答案：B15. CUDA线程层次中不包括( )。A.KernelB.GridC.BlockD.Thread参考答案：A16. Pthread支持_。A.线程间同步B.发现数据依赖C.自动线程化D.自动任务分配参考答案：A17. 采用划分子矩阵技术优化矩阵乘法CUDA程序，主要思想是访存更多在_。采用划分子矩阵技术优化矩阵乘法CUDA程序，主要思想是访存更多在_。A.CPU内存B.GPU显存C.GPU共享内存D.GPU

6、寄存器参考答案：C18. n个数求和的问题，使用n个处理器的并行算法达到了logn的运行时间，则算法( )。A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案：A19. 对于科学仿真并行计算的一般方法，哪个步骤的描述是错误的?对于科学仿真并行计算的一般方法，哪个步骤的描述是错误的?A.将空间离散化为网格B.在网络上进行局部计算C.局部计算结果完全独立D.重复若干时间步参考答案：C20. 对于多线程各自进行本地运算，然后由主线程汇总结果的模式，下面说法正确的是( )。A.在同构核心上，线程运行速度一样，主线程无需等待，直接汇总结果即可B.线程运行速度可能不一致，必须

7、采用同步保证主线程汇总正确结果C.太多本地运算，不能体现并行效果，不是好的模式D.主线程汇总结果在性能上必然不如多线程并行汇总结果参考答案：B21. 记并行时间为T，串行时间为T&39;，处理器数量为p，则额外开销应如何计算?( )A.T-TB.T-TC.pTD.pT-T参考答案：D22. 采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。A._global_B._device_C._shared_D._private_参考答案：C23. 记并行时间为T，串行时间为T&39;，处理器数量为p，效率

8、为E，则代价最优的定义是( )。A.pT=TB.E=(1)C.E=pT/TD.E=T/pT参考答案：B24. 为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。A.“#include”B.“#pragma omp parallel”C.“#ifdef _OPENMP”D.“#define _OPENMP”参考答案：C25. 对一个串行程序进行SIMD并行化，应重点考虑的程序部分是_。对一个串行程序进行SIMD并行化，应重点考虑的程序部分是_。A.声明语句B.条件分支语句C.循环语句

9、D.输入输出语句参考答案：C26. 在使用条件变量时，还需配套使用一个( )。A.互斥量B.信号量C.障碍D.自旋锁参考答案：A27. 对于效率E，下面描述错误的是( )。A.理想并行E=1B.总是在01之间C.可能1D.可能随着处理器数量增大趋向于0参考答案：B28. 每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案：D29. OpenMP是_的一个常见替代。OpenMP是_的一个常见替代。A.SSEB.MPIC.PthreadD.CUDA参考答案：C30. 我国最近一次夺得全球超级计算机计算能力冠军的是_。我国最近一次夺得全球超级计算机计算能力冠军的是_。A.天河1

10、号B.天河1AC.天河2号D.神威太湖之光参考答案：D31. 在SSE intrinsics程序中双精度浮点数数据类型是_。在SSE intrinsics程序中双精度浮点数数据类型是_。A._m128B._m128fC._m128dD._m128i参考答案：C32. SSE的blend指令的8位二进制整数参数被用做8个掩码imm807，若imm8j=0则表示( )。A.将第一个源寄存器的第j个元素放在目标寄存器位置0B.将第二个源寄存器的第j个元素放在目标寄存器位置0C.将第一个源寄存器的第j个元素放在目标寄存器位置jD.将第二个源寄存器的第j个元素放在目标寄存器位置j参考答案：C33. 在下

11、面问题中，SIMD并行最不适合( )。A.向量加法B.向量中元素排序C.矩阵向量乘法D.矩阵加法参考答案：B34. 任务依赖图中顶点权重之和表示_。任务依赖图中顶点权重之和表示_。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案：C35. 对于向线程函数传递参数，下列说法错误的是_。A.线程函数并非用户程序调用，因此无法直接传递B.线程函数必须接受void *参数，因此只能传递大小不超过指针的数据对象C.线程通常通过此途径获取线程号D.不同线程间的参数传递相互无关，即使它们具有相同的线程函数参考答案：B36. 当前CPU性能提升已从依赖时钟频率提升转为更多依赖_。当前CPU性能提

12、升已从依赖时钟频率提升转为更多依赖_。A.多核和众核技术B.突破物理局限C.改善散热D.采用新材料参考答案：A37. float a64; for(i=0; iA.1B.2C.3D.4参考答案：B38. 对这样的循环for(i=0;iA.循环划分B.循环消除C.循环展开D.以上皆错参考答案：C39. CPU cache大小为32KB，64*64的两个矩阵进行加法计算，下面说法正确的是_。CPU cache大小为32KB，64*64的两个矩阵进行加法计算，下面说法正确的是_。A.可利用cache时间局部性优化性能B.可利用cache空间局部性优化性能C.可通过矩阵分片优化性能D.访存方面无优化可

13、能参考答案：B40. 在使用互斥量之前必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案：A41. 超立方中相邻节点二进制编号_。A.至少差1位B.至多差1位C.恰好差1位D.差异不固定参考答案：C42. MPI原址收发各一条消息的API是_。A.MPI_SendrecvB.MPI_SendC.MPI_RecvD.MPI_Sendrecv_Replace参考答案：D43. 在使用条件变量之前必须对其进行_。在使用条件变量之前必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：A44. SSE指令移动单精度浮点数，不能实现_。SSE指令移动单精度浮点数，不能实现_。A.将64位数据移动到SSE寄存器高位B.将64位数据移动到SSE寄存器低位C.将32位数据移动到SSE寄存器指定位置D.在两个SSE寄存器高/低64位间移动参考答案：C45. 下面哪种架构最适合数据并行?( )

展开阅读全文