南开大学21秋《并行程序设计》复习考核试题库答案参考套卷41

上传人:大米 文档编号:469556767 上传时间:2023-08-27 格式:DOCX 页数:12 大小:13.43KB
返回 下载 相关 举报
南开大学21秋《并行程序设计》复习考核试题库答案参考套卷41_第1页
第1页 / 共12页
南开大学21秋《并行程序设计》复习考核试题库答案参考套卷41_第2页
第2页 / 共12页
南开大学21秋《并行程序设计》复习考核试题库答案参考套卷41_第3页
第3页 / 共12页
南开大学21秋《并行程序设计》复习考核试题库答案参考套卷41_第4页
第4页 / 共12页
南开大学21秋《并行程序设计》复习考核试题库答案参考套卷41_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《南开大学21秋《并行程序设计》复习考核试题库答案参考套卷41》由会员分享,可在线阅读,更多相关《南开大学21秋《并行程序设计》复习考核试题库答案参考套卷41(12页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋并行程序设计复习考核试题库答案参考1. MPI基本原语不包括_。A.MPI_BarrierB.MPI_Comm_rankC.MPI_Comm_sizeD.MPI_Init参考答案:A2. OpenMP并行模型是一种_模式。OpenMP并行模型是一种_模式。A.SISDB.SIMDC.MISDD.SPMD参考答案:D3. 1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?( )1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1

2、.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?( )A.1B.2C.不确定D.以上皆错参考答案:B4. 下面矩阵运算中,哪个进行简单的数据并行效果不佳_。A.矩阵求和B.矩阵相乘C.矩阵向量相乘D.高斯消去参考答案:D5. 若SIMD并行化时遇到对齐问题,下列说法正确的是( )。A.只能使用不对齐访存指令B.不能进行SIMD并行化C.对齐开销可能完全抵消SIMD并行收益D.以上皆错参考答案:C6. MMX有( )个专用寄存器。A.4B.8C.16D.32参考答案:B7. SIMD并行模式是将多个_运算打包并发执行。A.不同B.相同C.混合D.依赖参考答案:B8. Flynn分类

3、法中,下面哪种体系结构在实际中几乎没有意义?( )A.SISDB.SIMDC.MISDD.MIMD参考答案:C9. 编译器编译OpenMP并行循环时,会自动生成一些代码,其中不包括( )。A.创建和管理线程代码B.循环划分给线程的代码C.找出数据依赖的代码D.线程同步的代码参考答案:C10. MPI默认点对点通信模式是( )。A.阻塞的B.非阻塞的C.对等的D.主从的参考答案:A11. 主线程要求从线程退出应采用_。主线程要求从线程退出应采用_。A.pthread_createB.pthread_exitC.pthread_quitD.pthread_cancel参考答案:D12. 为缓解存储

4、和CPU之间的性能差距,常见的技术手段不包括_。A.利用cache降低访存延迟B.利用多线程隐藏访存延迟C.利用预取隐藏访存延迟D.采用大容量内存提高访问速度参考答案:D13. OpenMP编译指示是以( )开头的。A.“#include”B.“#ifdef”C.“#pragam”D.“#else”参考答案:C14. 每个MMX寄存器宽度为_位。每个MMX寄存器宽度为_位。A.32B.64C.128D.256参考答案:B15. n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法_。n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法_。A.肯定不是

5、代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案:A16. 在128位的SIMD寄存器中,我们不能保存( )。A.16个8位整数B.8个16位短整型C.4个32位整型D.16个字符的字符串参考答案:D17. 求解同一个问题的4个并行算法的等效率函数分析结果如下,其中( )的可扩展性最优。A.(plogp)B.(p2)C.(p2logp)D.(p3)参考答案:A18. OpenMP循环并行指令是_。OpenMP循环并行指令是_。A.omp parallelB.omp singleC.omp parallel forD.omp master参考答案:C19. SSE寄存器A中元

6、素为A1 A2 A3 A4(均为由低到高),则执行C=shuffle(A, A, 0x1B)后,C中元素为( )SSE寄存器A中元素为A1 A2 A3 A4(均为由低到高),则执行C=shuffle(A, A, 0x1B)后,C中元素为( )A.A1 A2 A3 A4B.A2 A1 A4 A3C.A3 A4 A1 A2D.A4 A3 A2 A1参考答案:D20. CUDA共享内存是由_共享。A.Grid中所有线程B.一个Block中所有线程C.一个Warp中所有线程D.GPU中所有线程参考答案:B21. 一个SSE寄存器可容纳( )个双精度浮点数。A.2B.4C.8D.16参考答案:A22.

7、对这样的循环for(i=0;iA.循环划分B.循环消除C.循环展开D.以上皆错参考答案:C23. OpenMP不能实现的是( )。A.负责创建和管理线程B.隐藏栈管理C.提供同步机制D.自动并行化参考答案:D24. n个数求和的串行程序,通过一个循环将每个数累加到全局变量sum中,其多线程版本简单将循环范围改变为每个线程负载的范围,存在的问题是_。n个数求和的串行程序,通过一个循环将每个数累加到全局变量sum中,其多线程版本简单将循环范围改变为每个线程负载的范围,存在的问题是_。A.负载不均B.通信开销大C.CPU空闲等待严重D.sum累加产生竞争条件,导致结果错误参考答案:D25. Open

8、MP循环并行指令是( )。A.omp parallelB.omp singleC.omp parallel forD.omp master参考答案:C26. 使用( )无法直接实现“主线程唤醒4个从线程去执行任务”。A.1个信号量B.障碍C.1个互斥量D.4个互斥量参考答案:C27. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几个元素的_操作才能得到结果矩阵的一个元素。对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几个元素的_操作才能得到结果矩阵的一个元素。A.排列B.交换C.广播D.归

9、约参考答案:D28. 为利用cache空间局部性,需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点参考答案:D29. 将寄存器设置为4个给定单精度浮点数的SSE intrinsics指令是_。A._mm_set_psB._mm_set1_ssC._mm_setzero_ssD._mm_setzero_ps参考答案:A30. MPI的通信是( )。A.无类型传输B.弱类型传输C.强类型传输D.以上皆错参考答案:C31. 大型医院每天的X光片、CT等医学图像的分析需要_。大型医院每天的X光片、CT等医学图像的分析需要_。A

10、.串行计算即可B.高吞吐率计算C.高性能计算D.以上皆错参考答案:B32. 采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加_前缀。采用划分子矩阵技术优化矩阵乘法CUDA程序,子矩阵数组变量声明应加_前缀。A._global_B._device_C._shared_D._private_参考答案:C33. 当条件判断_时,控制流语句SIMD并行化可能达到较好效果。A.绝大部分结果为真B.绝大部分结果为假C.全部结果都一样D.绝大部分结果都一样参考答案:D34. 新一代GPU重点提供的新特性不包括( )。A.新型高速显存B.GPU间直接高速互联C.自动并行化D.人工智能计算专门

11、优化参考答案:C35. 当问题规模不变时,随着处理器数量增大,加速比_。A.必然增大B.必然减小C.必然不变D.以上皆错参考答案:D36. 任务依赖图中权重之和最长的路径称为( )。A.最大任务B.关键路径C.平均并发度D.最短路径参考答案:B37. 采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在_。采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在_。A.CPU内存B.GPU显存C.GPU共享内存D.GPU寄存器参考答案:C38. GPU相对于其他众核产品的优势不包括( )。A.平台普及B.有CUDA这样易学的开发工具C.性价比高D.由英伟达公司一家把控参考答

12、案:D39. OpenMP的缺点不包括_。A.常见并行结构的表达并不总可行B.局部性处理不易C.不易编写多核单核通用程序D.性能控制不易参考答案:C40. 单精度浮点数矩阵乘法进行AVX并行,期望的加速比为_.单精度浮点数矩阵乘法进行AVX并行,期望的加速比为_.A.等于8B.小于8C.4到8之间D.等于4参考答案:B41. SSE intrinsics_mm_store_ps命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存单精度浮点数D.未对齐标量存单精度浮点数参考答案:A42. 两个矩阵相乘,若矩阵规模大于cache大小,则优化访存的可行方法是( )

13、。A.先将两个矩阵读入cache再进行乘法B.先转置第一个矩阵再进行乘法C.先转置第二个矩阵再进行乘法D.以上皆错参考答案:C43. for (i=0;iA.可完全向量化B.不可向量化C.不确定D.可部分向量化参考答案:D44. OpenMP归约指令采用的是一种_算法。A.分治B.贪心C.动态规划D.排序参考答案:A45. 每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案:D46. 采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的缺点是_。A.更不利于负载均衡B.增大了通信开销C.提高了计算次数D.增加了从进程空闲参考答案:A47. 对单精度浮点计算,SSE最高实现_路并行。对单精度浮点计算,SSE最高实现_路并行。A.2B.4C.8D.1

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号