南开大学22春《并行程序设计》综合作业二答案参考22

上传人:M****1 文档编号:507885612 上传时间:2023-07-13 格式:DOCX 页数:15 大小:15.11KB
返回 下载 相关 举报
南开大学22春《并行程序设计》综合作业二答案参考22_第1页
第1页 / 共15页
南开大学22春《并行程序设计》综合作业二答案参考22_第2页
第2页 / 共15页
南开大学22春《并行程序设计》综合作业二答案参考22_第3页
第3页 / 共15页
南开大学22春《并行程序设计》综合作业二答案参考22_第4页
第4页 / 共15页
南开大学22春《并行程序设计》综合作业二答案参考22_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《南开大学22春《并行程序设计》综合作业二答案参考22》由会员分享,可在线阅读,更多相关《南开大学22春《并行程序设计》综合作业二答案参考22(15页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春并行程序设计综合作业二答案参考1. 在使用互斥量之前必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案:A2. 四位助教帮助教授批改300份试卷,试卷共16道题,每位助教负责批改所有试卷的4道题,这是一种_任务划分方法。四位助教帮助教授批改300份试卷,试卷共16道题,每位助教负责批改所有试卷的4道题,这是一种_任务划分方法。A.数据并行B.任务并行C.搜索并行D.预测并行参考答案:B3. MPI默认点对点通信模式是( )。A.阻塞的B.非阻塞的C.对等的D.主从的参考答案:A4. 对奇偶转置排序进行OpenMP并行化,第一种策略是直接对内层循环使用omp paral

2、lel for指令,第二种策略是对外层循环使用omp parallel指令,对内层循环使用omp for指令,后者相对于前者的优点是_。A.保持了数据依赖B.消除了大量线程创建、销毁开销C.有利于负载均衡D.减少了线程间交互参考答案:B5. 一个SSE寄存器可容纳_个短整型数。一个SSE寄存器可容纳_个短整型数。A.2B.4C.8D.16参考答案:C6. 单程序多数据流模式是针对_架构的。A.SISDB.SIMDC.MISDD.MIMD参考答案:D7. 一个AVX寄存器最多存放_个双精度浮点数。一个AVX寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案:B8. 在下列应用中,

3、SIMD最不适合_。A.图像处理B.音频处理C.科学计算D.数据库查询参考答案:D9. 为了实现向量计算,SIMD架构还需提供_。为了实现向量计算,SIMD架构还需提供_。A.更大的内存容量B.更快的内存传输C.更宽的寄存器D.更快的网络传输参考答案:C10. 1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?( )1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?( )A.1

4、B.2C.不确定D.以上皆错参考答案:B11. pthread_join的作用是( )。A.强制终止指定线程B.检测指定线程是否结束C.等待指定线程结束才返回D.向指定线程发送数据参考答案:C12. 以下哪条不是推动并行计算发展的因素?( )以下哪条不是推动并行计算发展的因素?( )A.存储是系统瓶颈B.单CPU发展已能满足应用需求C.利用标准硬件构造并行机令升级容易D.编程环境标准化逐步发展参考答案:B13. 在SSE intrinsics程序中双精度浮点数数据类型是_。在SSE intrinsics程序中双精度浮点数数据类型是_。A._m128B._m128fC._m128dD._m128

5、i参考答案:C14. SIMD并行化时遇到对齐问题,高效的处理方法是( )。A.直接使用SIMD不对齐访存指令B.将数据拷贝到对齐的内存地址C.重写算法保证对齐访问D.串行处理到对齐边界,然后进行SIMD对齐访存参考答案:D15. 对于效率E,下面描述错误的是( )。A.理想并行E=1B.总是在01之间C.可能1D.可能随着处理器数量增大趋向于0参考答案:B16. CUDA线程层次中不包括( )。A.KernelB.GridC.BlockD.Thread参考答案:A17. 全球500强超算在CPU、网络等硬件上越来越体现出采用( )的趋势。A.特殊硬件B.通用硬件C.非公开硬件D.廉价硬件参考

6、答案:B18. OpenMP的缺点不包括_。A.常见并行结构的表达并不总可行B.局部性处理不易C.不易编写多核单核通用程序D.性能控制不易参考答案:C19. 下面矩阵运算中,哪个进行简单的数据并行效果不佳_。A.矩阵求和B.矩阵相乘C.矩阵向量相乘D.高斯消去参考答案:D20. 循环需满足特定条件才能进行OpenMP并行化,下列哪个条件是错误的?( )A.循环变量应为带符号整数B.终止检测必须是与循环不变量的比较C.循环变量每步递增/递减一个循环不变量D.循环体无进/出控制流参考答案:B21. 每个AVX寄存器宽度为_位。每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案

7、:D22. 使用_无法直接实现“主线程等待4个从线程完成任务”。A.1个信号量B.障碍C.1个互斥量D.4个互斥量参考答案:C23. 当问题规模不变时,随着处理器数量增大,加速比_。A.必然增大B.必然减小C.必然不变D.以上皆错参考答案:D24. 伸缩性的含义不包括( )。A.硬件能升级扩展B.扩大系统规模构造成本增长不快C.程序在新硬件下仍能高效运行D.程序在更大规模系统下仍能高效运行参考答案:A25. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,就计算出了结果矩阵的一个元素,这种说法是_。对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕

8、后,就计算出了结果矩阵的一个元素,这种说法是_。A.正确的B.错误的参考答案:B26. SSE intrinsics_mm_store_ps命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存单精度浮点数D.未对齐标量存单精度浮点数参考答案:A27. MPI基本原语不包括_。A.MPI_BarrierB.MPI_Comm_rankC.MPI_Comm_sizeD.MPI_Init参考答案:A28. 超级计算机制造越来越关注的一个新的指标是_。超级计算机制造越来越关注的一个新的指标是_。A.计算能力B.存储能力C.占地面积D.功耗参考答案:D29. 加速比计算

9、中串行时间应该取求解同一问题的哪个串行算法的时间_。A.任意一个串行算法B.作为并行算法基础的那个串行算法C.已知最优的串行算法D.所有串行算法的平均时间参考答案:C30. 采用划分子矩阵(大小b*b)的方法实现n*n矩阵乘法,一次乘加运算涉及的子矩阵可全部放入cache,则整个计算过程中,两个输入矩阵的每个元素会产生次访存。A.nB.tC.n-tD.n/t参考答案:D31. 并行计算还主要用于国防、工程研究等领域,这种说法是_。A.正确的B.错误的参考答案:B32. 对于科学仿真并行计算的一般方法,哪个步骤的描述是错误的?对于科学仿真并行计算的一般方法,哪个步骤的描述是错误的?A.将空间离散

10、化为网格B.在网络上进行局部计算C.局部计算结果完全独立D.重复若干时间步参考答案:C33. OpenMP归约指令采用的是一种_算法。A.分治B.贪心C.动态规划D.排序参考答案:A34. OpenMP编译指示的作用范围是( )。A.其后一个语句B.其后连续语句C.其后直到函数结束D.整个函数参考答案:A35. 1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两

11、个程序片段哪个进行向量化效率更高?A.1)B.2)C.不确定D.以上皆错参考答案:B36. for(i=0; ifor(i=0; iA.存在B.不存在C.不确定D.以上皆错参考答案:A37. MPI不包括的通信类别是_。MPI不包括的通信类别是_。A.点对点通信B.数据传输组通信C.计算和数据传输组通信D.加锁解锁通信参考答案:D38. CPU cache大小为32KB,64*64的两个矩阵进行加法计算,下面说法正确的是_。CPU cache大小为32KB,64*64的两个矩阵进行加法计算,下面说法正确的是_。A.可利用cache时间局部性优化性能B.可利用cache空间局部性优化性能C.可通

12、过矩阵分片优化性能D.访存方面无优化可能参考答案:B39. SSE的shuffle指令的8位二进制整数参数被划分为4个2位二进制整数imm803,若imm81=j则表示( )。A.将第一个源寄存器的第j个元素放在目标寄存器位置1B.将第二个源寄存器的第j个元素放在目标寄存器位置1C.将第一个源寄存器的第1个元素放在目标寄存器位置1D.将第二个源寄存器的第1个元素放在目标寄存器位置1参考答案:A40. pthread_rwlock_rdlock是对读写锁进行_操作。A.加锁B.解锁C.加读琐D.加写锁参考答案:C41. 主线程通过_函数获取特定线程的返回结果。主线程通过_函数获取特定线程的返回结

13、果。A.pthread_createB.pthread_joinC.pthread_cancelD.pthread_get参考答案:B42. CPU时钟频率1GHz,每个时钟周期两个计算单元可执行4条指令,内存延迟125ns,进行向量点积运算,无cache情况下,计算能力为( )A.8MFlopsB.125MFlopsC.1GFlopsD.4GFlops参考答案:A43. 当前并行软件面临的主要挑战不包括( )。A.能耗B.伸缩性C.研发周期D.可靠性参考答案:C44. MPI_Send和MPI_recv是通过( )区分消息。A.端口号B.消息名C.消息标签D.消息哈希参考答案:C45. 关于障碍机制,下面说法错误的是_。关于障碍机制,下面说法错误的是_。A.会导致快速线程阻塞,不应使用B.在需要强制线程步调一致时,应使用C.可用互斥量机制实现D.属于一种组通信参考答案:A

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号