南开大学21春《并行程序设计》离线作业一辅导答案71

上传人:人*** 文档编号:508543277 上传时间:2023-04-09 格式:DOCX 页数:12 大小:13.67KB
返回 下载 相关 举报
南开大学21春《并行程序设计》离线作业一辅导答案71_第1页
第1页 / 共12页
南开大学21春《并行程序设计》离线作业一辅导答案71_第2页
第2页 / 共12页
南开大学21春《并行程序设计》离线作业一辅导答案71_第3页
第3页 / 共12页
南开大学21春《并行程序设计》离线作业一辅导答案71_第4页
第4页 / 共12页
南开大学21春《并行程序设计》离线作业一辅导答案71_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《南开大学21春《并行程序设计》离线作业一辅导答案71》由会员分享,可在线阅读,更多相关《南开大学21春《并行程序设计》离线作业一辅导答案71(12页珍藏版)》请在金锄头文库上搜索。

1、南开大学21春并行程序设计离线作业一辅导答案1. 我国最早夺得全球超级计算机计算能力冠军的是( )。A.天河1号B.天河1AC.天河2号D.神威.太湖之光参考答案:B2. SSE数据移动指令分类不包括_。SSE数据移动指令分类不包括_。A.对齐传输B.未对齐传输C.标量传输D.缓存传输参考答案:D3. SSE intrinsics _mm_store_pd命令的功能是_。SSE intrinsics _mm_store_pd命令的功能是_。A.对齐向量存单精度浮点数B.未对齐标量存单精度浮点数C.对齐向量存双精度浮点数D.未对齐标量存双精度浮点数参考答案:C4. MPI基本原语不包括_。A.M

2、PI_BarrierB.MPI_Comm_rankC.MPI_Comm_sizeD.MPI_Init参考答案:A5. 对单精度浮点计算,AVX最高实现( )路并行。A.2B.4C.8D.16参考答案:C6. SSE intrinsics _mm_hadd_ps命令的功能是_。SSE intrinsics _mm_hadd_ps命令的功能是_。A.寄存器间单精度浮点数向量加法B.寄存器间双精度浮点数向量加法C.寄存器内单精度浮点数加法D.寄存器内双精度浮点数加法参考答案:C7. 大型医院每天的X光片、CT等医学图像的分析需要_。大型医院每天的X光片、CT等医学图像的分析需要_。A.串行计算即可B

3、.高吞吐率计算C.高性能计算D.以上皆错参考答案:B8. 在分布式内存架构编程中,进程间不能( )。A.进行通信B.进行同步C.发送和接收消息D.通过读写变量交换数据参考答案:D9. 单精度浮点数矩阵乘法进行AVX并行,期望的加速比为_.单精度浮点数矩阵乘法进行AVX并行,期望的加速比为_.A.等于8B.小于8C.4到8之间D.等于4参考答案:B10. SIMD并行模式是将多个_运算打包并发执行。A.不同B.相同C.混合D.依赖参考答案:B11. 对奇偶转置排序进行OpenMP并行化,第一种策略是直接对内层循环使用omp parallel for指令,第二种策略是对外层循环使用omp para

4、llel指令,对内层循环使用omp for指令,后者相对于前者的优点是_。A.保持了数据依赖B.消除了大量线程创建、销毁开销C.有利于负载均衡D.减少了线程间交互参考答案:B12. OpenMP编译指示是以( )开头的。A.“#include”B.“#ifdef”C.“#pragam”D.“#else”参考答案:C13. 下面哪个问题相对而言更不适合进行数据并行_。下面哪个问题相对而言更不适合进行数据并行_。A.求和B.排序C.向量加法D.矩阵乘法参考答案:B14. 在使用条件变量之后必须对其进行_。在使用条件变量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案:D15. 实现任

5、何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。A.omp parallelB.omp barrierC.omp criticalD.omp reduce参考答案:C16. 为防止编译器不支持OpenMP,应使用_实现OpenMP代码和普通代码的条件编译。为防止编译器不支持OpenMP,应使用_实现OpenMP代码和普通代码的条件编译。A.“#include”B.“#pragma omp parallel”C.“#ifdef _OPENMP”D.“#define _OPENMP”参考答案:C17. 下面哪种架构最适合

6、数据并行?( )A.SISDB.SIMDC.MISDD.MIMD参考答案:B18. 编写矩阵乘法的SSE程序,若矩阵元素为双精度浮点数,则应对矩阵乘加计算的循环进行( )路循环展开。A.2B.4C.8D.16参考答案:A19. 任务依赖图中权重之和最长的路径称为( )。A.最大任务B.关键路径C.平均并发度D.最短路径参考答案:B20. 对于并行程序设计,下面说法错误的是_。对于并行程序设计,下面说法错误的是_。A.天然具有复杂性B.算法移植困难C.软件开发标准环境发展相对之后D.不应发展这个方向参考答案:D21. 采用多核、众核技术提升CPU性能,相对于单核的优势不包括_。A.架构设计更容易

7、B.更易突破物理极限C.能更充分利用现有资源D.功耗优势明显参考答案:B22. 在下面问题中,SIMD并行更适合( )。A.搜索B.排序C.矩阵乘法D.构建二叉排序树参考答案:C23. GPU相对于其他众核产品的优势不包括( )。A.平台普及B.有CUDA这样易学的开发工具C.性价比高D.由英伟达公司一家把控参考答案:D24. 将t个线程的局部结果汇总,可采用递归分解并行进行,即,两两汇总,中间结果继续两两汇总,直到剩下唯一的最终结果,其时间复杂度为( )。A.(1)B.(logt)C.(t)D.(tlogt)参考答案:B25. CUDA的优点不包括_。CUDA的优点不包括_。A.可移植性B.

8、入门简单C.标准的SPMD模式D.不再需要图形API参考答案:A26. 采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在_。采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在_。A.CPU内存B.GPU显存C.GPU共享内存D.GPU寄存器参考答案:C27. 记并行时间为T,串行时间为T&39;,处理器数量为p,则额外开销应如何计算?( )A.T-TB.T-TC.pTD.pT-T参考答案:D28. 为利用cache空间局部性,需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点参考答案:D29

9、. MPI的通信是( )。A.无类型传输B.弱类型传输C.强类型传输D.以上皆错参考答案:C30. CUDA共享内存是由_共享。A.Grid中所有线程B.一个Block中所有线程C.一个Warp中所有线程D.GPU中所有线程参考答案:B31. 使用( )无法直接实现“主线程唤醒4个从线程去执行任务”。A.1个信号量B.障碍C.1个互斥量D.4个互斥量参考答案:C32. n个元素排序问题,如果只能通过元素比较交换构造算法,则n个处理器的并行排序算法达到( )的运行时间才是代价最优的。A.O(logn)B.O(n)C.O(nlogn)D.O(n2)参考答案:A33. OpenMP归约指令采用的是一

10、种_算法。A.分治B.贪心C.动态规划D.排序参考答案:A34. 两个n*n的矩阵相乘,将所有n2个乘法计算划分给不同进程,再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素,这是一种划分_的数据并行。两个n*n的矩阵相乘,将所有n2个乘法计算划分给不同进程,再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素,这是一种划分_的数据并行。A.输入数据B.中间结果C.输出数据D.临时数据参考答案:B35. SSE运算指令中未提供_指令。A.算术运算B.矩阵运算C.逻辑运算D.比较运算参考答案:B36. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIM

11、D寄存器中几个元素的( )操作才能得到结果矩阵的一个元素。A.排列B.交换C.广播D.归约参考答案:D37. CPU cache大小为32KB,64*64的两个矩阵进行加法计算,下面说法正确的是_。CPU cache大小为32KB,64*64的两个矩阵进行加法计算,下面说法正确的是_。A.可利用cache时间局部性优化性能B.可利用cache空间局部性优化性能C.可通过矩阵分片优化性能D.访存方面无优化可能参考答案:B38. 一个SSE寄存器可容纳_个短整型数。一个SSE寄存器可容纳_个短整型数。A.2B.4C.8D.16参考答案:C39. for (i=0;iA.可完全向量化B.不可向量化C

12、.不确定D.可部分向量化参考答案:D40. CUDA线程层次中不包括( )。A.KernelB.GridC.BlockD.Thread参考答案:A41. OpenMP中指定多线程中只有主线程执行代码块的指令是_。A.omp singleB.omp masterC.omp slaveD.omp parallel参考答案:B42. OpenMP不会自动地在_位置设置barrier。OpenMP不会自动地在_位置设置barrier。A.并行结构开始B.并行结构结束C.其他控制结构开始D.其他控制结构结束参考答案:C43. 传统科学和工程实验相对于计算机并行仿真的劣势不包括_。传统科学和工程实验相对于

13、计算机并行仿真的劣势不包括_。A.成本太高B.结果不准确C.时间太长D.太危险参考答案:B44. OpenMP的缺点不包括_。A.常见并行结构的表达并不总可行B.局部性处理不易C.不易编写多核单核通用程序D.性能控制不易参考答案:C45. 单精度浮点数矩阵乘法进行AVX并行,期望的加速比为_。A.等于8B.小于8C.4到8之间D.等于4参考答案:B46. 在对互斥量进行解锁时,还会执行( )操作。A.互斥量初始化B.互斥量销毁C.唤醒阻塞线程D.以上皆错参考答案:C47. 现代CPU中都具有指令乱序执行功能,其目的不包括_。现代CPU中都具有指令乱序执行功能,其目的不包括_。A.消除指令依赖,更充分利用多流水线B.提高cache效率C.改变计算结果D.消除资源冲突参考答案:C

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号