南开大学21秋《并行程序设计》在线作业三答案参考20

资源描述

《南开大学21秋《并行程序设计》在线作业三答案参考20》由会员分享，可在线阅读，更多相关《南开大学21秋《并行程序设计》在线作业三答案参考20（15页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋并行程序设计在线作业三答案参考1. CUDA寄存器是由( )。A.Grid中所有线程共享B.一个Block中所有线程共享C.一个Warp中所有线程共享D.每个线程独享参考答案：D2. 若SIMD并行化时遇到对齐问题，下列说法正确的是( )。A.只能使用不对齐访存指令B.不能进行SIMD并行化C.对齐开销可能完全抵消SIMD并行收益D.以上皆错参考答案：C3. 在下面问题中，SIMD并行更适合( )。A.搜索B.排序C.矩阵乘法D.构建二叉排序树参考答案：C4. SSE指令移动单精度浮点数，不能实现_。SSE指令移动单精度浮点数，不能实现_。A.将64位数据移动到SSE寄存器高位B

2、.将64位数据移动到SSE寄存器低位C.将32位数据移动到SSE寄存器指定位置D.在两个SSE寄存器高/低64位间移动参考答案：C5. 主线程要求从线程退出应采用_。主线程要求从线程退出应采用_。A.pthread_createB.pthread_exitC.pthread_quitD.pthread_cancel参考答案：D6. 下面哪个问题相对而言更不适合进行数据并行_。下面哪个问题相对而言更不适合进行数据并行_。A.求和B.排序C.向量加法D.矩阵乘法参考答案：B7. 并行计算还主要用于国防、工程研究等领域，这种说法是_。A.正确的B.错误的参考答案：B8. 对两个互斥量a、b，线程1执

3、行lock(a);lock(b);，线程2执行lock(b);lock(a),则两个线程间会发生_。对两个互斥量a、b，线程1执行lock(a);lock(b);，线程2执行lock(b);lock(a),则两个线程间会发生_。A.竞争条件B.数据依赖C.资源泄漏D.死锁参考答案：D9. 一个SSE寄存器可容纳_个短整型数。一个SSE寄存器可容纳_个短整型数。A.2B.4C.8D.16参考答案：C10. 编写矩阵乘法的Neon程序，若矩阵元素为双精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：A11. 在MPI中从/向虚拟进程收/发消息的实际效果是_。

4、在MPI中从/向虚拟进程收/发消息的实际效果是_。A.与通信域根进程通信B.与0号进程通信C.像什么都没发生一样D.以上皆错参考答案：C12. Flynn分类法中，下面哪种体系结构在实际中几乎没有意义?( )A.SISDB.SIMDC.MISDD.MIMD参考答案：C13. 并行计算的新兴应用领域不包括_。A.制药B.数字媒体C.国防D.游戏参考答案：C14. SSE intrinsics_mm_load_ss命令的功能是( )。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐标量读取单精度浮点数D.未对齐标量读取单精度浮点数参考答案：C15. 在使用条件变量之后必须对其进行

5、_。在使用条件变量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：D16. _执行pthread_sem_post操作，当前线程会唤醒阻塞线程。_执行pthread_sem_post操作，当前线程会唤醒阻塞线程。A.当信号量已加锁时B.当信号量为0时C.当信号量已超过阈值时D.当信号量已销毁时参考答案：B17. OpenMP不会自动地在_位置设置barrier。A.并行结构开始B.并行结构结束C.其他控制结构开始D.其他控制结构结束参考答案：C18. 实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是_。实现任何时刻都只有一个线程进行共享变量更新的OpenMP指令是

6、_。A.omp parallelB.omp barrierC.omp criticalD.omp reduce参考答案：C19. 在使用条件变量之前必须对其进行_。在使用条件变量之前必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：A20. MPI的通信是( )。A.无类型传输B.弱类型传输C.强类型传输D.以上皆错参考答案：C21. 对于并行程序设计，下面说法错误的是_。对于并行程序设计，下面说法错误的是_。A.天然具有复杂性B.算法移植困难C.软件开发标准环境发展相对之后D.不应发展这个方向参考答案：D22. 动态任务划分相对于静态任务划分的缺点是_。动态任务划分相对于静态任务划

7、分的缺点是_。A.可能导致负载不均B.通信开销高C.任务粒度粗D.计算复杂度高参考答案：B23. 编写矩阵乘法的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。编写矩阵乘法的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：B24. 条件变量相对于互斥量的优点是_。A.是多源状态B.加锁解锁开销低C.条件不成立时阻塞线程并自动解锁加锁D.以上皆错参考答案：C25. n个数求和的串行程序，通过一个循环将每个数累加到全局变量sum中，其多线程版本简单将循环范围改变为每个线程负载的范围，存在的问题是

8、_。n个数求和的串行程序，通过一个循环将每个数累加到全局变量sum中，其多线程版本简单将循环范围改变为每个线程负载的范围，存在的问题是_。A.负载不均B.通信开销大C.CPU空闲等待严重D.sum累加产生竞争条件，导致结果错误参考答案：D26. 在SSE intrinsics程序中双精度浮点数数据类型是( )。A._m128B._m128fC._m128dD._m128i参考答案：C27. 对单精度浮点计算，SSE最高实现_路并行。对单精度浮点计算，SSE最高实现_路并行。A.2B.4C.8D.16参考答案：B28. 一个AVX寄存器最多存放_个双精度浮点数。一个AVX寄存器最多存放_个双精度

9、浮点数。A.2B.4C.8D.16参考答案：B29. for (i=2; iA.存在B.不存在C.不确定D.以上皆错参考答案：A30. 主线程通过_函数获取特定线程的返回结果。主线程通过_函数获取特定线程的返回结果。A.pthread_createB.pthread_joinC.pthread_cancelD.pthread_get参考答案：B31. 当前并行软件面临的主要挑战不包括( )。A.能耗B.伸缩性C.研发周期D.可靠性参考答案：C32. CUDA线程层次中不包括( )。A.KernelB.GridC.BlockD.Thread参考答案：A33. 采用划分子矩阵(大小b*b)的方法实

10、现n*n矩阵乘法，一次乘加运算涉及的子矩阵可全部放入cache，则整个计算过程中，两个输入矩阵的每个元素会产生次访存。A.nB.tC.n-tD.n/t参考答案：D34. OpenMP编译指示的作用范围是( )。A.其后一个语句B.其后连续语句C.其后直到函数结束D.整个函数参考答案：A35. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参

11、考答案：B36. SSE intrinsics_mm_loadu_ps命令的功能是( )。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐向量读取双精度浮点数D.未对齐向量读取双精度浮点数参考答案：B37. 一个SSE寄存器可容纳( )个双精度浮点数。A.2B.4C.8D.16参考答案：A38. SSE的blend指令的8位二进制整数参数被用做8个掩码imm807，若imm8j=0则表示( )。A.将第一个源寄存器的第j个元素放在目标寄存器位置0B.将第二个源寄存器的第j个元素放在目标寄存器位置0C.将第一个源寄存器的第j个元素放在目标寄存器位置jD.将第二个源寄存器的第j个

12、元素放在目标寄存器位置j参考答案：C39. 对奇偶转置排序进行OpenMP并行化，第一种策略是直接对内层循环使用omp parallel for指令，第二种策略是对外层循环使用omp parallel指令，对内层循环使用omp for指令，后者相对于前者的优点是_。A.保持了数据依赖B.消除了大量线程创建、销毁开销C.有利于负载均衡D.减少了线程间交互参考答案：B40. 对于多线程各自进行本地运算，然后由主线程汇总结果的模式，下面说法正确的是( )。A.在同构核心上，线程运行速度一样，主线程无需等待，直接汇总结果即可B.线程运行速度可能不一致，必须采用同步保证主线程汇总正确结果C.太多本地运算

13、，不能体现并行效果，不是好的模式D.主线程汇总结果在性能上必然不如多线程并行汇总结果参考答案：B41. 将t个线程的局部结果汇总，可采用递归分解并行进行，即，两两汇总，中间结果继续两两汇总，直到剩下唯一的最终结果，其时间复杂度为( )。A.(1)B.(logt)C.(t)D.(tlogt)参考答案：B42. 多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )A.读取x存在数据依赖，不能并发进行B.累加顺序被改变，结果是错误的C.加法操作是简单运算，无需同步D.加法操作不是原子操作，需要同步保证数据依赖参考答案：D43. 一个Neon寄存器最多存放_个双精度浮点数。一个Neon寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考

展开阅读全文