南开大学21秋《并行程序设计》在线作业三答案参考58

资源描述

《南开大学21秋《并行程序设计》在线作业三答案参考58》由会员分享，可在线阅读，更多相关《南开大学21秋《并行程序设计》在线作业三答案参考58（14页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋并行程序设计在线作业三答案参考1. MPI组通信操作不包括哪类_。MPI组通信操作不包括哪类_。A.通信B.同步C.点对点D.计算参考答案：C2. 和一对多广播对应的组通信操作是( )。A.多对一收集B.多对多收集C.多对一归约D.多对多归约参考答案：C3. 为了实现向量计算，SIMD架构还需提供_。为了实现向量计算，SIMD架构还需提供_。A.更大的内存容量B.更快的内存传输C.更宽的寄存器D.更快的网络传输参考答案：C4. SIMD并行化时遇到对齐问题，高效的处理方法是( )。A.直接使用SIMD不对齐访存指令B.将数据拷贝到对齐的内存地址C.重写算法保证对齐访问D.串行处理

2、到对齐边界，然后进行SIMD对齐访存参考答案：D5. 对于多线程各自进行本地运算，然后由主线程汇总结果的模式，下面说法正确的是( )。A.在同构核心上，线程运行速度一样，主线程无需等待，直接汇总结果即可B.线程运行速度可能不一致，必须采用同步保证主线程汇总正确结果C.太多本地运算，不能体现并行效果，不是好的模式D.主线程汇总结果在性能上必然不如多线程并行汇总结果参考答案：B6. SSE intrinsics _mm_store_pd命令的功能是_。SSE intrinsics _mm_store_pd命令的功能是_。A.对齐向量存单精度浮点数B.未对齐标量存单精度浮点数C.对齐向量存双精度浮点

3、数D.未对齐标量存双精度浮点数参考答案：C7. 如果运算对象是独立无关的变量，则在向量运算之前需_。A.将变量拷贝到连续区域B.将变量地址拷贝到连续区域C.将变量逐个传输到向量寄存器D.以上皆错参考答案：A8. 一个SSE寄存器可容纳( )个短整型数。A.2B.4C.8D.16参考答案：C9. 一个Neon寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案：A10. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，还需进行SIMD寄存器中几个元素的( )操作才能得到结果矩阵的一个元素。A.排列B.交换C.广播D.归约参考答案：D11. 在SSE int

4、rinsics程序中双精度浮点数数据类型是_。在SSE intrinsics程序中双精度浮点数数据类型是_。A._m128B._m128fC._m128dD._m128i参考答案：C12. 当处理器数量不变时，随着问题规模增大，加速比_。当处理器数量不变时，随着问题规模增大，加速比_。A.所有算法都增大B.所有算法都减小C.代价最优算法都增大D.代价最优算法都减小参考答案：C13. 记并行时间为T，串行时间为T&39;，处理器数量为p，并行效率E的定义是_。记并行时间为T，串行时间为T，处理器数量为p，并行效率E的定义是_。A.T-TB.T/TC.T/pTD.pT-T参考答案：C14. 一个A

5、VX寄存器最多存放_个单精度浮点数。一个AVX寄存器最多存放_个单精度浮点数。A.2B.4C.8D.16参考答案：C15. 主线程通过_函数获取特定线程的返回结果。主线程通过_函数获取特定线程的返回结果。A.pthread_createB.pthread_joinC.pthread_cancelD.pthread_get参考答案：B16. 对于效率E，下面描述错误的是( )。A.理想并行E=1B.总是在01之间C.可能1D.可能随着处理器数量增大趋向于0参考答案：B17. 一个AVX寄存器最多存放( )个整型数。A.2B.4C.8D.16参考答案：C18. for (i=0;iA.可完全向量化

6、B.不可向量化C.不确定D.可部分向量化参考答案：D19. 条件变量相对于互斥量的优点是_。A.是多源状态B.加锁解锁开销低C.条件不成立时阻塞线程并自动解锁加锁D.以上皆错参考答案：C20. n个数求和的串行程序，通过一个循环将每个数累加到全局变量sum中，其多线程版本简单将循环范围改变为每个线程负载的范围，存在的问题是_。n个数求和的串行程序，通过一个循环将每个数累加到全局变量sum中，其多线程版本简单将循环范围改变为每个线程负载的范围，存在的问题是_。A.负载不均B.通信开销大C.CPU空闲等待严重D.sum累加产生竞争条件，导致结果错误参考答案：D21. 现代CPU中都具有指令乱序执行

7、功能，其目的不包括_。现代CPU中都具有指令乱序执行功能，其目的不包括_。A.消除指令依赖，更充分利用多流水线B.提高cache效率C.改变计算结果D.消除资源冲突参考答案：C22. 在128位的SIMD寄存器中，我们不能保存( )。A.16个8位整数B.8个16位短整型C.4个32位整型D.16个字符的字符串参考答案：D23. 互斥量mutex机制，在任何时刻_进入它保护的区域。A.允许任意数量任意类型的线程B.允许一个读线程任意个写线程C.允许一个写线程任意个读线程D.只允许一个线程参考答案：D24. 采用划分子矩阵技术优化矩阵乘法CUDA程序，主要思想是访存更多在_。采用划分子矩阵技术优

8、化矩阵乘法CUDA程序，主要思想是访存更多在_。A.CPU内存B.GPU显存C.GPU共享内存D.GPU寄存器参考答案：C25. CUDA寄存器是由( )。A.Grid中所有线程共享B.一个Block中所有线程共享C.一个Warp中所有线程共享D.每个线程独享参考答案：D26. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是( )。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案：B27. 在使用互斥量之后必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案：D28. OpenMP编译

9、指示的作用范围是( )。A.其后一个语句B.其后连续语句C.其后直到函数结束D.整个函数参考答案：A29. pthread_rwlock_rdlock是对读写锁进行_操作。A.加锁B.解锁C.加读琐D.加写锁参考答案：C30. 编写矩阵乘法的SSE程序，若矩阵元素为双精度浮点数，则应对矩阵乘加计算的循环进行( )路循环展开。A.2B.4C.8D.16参考答案：A31. 限制CPU内流水线深度的因素包括( )。A.指令复杂程度B.分支预测性能C.CPU核心数D.CPU cache大小参考答案：B32. 对一个串行程序进行SIMD并行化，应重点考虑的程序部分是( )。A.声明语句B.条件分支语句C

10、.循环语句D.输入输出语句参考答案：C33. 对矩阵每行排序的程序进行多线程并行化，对矩阵采用_。A.简单均匀块划分即可保证负载均衡B.循环划分才能实现负载均衡C.动态划分才能实现负载均衡D.随机划分才能实现负载均衡参考答案：C34. 伸缩性的含义不包括_。伸缩性的含义不包括_。A.硬件能升级扩展B.扩大系统规模构造成本增长不快C.程序在新硬件下仍能高效运行D.程序在更大规模系统下仍能高效运行参考答案：A35. SSE intrinsics _mm_hadd_ps命令的功能是_。SSE intrinsics _mm_hadd_ps命令的功能是_。A.寄存器间单精度浮点数向量加法B.寄存器间双精

11、度浮点数向量加法C.寄存器内单精度浮点数加法D.寄存器内双精度浮点数加法参考答案：C36. 一个SSE寄存器可容纳_个短整型数。一个SSE寄存器可容纳_个短整型数。A.2B.4C.8D.16参考答案：C37. 任务依赖图的平均并发度的定义是( )。A.顶点权重之和B.顶点数C.各层平均顶点数D.顶点权重之和/关键路径长度参考答案：D38. 全球500强超算在CPU、网络等硬件上越来越体现出采用( )的趋势。A.特殊硬件B.通用硬件C.非公开硬件D.廉价硬件参考答案：B39. OpenMP是_的一个常见替代。OpenMP是_的一个常见替代。A.SSEB.MPIC.PthreadD.CUDA参考答

12、案：C40. 在下面问题中，SIMD并行最不适合( )。A.向量加法B.向量中元素排序C.矩阵向量乘法D.矩阵加法参考答案：B41. 当条件判断_时，控制流语句SIMD并行化可能达到较好效果。A.绝大部分结果为真B.绝大部分结果为假C.全部结果都一样D.绝大部分结果都一样参考答案：D42. 记并行时间为T，串行时间为T&39;，处理器数量为p，效率为E，则代价最优的定义是( )。A.pT=TB.E=(1)C.E=pT/TD.E=T/pT参考答案：B43. 执行pthread_rwlock_rdlock时，( )的情况下加锁成功。A.已有一个线程上了写锁B.已有多个线程上了写锁C.已有多个线程上

13、了读锁D.已有多个线程上了读锁和写锁参考答案：C44. 为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。为防止编译器不支持OpenMP，应使用_实现OpenMP代码和普通代码的条件编译。A.“#include”B.“#pragma omp parallel”C.“#ifdef _OPENMP”D.“#define _OPENMP”参考答案：C45. 将寄存器设置为4个单精度浮点数0.0的SSE intrinsics指令是( )。A._mm_set_psB._mm_set1_ssC._mm_setzero_ssD._mm_setzero_ps参考答案：D46. n个数求和的问题，使用n个处理器的并行算法达到了logn的运行时间，则算法( )。A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案：A

展开阅读全文