南开大学21秋《并行程序设计》在线作业三答案参考58

上传人:hs****ma 文档编号:470375251 上传时间:2023-06-23 格式:DOCX 页数:14 大小:14.92KB
返回 下载 相关 举报
南开大学21秋《并行程序设计》在线作业三答案参考58_第1页
第1页 / 共14页
南开大学21秋《并行程序设计》在线作业三答案参考58_第2页
第2页 / 共14页
南开大学21秋《并行程序设计》在线作业三答案参考58_第3页
第3页 / 共14页
南开大学21秋《并行程序设计》在线作业三答案参考58_第4页
第4页 / 共14页
南开大学21秋《并行程序设计》在线作业三答案参考58_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《南开大学21秋《并行程序设计》在线作业三答案参考58》由会员分享,可在线阅读,更多相关《南开大学21秋《并行程序设计》在线作业三答案参考58(14页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋并行程序设计在线作业三答案参考1. MPI组通信操作不包括哪类_。MPI组通信操作不包括哪类_。A.通信B.同步C.点对点D.计算参考答案:C2. 和一对多广播对应的组通信操作是( )。A.多对一收集B.多对多收集C.多对一归约D.多对多归约参考答案:C3. 为了实现向量计算,SIMD架构还需提供_。为了实现向量计算,SIMD架构还需提供_。A.更大的内存容量B.更快的内存传输C.更宽的寄存器D.更快的网络传输参考答案:C4. SIMD并行化时遇到对齐问题,高效的处理方法是( )。A.直接使用SIMD不对齐访存指令B.将数据拷贝到对齐的内存地址C.重写算法保证对齐访问D.串行处理

2、到对齐边界,然后进行SIMD对齐访存参考答案:D5. 对于多线程各自进行本地运算,然后由主线程汇总结果的模式,下面说法正确的是( )。A.在同构核心上,线程运行速度一样,主线程无需等待,直接汇总结果即可B.线程运行速度可能不一致,必须采用同步保证主线程汇总正确结果C.太多本地运算,不能体现并行效果,不是好的模式D.主线程汇总结果在性能上必然不如多线程并行汇总结果参考答案:B6. SSE intrinsics _mm_store_pd命令的功能是_。SSE intrinsics _mm_store_pd命令的功能是_。A.对齐向量存单精度浮点数B.未对齐标量存单精度浮点数C.对齐向量存双精度浮点

3、数D.未对齐标量存双精度浮点数参考答案:C7. 如果运算对象是独立无关的变量,则在向量运算之前需_。A.将变量拷贝到连续区域B.将变量地址拷贝到连续区域C.将变量逐个传输到向量寄存器D.以上皆错参考答案:A8. 一个SSE寄存器可容纳( )个短整型数。A.2B.4C.8D.16参考答案:C9. 一个Neon寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案:A10. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几个元素的( )操作才能得到结果矩阵的一个元素。A.排列B.交换C.广播D.归约参考答案:D11. 在SSE int

4、rinsics程序中双精度浮点数数据类型是_。在SSE intrinsics程序中双精度浮点数数据类型是_。A._m128B._m128fC._m128dD._m128i参考答案:C12. 当处理器数量不变时,随着问题规模增大,加速比_。当处理器数量不变时,随着问题规模增大,加速比_。A.所有算法都增大B.所有算法都减小C.代价最优算法都增大D.代价最优算法都减小参考答案:C13. 记并行时间为T,串行时间为T&39;,处理器数量为p,并行效率E的定义是_。记并行时间为T,串行时间为T,处理器数量为p,并行效率E的定义是_。A.T-TB.T/TC.T/pTD.pT-T参考答案:C14. 一个A

5、VX寄存器最多存放_个单精度浮点数。一个AVX寄存器最多存放_个单精度浮点数。A.2B.4C.8D.16参考答案:C15. 主线程通过_函数获取特定线程的返回结果。主线程通过_函数获取特定线程的返回结果。A.pthread_createB.pthread_joinC.pthread_cancelD.pthread_get参考答案:B16. 对于效率E,下面描述错误的是( )。A.理想并行E=1B.总是在01之间C.可能1D.可能随着处理器数量增大趋向于0参考答案:B17. 一个AVX寄存器最多存放( )个整型数。A.2B.4C.8D.16参考答案:C18. for (i=0;iA.可完全向量化

6、B.不可向量化C.不确定D.可部分向量化参考答案:D19. 条件变量相对于互斥量的优点是_。A.是多源状态B.加锁解锁开销低C.条件不成立时阻塞线程并自动解锁加锁D.以上皆错参考答案:C20. n个数求和的串行程序,通过一个循环将每个数累加到全局变量sum中,其多线程版本简单将循环范围改变为每个线程负载的范围,存在的问题是_。n个数求和的串行程序,通过一个循环将每个数累加到全局变量sum中,其多线程版本简单将循环范围改变为每个线程负载的范围,存在的问题是_。A.负载不均B.通信开销大C.CPU空闲等待严重D.sum累加产生竞争条件,导致结果错误参考答案:D21. 现代CPU中都具有指令乱序执行

7、功能,其目的不包括_。现代CPU中都具有指令乱序执行功能,其目的不包括_。A.消除指令依赖,更充分利用多流水线B.提高cache效率C.改变计算结果D.消除资源冲突参考答案:C22. 在128位的SIMD寄存器中,我们不能保存( )。A.16个8位整数B.8个16位短整型C.4个32位整型D.16个字符的字符串参考答案:D23. 互斥量mutex机制,在任何时刻_进入它保护的区域。A.允许任意数量任意类型的线程B.允许一个读线程任意个写线程C.允许一个写线程任意个读线程D.只允许一个线程参考答案:D24. 采用划分子矩阵技术优化矩阵乘法CUDA程序,主要思想是访存更多在_。采用划分子矩阵技术优

8、化矩阵乘法CUDA程序,主要思想是访存更多在_。A.CPU内存B.GPU显存C.GPU共享内存D.GPU寄存器参考答案:C25. CUDA寄存器是由( )。A.Grid中所有线程共享B.一个Block中所有线程共享C.一个Warp中所有线程共享D.每个线程独享参考答案:D26. 采用MPI主从模型解决矩阵每行排序问题,主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是( )。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案:B27. 在使用互斥量之后必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案:D28. OpenMP编译

9、指示的作用范围是( )。A.其后一个语句B.其后连续语句C.其后直到函数结束D.整个函数参考答案:A29. pthread_rwlock_rdlock是对读写锁进行_操作。A.加锁B.解锁C.加读琐D.加写锁参考答案:C30. 编写矩阵乘法的SSE程序,若矩阵元素为双精度浮点数,则应对矩阵乘加计算的循环进行( )路循环展开。A.2B.4C.8D.16参考答案:A31. 限制CPU内流水线深度的因素包括( )。A.指令复杂程度B.分支预测性能C.CPU核心数D.CPU cache大小参考答案:B32. 对一个串行程序进行SIMD并行化,应重点考虑的程序部分是( )。A.声明语句B.条件分支语句C

10、.循环语句D.输入输出语句参考答案:C33. 对矩阵每行排序的程序进行多线程并行化,对矩阵采用_。A.简单均匀块划分即可保证负载均衡B.循环划分才能实现负载均衡C.动态划分才能实现负载均衡D.随机划分才能实现负载均衡参考答案:C34. 伸缩性的含义不包括_。伸缩性的含义不包括_。A.硬件能升级扩展B.扩大系统规模构造成本增长不快C.程序在新硬件下仍能高效运行D.程序在更大规模系统下仍能高效运行参考答案:A35. SSE intrinsics _mm_hadd_ps命令的功能是_。SSE intrinsics _mm_hadd_ps命令的功能是_。A.寄存器间单精度浮点数向量加法B.寄存器间双精

11、度浮点数向量加法C.寄存器内单精度浮点数加法D.寄存器内双精度浮点数加法参考答案:C36. 一个SSE寄存器可容纳_个短整型数。一个SSE寄存器可容纳_个短整型数。A.2B.4C.8D.16参考答案:C37. 任务依赖图的平均并发度的定义是( )。A.顶点权重之和B.顶点数C.各层平均顶点数D.顶点权重之和/关键路径长度参考答案:D38. 全球500强超算在CPU、网络等硬件上越来越体现出采用( )的趋势。A.特殊硬件B.通用硬件C.非公开硬件D.廉价硬件参考答案:B39. OpenMP是_的一个常见替代。OpenMP是_的一个常见替代。A.SSEB.MPIC.PthreadD.CUDA参考答

12、案:C40. 在下面问题中,SIMD并行最不适合( )。A.向量加法B.向量中元素排序C.矩阵向量乘法D.矩阵加法参考答案:B41. 当条件判断_时,控制流语句SIMD并行化可能达到较好效果。A.绝大部分结果为真B.绝大部分结果为假C.全部结果都一样D.绝大部分结果都一样参考答案:D42. 记并行时间为T,串行时间为T&39;,处理器数量为p,效率为E,则代价最优的定义是( )。A.pT=TB.E=(1)C.E=pT/TD.E=T/pT参考答案:B43. 执行pthread_rwlock_rdlock时,( )的情况下加锁成功。A.已有一个线程上了写锁B.已有多个线程上了写锁C.已有多个线程上

13、了读锁D.已有多个线程上了读锁和写锁参考答案:C44. 为防止编译器不支持OpenMP,应使用_实现OpenMP代码和普通代码的条件编译。为防止编译器不支持OpenMP,应使用_实现OpenMP代码和普通代码的条件编译。A.“#include”B.“#pragma omp parallel”C.“#ifdef _OPENMP”D.“#define _OPENMP”参考答案:C45. 将寄存器设置为4个单精度浮点数0.0的SSE intrinsics指令是( )。A._mm_set_psB._mm_set1_ssC._mm_setzero_ssD._mm_setzero_ps参考答案:D46. n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法( )。A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案:A

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号