南开大学21秋《并行程序设计》在线作业二答案参考77

资源描述

《南开大学21秋《并行程序设计》在线作业二答案参考77》由会员分享，可在线阅读，更多相关《南开大学21秋《并行程序设计》在线作业二答案参考77（14页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋并行程序设计在线作业二答案参考1. 对天气预报问题，将大气层划分为5*108个网格单元，每个时间步每个网格需200个浮点运算，时间间隔设置为10分钟，计算10天内大气运动，100MFlops计算能力的计算机需要多少天?( )对天气预报问题，将大气层划分为5*108个网格单元，每个时间步每个网格需200个浮点运算，时间间隔设置为10分钟，计算10天内大气运动，100MFlops计算能力的计算机需要多少天?( )A.1B.10C.100D.300参考答案：C2. 采用划分子矩阵技术优化矩阵乘法CUDA程序，主要思想是访存更多在_。采用划分子矩阵技术优化矩阵乘法CUDA程序，主要思想是

2、访存更多在_。A.CPU内存B.GPU显存C.GPU共享内存D.GPU寄存器参考答案：C3. SSE指令移动单精度浮点数，不能实现_。SSE指令移动单精度浮点数，不能实现_。A.将64位数据移动到SSE寄存器高位B.将64位数据移动到SSE寄存器低位C.将32位数据移动到SSE寄存器指定位置D.在两个SSE寄存器高/低64位间移动参考答案：C4. 在使用互斥量之后必须对其进行_。在使用互斥量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：D5. pthread_join的作用是( )。A.强制终止指定线程B.检测指定线程是否结束C.等待指定线程结束才返回D.向指定线程发送数据参

3、考答案：C6. 如果运算对象是独立无关的变量，则在向量运算之前需_。A.将变量拷贝到连续区域B.将变量地址拷贝到连续区域C.将变量逐个传输到向量寄存器D.以上皆错参考答案：A7. SIMD架构未见于_中。SIMD架构未见于_中。A.多媒体扩展B.图形和游戏处理器C.计算机集群D.协处理器参考答案：C8. 单程序多数据流模式是针对_架构的。A.SISDB.SIMDC.MISDD.MIMD参考答案：D9. 并行计算的新兴应用领域不包括_。A.制药B.数字媒体C.国防D.游戏参考答案：C10. pthread_create函数中设置一个参数为“线程函数参数”的原因是_。A.它调用线程函数时可直接传递

4、，性能更优B.它需要预处理之后传递给线程函数C.线程函数不是用户程序调用，只能采用这种方式由系统代为传递参数D.没有特别用意参考答案：C11. 将寄存器设置为4个单精度浮点数0.0的SSE intrinsics指令是( )。A._mm_set_psB._mm_set1_ssC._mm_setzero_ssD._mm_setzero_ps参考答案：D12. 为了充分利用CPU内的多条流水线，程序应满足_。为了充分利用CPU内的多条流水线，程序应满足_。A.相邻指令无依赖性B.相邻指令相互依赖C.整段程序中指令无依赖性D.整段程序中指令相互依赖参考答案：A13. 当问题规模不变时，随着处理器数量增

5、大，效率降低的性质对_成立。A.部分并行算法B.代价最优并行算法C.所有并行算法D.以上皆错参考答案：C14. 任务依赖图中顶点权重之和表示_。任务依赖图中顶点权重之和表示_。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案：C15. 采用划分子矩阵方法实现矩阵乘法，在进行SSE并行化时，是对(由外至内数)第_层循环进行循环展开然后向量化。采用划分子矩阵方法实现矩阵乘法，在进行SSE并行化时，是对(由外至内数)第_层循环进行循环展开然后向量化。A.3B.4C.5D.6参考答案：D16. 当条件判断_时，控制流语句SIMD并行化可能达到较好效果。A.绝大部分结果为真B.绝大部分结果

6、为假C.全部结果都一样D.绝大部分结果都一样参考答案：D17. 单精度浮点数矩阵乘法进行AVX并行，期望的加速比为_。A.等于8B.小于8C.4到8之间D.等于4参考答案：B18. 采用MPI主从模型解决矩阵每行排序问题，主进程不断向每个从进程发送任务、接收结果，则它从从进程接收结果时，以下哪种方式更好?( )A.按编号顺序依次从从进程接收结果B.按编号逆序依次从从进程接收结果C.按编号顺序、逆序交替从从进程接收结果D.使用MPI_ANY_SOURCE和MPI_ANY_TAG参考答案：D19. Pthread不支持( )。A.创建并发执行线程B.同步C.非显式通信D.自动并行化参考答案：D20

7、. 执行pthread_rwlock_rdlock时，( )的情况下加锁成功。A.已有一个线程上了写锁B.已有多个线程上了写锁C.已有多个线程上了读锁D.已有多个线程上了读锁和写锁参考答案：C21. float a64; for(i=0; iA.8B.16C.32D.64参考答案：B22. 单精度浮点数矩阵乘法进行AVX并行，期望的加速比为_.单精度浮点数矩阵乘法进行AVX并行，期望的加速比为_.A.等于8B.小于8C.4到8之间D.等于4参考答案：B23. 华尔街是世界上超级计算机最密集的区域之一，原因是( )。A.金融巨头支付得起B.与超算制造商有良好合作C.海量交易需要很高安全性D.海量

8、交易处理需要并行计算参考答案：D24. 利用cache line一次读取多个数据字的机制优化程序访存性能，其机理是( )。A.降低了访存延迟B.隐藏了访存延迟C.利用了cache空间局部性D.利用了cache时间局部性参考答案：C25. 每个AVX寄存器宽度为_位。每个AVX寄存器宽度为_位。A.32B.64C.128D.256参考答案：D26. 为了实现向量计算，SIMD架构还需提供_。为了实现向量计算，SIMD架构还需提供_。A.更大的内存容量B.更快的内存传输C.更宽的寄存器D.更快的网络传输参考答案：C27. 超立方中相邻节点二进制编号_。A.至少差1位B.至多差1位C.恰好差1位D.

9、差异不固定参考答案：C28. SSE intrinsics_mm_store_sd命令的功能是( )。A.对齐向量存单精度浮点数B.未对齐向量存单精度浮点数C.对齐标量存双精度浮点数D.未对齐标量存双精度浮点数参考答案：C29. OpenMP不会自动地在_位置设置barrier。A.并行结构开始B.并行结构结束C.其他控制结构开始D.其他控制结构结束参考答案：C30. 传统科学和工程实验相对于计算机并行仿真的劣势不包括_。传统科学和工程实验相对于计算机并行仿真的劣势不包括_。A.成本太高B.结果不准确C.时间太长D.太危险参考答案：B31. 互斥量是一种( )同步机制。A.一元状态B.二元状态

10、C.多元状态D.以上皆错参考答案：C32. OpenMP程序和Pthread程序中线程获得自身编号的方式分别是_。OpenMP程序和Pthread程序中线程获得自身编号的方式分别是_。A.两者均为创建线程时传递参数B.两者均通过特定APIC.前者创建线程时传递参数，后者通过特定APID.前者通过特定API，后者创建线程时传递参数参考答案：D33. 以下超级计算机中，_是SIMD架构。以下超级计算机中，_是SIMD架构。A.CRAY-1B.天河1AC.天河2号D.神威太湖之光参考答案：A34. 以下超级计算机中，( )不是SIMD架构。A.CDCSTAR-100B.757C.银河D.天河1号参考

11、答案：D35. SIMD并行模式是将多个_运算打包并发执行。A.不同B.相同C.混合D.依赖参考答案：B36. 造成超线性加速比的你原因包括_。造成超线性加速比的你原因包括_。A.进程间大量通信B.并行算法导致额外计算C.并行计算工作量显著小于串行计算D.问题求解包含不可并行化部分参考答案：C37. OpenMP中指定单线程执行的指令是( )。A.omp atomicB.omp onlyC.omp staticD.omp single参考答案：D38. 将起泡排序程序改写为奇偶转置排序，关于其两层循环是否存在数据依赖，下面说法正确的是( )。A.外层存在，内层不存在B.外层不存在，内层存在C.

12、两层都不存在D.两层都存在参考答案：A39. 若SIMD并行化时遇到对齐问题，下列说法正确的是( )。A.只能使用不对齐访存指令B.不能进行SIMD并行化C.对齐开销可能完全抵消SIMD并行收益D.以上皆错参考答案：C40. MMX有( )个专用寄存器。A.4B.8C.16D.32参考答案：B41. 条件变量相对于互斥量的优点是_。A.是多源状态B.加锁解锁开销低C.条件不成立时阻塞线程并自动解锁加锁D.以上皆错参考答案：C42. MPI不包括的通信类别是_。A.点对点通信B.数据传输组通信C.计算和数据传输组通信D.加锁解锁通信参考答案：D43. 主线程通过_函数获取特定线程的返回结果。主线

13、程通过_函数获取特定线程的返回结果。A.pthread_createB.pthread_joinC.pthread_cancelD.pthread_get参考答案：B44. Flynn分类法中，下面哪种体系结构在实际中几乎没有意义?( )A.SISDB.SIMDC.MISDD.MIMD参考答案：C45. 采用划分子矩阵(大小b*b)的方法实现n*n矩阵乘法，一次乘加运算涉及的子矩阵可全部放入cache，则整个计算过程中，两个输入矩阵的每个元素会产生次访存。A.nB.tC.n-tD.n/t参考答案：D46. 我国最早夺得全球超级计算机计算能力冠军的是( )。A.天河1号B.天河1AC.天河2号D.神威.太湖之光参考答案：B47. n个数求和的问题，使用n个处理器的并行算法达到了logn的运行时间，则算法( )。A.肯定不是代价最优B

展开阅读全文