南开大学21秋《并行程序设计》平时作业二参考答案85

资源描述

《南开大学21秋《并行程序设计》平时作业二参考答案85》由会员分享，可在线阅读，更多相关《南开大学21秋《并行程序设计》平时作业二参考答案85（15页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋并行程序设计平时作业二参考答案1. 当问题规模不变时，随着处理器数量增大，效率降低的性质对_成立。A.部分并行算法B.代价最优并行算法C.所有并行算法D.以上皆错参考答案：C2. 求解同一个问题的4个并行算法的等效率函数分析结果如下，其中( )的可扩展性最优。A.(plogp)B.(p2)C.(p2logp)D.(p3)参考答案：A3. SSE有_个专用寄存器。A.4B.8C.16D.33参考答案：B4. 任务依赖图的平均并发度的定义是( )。A.顶点权重之和B.顶点数C.各层平均顶点数D.顶点权重之和/关键路径长度参考答案：D5. 编写n个数求和的OpenMP程序，最高效的方法

2、是( )。A.多线程直接并发累加到共享变量B.将累加操作设置为临界区C.在累加操作前设置障碍D.采用归约指令参考答案：D6. 造成超线性加速比的你原因包括_。造成超线性加速比的你原因包括_。A.进程间大量通信B.并行算法导致额外计算C.并行计算工作量显著小于串行计算D.问题求解包含不可并行化部分参考答案：C7. 对单精度浮点计算，AVX最高实现( )路并行。A.2B.4C.8D.16参考答案：C8. pthread_join的第二个参数的作用是_。A.设置指定线程属性B.获取指定线程属性C.向指定线程传递参数D.获取指定线程函数返回结果参考答案：D9. SSE寄存器A中元素为A1 A2 A3

3、A4(均为由低到高)，则执行C=shuffle(A, A, 0x1B)后，C中元素为( )SSE寄存器A中元素为A1 A2 A3 A4(均为由低到高)，则执行C=shuffle(A, A, 0x1B)后，C中元素为( )A.A1 A2 A3 A4B.A2 A1 A4 A3C.A3 A4 A1 A2D.A4 A3 A2 A1参考答案：D10. 全球500强超算在操作系统上越来越体现出_一家独大的趋势。A.UnixB.WindowsC.LinuxD.ios参考答案：C11. 采用划分子矩阵技术优化矩阵乘法CUDA程序，子矩阵数组变量声明应加_前缀。A._global_B._device_C._sh

4、ared_D._private_参考答案：C12. 为利用cache空间局部性，需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点参考答案：D13. OpenMP编译指示中说明私有变量是用_子句。OpenMP编译指示中说明私有变量是用_子句。A.privateB.sharedC.scheduleD.nowait参考答案：A14. 两个n*n的矩阵相乘，将所有n2个乘法计算划分给不同进程，再将对应某行某列的n个乘法结果累加得到结果矩阵对应元素，这是一种划分的数据并行。A.输入数据B.中间结果C.输出数据D.临时数据参考答案

5、：B15. 我国最早夺得全球超级计算机计算能力冠军的是( )。A.天河1号B.天河1AC.天河2号D.神威.太湖之光参考答案：B16. 当前并行软件面临的主要挑战不包括( )。A.能耗B.伸缩性C.研发周期D.可靠性参考答案：C17. 新一代GPU重点提供的新特性不包括( )。A.新型高速显存B.GPU间直接高速互联C.自动并行化D.人工智能计算专门优化参考答案：C18. 一个SSE寄存器可容纳( )个双精度浮点数。A.2B.4C.8D.16参考答案：A19. AVX是( )平台的SIMD架构。A.x86B.POWERC.SPARCD.ARM参考答案：A20. SSE指令移动单精度浮点数，不能

6、实现_。SSE指令移动单精度浮点数，不能实现_。A.将64位数据移动到SSE寄存器高位B.将64位数据移动到SSE寄存器低位C.将32位数据移动到SSE寄存器指定位置D.在两个SSE寄存器高/低64位间移动参考答案：C21. 任务依赖图中顶点权重之和表示_。任务依赖图中顶点权重之和表示_。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案：C22. n个数求和的问题，使用n个处理器的并行算法达到了logn的运行时间，则算法( )。A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案：A23. 为缓解存储和CPU之间的性能差距，常见的技术手段不包括_。A.

7、利用cache降低访存延迟B.利用多线程隐藏访存延迟C.利用预取隐藏访存延迟D.采用大容量内存提高访问速度参考答案：D24. OpenMP主要是通过( )来更高层抽象的多线程编程。A.设计实现新的语言B.为现有语言提供大量库函数C.为现有语言扩展编译指示D.新编译器实现自动并行化参考答案：C25. 采用划分子矩阵方法实现矩阵乘法，在进行SSE并行化时，是对(由外至内数)第_层循环进行循环展开然后向量化。采用划分子矩阵方法实现矩阵乘法，在进行SSE并行化时，是对(由外至内数)第_层循环进行循环展开然后向量化。A.3B.4C.5D.6参考答案：D26. 四位助教帮助教授批改300份试卷，试卷共16

8、道题，每位助教负责批改所有试卷的4道题，这是一种_任务划分方法。四位助教帮助教授批改300份试卷，试卷共16道题，每位助教负责批改所有试卷的4道题，这是一种_任务划分方法。A.数据并行B.任务并行C.搜索并行D.预测并行参考答案：B27. 任务依赖图中顶点权重之和表示( )。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案：C28. 编写矩阵乘法的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。编写矩阵乘法的Neon程序，若矩阵元素为单精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：B29. SSE寄存器

9、A和B中元素分别为A1 A2 A3 A4和B1 B2 B3 B4(均为由低到高)，则执行C=blend(A，B，0x05)后，C中元素为( )。A.A1 A2 B3 B4B.B1 B2 A3 A4C.A1 B2 A3 B4D.B1 A2 B3 A4参考答案：D30. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的优点是_。A.更有利于负载均衡B.减少了通信开销C.降低了计算次数D.减少了从进程空闲参考答案：B31. 执行pt

10、hread_rwlock_rdlock时，( )的情况下加锁成功。A.已有一个线程上了写锁B.已有多个线程上了写锁C.已有多个线程上了读锁D.已有多个线程上了读锁和写锁参考答案：C32. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，就计算出了结果矩阵的一个元素，这种说法是_。对矩阵乘法串行程序主体三重循环的最内层循环进行向量化，则该循环执行完毕后，就计算出了结果矩阵的一个元素，这种说法是_。A.正确的B.错误的参考答案：B33. 采用MPI主从模型解决矩阵每行排序问题，主进程每次向一个从进程发送10行作为一个任务相对于每次发送1行的缺点是_。A.更不利于负载均衡B

11、.增大了通信开销C.提高了计算次数D.增加了从进程空闲参考答案：A34. 下列哪门课程不是并行程序设计的先导课?下列哪门课程不是并行程序设计的先导课?A.计算机概论B.高级语言程序设计C.计算机体系结构D.数据库系统参考答案：D35. 使用( )无法直接实现“主线程唤醒4个从线程去执行任务”。A.1个信号量B.障碍C.1个互斥量D.4个互斥量参考答案：C36. OpenMP中指定单线程执行的指令是( )。A.omp atomicB.omp onlyC.omp staticD.omp single参考答案：D37. 静态线程编程模式的缺点是_。静态线程编程模式的缺点是_。A.线程管理开销高B.系

12、统资源利用率低C.线程负载不均D.线程通信开销高参考答案：B38. 使用一个信号量实现“主线程等待4个从线程完成任务”，信号量初始值应设置为( )。A.0B.1C.2D.4参考答案：A39. for (i=0;iA.可完全向量化B.不可向量化C.不确定D.可部分向量化参考答案：D40. float a64; for(i=0; iA.1B.2C.3D.4参考答案：B41. 在使用条件变量之前必须对其进行_。在使用条件变量之前必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案：A42. 在条件成立时使用pthread_cond_signal( )。A.唤醒等待线程B.解锁互斥量C.加锁互斥

13、量D.唤醒等待线程，该线程重新加锁互斥量参考答案：D43. 全球500强超算在CPU、网络等硬件上越来越体现出采用( )的趋势。A.特殊硬件B.通用硬件C.非公开硬件D.廉价硬件参考答案：B44. 对两个互斥量a、b，线程1执行lock(a);lock(b);，线程2执行lock(b);lock(a),则两个线程间会发生_。对两个互斥量a、b，线程1执行lock(a);lock(b);，线程2执行lock(b);lock(a),则两个线程间会发生_。A.竞争条件B.数据依赖C.资源泄漏D.死锁参考答案：D45. 一个Neon寄存器最多存放_个双精度浮点数。一个Neon寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案：A46. 1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?1

展开阅读全文