南开大学21秋《并行程序设计》在线作业三答案参考92

资源描述

《南开大学21秋《并行程序设计》在线作业三答案参考92》由会员分享，可在线阅读，更多相关《南开大学21秋《并行程序设计》在线作业三答案参考92（15页珍藏版）》请在金锄头文库上搜索。

1、南开大学21秋并行程序设计在线作业三答案参考1. CPU cache大小为32KB，64*64的两个矩阵进行加法计算，下面说法正确的是_。CPU cache大小为32KB，64*64的两个矩阵进行加法计算，下面说法正确的是_。A.可利用cache时间局部性优化性能B.可利用cache空间局部性优化性能C.可通过矩阵分片优化性能D.访存方面无优化可能参考答案：B2. 在编写使用n个线程进行n个数求和的OpenMP的程序时采用临界区技术，则多线程版本_串行版本。A.肯定快于B.肯定慢于C.可能快于D.以上皆错参考答案：B3. 以下超级计算机中，( )不是SIMD架构。A.CDCSTAR-100B.

2、757C.银河D.天河1号参考答案：D4. 任务依赖图的平均并发度的定义是( )。A.顶点权重之和B.顶点数C.各层平均顶点数D.顶点权重之和/关键路径长度参考答案：D5. 编写矩阵乘法的Neon程序，若矩阵元素为双精度浮点数，则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案：A6. 主线程通过_函数获取特定线程的返回结果。主线程通过_函数获取特定线程的返回结果。A.pthread_createB.pthread_joinC.pthread_cancelD.pthread_get参考答案：B7. SSE寄存器A和B中元素分别为A1 A2 A3 A4和B1 B2 B3

3、 B4(均为由低到高)，则执行C=blend(A，B，0x05)后，C中元素为( )。A.A1 A2 B3 B4B.B1 B2 A3 A4C.A1 B2 A3 B4D.B1 A2 B3 A4参考答案：D8. 将t个线程的局部结果汇总，可采用递归分解并行进行，即，两两汇总，中间结果继续两两汇总，直到剩下唯一的最终结果，其时间复杂度为( )。A.(1)B.(logt)C.(t)D.(tlogt)参考答案：B9. 对两个互斥量a、b，线程1执行lock(a);lock(b);，线程2执行lock(b);lock(a),则两个线程间会发生_。对两个互斥量a、b，线程1执行lock(a);lock(b)

4、;，线程2执行lock(b);lock(a),则两个线程间会发生_。A.竞争条件B.数据依赖C.资源泄漏D.死锁参考答案：D10. 对划分输入数据的策略，下面说法错误的是_。对划分输入数据的策略，下面说法错误的是_。A.当输出数据很少时，需划分输入数据B.当输出数据存在依赖时，需划分输入数据C.通常最后需要汇总结果D.由于不是直接划分输出数据，性能会很差参考答案：D11. MPI默认点对点通信模式是( )。A.阻塞的B.非阻塞的C.对等的D.主从的参考答案：A12. 记并行时间为T，串行时间为T&39;，处理器数量为p，效率为E，则代价最优的定义是( )。A.pT=TB.E=(1)C.E=pT

5、/TD.E=T/pT参考答案：B13. 我国首次获得戈登贝尔奖是在_年。我国首次获得戈登贝尔奖是在_年。A.2015B.2016C.2017D.2018参考答案：B14. 华尔街是世界上超级计算机最密集的区域之一，原因是( )。A.金融巨头支付得起B.与超算制造商有良好合作C.海量交易需要很高安全性D.海量交易处理需要并行计算参考答案：D15. 为了实现向量计算，SIMD架构还需提供_。为了实现向量计算，SIMD架构还需提供_。A.更大的内存容量B.更快的内存传输C.更宽的寄存器D.更快的网络传输参考答案：C16. 主线程创建了4个从线程然后打印一条信息，从线程打印各自的线程号，未使用任何同步

6、，则主线程打印的消息和从线程打印的线程号的相对顺序_。A.必然主线程前、从线程后B.必然从线程前、主线程后C.必然相互交织D.各种顺序皆有可能参考答案：D17. SSE intrinsics_mm_load_ss命令的功能是( )。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐标量读取单精度浮点数D.未对齐标量读取单精度浮点数参考答案：C18. 忙等待方法解决竞争条件的思路是( )。A.令CPU一直处于忙碌状态无法产生竞争条件B.令存在数据依赖的内存操作充分并行C.强制多线程进入临界区的顺序来将存在数据依赖内存操作串行化D.以上皆错参考答案：C19. 对于效率E，下面描述错

7、误的是( )。A.理想并行E=1B.总是在01之间C.可能1D.可能随着处理器数量增大趋向于0参考答案：B20. 在使用条件变量时，还需配套使用一个( )。A.互斥量B.信号量C.障碍D.自旋锁参考答案：A21. 每个SSE寄存器宽度为_位。每个SSE寄存器宽度为_位。A.32B.64C.128D.256参考答案：C22. 一个Neon寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案：A23. 在共享内存架构编程中，线程间不能通过_进行通信A.全局变量B.局部变量C.静态变量D.全局堆中变量参考答案：B24. 使用一个信号量实现“主线程等待4个从线程完成任务”，信号量初始值应

8、设置为( )。A.0B.1C.2D.4参考答案：A25. 下列哪门课程不是并行程序设计的先导课?下列哪门课程不是并行程序设计的先导课?A.计算机概论B.高级语言程序设计C.计算机体系结构D.数据库系统参考答案：D26. 关于OpenMP程序中的并行结构，以下说法正确的是( )。A.其结束时需程序员人为添加同步B.其结束时OpenMP已默认添加隐式障碍C.其结束时完全不需要同步D.其结束时必须进行同步参考答案：B27. AVX是( )平台的SIMD架构。A.x86B.POWERC.SPARCD.ARM参考答案：A28. 对矩阵每行排序的程序进行多线程并行化，对矩阵采用_。A.简单均匀块划分即可保

9、证负载均衡B.循环划分才能实现负载均衡C.动态划分才能实现负载均衡D.随机划分才能实现负载均衡参考答案：C29. OpenMP不会自动地在_位置设置barrier。OpenMP不会自动地在_位置设置barrier。A.并行结构开始B.并行结构结束C.其他控制结构开始D.其他控制结构结束参考答案：C30. 一个AVX寄存器最多存放( )个整型数。A.2B.4C.8D.16参考答案：C31. 加速比计算中串行时间应该取求解同一问题的哪个串行算法的时间_。A.任意一个串行算法B.作为并行算法基础的那个串行算法C.已知最优的串行算法D.所有串行算法的平均时间参考答案：C32. CUDA的优点不包括_。

10、CUDA的优点不包括_。A.可移植性B.入门简单C.标准的SPMD模式D.不再需要图形API参考答案：A33. 当前CPU性能提升已从依赖时钟频率提升转为更多依赖_。当前CPU性能提升已从依赖时钟频率提升转为更多依赖_。A.多核和众核技术B.突破物理局限C.改善散热D.采用新材料参考答案：A34. 下列哪门课程不是并行程序设计的先导课?( )A.计算机概论B.高级语言程序设计C.计算机体系结构D.数据库系统参考答案：D35. 将起泡排序程序改写为奇偶转置排序，关于其两层循环是否存在数据依赖，下面说法正确的是( )。A.外层存在，内层不存在B.外层不存在，内层存在C.两层都不存在D.两层都存在参

11、考答案：A36. SSE intrinsics _mm_hadd_ps命令的功能是_。SSE intrinsics _mm_hadd_ps命令的功能是_。A.寄存器间单精度浮点数向量加法B.寄存器间双精度浮点数向量加法C.寄存器内单精度浮点数加法D.寄存器内双精度浮点数加法参考答案：C37. 对于效率E，下面描述错误的是( )。A.理想并行E=1B.总是在01之间C.可能1D.可能随着处理器数量增大趋向于0参考答案：B38. pthread_create函数中设置一个参数为“线程函数参数”的原因是_。A.它调用线程函数时可直接传递，性能更优B.它需要预处理之后传递给线程函数C.线程函数不是用户

12、程序调用，只能采用这种方式由系统代为传递参数D.没有特别用意参考答案：C39. 以下哪条不是推动并行计算发展的因素?( )以下哪条不是推动并行计算发展的因素?( )A.存储是系统瓶颈B.单CPU发展已能满足应用需求C.利用标准硬件构造并行机令升级容易D.编程环境标准化逐步发展参考答案：B40. R*=1.3; G+=1.8; B+=1.2; X*=1.1，此程序片段可进行SIMD并行化吗?( )A.不可以B.可以C.不确定D.以上皆错参考答案：A41. 一个SSE寄存器可容纳( )个短整型数。A.2B.4C.8D.16参考答案：C42. 单精度浮点数矩阵乘法进行AVX并行，期望的加速比为_.单

13、精度浮点数矩阵乘法进行AVX并行，期望的加速比为_.A.等于8B.小于8C.4到8之间D.等于4参考答案：B43. 多个线程进行并行求和，每个线程将自己负责的值依次读入局部变量x，累加到全局变量sum上，sum+=x，对此，下面说法正确的是( )。A.读取x存在数据依赖，不能并发进行B.累加顺序被改变，结果是错误的C.加法操作是简单运算，无需同步D.加法操作不是原子操作，需要同步保证数据依赖参考答案：D44. 新一代GPU重点提供的新特性不包括( )。A.新型高速显存B.GPU间直接高速互联C.自动并行化D.人工智能计算专门优化参考答案：C45. SIMD架构未见于_中。SIMD架构未见于_中。A.多媒体扩展B.图形和游戏处理器C.计算机集群D.协处理器参考答案：C46. 使用_无法直接实现“主线程等待4个从线程完成任务”。A.1个信号量B.障碍C.1个互斥量D.4个互斥量

展开阅读全文