南开大学22春《并行程序设计》离线作业二及答案参考75

上传人:工**** 文档编号:489913549 上传时间:2023-04-22 格式:DOCX 页数:15 大小:14.93KB
返回 下载 相关 举报
南开大学22春《并行程序设计》离线作业二及答案参考75_第1页
第1页 / 共15页
南开大学22春《并行程序设计》离线作业二及答案参考75_第2页
第2页 / 共15页
南开大学22春《并行程序设计》离线作业二及答案参考75_第3页
第3页 / 共15页
南开大学22春《并行程序设计》离线作业二及答案参考75_第4页
第4页 / 共15页
南开大学22春《并行程序设计》离线作业二及答案参考75_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《南开大学22春《并行程序设计》离线作业二及答案参考75》由会员分享,可在线阅读,更多相关《南开大学22春《并行程序设计》离线作业二及答案参考75(15页珍藏版)》请在金锄头文库上搜索。

1、南开大学22春并行程序设计离线作业二及答案参考1. pthread_join的作用是( )。A.强制终止指定线程B.检测指定线程是否结束C.等待指定线程结束才返回D.向指定线程发送数据参考答案:C2. OpenMP编译指示是以( )开头的。A.“#include”B.“#ifdef”C.“#pragam”D.“#else”参考答案:C3. 并行计算的新兴应用领域不包括_。A.制药B.数字媒体C.国防D.游戏参考答案:C4. n个节点的超立方构造成本为( )。A.OlognB.OsqrtnC.OnD.Onlogn参考答案:D5. 每个SSE寄存器宽度为_位。每个SSE寄存器宽度为_位。A.32B

2、.64C.128D.256参考答案:C6. 在使用互斥量之后必须对其进行_。在使用互斥量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案:D7. 采用划分子矩阵方法实现矩阵乘法,在进行SSE并行化时,是对(由外至内数)第_层循环进行循环展开然后向量化。采用划分子矩阵方法实现矩阵乘法,在进行SSE并行化时,是对(由外至内数)第_层循环进行循环展开然后向量化。A.3B.4C.5D.6参考答案:D8. 多个线程进行并行求和,每个线程将自己负责的值依次读入局部变量x,累加到全局变量sum上,sum+=x,对此,下面说法正确的是( )多个线程进行并行求和,每个线程将自己负责的值依次读入局部

3、变量x,累加到全局变量sum上,sum+=x,对此,下面说法正确的是( )A.读取x存在数据依赖,不能并发进行B.累加顺序被改变,结果是错误的C.加法操作是简单运算,无需同步D.加法操作不是原子操作,需要同步保证数据依赖参考答案:D9. 如果运算对象是独立无关的变量,则在向量运算之前需_。A.将变量拷贝到连续区域B.将变量地址拷贝到连续区域C.将变量逐个传输到向量寄存器D.以上皆错参考答案:A10. 下列哪门课程不是并行程序设计的先导课?( )A.计算机概论B.高级语言程序设计C.计算机体系结构D.数据库系统参考答案:D11. R*=1.3; G+=1.8; B+=1.2; X*=1.1,此程

4、序片段可进行SIMD并行化吗?( )A.不可以B.可以C.不确定D.以上皆错参考答案:A12. OpenMP编译指示中说明私有变量是用_子句。OpenMP编译指示中说明私有变量是用_子句。A.privateB.sharedC.scheduleD.nowait参考答案:A13. 在矩阵乘法之前将第二个矩阵转置,其作用不包括_。A.增大访存空间局部性B.减少运算次数C.优化SIMD访存D.以上皆错参考答案:B14. 除了用于解决竞争条件外,互斥量还可用于( )。A.解决共享资源竞争的问题B.解决并发度低的问题C.解决通信开销大的问题D.解决负载不均的问题参考答案:A15. 任务依赖图中顶点权重之和

5、表示_。任务依赖图中顶点权重之和表示_。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案:C16. 记并行时间为T,串行时间为T&39;,处理器数量为p,效率为E,则代价最优的定义是( )。A.pT=TB.E=(1)C.E=pT/TD.E=T/pT参考答案:B17. 编写矩阵乘法的SSE程序,若矩阵元素为双精度浮点数,则应对矩阵乘加计算的循环进行( )路循环展开。A.2B.4C.8D.16参考答案:A18. SSE intrinsics_mm_load_ss命令的功能是( )。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐标量读取单精度浮点数D.未对齐标量读取

6、单精度浮点数参考答案:C19. 以下哪条不是推动并行计算发展的因素?( )A.存储是系统瓶颈B.单CPU发展已能满足应用需求C.利用标准硬件构造并行机令升级容易D.编程环境标准化逐步发展参考答案:B20. SSE运算指令中未提供_指令。A.算术运算B.矩阵运算C.逻辑运算D.比较运算参考答案:B21. CPU cache大小为32KB,64*64的两个矩阵进行加法计算,下面说法正确的是_。CPU cache大小为32KB,64*64的两个矩阵进行加法计算,下面说法正确的是_。A.可利用cache时间局部性优化性能B.可利用cache空间局部性优化性能C.可通过矩阵分片优化性能D.访存方面无优化

7、可能参考答案:B22. 一个Neon寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案:A23. SSE intrinsics_mm_loadu_ps命令的功能是( )。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐向量读取双精度浮点数D.未对齐向量读取双精度浮点数参考答案:B24. 下面哪种架构最适合数据并行?( )A.SISDB.SIMDC.MISDD.MIMD参考答案:B25. SSE寄存器A和B中元素分别为A1 A2 A3 A4和B1 B2 B3 B4(均为由低到高),则执行C=blend(A,B,0x05)后,C中元素为( )。A.A1 A2 B3

8、 B4B.B1 B2 A3 A4C.A1 B2 A3 B4D.B1 A2 B3 A4参考答案:D26. 对矩阵乘法串行程序主体三重循环的最内层循环进行向量化,则该循环执行完毕后,还需进行SIMD寄存器中几个元素的( )操作才能得到结果矩阵的一个元素。A.排列B.交换C.广播D.归约参考答案:D27. SSE intrinsics _mm_load_pd命令的功能是_。SSE intrinsics _mm_load_pd命令的功能是_。A.对齐向量读取单精度浮点数B.未对齐向量读取单精度浮点数C.对齐向量读取双精度浮点数D.未对齐向量读取双精度浮点数参考答案:C28. 任务依赖图中顶点权重之和表

9、示( )。A.任务数B.任务难度C.串行执行时间D.并行执行时间参考答案:C29. 以下( )是MPI基本原语。A.MPI_barrierB.MPI_Comm_numprocsC.MPI_Comm_rankD.MPI_Comm_Send参考答案:C30. 互斥量是一种( )同步机制。A.一元状态B.二元状态C.多元状态D.以上皆错参考答案:C31. 我国最早夺得全球超级计算机计算能力冠军的是( )。A.天河1号B.天河1AC.天河2号D.神威.太湖之光参考答案:B32. 若SIMD并行化时遇到对齐问题,下列说法正确的是( )。A.只能使用不对齐访存指令B.不能进行SIMD并行化C.对齐开销可能

10、完全抵消SIMD并行收益D.以上皆错参考答案:C33. SIMD并行化时遇到对齐问题,高效的处理方法是( )。A.直接使用SIMD不对齐访存指令B.将数据拷贝到对齐的内存地址C.重写算法保证对齐访问D.串行处理到对齐边界,然后进行SIMD对齐访存参考答案:D34. 对矩阵每行排序的程序进行多线程并行化,对矩阵采用_。A.简单均匀块划分即可保证负载均衡B.循环划分才能实现负载均衡C.动态划分才能实现负载均衡D.随机划分才能实现负载均衡参考答案:C35. OpenMP默认采用_循环划分策略。A.静态B.固定C.动态D.自适应参考答案:A36. 一个Neon寄存器最多存放_个双精度浮点数。一个Neo

11、n寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案:A37. n个数求和的串行程序,通过一个循环将每个数累加到全局变量sum中,其多线程版本简单将循环范围改变为每个线程负载的范围,存在的问题是_。n个数求和的串行程序,通过一个循环将每个数累加到全局变量sum中,其多线程版本简单将循环范围改变为每个线程负载的范围,存在的问题是_。A.负载不均B.通信开销大C.CPU空闲等待严重D.sum累加产生竞争条件,导致结果错误参考答案:D38. 两个矩阵相乘,若矩阵规模大于cache大小,则优化访存的可行方法是( )。A.先将两个矩阵读入cache再进行乘法B.先转置第一个矩阵再进行乘法

12、C.先转置第二个矩阵再进行乘法D.以上皆错参考答案:C39. 对于并行程序设计,下面说法错误的是_。对于并行程序设计,下面说法错误的是_。A.天然具有复杂性B.算法移植困难C.软件开发标准环境发展相对之后D.不应发展这个方向参考答案:D40. SIMD并行模式是将多个_运算打包并发执行。A.不同B.相同C.混合D.依赖参考答案:B41. OpenMP不会自动地在_位置设置barrier。A.并行结构开始B.并行结构结束C.其他控制结构开始D.其他控制结构结束参考答案:C42. 对天气预报问题,将大气层划分为5*108个网格单元,每个时间步每个网格需200个浮点运算,时间间隔设置为10分钟,计算

13、10天内大气运动,100MFlops计算能力的计算机需要多少天?( )对天气预报问题,将大气层划分为5*108个网格单元,每个时间步每个网格需200个浮点运算,时间间隔设置为10分钟,计算10天内大气运动,100MFlops计算能力的计算机需要多少天?( )A.1B.10C.100D.300参考答案:C43. 在SSE intrinsics程序中双精度浮点数数据类型是_。在SSE intrinsics程序中双精度浮点数数据类型是_。A._m128B._m128fC._m128dD._m128i参考答案:C44. OpenMP是_架构下的一种编程工具。OpenMP是_架构下的一种编程工具。A.SIMDB.MISDC.共享内存D.分布式内存参考答案:C45. 将寄存器设置为4个单精度浮点数0.0的SSE intrinsics指令是( )。A._mm_set_psB._mm_set1_ssC._mm_setzero_ssD._mm_setze

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号