南开大学21秋《并行程序设计》在线作业二答案参考42

上传人:ni****g 文档编号:511763468 上传时间:2023-02-21 格式:DOCX 页数:15 大小:14.80KB
返回 下载 相关 举报
南开大学21秋《并行程序设计》在线作业二答案参考42_第1页
第1页 / 共15页
南开大学21秋《并行程序设计》在线作业二答案参考42_第2页
第2页 / 共15页
南开大学21秋《并行程序设计》在线作业二答案参考42_第3页
第3页 / 共15页
南开大学21秋《并行程序设计》在线作业二答案参考42_第4页
第4页 / 共15页
南开大学21秋《并行程序设计》在线作业二答案参考42_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《南开大学21秋《并行程序设计》在线作业二答案参考42》由会员分享,可在线阅读,更多相关《南开大学21秋《并行程序设计》在线作业二答案参考42(15页珍藏版)》请在金锄头文库上搜索。

1、南开大学21秋并行程序设计在线作业二答案参考1. 在使用互斥量之后必须对其进行( )。A.初始化B.加锁C.解锁D.销毁参考答案:D2. pthread_create函数中设置一个参数为“线程函数参数”的原因是_。A.它调用线程函数时可直接传递,性能更优B.它需要预处理之后传递给线程函数C.线程函数不是用户程序调用,只能采用这种方式由系统代为传递参数D.没有特别用意参考答案:C3. 并行计算的新兴应用领域不包括_。A.制药B.数字媒体C.国防D.游戏参考答案:C4. 编写矩阵乘法的SSE程序,若矩阵元素为双精度浮点数,则应对矩阵乘加计算的循环进行( )路循环展开。A.2B.4C.8D.16参考

2、答案:A5. 将寄存器设置为4个给定单精度浮点数的SSE intrinsics指令是_。A._mm_set_psB._mm_set1_ssC._mm_setzero_ssD._mm_setzero_ps参考答案:A6. MPI原址收发各一条消息的API是_。A.MPI_SendrecvB.MPI_SendC.MPI_RecvD.MPI_Sendrecv_Replace参考答案:D7. 对于科学仿真并行计算的一般方法,哪个步骤的描述是错误的?对于科学仿真并行计算的一般方法,哪个步骤的描述是错误的?A.将空间离散化为网格B.在网络上进行局部计算C.局部计算结果完全独立D.重复若干时间步参考答案:C

3、8. 在SSE intrinsics程序中双精度浮点数数据类型是_。在SSE intrinsics程序中双精度浮点数数据类型是_。A._m128B._m128fC._m128dD._m128i参考答案:C9. 使用( )无法直接实现“主线程唤醒4个从线程去执行任务”。A.1个信号量B.障碍C.1个互斥量D.4个互斥量参考答案:C10. 编写n个数求和的OpenMP程序,最高效的方法是( )。A.多线程直接并发累加到共享变量B.将累加操作设置为临界区C.在累加操作前设置障碍D.采用归约指令参考答案:D11. MPI组通信操作不包括哪类_。MPI组通信操作不包括哪类_。A.通信B.同步C.点对点D

4、.计算参考答案:C12. n个元素排序问题,如果只能通过元素比较交换构造算法,则n个处理器的并行排序算法达到( )的运行时间才是代价最优的。A.O(logn)B.O(n)C.O(nlogn)D.O(n2)参考答案:A13. 对单精度浮点计算,SSE最高实现_路并行。对单精度浮点计算,SSE最高实现_路并行。A.2B.4C.8D.16参考答案:B14. 一个Neon寄存器最多存放_个双精度浮点数。一个Neon寄存器最多存放_个双精度浮点数。A.2B.4C.8D.16参考答案:A15. 条件变量相对于互斥量的优点是_。A.是多源状态B.加锁解锁开销低C.条件不成立时阻塞线程并自动解锁加锁D.以上皆

5、错参考答案:C16. 在使用条件变量之后必须对其进行_。在使用条件变量之后必须对其进行_。A.初始化B.加锁C.解锁D.销毁参考答案:D17. 我国最近一次夺得全球超级计算机计算能力冠军的是_。A.天河1号B.天河1AC.天河2号D.神威太湖之光参考答案:D18. n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法_。n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法_。A.肯定不是代价最优B.肯定是代价最优C.不确定是否代价最优D.以上皆错参考答案:A19. 造成超线性加速比的你原因包括_。造成超线性加速比的你原因包括_。A.进程间大量通信B.

6、并行算法导致额外计算C.并行计算工作量显著小于串行计算D.问题求解包含不可并行化部分参考答案:C20. 编写矩阵乘法的AVX程序,若矩阵元素为单精度浮点数,则应对矩阵乘加计算的循环进行_路循环展开。编写矩阵乘法的AVX程序,若矩阵元素为单精度浮点数,则应对矩阵乘加计算的循环进行_路循环展开。A.2B.4C.8D.16参考答案:C21. for (i=0;iA.可完全向量化B.不可向量化C.不确定D.可部分向量化参考答案:D22. 1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?( )

7、1) R=XR*1.3;G=XG*1.8;B=XB*1.1; 2) R=X0*1.3;G=X1*1.8;B=X2*1.1;这两个程序片段哪个进行向量化效率更高?( )A.1B.2C.不确定D.以上皆错参考答案:B23. CUDA线程层次中不包括( )。A.KernelB.GridC.BlockD.Thread参考答案:A24. 以下超级计算机中,( )不是SIMD架构。A.CDCSTAR-100B.757C.银河D.天河1号参考答案:D25. 为利用cache空间局部性,需满足_。A.cache空间足够大B.cache line足够大C.程序访问的数据量足够小D.程序访存模式符合空间局部性特点

8、参考答案:D26. Flynn分类法中,下面哪种体系结构在实际中几乎没有意义?( )A.SISDB.SIMDC.MISDD.MIMD参考答案:C27. Pthread不支持( )。A.创建并发执行线程B.同步C.非显式通信D.自动并行化参考答案:D28. 对一个串行程序进行SIMD并行化,应重点考虑的程序部分是_。对一个串行程序进行SIMD并行化,应重点考虑的程序部分是_。A.声明语句B.条件分支语句C.循环语句D.输入输出语句参考答案:C29. 一个SSE寄存器可容纳( )个短整型数。A.2B.4C.8D.16参考答案:C30. FORTRAN语言存储二维数组采取_。FORTRAN语言存储二

9、维数组采取_。A.行主次序存储B.列主次序存储C.交错式存储D.对角线存储参考答案:B31. 对划分输入数据的策略,下面说法错误的是_。对划分输入数据的策略,下面说法错误的是_。A.当输出数据很少时,需划分输入数据B.当输出数据存在依赖时,需划分输入数据C.通常最后需要汇总结果D.由于不是直接划分输出数据,性能会很差参考答案:D32. pthread_rwlock_wrlock是对读写锁进行_操作。pthread_rwlock_wrlock是对读写锁进行_操作。A.加锁B.解锁C.加读琐D.加写锁参考答案:D33. SSE是_平台的SIMD架构。A.x86B.POWERC.SPARCD.ARM

10、参考答案:A34. 指定线程间划分循环策略的OpenMP子句是_。A.sharedB.reductionC.scheduleD.nowait参考答案:C35. 为缓解存储和CPU之间的性能差距,常见的技术手段不包括_。A.利用cache降低访存延迟B.利用多线程隐藏访存延迟C.利用预取隐藏访存延迟D.采用大容量内存提高访问速度参考答案:D36. float a64; for(i=0; iA.1B.2C.3D.4参考答案:B37. SSE intrinsics _mm_load_pd命令的功能是_。SSE intrinsics _mm_load_pd命令的功能是_。A.对齐向量读取单精度浮点数B

11、.未对齐向量读取单精度浮点数C.对齐向量读取双精度浮点数D.未对齐向量读取双精度浮点数参考答案:C38. 在128位的SIMD寄存器中,我们不能保存( )。A.16个8位整数B.8个16位短整型C.4个32位整型D.16个字符的字符串参考答案:D39. 对天气预报问题,将大气层划分为5*108个网格单元,每个时间步每个网格需200个浮点运算,时间间隔设置为10分钟,计算10天内大气运动,100MFlops计算能力的计算机需要多少天?( )对天气预报问题,将大气层划分为5*108个网格单元,每个时间步每个网格需200个浮点运算,时间间隔设置为10分钟,计算10天内大气运动,100MFlops计算

12、能力的计算机需要多少天?( )A.1B.10C.100D.300参考答案:C40. 多个线程进行并行求和,每个线程将自己负责的值依次读入局部变量x,累加到全局变量sum上,sum+=x,对此,下面说法正确的是( )。A.读取x存在数据依赖,不能并发进行B.累加顺序被改变,结果是错误的C.加法操作是简单运算,无需同步D.加法操作不是原子操作,需要同步保证数据依赖参考答案:D41. MPI不包括的通信类别是_。A.点对点通信B.数据传输组通信C.计算和数据传输组通信D.加锁解锁通信参考答案:D42. 利用cache line一次读取多个数据字的机制优化程序访存性能,其机理是( )。A.降低了访存延

13、迟B.隐藏了访存延迟C.利用了cache空间局部性D.利用了cache时间局部性参考答案:C43. 求解同一个问题的4个并行算法的等效率函数分析结果如下,其中( )的可扩展性最优。A.(plogp)B.(p2)C.(p2logp)D.(p3)参考答案:A44. OpenMP不会自动地在_位置设置barrier。OpenMP不会自动地在_位置设置barrier。A.并行结构开始B.并行结构结束C.其他控制结构开始D.其他控制结构结束参考答案:C45. 在下列应用中,SIMD最不适合_。A.图像处理B.音频处理C.科学计算D.数据库查询参考答案:D46. SIMD并行模式是将多个_运算打包并发执行。A.不同B.相同C.混合D.依赖参考答案:B47. 每个AVX寄存器宽度为_位。每个AVX寄

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号