20秋学期(1709、1803、1809、1903、1909、2003、2009 )《并行程序设 计》在线作业(二)

上传人:易** 文档编号:148637841 上传时间:2020-10-21 格式:DOCX 页数:10 大小:19.30KB
返回 下载 相关 举报
20秋学期(1709、1803、1809、1903、1909、2003、2009 )《并行程序设 计》在线作业(二)_第1页
第1页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《20秋学期(1709、1803、1809、1903、1909、2003、2009 )《并行程序设 计》在线作业(二)》由会员分享,可在线阅读,更多相关《20秋学期(1709、1803、1809、1903、1909、2003、2009 )《并行程序设 计》在线作业(二)(10页珍藏版)》请在金锄头文库上搜索。

1、20秋学期(1709、1803、1809、1903、1909、2003、2009 )并行程序设 计在线作业(二)共50道题 总分:100分1、 单选题 共50题,100分1. SSE指令移动单精度浮点数,不能实现_。 A 将64位数据移动到SSE寄存器高位 B 将64位数据移动到SSE寄存器低位 C 将32位数据移动到SSE寄存器指定位置 D 在两个SSE寄存器高/低64位间移动2. 以下超级计算机中,_不是SIMD架构。 A CDCSTAR-100 B 757 C 银河 D 天河1号3. 下列指令集中_不是SIMD指令集。 A SSE B Neon C AVX D EMT644. SSE寄存

2、器A和B中元素分别为A1 A2 A3 A4和B1 B2 B3 B4(均为由低到高),则执行C=blend(A, B, 0x05)后,C 中元素为 A A1 A2 B3 B4 B B1 B2 A3 A4 C A1 B2 A3 B4 D B1 A2 B3 A45. 以下哪条不是推动并行计算发展的因素? A 存储是系统瓶颈 B 单CPU发展已能满足应用需求 C 利用标准硬件构造并行机令升级容易 D 编程环境标准化逐步发展6. 在使用互斥量之前必须对其进行_。 A 初始化 B 加锁 C 解锁 D 销毁7. 全球500强超算在CPU、网络等硬件上越来越体现出采用_的趋势。 A 特殊硬件 B 通用硬件 C

3、 非公开硬件 D 廉价硬件8. 有大量分支指令的程序不适合下面哪种体系结构上进行并行化? A SISD B SIMD C SPMD D MIMD 9. Pthread不支持_。 A 创建并发执行线程 B 同步 C 非显式通信 D 自动并行化10. 在超市的顾客购买商品记录中统计一些商品组合的购买频率,将购买频率(商品组合)划分给不同进程,这是一种 划分_的数据并行策略。 A 输入数据 B 中间结果 C 输出数据 D 临时数据11. 当处理器数量不变时,随着问题规模增大,加速比_。 A 所有算法都增大 B 所有算法都减小 C 代价最优算法都增大 D 代价最优算法都减小12. 两个矩阵相乘,若矩阵

4、总规模小于cache大小,则优化访存的最佳方法是_。 A 先将两个矩阵读入cache再进行乘法 B 先转置第一个矩阵再进行乘法 C 先转置第二个矩阵再进行乘法 D 以上皆错13. 关于消息传递编程的特点,以下说法正确的是_。 A 与共享内存一样有竞争条件 B 编程简单 C 需程序员考虑局部性 D 无需考虑进程间通信14. 编译器编译OpenMP并行循环时,会自动生成一些代码,其中不包括_。 A 创建和管理线程代码 B 循环划分给线程的代码 C 找出数据依赖的代码 D 线程同步的代码 15. n个数求和的问题,使用n个处理器的并行算法达到了logn的运行时间,则算法_。 A 肯定不是代价最优 B

5、 肯定是代价最优 C 不确定是否代价最优 D 以上皆错16. 任务依赖图中权重之和最长的路径称为_。 A 最大任务 B 关键路径 C 平均并发度 D 最短路径17. 将起泡排序程序改写为奇偶转置排序,关于其两层循环是否存在数据依赖,下面说法正确的是_。 A 外层存在,内层不存在 B 外层不存在,内层存在 C 两层都不存在 D 两层都存在18. 在下面问题中,SIMD并行最不适合_。 A 向量加法 B 向量中元素排序 C 矩阵向量乘法 D 矩阵加法19. OpenMP编译指示是以_开头的。 A #include B #ifdef C #pragam D #else20. 一个SSE寄存器可容纳_

6、个短整型数。 A 2 B 4 C 8 D 1621. 当前并行软件面临的主要挑战不包括_。 A 能耗 B 伸缩性 C 研发周期 D 可靠性22. 创建线程时,我们通过_将线程号分别传递给每个线程。 A 全局变量 B 局部变量 C 动态分配变量 D pthread_create的“线程函数参数”参数23. 利用cache line一次读取多个数据字的机制优化程序访存性能,其机理是_。 A 降低了访存延迟 B 隐藏了访存延迟 C 利用了cache空间局部性 D 利用了cache时间局部性24. R*=1.3;G+=1.8;B+=1.2;X*=1.1,此程序片段可进行SIMD并行化吗? A 不可以

7、B 可以 C 不确定 D 以上皆错25. SSE intrinsics _mm_loadu_ps命令的功能是_。 A 对齐向量读取单精度浮点数 B 未对齐向量读取单精度浮点数 C 对齐向量读取双精度浮点数 D 未对齐向量读取双精度浮点数26. 互斥量是一种_同步机制。 A 一元状态 B 二元状态 C 多元状态 D 以上皆错27. AVX是_平台的SIMD架构。 A x86 B POWER C SPARC D ARM28. 除了用于解决竞争条件外,互斥量还可用于_。 A 解决共享资源竞争的问题 B 解决并发度低的问题 C 解决通信开销大的问题 D 解决负载不均的问题29. 在分布式内存架构编程中

8、,进程间不能_。 A 进行通信 B 进行同步 C 发送和接收消息 D 通过读写变量交换数据30. 关于OpenMP循环并行程序的编写,下列说法中不正确的是_。 A 程序员无需编写线程创建和管理代码 B 程序员无需编写循环划分代码 C 程序员需指出哪个循环应并行 D 程序员需编写线程同步代码31. 限制CPU内流水线深度的因素包括_。 A 指令复杂程度 B 分支预测性能 C CPU核心数 D CPU cache大小32. SSE数据移动指令分类不包括_。 A 对齐传输 B 未对齐传输 C 标量传输 D 缓存传输33. 将t个线程的局部结果汇总,可采用递归分解并行进行,即,两两汇总,中间结果继续两

9、两汇总,直到剩下唯一的最 终结果,其时间复杂度为_。 A (1) B (logt) C (t) D (tlogt)34. 一个SSE寄存器可容纳_个双精度浮点数。 A 2 B 4 C 8 D 16 35. 对这样的循环for (i=0; i100; i+=1) Ai+0 = Ai+0 + Bi+0; 进行向量化,基本技术手段是_。 A 循环划分 B 循环消除 C 循环展开 D 以上皆错36. 在128位的SIMD寄存器中,我们不能保存_。 A 16个8位整数 B 8个16位短整型 C 4个32位整型 D 16个字符的字符串37. float a64; for (i=0; i60; i+=4)

10、Va = ai+2:i+5; 系统向量化访存是按16字节对齐的,则此向量化程序每 个循环步产生_个内存访问操作。 A 1 B 2 C 3 D 438. 两个n*n的矩阵相乘,将所有n2个乘法计算划分给不同进程,再将对应某行某列的n个乘法结果累加得到结果 矩阵对应元素,这是一种划分_的数据并行。 A 输入数据 B 中间结果 C 输出数据 D 临时数据39. 忙等待方法解决竞争条件的思路是_。 A 令CPU一直处于忙碌状态无法产生竞争条件 B 令存在数据依赖的内存操作充分并行 C 强制多线程进入临界区的顺序来将存在数据依赖内存操作串行化 D 以上皆错40. SSE的blend指令的8位二进制整数参

11、数被用做8个掩码imm80:7,若imm8j=0则表示_。 A 将第一个源寄存器的第j个元素放在目标寄存器位置0 B 将第二个源寄存器的第j个元素放在目标寄存器位置0 C 将第一个源寄存器的第j个元素放在目标寄存器位置j D 将第二个源寄存器的第j个元素放在目标寄存器位置j41. CUDA线程层次中不包括_。 A Kernel B Grid C Block D Thread 42. 将寄存器设置为4个单精度浮点数0.0的SSE intrinsics指令是_。 A _mm_set_ps B _mm_set1_ss C _mm_setzero_ss D _mm_setzero_ps43. floa

12、t a64; for (i=0; i64; i+=4) Va = ai:i+3; 此向量化程序内存访问完全对齐,每个循环步恰好是一次对 齐的内存访问,则该系统向量化访存是按_字节对齐。 A 8 B 16 C 32 D 6444. 对单精度浮点计算,AVX最高实现_路并行。 A 2 B 4 C 8 D 1645. MPI默认点对点通信模式是_。 A 阻塞的 B 非阻塞的 C 对等的 D 主从的46. 以下_是MPI基本原语。 A MPI_barrier B MPI_Comm_numprocs C MPI_Comm_rank D MPI_Comm_Send47. 在SSE intrinsics程序中双精度浮点数数据类型是_。 A _m128 B _m128f C _m128d D _m128i48. 在对互斥量进行解锁时,还会执行_操作。 A 互斥量初始化 B 互斥量销毁 C 唤醒阻塞线程 D 以上皆错49. SSE intrinsics _mm_load_ss命令的功能是_。 A 对齐向量读取单精度浮点数 B 未对齐向量读取单精度浮点数 C 对齐标量读取单精度浮点数 D 未对齐标量读取单精度浮点数50. 求解同一个问题的4个并行算法的等效率函数分析结果如下,其中_的可扩展性最优。 A (plogp) B (p2) C (p2logp) D (p3)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 习题/试题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号