Python数据分析与可视化习题答案

上传人:AZ****01 文档编号:328753278 上传时间:2022-07-31 格式:DOCX 页数:17 大小:171.36KB
返回 下载 相关 举报
Python数据分析与可视化习题答案_第1页
第1页 / 共17页
Python数据分析与可视化习题答案_第2页
第2页 / 共17页
Python数据分析与可视化习题答案_第3页
第3页 / 共17页
Python数据分析与可视化习题答案_第4页
第4页 / 共17页
Python数据分析与可视化习题答案_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《Python数据分析与可视化习题答案》由会员分享,可在线阅读,更多相关《Python数据分析与可视化习题答案(17页珍藏版)》请在金锄头文库上搜索。

1、第一章1、 阐述统计分析与数据挖掘的特点。传统的统计分析是在已定假设、先验约束的内情况下,对数据进行整理筛选和加工,由此得到一些信息。数据挖掘是将信息需要进一步处理以获得认知,继而转为有效的预测和决策。统计分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具。2、 数据分析的基本步骤包括哪些?(1) 数据收集;(2) 数据预处理;(3) 数据分析与知识发现;(4) 数据后处理。3、 相比R语言、MATLAB、SAS、SPSS等语言或工具,Python有哪些优点?(1)Python是面向生产的;(2)强大的第三方库的支持;(3)Python的胶水语言特性。第二章选择题1、python之父是

2、下列哪位?(A)A、吉多范罗苏姆B、丹尼斯里奇C、詹姆斯高林思D、克里夫默勒2、python的缩进功能有什么作用?(C)A、增加代码可读性B、方便放置各类符号C、决定程序的结构D、方便修改程序3、python的单行注释通过什么符号完成?(B)A、双斜杠(/)B、井号(#)C、三引号()D、双分号(;)4、以下选项中,Python数据分析方向的库是?(C)A、PILB、DjangoC、pandasD、flask5、以下选项中,Python网络爬虫方向的库是?(D)A、numpyB、openpyxlC、PyQt5D、scrapy对错题1、 winpython会写入windows注册表(F)2、 p

3、ython与大多数程序设计语言的语法非常相近(T)3、 Python的缩进是一种增加代码可读性的措施(F)4、 PANDAS是一个构建在Numpy之上的高性能数据分析库(T)5、 Jupyter是一个交互式的数据科学与科学计算开发环境(T)填空题1、 python中的多行注释使用三引号/表示。2、 pandas能对数据进行排序、分组、归并等操作。3、 Scikit_learn包括多种分类、回归、聚类、降维、模型选择和预处理的算法。4、 Matplotlib是一个绘图库。5、 将Ipython项目中与其程序设计语言无关的部分独立出来形成的新项目是Jupyter。第三章选择题1、 下列不是集中趋势

4、的主要测度的是?(D)A、均值B、中位数C、众数D、方差2、下列不是离散程度的主要测度的是?(D)A、极差B、方差C、标准差D、中位数3、下列不属于数据质量的评估标准的是?(C)A、完整性B、一致性C、可控性D、及时性4、下列不属于噪声数据处理方法的是你?(B)A、分箱技术B、同化技术C、聚类技术D、回归技术5、下列不属于特征提取方法的是?(B)A、主成分分析B、多重判别分析C、独立成分分析D、线性判别分析对错题1、数据库中不含缺失值的变量被称为完全变量(T)2、噪声是指被观测变量的随机误差或标准差(F)3、一致性是指数据是否合乎规范,数据内的数据是否保持一致的格式(T)4、及时性是指数据产生

5、到可以查看的时间间隔,也叫数据的延时时长(T)5、特征构建是指从预处理的数据中人工构建新的特征(F)填空题1、 数据分析需要特别关注集中趋势、离散程度两点。2、 一般可以通过数据统计中的记录值和唯一值两个值来评估数据质量的完整性。3、 数据质量是数据分析结果的有效性和准确性的前提保证。4、 异常数据如果没哟规律可循几乎不可能被还原,只能将其过滤。5、 特征提取是在原始特征的基础上,自动构建新的特征,将源石特征转换为一组更具物理意义、统计意义或者核的特征。第四章选择题:1、 关于NumPy说法不正确正确的是(D)A、 NumPy是Python处理数组和矢量运算的库。B、 NumPy是高性能计算的

6、基础。C、 NumPy是数据分析的基础。D、 Pandas、scikit-learn和Matplotlib是NumPy的基础2、 关于ndarray对象说法不正确正确的是(D)A、 Ndarray对象指的是多维数组对象。B、 Ndarray对象是NumPy中很重要的对象。C、Ndarray保存的是同一类型的对象。D、Ndarray的访问方式不同于列表。3、 下列哪些不是描述ndarray对象的属性(C)A、shapeB、ndimC、arrayD、size4、创建单位矩阵,对角线元素为1,其余为0需要用到下列哪个函数(D)A、onesB、ones_likeC、empty_likeD、eye、id

7、entity5、对下列函数说法正确的是(B)A、reshape会修改原adarray对象B、reveal不会修改原adarray对象C、T会修改原adarray对象D、resize不会修改原adarray对象判断题1、 float16为半精度浮点数。(对)2、 float128为双精度浮点数(错)扩展精度3、 complex128(c16)使用两个双精度浮点数表示的复数。(对)4、 empty指定shape,创建新数组,且填充为0(错)不填充5、 size指ndarray对象的维度。(错)元素个数填空题1、代码中用“_np._”指代NumPy。2、查询某个ndarray对象的dtype属性,会

8、返回一个(dtype)类型的对象。3、T函数返回原ndarray对象的(转置)4、布尔值的字节长度为(1)5、ndim指ndarray对象的(维度)。第五章一、单选题1. 以下哪一个Series对象不同 ( ) AA disc = 1:1, 2:2, 3:3 obj_c = Series(disc, index=1, 2, 3)Bdisc = 1:1, 2:2, 3:3 obj_c = Series(disc, index= 1, 2, 3)Cdisc = a:1, b:2, c:3 obj_c = Series(disc, index=1, 2, 3)Ddisc = a:1, b:2, c:

9、3 obj_c = Series(disc, index= 1, 2, 3)2. 以下哪一项不是DataFrame对象的属性 ( ) DAcolumnsBindexCvaluesDlength3. 以下哪一项可以对DataFrame对象进行行的删除 ( ) AAdrop, axis=0Bdrop, axis=1CdelDpop4. Index对象中,以下哪一项针对时间间隔数据 ( ) DAInt64IndexBMultiIndexCDatetimeIndexDPeriodIndex5. “group by”包括“_”3个阶段 ( ) AAsplit-apply-combineBsplit-co

10、mbine-applyCcombine-apply-splitDcombine-split-apply二、判断题1. Index对象可以修改。False2. pandas提供了缺失值处理功能。True3. Index对象支持并、差、交的操作。True4. 在创建Series对象时并没有指定索引,pandas自动创建一个 1 n 的序列作为索引。False5. panadas提供的cov函数,能够自动进行数据对齐的操作。True三、填空题1. pandas两种基本的数据结构为 _ 和 _。( SeriesDataFrame )2. In1: obj_a = Series(1, 2, 3, 4)I

11、n2: obj_a._Out2: Int64Index(0, 1, 2, 3)In3: obj_a._Out3: array(1, 2, 3, 4)( index values )3. loc函数接收Index对象的_,iloc函数接收Index对象的_。( 标签 位置 )4. 可以通过GroupBy对象的_函数实现自定义函数;_函数会将数据对象分成多个组,然后对每个组调用传入的函数,最后将其组合到一起。( agg apply )5. _对象产生的是定长窗口;_对象产生的是扩展窗口;_对象产生的是指数加权窗口。( Rolling Expanding EWM )第六章一、单选题1. 以下哪一项不

12、属于非线性分类模型 ( ) AA逻辑回归B支持向量机C决策树Dk近邻2. 以下哪一项属于懒惰学习 ( ) DA逻辑回归B支持向量机C决策树Dk近邻3. 以下哪一项算法用于序列数据中频繁序列的挖掘 ( ) DADijstraBAprioriCFP-TreeDPrefixSpan4. 支持度用概率公式表示为 ( )AP( B | A )BP( A B )CP( B )DP( B | A ) / P( B )5. _是把一组数据按照相似性和差异性分为几个类别 ( )A分类分析B关联分析C聚类分析D回归分析二、判断题1. k近邻算法的训练时间开销为0。True2. 线性判别分析,针对训练集,将其投影到

13、一条直线上,使得同类样本点尽可能接近,异类样本点尽量远离。True3. 同一个问题和样本产生的决策树一定相同。False4. 回归分析的目的在于了解变量间是否相关、相关方向和相关强度,并建立数学模型来进行预测。True5. DBSCAN 聚类速度快且能够有效处理噪声和发现任意形状的空间聚类。True三、填空题1. 贝叶斯公式:_。( p(y|x)=(p(x|y)p(y)/(p(x) )2. 关联规则挖掘分为_和_。( 生成频繁项集 生成强规则 )3. Apriori算法定律1:如果一个集合是频繁项集,则它的所有_都是频繁项集;Apriori算法定律2:如果一个集合不是频繁项集,则它的所有_都不是频繁项集。( 子集 超集 )4. 关联规则分析中,如果穷举项集的所有组合,并测试每个组合是否满足条件。那么对于一个元素个数为n的项集,所需要的时间复杂度为_。( O(2n) )5.列举典型的无监督学习:_和_。( 关联分析 聚类分析 )第七章一、 单选题1、 在支持向量机分类方法中,在拟合以后,可以通过以下哪一个参数获取支持向量的索引()BA support_vectors_ B support_C n_support

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号