《Python机器学习》教学课件—06NumPy数据分析

资源描述

《《Python机器学习》教学课件—06NumPy数据分析》由会员分享，可在线阅读，更多相关《《Python机器学习》教学课件—06NumPy数据分析（66页珍藏版）》请在金锄头文库上搜索。

1、Machine Learning with Python6.1目录6.26.4安装NumPy库数据的获取数组创建与使用数据运算6.36.5本章小结6.6案例安装Numpy库本节介绍安装Numpy库，它作为一个优秀的开源科学计算库弥补了Python的不足6.13 6.1.1 Python环境下的安装下载NumPy安装程序。打开网址https:/pypi.org/project/numpy/，运行界面如图6-1a所示。找到自己所安装的Python版本所对应的NumPy版本。可根据需要选择下载32位/64位安装程序，如图6-1b所示 a） b）图6-1 NumPy安装程序下载4 6.1.1 Pyt

2、hon环境下的安装将下载的文件复制到Python安装目录下的Scripts目录，如图6-2所示。例如当前安装目录为C:UsersAdministratorAppDataLocalProgramsPythonPython37Scripts。图6-2 NumPy文件位置5 6.1.1 Python环境下的安装用cmd命令打开“命令提示符”窗口，通过cd命令切换到Python安装目录下的Scripts目录，如图6-3所示。（C:UsersAdministratorAppDataLocalProgramsPython Python37Scripts目录下）图6-3 PythonScripts地址目

3、录6 6.1.1 Python环境下的安装在命令提示符窗口输入pip install -upgrade pip（用于更新pip），如图6-4所示。安装wheel库，pip install wheel，如图6-5所示。图6-4 下载pip图6-5 下载wheel7 6.1.1 Python环境下的安装安装NumPy，输入命令：pip install numpy-1.17.4-cp37-cp37m-win_amd64.whl，如图6-6所示。图6-6 安装NumPy8 6.1.1 Python环境下的安装测试是否安装成功，在Python编译器中输入如下测试代码： import numpy as

4、 np print(np.random.rand(3.3) 结果输出一个随机的33的矩阵，则说明NumPy安装成功，如图6-7所示。图6-7 测试NumPy9 6.1.2 PyCharm的安装点击file下的settings选项。点击project interpreter选项。点击最右侧的加号按钮。输入numpy，选择搜索结果的第一个选项。点击底部的install package按钮。如底部出现successfully字样则表示安装成功。数据的获取本节介绍数据的获取和存储，常见的机器可读形式6.211 6.2.1 使用Python读写文件 open()函数使用open()函数可以创建或打开

5、文件并返回一个文件对象，其函数格式如下： fileobj = open(filename, mode) 其中： 1）fileobj：open()返回的文件对象。 2）filename：该文件的字符串名。 3）mode：指明文件类型和操作的字符串。 a）图1-1 Python安装包下载b） 12 6.2.1 使用Python读写文件 open()函数lmode的第一个字母表明对其的操作，具体值如下。 r：表示读模式。 w：表示写模式。如果文件不存在则新创建，如果存在则重写新内容 x：表示在文件不存在的情况下新创建并写文件。 a：表示如果文件存在，在文件末尾追加写内容。l mode 的第二个字母

6、是文件类型，具体值如下。 t：代表为文本文件。 b：代表为二进制文件。13 6.2.1 使用Python读写文件 write()函数l使用write(str)函数可以将其参数str中的内容写入文件中。【例 6-1】创建名为“relativity”新文件，并将一首诗写入该文件。参考程序如下：poem = There was a young lady named Bright, . Whose speed was far faster than light; . She started one day . In a relative way, . And returned on the pre

7、vious night. fout = open(relativity, wt) fout.write(poem) fout.close()14 6.2.1 使用Python读写文件 read()和readline()函数l使用不带参数的read()函数可以一次读入文件的所有内容。例如： fin = open(relativity, rt) poem = fin.read() fin.close() len(poem) 运行结果如下： 15015 6.2.1 使用Python读写文件 read()和readline()函数l也可以使用readline()每次读入文件的一行，通过追加每一行拼接

8、成原来的字符串。例如： poem= fin=open(relativity,rt) while True: line = fin.readline() if not line: break poem += line fin.close() len(poem) 运行结果如下： 150对于一个文本文件，即使空行，也有1字符长度（换行字符n），因此也会返回True。当文件读取结束后， readline()与read()都会返回空字符串，被while循环判为False。16 6.2.1 使用Python读写文件 close()函数lclose()方法负责关闭文件，如果忘记关闭文件，会造成系统资源消耗

9、，而且会影响到后续对文件的访问。17 6.2.2 使用NumPy读写文件本节主要介绍的机器可读文件格式为CSV。CSV（逗号分隔值）文件格式是一种非常简单的数据存储与分享方式，文件的扩展名是.csv。CSV文件将数据表格存储为纯文本，表格（或电子表格）中的每一个单元格都是一个数值或字符串，单元格之间常以逗号分隔。与Excel文件相比，CSV文件的一个主要优点是它的纯文本格式可以被大多数程序存储、转存和处理。使用CSV格式时需要注意以下几点。 1）除了逗号，还有其他可代替的分隔符，例如“|”和“t”。 2）有些数据会出现转义字符，如果某个值内部包含了分隔符，则该值需加上引号或者在分隔符之前加上

10、转义字符。 3）文件可能有不同的换行符，Unix系统使用“n”，Microsoft系统使用“rn”，Mac系统之前使用“r”现在使用“n”。 4）在第一行可以加上列名。18 6.2.2 使用NumPy读写文件本章的CSV实例采用了鸢尾花数据集。为了让数据更容易阅读，下面给出一个数据样本，其中只包含经过挑选的特定字段。在文本编辑器中打开CSV文件，看到的数据应该与下列数据相似。 sepal_len,sepal_width,petal_len,petal_width,Species 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3,1.4,0.2,Iris-setosa 4.7,

11、3.2,1.3,0.2,Iris-setosa 4.6,3.1,1.5,0.2,Iris-setosa 5,3.6,1.4,0.2,Iris-setosa 5.4,3.9,1.7,0.4,Iris-setosa 预览CSV文件的另一种方法是用电子表格程序打开，例如Excel或者WPS，这些程序将每一个数据条目显示为单独的一行。19 6.2.2 使用NumPy读写文件使用numpy.loadtxt()函数可以方便地读写数据文件，但要求数据文件的每一行格式相同。通过loadtxt()方法来读取CSV文件的具体语法格式为： numpy.loadtxt(fname, dtype=, comments=

12、#, delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False）其中： 1）fname：被读取的文件（文件的相对地址或者绝对地址）。 2）dtype：指定读取后数据的数据类型，为可选参数。 3）comments：设置需跳过行的标识。如设置为“#”，则“#”开头的行会被跳过。 4）delimiter：设置分隔符，默认值为任何空白字符，如空格，制表符。 5）converters：是否对读取的数据进行预处理，可以指定一个预处理函数。 6）skiprows：选择跳过的行数。 7）usecols：指定需要读取的列。

13、8）unpack：是否将数据进行向量输出。20 6.2.2 使用NumPy读写文件【例6-2】读取鸢尾花数据集csv文件。参考程序如下： import numpy as np csv_array = np.loadtxt(/Users/Downloads/iris.csv,dtype = str,delimiter =,) print(csv_array) 程序运行结果如下： 5.1, 3.5, 1.4, 0.2 4.9, 3, 1.4, 0.2 4.7, 3.2, 1.3, 0.2 4.6, 3.1, 1.5, 0.2 5, 3.6, 1.4, 0.2 5.4, 3.9, 1.7, 0.4

14、21 6.2.2 使用NumPy读写文件【例6-2】读取鸢尾花数据集csv文件。写入文本文件后可以使用numpy.savetxt()函数保存，具体的语法格式为： numpy.savetxt(fname, X) 其中： 1）fname：文件名。 2）X：被写入文件的ndarray数据，数据类型为ndarray对象22 6.2.2 使用NumPy读写文件【例6-3】将例6-2中读取的结果写入一个新的文本文件并查看。参考程序如下： np.savetxt(data_output.txt, csv_array, fmt = %s) a = np.loadtxt(data_output.txt) a

15、程序运行结果如下： array(5.1, 3.5, 1.4, 0.2, 4.9, 3. , 1.4, 0.2, 4.7, 3.2, 1.3, 0.2, 4.6, 3.1, 1.5, 0.2, 5. , 3.6, 1.4, 0.2, 5.4, 3.9, 1.7, 0.4)数组创建与使用本节介绍n维数组对象，一个快速灵活的数据容器6.324 6.3.1 数组创建和基本属性使用arange()函数可以创建一个数组，在给定间隔内返回均匀间隔的值。值在半开区间内生成，即包括起始值但不包括结束值。其完整函数如下： numpy.arange(start, stop, step, dtype = Non

16、e)其中： 1）start：为起始值，数据类型为数值型，可选，默认起始值为0。 2）stop：为结束值，数据类型为数值型，必须指定。 3）step：步长，数据类型为数值型，可选，默认步长为1。如果指定了step，则必须给出start值。 4）dtype：输出数组的数据类型。如果未给出dtype，则从其他输入参数推断数据类型。25 6.3.1 数组创建和基本属性 arange()函数生成的数组为1维数组，可以使用reshape()函数改变其维度，使之成为一个n维数组。reshape()函数的作用就是改变数组的维度，其参数为一个正整数元组，分别指定数组在每个维度上的大小。例如： import numpy as np arr1 = np.arange(12).reshape(3, 4) print(arr1) 程序运行结果如下： array( 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11) 如需自定义数组的值，可以使用array()函数。26 6.3.1 数组创建和基本属性如需自定义数组的值，可以使用array()函数。例如： import numpy as

展开阅读全文

《Python机器学习》教学课件—06NumPy数据分析

最新文档