数据挖掘实训报告－金锄头文库

资源描述

《数据挖掘实训报告》由会员分享，可在线阅读，更多相关《数据挖掘实训报告（15页珍藏版）》请在金锄头文库上搜索。

1、百度文库 - 让每个人公平地提升自我工程 1：基于 sklearn 的数据分类挖掘一、工程任务生疏sklearn数据挖掘的根本功能。进展用朴实贝叶斯、KNN、决策树、SVM算法进展数据分类分析。二、工程环境及条件三、试验数据Iris 数据集Iris 数据集是常用的分类试验数据集，由Fisher, 1936 收集整理。Iris 也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150 个数据集，分为 3 类，每类 50 个数据，每个数据包含 4 个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度 4 个属性推测鸢尾花卉属于Setosa，Versicolour，Virginica三个种类

2、中的哪一类。Digits 数据集美国有名数据集NIST 的子集，模式识别常用试验数据集，图像属于灰度图像。区分率为8x815四、工程内容及过程1. 读取数据集从 sklearn 中读取iris 和digits 数据集并测试打印from sklearn import datasetsiris = () digits = ()print ”iris:”,”ndigits:”,打印的数据集存在中，ndarray 会自动省略较长矩阵的中间局部。Iris 数据集的样本数据为其花瓣的各项属性Digits 数据集的样本数据为手写数字图像的像素值2. 划分数据集fromimport train_test_sp

3、lit x_train,x_test,y_train,y_test=train_test_split,test_size=print ”x_train:”,x_train,”nx_test:”,x_test,”ny_train:”,y_train,”ny_test:”,y_test引入 sklearn 的 model_selection 使用 train_test_split 划分digits 数据集，训练集和测试集比例为8:23. 使用KNN 和SVM 对digits 测试集分类引用 sklearn 的和模块调用算法，使用classification_report 查看推测结果的准确率和召回

4、率fromimport classification_reportfrom sklearn import neighbors clf = ()(x_train,y_train) y_pred=(x_test)print classification_report(y_test, y_pred)fromimport SVC clf = SVC() (x_train,y_train) y_pred=(x_test)print classification_report(y_test, y_pred)KNN 的推测结果：全部数字的推测正确率几乎到达了 100%SVM 的推测结果：对局部数字的推测误差

5、较大，根本状况不如 KNN考虑 SVM 分类器的特性，在分类前对特征值进展标准化后再分类：from sklearn import preprocessing min_max_scaler = ()x_train = (x_train) x_test = (x_test)标准化数据后 SVM 的推测结果到达了 KNN 的准度：4. 使用贝叶斯和决策树对iris 数据集分类fromimport train_test_splitx_train,x_test,y_train,y_test=train_test_split,test_size=fromimport classification_repo

6、rtfrom sklearn import naive_bayes clf = ()(x_train,y_train) y_pred=(x_test)print classification_report(y_test, y_pred)from sklearn import tree clf = ()(x_train,y_train) y_pred=(x_test)print classification_report(y_test, y_pred)决策树和贝叶斯都有较好的分类效果五、试验结果分析为什么用 svm 和 knn 处理 digits 数据集，用 tree 和 bayes 处理 ir

7、is 数据集，这是一个阅历问题。我们都知道 digits 数据集的每一个特征就是像素点的像素值，他们的维度都是在0255 以内；像素点之间的维度完全全都，相互没有优先级。这种状况下使用线性分类器如 KNN、SVM、Logistic 会有更好的效果。而 iris 数据集虽然长度和宽度维度差不多一样，但是两者之间有优先级的区分，依据人脑分类的思维方式可能是先依据长度推断再依据宽度等思维方式，很接近决策树的算法原理，贝叶斯同样。所以概率性分类器有更好的效果。实际状况也是使用SVM 推测iris 的结果和Bayes 推测 digits 的结果不甚抱负虽然也有很高的准度了。固然，通过调整分类器的参数，能

8、使各个分类器的推测结果都到达满足结果，综合表现还是 KNN 更抢眼，能在各种数据集面前都有精彩表现，但 KNN 在训练样本数量到达肯定程度后，有超高的计算简单度。所以面对实际状况，选用什么分类器，如何调整参数都是值得深思的问题。工程 2：基于 sklearn 的数据聚类挖掘一、试验任务生疏sklearn数据挖掘平台的根本功能。用K-Means进展数据聚类分析。二、试验环境及条件三、试验数据随机产生的100个坐标点，范围为0,100四、试验内容及过程1. 随机产生坐标值fromimport KMeans import numpy as np importas pltimport randomde

9、f create_coordinate(): x,y=,for i in range(100): (0,100)(0,100)return x,yx,y=create_coordinate()old_coordinate=xi,yi for i in range(100) coordinate=(old_coordinate)print old_coordinate产生的随机值在0-100，由于sklearn的k-means模块要求输入的坐标形式为x0,y0,x,y,xn,yn,而实际产生的是x0,xn和y0,yn，所以还需要对坐标进展一次转换产生的随机坐标值：2. 创立做图函数def cre

10、ate_chart(x,y,label,center):x_0=xi for i in range(len(x) if labeli=0 x_1=xi for i in range(len(x) if labeli=1 x_2=xi for i in range(len(x) if labeli=2 y_0=yi for i in range(len(y) if labeli=0 y_1=yi for i in range(len(y) if labeli=1y_2=yi for i in range(len(y) if labeli=2(x_0,y_0,c=”r”)(x_1,y_1,c=”g

11、”)(x_2,y_2,c=”b”)(i0 for i in center,i1 for i in center,c=”m”,s=600,marker=”*”)()()使用k-means对坐标点分为3类，对0类标为红色，1类标为绿色，2类标为蓝色。并将三类坐标的中心点以*表示在图中3. 使用k-means 聚类并推测新增点的类别kmeans = KMeans(n_clusters=3, random_state=0).fit(coordinate)print (0, 0, 50,50,100, 100)create_chart(x,y,对新点的推测：2 2 1点的聚类状况：五、试验结果分析这次试

12、验，使用sklearn的k-means对100个坐标点聚类。K-means由于其本身算法的缘由，点数越多聚类速度越慢。所以在20个点和100个点的聚类时间上有很大差距。聚类问题不同于分类问题，没有明确的推测和分类结果，聚类时对数据的边界可能会各不一样，聚类问题在用户画像/共性化推举等应用上有较好地发挥。试验 3：在 Python 程序中引用 sklearn一、试验任务用Python开发一个综合局部挖掘算法的演示程序，核心算法来自sklearn类库。演示程序界面友好。二、试验环境及条件三、试验数据Iris 数据集Iris 数据集是常用的分类试验数据集，由Fisher, 1936 收集整理。Iris 也称鸢尾花卉数据集，是一类多重变量分析的数据集。数据集包含150 个数据集，分为 3 类，每类 50 个数据，每个数据包含 4 个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度 4 个属性推测鸢尾花卉属于Setosa，Versicolour，Virginica三个种类中的哪一类。Digits 数据集美国有名数据集NIST 的子集，模式识别常用试验数据集，图像属于灰度图像。区分率为8x8四、试验内容及过程使用PyQt4 创立windows 窗体，并供给可选择的分类方式： SVM支持向量机算法 KNNK邻近算法 Bayes朴实贝叶斯算法 Tree决策树算法 Logis

展开阅读全文