常用数据挖掘算法总结与python实现

资源描述

《常用数据挖掘算法总结与python实现》由会员分享，可在线阅读，更多相关《常用数据挖掘算法总结与python实现（112页珍藏版）》请在金锄头文库上搜索。

1、常用数据挖掘算法总结及 Python 实现 V1.0 By Xuejun Yang 2016.09.18 目录第一部分数据挖掘与机器学习数学基础 3 第一章机器学习的统计基础 3 第二章探索性数据分析（EDA） . 11 第二部分机器学习概述 14 第三章机器学习概述 14 第三部分监督学习-分类与回归 16 第四章 KNN（k 最邻近分类算法） 16 第五章决策树 19 第六章朴素贝叶斯分类 29 第七章 Logistic 回归 . 32 第八章 SVM 支持向量机 42 第九章集成学习(Esemble Learning) 43 第十一章模型评估 46 第四部分非监

2、督学习-聚类与关联分析 50 第十二章 Kmeans 聚类分析 . 50 第十三章关联分析 Apriori . 52 第十四章数据预处理之数据降维 54 第五部分 Python 数据预处理 . 57 第十五章 Python 数据分析基础 . 57 第十六章 Python 进行数据清洗 . 77 第六部分数据结构与算法 82 一、二叉树（前、中、后遍历） 82 二、几种基本排序方法 82 第七部分 SQL 知识 . 86 第八部分数据挖掘案例分析 87 案例一 A Journey through Titanic 597c770e . 87 案例二 Analysis for airplan

3、e-crashes-since-1908 94 案例三贷款预测问题 98 案例四 KNN 算法实现葡萄酒价格模型预测及交叉验证 107 第一部分第一部分数据挖掘与机器学习数学基础数据挖掘与机器学习数学基础第一章第一章机器学习的机器学习的统计统计基础基础 1.1 概率论概率论 1.概率论基本概念概率论基本概念样本空间样本空间我们将随机实验 E 的一切可能基本结果组成的集合称为 E 的样本空间，记为 S。样本空间的元素，即 E 的每一个可能的结果，称为样本点。样本空间又叫基本事件空间。例例：拍拍贷用户的学历拍拍贷用户的学历 S=研究生或以上研究生或以上，本科本科，大专大专，高中高中，

4、中专中专，初中及以下初中及以下，A=研研究生或以上究生或以上，本科本科，大专大专事件事件事件 A 是样本空间的子集，可分为四种类型空事件: 样本空间的空子集; 原子事件: 仅包含一个元素的样本空间; 混合事件: 包含多个元素的样本空间; 样本空间本身也是一个事件. 集合集合概率论定义概率论定义概率用来描述一件事的不确定性。假设 A 是投硬币的一个结果（比如正面朝上），如果重复投硬币很多次，直到 A 出现的机会逼近一个极限 p。那么可以说出现 A 的概率是 p 对于事件 A 和 B，联合概率 Pr(AB)表示事件 A 和 B 同时发生的概率。概率定律概率定律事件的概率： P(

5、A) 满足： P(A) 0 ；P(S) = 1；对于一连串的互斥事件： i i i i APAP)()( S A 条件概率条件概率发生事件 A 的情况下，发生 B 的概率称作条件概率 P(B|A). () (|) ( ) P BA P B A P A 独立性独立性事件发生和其它事件无关。如果 P(B|A)=P(B), 我们称 B 和 A 统计独立，当且仅当： ()( ) ( )P ABP A P B 如果 A 和 B 统计独立，那么 B 与 A 也统计独立总概率总概率 P(A) = P( ) + P(A ) = P(A|B)P(B) + P(A|)P() 贝叶斯理论贝叶斯理论 (|)

6、( ) (|) ( ) P A B P B P B A P A P(B) : B 的先验概率先验概率，非条件概率，或者边际概率 P(A|B): 给定 B 条件下的 A 的条件概率，也被称作“似然似然” P(A): A 的边际概率边际概率，也作为 B 的后验概率的归一化常量 P(B|A)：B 的后验概率后验概率 2.随机变量，期望，方差随机变量，期望，方差随机变量 X 是随机试验的数值型结果相关概念：相关概念：观测值：其中一个结果成为观测值数据：多个观测值集合为数据总体：所有的结果称为总体有两种类型的随机变量有两种类型的随机变量离散变量：值数目可数对于离散型随机变量，我们关心每个

7、特定数值出现的概率 eg.客户的婚姻情况连续变量：数值在一定范围内对于连续性变量，某一个特定值出现的概率为 0，我们只关心区间的概率 Eg.客户的投资金额概率分布概率分布随机变量的分布就是它所有可能的输出以及它们的概率集合概率密度函数概率密度函数随机变量的概率密度函数描述该随机变量在某个取值发生的可能性离散变量：P(X=x)=p(x) 连续变量： b a dxxpbXaP)()( 累积分布函数累积分布函数 x 处的累积分布函数是负无穷到 x 点的概率密度函数的累加和期望期望期望是指所有可能值的加权和。其权重对于离散值而言就是该值出现的概率，而对于连续值而言就是其密度函数。

8、离散情况：连续情况： x all )()p(xxXE ii dxxp(x)XE x all )( 方差方差用来描述该随机变量值和平均值的离散程度离散情况连续情况 x all 2 )()()p(xXExXVar ii (x)XExXVar x all 2 )()( 3.常用概率分布常用概率分布离散分布：伯努利分布（二项分布）离散分布：伯努利分布（二项分布）概率密度函数概率密度函数: xx ppxp 1 )1()( 均值均值: pXE)( 方差方差: )1()(ppXVar 连续分布连续分布正态分布是最常用的一种连续分布。密度函数的特点是：关于均值对称，并在处取最大值，在正（负

9、）无穷远处取值为 0，图像是一条位于 x 轴上方的钟形曲线。期望值决定了分布的位置，标准差决定了分布的幅度。当 =0，2 =1 时，称为标准正态分布，记为 N(0,1)。概率密度函数概率密度函数 2 2 2 )( 2 2 1 )( x exf 期望期望 )(XE 方差方差 2 )(XVar 4.统计量估计和中心极限定理统计量估计和中心极限定理从一个数据集（样本）估计它的分布情况从一个数据集（样本）估计它的分布情况统计直方图：直观地显示了数据的分布描述性指标：描述性指标：衡量据中趋势期望值的估计： = 最大值最大值 /最小值：最小值：2500 万用户的最大/最小借款金额中值：

10、中值：按照借款金额排序，最中间的值众数：众数：:出现次数最多的借款金额衡量变化性衡量变化性范围：最大最小的借款金额之差方差的估计：两个重要定理两个重要定理大数定律中心极限定理大数定理大数定理大数定理描述的是一组独立同分布随机变量的均值的极限。在这些随机变量个数趋于无穷时，其均值依概率收敛于这些随机变量的数学期望指明样本均值的收敛趋势指明样本均值的收敛趋势中心极限定理中心极限定理设随机变量 X1，X2，Xn 相互独立，服从同一分布，且具有数学期望和方差 0)(,)( 2 ii XVarXE 则随机变量的均值 = 1+2+ 渐进地服从正态分布，并且期望和方差分别为 0)(

11、,)( 2 ii XVarXE 指明样本均值的分布与样本量的关系指明样本均值的分布与样本量的关系 1.2 假设检验假设检验 1.假设检验概述假设检验概述作用：检查观察到的样本究竟是否支持对总体的假设，帮助进行决策假设检验在数据分析中的应用假设检验在数据分析中的应用理解分析建模的结果需要读懂相关性分析，归回等建模的结果 AB Test 什么是假设检验什么是假设检验假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。 -对总体做假设假设 -由样本做检验检验假设检验的要素假设检验的要素原假设（Null Hypothesis）备择假设（Alternative Hypothe

12、sis）：即与原假设相悖的陈述检验统计量：用采样数据基于原假设计算出的统计量，用来检验原假设和备择假设拒绝域：在该区间，拒绝原假设，而趋向于备择假设错误类型错误类型类型 I: 在给定原假设是正确的情况下拒绝原假设的概率(False positive) = P(reject H0 | H0 true) 拒真拒真类型 II: 在给定备择假设是正确的情况下接受原假设的概率(False negative) = P(accept H0 | H1 true) 取伪取伪 P-value 比观测值更极端的情况出现的概率，衡量样本数据相对于原假设的置信强，也称作观测的显著性水平 )(: obs zZ

13、PpvalP 用于做拒绝决定：如果 p-value a, 不拒绝原假设如果 p-value Z/2 or Z t/2 or T 0，分布呈尖峰状态；峰度0,表示两变量存在正的线性相关关系； 0.8 表示两变量之间具有较强的线性关系绝对值data 对应着打斗次数和接吻次数 5. labels = np.array(1,1,1,2,2,2) #labels 则是对应 Romance 和 Action 6. knn.fit(data,labels) #导入数据进行训练 7. #Out：KNeighborsClassifier(algorithm=auto, leaf_size=30, met

14、ric=minkowski, 8. metric_params=None, n_jobs=1, n_neighbors=5, p=2, 9. weights=uniform) 10. knn.predict(18,90) 说明：说明：首先，用 labels 数组中的 1 和 2 代表 Romance 和 Aciton，因为 sklearn 不接受字符数组作为标志，只能用 1,2 这样的 int 型数据来表示，后面处理可以将 1 和 2 映射到 Romance 和 Action 上来。fit 则是用 data 和 labels 进行训练，data 对应的是打斗次数和接吻次数构成的向量，称之

15、为特征向量。labels 则是这个数据所代表的电影所属的类型。调用 predict 进行预测，将未知电影的特征向量代入，则能分析出该未知电影所属的类型。此处计算结果为 1,也就是该未知电影属于 Romance，和直觉相符。第第五五章章决策树决策树 5.1. 决策树基本概念及算法优缺点决策树基本概念及算法优缺点 1. 什么是决策树什么是决策树分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。决策树（Decision Tree），又称判定树，是一种以树结构（包括二叉树和多叉树）形式来表达的预测分析模型。通过把实例从根节点排列到某个叶子节点来分类实例叶子节点即为实例所属的分类树上每个节点说明了对实例的某个属性的测试，节点的每个后继分支对应于该属性的一个可能值 2. 决策树结构决策树结构 3. 决策树种类决策树种类分类树-对离散变量做决策树回归树-对连续变量做决策树 4. 决策树算法（贪心算法）决策树算法（贪心算法）

展开阅读全文