机器学习算法的分类与选择

资源描述

《机器学习算法的分类与选择》由会员分享，可在线阅读，更多相关《机器学习算法的分类与选择（27页珍藏版）》请在金锄头文库上搜索。

1、,机器学习算法的分类与选择,机器学习算法,PCA,LDA,K-means,DBSCAN,SVM,逻辑回归,随机森林,GBDT,Adaboost,KNN,Xgboost,决策树,神经网络,2,Supervised,Linear Discriminant Analysis,Dimension Reduct,ion,Try PCA,聚类,分类,降维,回归,3,01,4,02,03,04,特征降维,聚类,分类 & 回归,总结,目录,特征降维,特征向量较多时使用SVM进行分类，结果并不理想；随机删除几个特征后，准确率反而提升？,5,特征降维 =特征选择？,通过属性间的

2、关系（如组合不同的属性得新的属性）改变原来的特征空间,特征降维,从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间,找一个高维到低维的映射！,特征选择删除若干特征！,6,特征选择,7, 按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。如：移除低方差的特征、移除相关性较高的特征,Filter（过滤法）,Wrapper（包装法）,Embedded（嵌入法）, 根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。如：递归地训练基模型，移除对模型贡献度较小的特征, 使用某些机器学习的算

3、法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。如：基于随机森林的特征选择方法,特征降维,无监督的降维找到一个能最大保留数据方差信息的子空间，降维后的数据是原来特征在新空间中的映射值,A,PCA（主成分分析）,8,SVD（奇异值分解）,LDA（线性判别分析）,无监督的降维将矩阵A分解为三个矩阵UVT的乘积，选择中数值较大的几个奇异值及U和VT中对应的奇异向量，完成特征降维。,有监督的降维相同类别在超平面上投影之间的距离尽可能近，不同类别投影之间的距离尽可能远，最多降到类别数-1的维数,降维算法的注意事项：,9,PCA、SVD、LDA均

4、为线性降维方法，但可引入核函数实现非线性降维，此外还有一些非线性降维方法如Isomap谱嵌入法等 LDA作为有监督的降维方法，容易使后续的分类过程发生过拟合应用： PCA是最常用的数据降维方法，可用于图像压缩等领域 SVD可用于推荐系统、自然语言处理等领域，如电子病历文本潜在语义分析 LDA既可以用于降维也可用于分类缺点：经过降维后的数据与原特征不存在一一对应关系，较难解释,案例分享1,利用PCA对数据集去噪,心衰患者是否发生院内死亡预测选取2015-2018年于解放军总医院住院的心衰患者，根据是否发生院内死亡选择正样本1094例，随机筛选负样本1094例，选用94个特征用S

5、VM做分类，利用5折交叉验证法进行结果评估。,检验信息 76项,血常规类 15项血生化类 38项尿类化验 23项,SVM 5折交叉验证结果,10,训练集AUC,测试集AUC,0.9591,0.8436,未经过PCA降维经过PCA降维到 90维,0.9009,0.8605,特征分布情况,聚类,想做一个分类问题，但是却没有分类标签？如：疾病可能存在的亚型研究如：疾病风险因素的归类分析,11,聚类,层次聚类,凝聚方法AGNES,分裂方法DIANA,密度聚类,DBSCAN,GMM 原型聚类,K-means,AGNES,DBSCAN,GMM,聚类方法的类别,12,对数值型数据进行聚类随机选

6、取K个对象作为初始的聚类中心，把每个对象分配给距离它最近的聚类中心，根据聚类中现有的对象重新计算聚类中心，不断重复此过程直到满足终止条件,K-MEANS（K均值聚类）,K-means聚类（不断迭代过程）,K-modes（k众数聚类）对分类型数据进行聚类采用差异度（属性不相同的个数）来代替k-means算法中的距离,13,14,聚类方法优缺点：,优点：让数据变得有意义缺点：结果难以解读，针对不寻常的数据组，结果可能无用分层聚类：不需要预先制定聚类数，可以发现类的层次关系；耗时，受离群值影响大密度聚类：不需要输入类别数，可发现任意形状的聚类簇，可识别离群值；无法反

7、映数据尺寸，对高维数据密度难以定义 K-means聚类：简单，最常用；仅适用凸的样本集聚类，受离群值影响大高斯混合聚类：在各类尺寸不同、聚类间有相关关系时可能比k-means聚类更合适；,需要初始化多个参数,分层聚类,密度聚类K-means 高斯混合聚类,原型聚类,https:/scikit-learn.org/stable/modules/clustering.html,聚类方法在医学中的应用：,无监督的医学图像分割疾病可能存在的亚型分类研究采用聚类分析为早期帕金森疾病分亚型，对致病机制假说的提出和治疗策略的制定有重大暗示疾病与模式基因之间的关联关系分析研究特征解释,1

8、5,案例分享2,利用层次聚类解释模型肠道菌群与年龄之间的关系研究从公共数据库中选用江苏地区923个健康人（按照年龄被分为7组）粪便检材的 16S测序数据，从中获取5621个菌群的丰度值，特征筛选后得到278个菌群的丰度值，用来对不同年龄分组的样本做层次聚类。,长寿老人,青,年,小,中中,学年学,老幼年儿人人园生人生学生,16,分类 & 回归,疾病发病风险预测术式选择,17,术后恢复时间预测药效评估,分类 Logistic Regression（逻辑回归） Decision Tree（决策树） Random Forest（随机森林） GBDT（梯度提升树） N

9、eural Network（神经网络） SVM（支持向量机） Naive Bayes（朴素贝叶斯）,18,回归 Linear Regression（线性回归） Decision Tree（决策树） Random Forest（随机森林） GBDT（梯度提升树） Neural Network（神经网络） SVR（支持向量回归）,分类 & 回归常用方法,分类&回归算法常见问题：,各种算法的,优缺点,缺失值、异,常值对算法,的影响,冗余特征对,算法的影响,ABCD,是否可进行模,19,型解释，得到,特征权重,20,问题一：各种算法的优缺点,案例分享3,树模型会赋予连续变量更大的权重？,数据来

10、源：2015年解放军总医院医院开展的社区流行病学调查研究目的：发掘冠心病的发病风险因素样本情况：正、负样本各1590例 29个特征向量：性别、年龄、BMI、腰臀比、抽烟、喝酒共病信息、家族史生命体征信息、ECG检查信息采用模型：随机森林,0.3 0.25 0.2 0.15 0.1 0.05 0,高血压病程年龄糖尿病病程是否有血脂异常是否有其他共病腰臀比 BMI 平均收缩压平均舒张压脑卒中病程,连续变量离散化前,连续变量离散化后,21,问题二：缺失值、异常值对算法的影响问题三：冗余特征对算法的影响,问题四：是否可进行模型解释，得到特征权重,模型,22,对缺失值、

11、异常值,对冗余特征的敏感度,是否可得到特征权重,23,案例分享4不同分类器对缺失值的敏感度,朴素贝叶斯对缺失值的敏感程度最低 KNN（K-最近邻，基于距离的方法）对缺失值的敏感程度最高决策树、神经网络对缺失值的敏感程度不高,Liu P , Lei L , Wu N . A Quantitative Study of the Effect of Missing Data in ClassifiersC/ Fifth International Conference on Computer & Information Technology. 2005.,分类算法选择的建议：,分类,需要得到特征权重,逻辑回归,随机森林,其他基于树的bagging 或boosting算法,不需要得到特征权重,逻辑回归,随机森林,其他基于树的bagging 或boosting算法,SVM、神经网络,24,总结,25,如何选择机器学习算法：,3,1,2,确定数据分析目的,降维聚类分类回归,了解数据,数据量大小缺失值、异常值冗余度数据的分布情况,考虑资源合理性,26,软硬件的配置是否满足当前数据集下算法的正常运行,P A G E 43,THANKS,

展开阅读全文