机器学习算法的分类与选择

上传人:nj****e 文档编号:148251228 上传时间:2020-10-17 格式:PPTX 页数:27 大小:3.93MB
返回 下载 相关 举报
机器学习算法的分类与选择_第1页
第1页 / 共27页
机器学习算法的分类与选择_第2页
第2页 / 共27页
机器学习算法的分类与选择_第3页
第3页 / 共27页
机器学习算法的分类与选择_第4页
第4页 / 共27页
机器学习算法的分类与选择_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《机器学习算法的分类与选择》由会员分享,可在线阅读,更多相关《机器学习算法的分类与选择(27页珍藏版)》请在金锄头文库上搜索。

1、,机器学习算法的分类与选择,机 器 学 习 算 法,PCA,LDA,K-means,DBSCAN,SVM,逻辑回归,随机森林,GBDT,Adaboost,KNN,Xgboost,决策树,神经网络,2,Supervised,Linear Discriminant Analysis,Dimension Reduct,ion,Try PCA,聚 类,分 类,降 维,回 归,3,01,4,02,03,04,特 征 降 维,聚 类,分 类 & 回 归,总 结,目 录,特征降维,特征向量较多时使用SVM进行分类,结果并不理想; 随机删除几个特征后,准确率反而提升?,5,特征降维 =特征选择?,通过属性间的

2、关系(如组合 不同的属性得新的属性)改 变原来的特征空间,特征降维,从原始特征数据集中选择出 子集,是一种包含的关系, 没有更改原始的特征空间,找一个高 维到低维 的映射!,特征选择 删除若 干特征!,6,特征选择,7, 按照发散性或者相 关性对各个特征进 行评分,设定阈值 或者待选择阈值的 个数,选择特征。 如:移除低方差的 特征、移除相关性 较高的特征,Filter(过滤法),Wrapper(包装法),Embedded(嵌入法), 根据目标函数(通 常是预测效果评 分),每次选择若 干特征,或者排除 若干特征。 如:递归地训练基 模型,移除对模型 贡献度较小的特征, 使用某些机器学习 的算

3、法和模型进行 训练,得到各个特 征的权值系数,根 据系数从大到小选 择特征。 如:基于随机森林 的特征选择方法,特征降维,无监督的降维 找到一个能最大保留数 据方差信息的子空间, 降维后的数据是原来特 征在新空间中的映射值,A,PCA(主成分分析),8,SVD(奇异值分解),LDA(线性判别分析),无监督的降维 将矩阵A分解为三个矩 阵UVT的乘积,选择 中数值较大的几个奇异 值及U和VT中对应的奇 异向量,完成特征降维。,有监督的降维 相同类别在超平面上投 影之间的距离尽可能近, 不同类别投影之间的距 离尽可能远,最多降到 类别数-1的维数,降维算法的注意事项:,9,PCA、SVD、LDA均

4、为线性降维方法,但可引入核函数实现非线 性降维,此外还有一些非线性降维方法如Isomap谱嵌入法等 LDA作为有监督的降维方法,容易使后续的分类过程发生过拟合 应用: PCA是最常用的数据降维方法,可用于图像压缩等领域 SVD可用于推荐系统、自然语言处理等领域,如电子病历文本 潜在语义分析 LDA既可以用于降维也可用于分类 缺点: 经过降维后的数据与原特征不存在一一对应关系,较难解释,案例分享1,利用PCA对数据集去噪,心衰患者是否发生院内死亡预测 选取2015-2018年于解放军总医院住院 的心衰患者,根据是否发生院内死亡选择 正样本1094例,随机筛选负样本1094例, 选用94个特征用S

5、VM做分类,利用5折交叉 验证法进行结果评估。,检验信息 76项,血常规类 15项 血生化类 38项 尿类化验 23项,SVM 5折交叉验证结果,10,训练集AUC,测试集AUC,0.9591,0.8436,未经过PCA降维 经过PCA降维到 90维,0.9009,0.8605,特征分布情况,聚类,想做一个分类问题,但是却没有分类标签? 如:疾病可能存在的亚型研究 如:疾病风险因素的归类分析,11,聚类,层次聚类,凝聚方法AGNES,分裂方法DIANA,密度聚类,DBSCAN,GMM 原型聚类,K-means,AGNES,DBSCAN,GMM,聚类方法的类别,12,对数值型数据进行聚类 随机选

6、取K个对象作为初始的聚类中 心,把每个对象分配给距离它最近的 聚类中心,根据聚类中现有的对象重 新计算聚类中心,不断重复此过程直 到满足终止条件,K-MEANS(K均值聚类),K-means聚类(不断迭代过程),K-modes(k众数聚类) 对分类型数据进行聚类 采用差异度(属性不相同的个数)来 代替k-means算法中的距离,13,14,聚类方法优缺点:,优点:让数据变得有意义 缺点:结果难以解读,针对不寻常的数据组,结果可 能无用 分层聚类: 不需要预先制定聚类数,可以发现类的层 次关系; 耗时,受离群值影响大 密度聚类: 不需要输入类别数,可发现任意形状的聚 类簇,可识别离群值; 无法反

7、映数据尺寸,对高维数据密度难以 定义 K-means聚类: 简单,最常用; 仅适用凸的样本集聚类,受离群值影响大 高斯混合聚类: 在各类尺寸不同、聚类间有相关关系时可 能比k-means聚类更合适;,需要初始化多个参数,分层聚类,密度聚类K-means 高斯混合聚类,原型聚类,https:/scikit-learn.org/stable/modules/clustering.html,聚类方法在医学中的应用:,无监督的医学图像分割 疾病可能存在的亚型分类研究 采用聚类分析为早期帕金森疾病分亚型,对致病机制假说的 提出和治疗策略的制定有重大暗示 疾病与模式基因之间的关联关系分析研究 特征解释,1

8、5,案例分享2,利用层次聚类解释模型 肠道菌群与年龄之间的关系研究 从公共数据库中选用江苏地区923个健 康人(按照年龄被分为7组)粪便检材的 16S测序数据,从中获取5621个菌群的丰 度值,特征筛选后得到278个菌群的丰度值, 用来对不同年龄分组的样本做层次聚类。,长 寿 老 人,青,年,小,中中,学年学,老幼 年儿 人人园生人生 学 生,16,分类 & 回归,疾病发病风险预测 术式选择,17,术后恢复时间预测 药效评估,分类 Logistic Regression(逻辑回归) Decision Tree( 决 策 树 ) Random Forest(随机森林) GBDT(梯度提升树) N

9、eural Network(神经网络) SVM(支持向量机) Naive Bayes(朴素贝叶斯),18,回归 Linear Regression(线性回归) Decision Tree( 决 策 树 ) Random Forest(随机森林) GBDT(梯度提升树) Neural Network(神经网络) SVR(支持向量回归),分类 & 回归常用方法,分类&回归算法常见问题:,各种算法的,优缺点,缺失值、异,常值对算法,的影响,冗余特征对,算法的影响,ABCD,是否可进行模,19,型解释,得到,特征权重,20,问题一:各种算法的优缺点,案例分享3,树模型会赋予连续变量更大的权重?,数据来

10、源:2015年解放军总医院 医院开展的社区流行病学调查 研究目的:发掘冠心病的发病风险 因素 样本情况:正、负样本各1590例 29个特征向量: 性别、年龄、BMI、腰臀比、抽烟、 喝酒 共病信息、家族史 生命体征信息、ECG检查信息 采用模型:随机森林,0.3 0.25 0.2 0.15 0.1 0.05 0,高血压病程 年龄 糖尿病病程 是否有血脂异常 是否有其他共病 腰臀比 BMI 平均收缩压 平均舒张压 脑卒中病程,连续变量离散化前,连续变量离散化后,21,问题二:缺失值、异常值对算法的影响 问题三:冗余特征对算法的影响,问题四:是否可进行模型解释,得到特征权重,模型,22,对缺失值、

11、异常值,对冗余特征的敏感度,是否可得到特征权重,23,案例分享4不同分类器对缺失值的敏感度,朴素贝叶斯对缺失 值的敏感程度最低 KNN(K-最近邻, 基于距离的方法) 对缺失值的敏感程 度最高 决策树、神经网络 对缺失值的敏感程 度不高,Liu P , Lei L , Wu N . A Quantitative Study of the Effect of Missing Data in ClassifiersC/ Fifth International Conference on Computer & Information Technology. 2005.,分类算法选择的建议:,分类,需要得到特征权重,逻辑回归,随机森林,其他基于树的bagging 或boosting算法,不需要得到特征权重,逻辑回归,随机森林,其他基于树的bagging 或boosting算法,SVM、神经网络,24,总结,25,如何选择机器学习算法:,3,1,2,确定数据分析目的,降维 聚类 分类 回归,了解数据,数据量大小 缺失值、异常值 冗余度 数据的分布情况,考虑资源合理性,26,软硬件的配置是否满 足当前数据集下算法 的正常运行,P A G E 43,THANKS,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号