18大经典数据挖掘算法小结

上传人:飞*** 文档编号:39929176 上传时间:2018-05-21 格式:DOCX 页数:4 大小:25.32KB
返回 下载 相关 举报
18大经典数据挖掘算法小结_第1页
第1页 / 共4页
18大经典数据挖掘算法小结_第2页
第2页 / 共4页
18大经典数据挖掘算法小结_第3页
第3页 / 共4页
18大经典数据挖掘算法小结_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《18大经典数据挖掘算法小结》由会员分享,可在线阅读,更多相关《18大经典数据挖掘算法小结(4页珍藏版)》请在金锄头文库上搜索。

1、118 大经典数据挖掘算法小结2015-03-05 CSDN 大数据 CSDN 大数据 csdnbigdataCSDN 分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、内存计算、流计算、机器学习和智能算法等相关大数据观点,提供云计算和大数据技术、平台、实践和产业信息等服务。本文所有涉及到的数据挖掘代码的都放在了 github 上了。地址链接: https:/ 2 个月的时间,自己把 18 大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面

2、都是我自己相应算法的博文链接,希望能够帮助大家学习。1.C4.5 算法。算法。C4.5 算法与 ID3 算法一样,都是数学分类算法,C4.5 算法是ID3 算法的一个改进。ID3 算法采用信息增益进行决策判断,而 C4.5 采用的是增益率。详细介绍链接:http:/ 算法。算法。CART 算法的全称是分类回归树算法,他是一个二元分类,采用的是类似于熵的基尼指数作为分类决策,形成决策树后之后还要进行剪枝,我自己在实现整个算法的时候采用的是代价复杂度算法,详细介绍链接:http:/ 最近邻最近邻)算法。算法。给定一些已经训练好的数据,输入一个新的测试数据点,计算包含于此测试数据点的最近的点的分类情

3、况,哪个分类的类型占多数,则此测试点的分类与此相同,所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点,远的点自然就小点。详细介绍链接:http:/ Bayes(朴素贝叶斯朴素贝叶斯)算法。算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法,用到了一个比较重要的贝叶斯定理,用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接:http:/ 2 个算法,1 个 E-Step 期望化步骤,和 1 个 M-Step 最大化步骤。他是一种算法框架,在每次计算结果之后,逼近统计模型参数的最大似然或最大后验估计。详细介绍链接:http:/ 算法。算法。Apriori 算法是

4、关联规则挖掘算法,通过连接和剪枝运算挖掘出频繁项集,然后根据频繁项集得到关联规则,关联规则的导出需要满足最小置信度的要求。详细介绍链接:http:/ FP-growth 算法,这个算法克服了 Apriori 算法的产生过多侯选集的缺点,通过递归的产生频度模式树,然后对树进行挖掘,后面的过程与 Apriori 算法一致。详细介绍链接:http:/ 算法最早产生于 Google,核心思想是通过网页的入链数作为一个网页好快的判定标准,如果 1 个网页内部包含了多个指向外部的链接,则 PR 值将会被均分,PageRank 算法也会遭到 Link Span 攻击。3详细介绍链接:http:/ 算法。算法

5、。HITS 算法是另外一个链接算法,部分原理与 PageRank 算法是比较相似的,HITS 算法引入了权威值和中心值的概念,HITS 算法是受用户查询条件影响的,他一般用于小规模的数据链接分析,也更容易遭受到攻击。详细介绍链接:http:/ 均值均值)算法。算法。K-Means 算法是聚类算法,k 在在这里指的是分类的类型数,所以在开始设定的时候非常关键,算法的原理是首先假定 k 个分类点,然后根据欧式距离计算分类,然后去同分类的均值作为新的聚簇中心,循环操作直到收敛。详细介绍链接:http:/ 算法。算法。BIRCH 算法利用构建 CF 聚类特征树作为算法的核心,通过树的形式,BIRCH

6、算法扫描数据库,在内存中建立一棵初始的 CF-树,可以看做数据的多层压缩。详细介绍链接:http:/ 算法。算法。AdaBoost 算法是一种提升算法,通过对数据的多次训练得到多个互补的分类器,然后组合多个分类器,构成一个更加准确的分类器。详细介绍链接:http:/ 算法。算法。GSP 算法是序列模式挖掘算法。GSP 算法也是 Apriori 类算法,在算法的过程中也会进行连接和剪枝操作,不过在剪枝判断的时候还加上了一些时间上的约束等条件。详细介绍链接:http:/ 算法。算法。PreFixSpan 算法是另一个序列模式挖掘算法,在算法的过程中不会产生候选集,给定初始前缀模式,不断的通过后缀模式中的元素转到前缀模式中,而不断的递归挖掘下去。4详细介绍链接:http:/ 算法是一种集成挖掘算法,因为他是建立在关联规则挖掘算法之上的,在已有的关联规则理论前提下,做分类判断,只是在算法的开始时对数据做处理,变成类似于事务的形式。详细介绍链接:http:/ 算法。算法。gSpan 算法属于图挖掘算法领域。,主要用于频繁子图的挖掘,相较于其他的图算法,子图挖掘算法是他们的一个前提或基础算法。gSpan算法用到了 DFS 编码,和 Edge 五元组,最右路径子图扩展等概念,算法比较的抽象和复杂。详细介绍链接:http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 研究报告 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号