数据挖掘算法的几何思想

上传人:壹****1 文档编号:570819634 上传时间:2024-08-06 格式:PPT 页数:40 大小:1.41MB
返回 下载 相关 举报
数据挖掘算法的几何思想_第1页
第1页 / 共40页
数据挖掘算法的几何思想_第2页
第2页 / 共40页
数据挖掘算法的几何思想_第3页
第3页 / 共40页
数据挖掘算法的几何思想_第4页
第4页 / 共40页
数据挖掘算法的几何思想_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《数据挖掘算法的几何思想》由会员分享,可在线阅读,更多相关《数据挖掘算法的几何思想(40页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘算法的几何思想李保坤老师西南财经大学统计学院竞坷汰清们烟囊撬傻庶除基击不侵慑厨还吞未灼慢颗使基墟筑峙兹标尘钓数据挖掘算法的几何思想数据挖掘算法的几何思想内容概要内容概要一数据挖掘介绍什么是数据挖掘数据挖掘的主要任务数据挖掘简单步骤二数据挖掘算法及其几何思想分类:分类树、简单贝页斯、Logistic回归、神经网络、判别分析、k-最近邻点预测:多元线性回归、神经网络数据精简:主成分分析探索性分析:聚类关联分析:关联法则三西南数据挖掘系统为咀咕贪率综沤砌弘稗王溪嘱杭例颠辉富哀丙皋谎熬裔迎募嘉扼蓟瓤鄙屯数据挖掘算法的几何思想数据挖掘算法的几何思想一数据挖掘介绍1.1 什么是数据挖掘是近来创造的

2、名词,是是近来创造的名词,是把统计学、计算机科学把统计学、计算机科学的一些思想综合运用到科学、工程和商业方面的一些思想综合运用到科学、工程和商业方面大型数据库上以发现事物内在规律的方法大型数据库上以发现事物内在规律的方法。数据挖掘是数据挖掘是建立在规模、速度、和简单化上的建立在规模、速度、和简单化上的统计学统计学;“是用统计学和计算机科学的方法为大型数据是用统计学和计算机科学的方法为大型数据建模的一种综合工具。建模的一种综合工具。”我的想法我的想法季君澈映违联裙齿沧考吗眷靠宙龄噪灶羔烛芹箍殴拨害俘禾彼疤终氰集庭数据挖掘算法的几何思想数据挖掘算法的几何思想“会数据挖掘找工作时工资要高一些会数据挖

3、掘找工作时工资要高一些”! -研究生同学的反馈信息研究生同学的反馈信息4一数据挖掘介绍1.1 什么是数据挖掘弟逢财瞬祖伯吉卫馋磐滤嗡墟推活绩俏等蚁诅户鹿框恶泄唐群轻渝挚式园数据挖掘算法的几何思想数据挖掘算法的几何思想数据挖掘概念及商务应用客户关系管理金融电子商务和互联网蔓祁掷轮澡纺淄产求洽戴媒铀怒培谍督仙祭油袭灭炒棠恕完条痹霉找侠狈数据挖掘算法的几何思想数据挖掘算法的几何思想客户关系管理 直销 (Target Marketing)客户流失预测/跳槽分析 (Attrition Prediction/Churn Analysis) 欺诈探测 (Fraud Detection)信用评分 (Credi

4、t Scoring)沙膏僳矢撰更鳞羔桶乱绽还焊栅烂颂锤铬祝衰疚县帅打备宪已患喳浪粟役数据挖掘算法的几何思想数据挖掘算法的几何思想金融商业问题:公司债券的定价取决于几种因素, 公司的风险特征(risk profile)、债务资历(seniority of debt)、公司历史等等 解决方案:通过数据挖掘建立预测价格的更为精确的模型羚冶谰虽们短裴遣掸桩钎秦主祝榷炬杀恩幅洛匹短斤味慷稼肉迸痘肝竭锤数据挖掘算法的几何思想数据挖掘算法的几何思想电子商务和互联网推荐系统把点击鼠标者变成客户笔衙呸撞裙怯迎含剁赡早带甸西忘眶睁栗澳隋宫奥聪茫癌甲版冀减硅缨萝数据挖掘算法的几何思想数据挖掘算法的几何思想1.2.1

5、 分类分类数据挖掘的一项基本任务就是用类别已知的数据找出规则,然后把这些规则用在未进行分类的数据上。 分类或许是数据挖掘应用最广泛的任务。 一数据挖掘介绍1.2 任务任务毅三搪措谗奠烷休哄攒薯页谦仟爹寻拭闷友歼盅弄纫圃池茂讹枝亚抠微涩数据挖掘算法的几何思想数据挖掘算法的几何思想10一数据挖掘介绍 1.2 任务任务1.2.1 分类举例分类举例一家金融服务公司为其客户提供房屋净值信贷额度。该公司曾把该项贷款发放给了数千客户,其中的许多接收者(大约20%)有贷款欺诈行为。该公司希望使用地理信息、人口信息、和经济状况信息等变量建立一个模型预测一个申请人将来会不会欺诈。 该信用评分模型给每一个贷款申请人

6、计算还贷欺诈的概率。在此要设定一个阈值,欺诈概率超过阈值的那些申请人将建议不批准。滁赌蝗丸婪十婚铅皮罢拎组可莆翠愈忧佰颈恨彦网额围欣辨专是拙醉腋殊数据挖掘算法的几何思想数据挖掘算法的几何思想1.2.2 预测预测预测和分类相似,差别在于我们是预测一个变量的数预测和分类相似,差别在于我们是预测一个变量的数值,而不是一个类别。值,而不是一个类别。当然,在分类时我们试图去预测一个类别,而当然,在分类时我们试图去预测一个类别,而“预测预测”这个术语在数据挖掘里通常指的是预测一个连续变量这个术语在数据挖掘里通常指的是预测一个连续变量的数值。的数值。 (另外,预测和估计也经常被混用)一数据挖掘介绍 1.2

7、任务任务俱后嘻伺厦啼咋芍氏书水蛛唾嗓菲县偿铺鹏捡赊舟均明饲访求按臀蛋嫁纺数据挖掘算法的几何思想数据挖掘算法的几何思想1.2.3 关联分析关联分析 有有了了储储存存客客户户交交易易信信息息的的大大型型数数据据库库自自然然就就产产生生了了对对购购买买物物品品进进行行的的关关联联分分析析(哪哪种种物物品品和和哪哪种种物物品品是是搭搭配配着着买买的的)。通通过过关关联联分分析析得得到到的的“关关联联法法则则”然然后后以以多多种种方方式式被被利利用用。例例如如,百百货货商商店店可可以以利利用用关关联联法法则则在在扫扫描描了了一一个个顾顾客客的的采采购购单单后后印印制制优优惠惠券券,优优惠惠卷卷上上打打折

8、折扣扣的的商商品品是是由由通通过过分分析析大大量量顾顾客客的的采采购单得到的关联法则决定的。购单得到的关联法则决定的。一数据挖掘介绍 1.2 任务任务片婶帽伴讽担防离翠介溉俺泵艇彤毗伦补毁裂咳烽牺扒擦辟既懂此椰蔓堡数据挖掘算法的几何思想数据挖掘算法的几何思想1.2.4 数据精简数据精简数数据据分分析析经经常常需需要要把把复复杂杂的的数数据据进进行行精精简简。分分析析人人员员不不是是处处理理成成千千上上万万种种商商品品,而而是是希希望望把把数数据据压压缩缩成成几几个个小小组组。这这种种把把大大量量的的变变量量(或或者者记记录录)合合并并而而得得到到一一个个较较小小数数据据集集合合的的过过程程就就

9、叫叫数数据据精精简。简。 一数据挖掘介绍1.2 任务任务画瀑话醚伙筷狗沥娇捌殆摔丽叼途采刊蜜寥傣岩纪迸则邦苇舟樟烈纺稗淆数据挖掘算法的几何思想数据挖掘算法的几何思想1.2.5 探索性分析探索性分析审查和检验数据以了解它包含什么信息。 例如为全面了解数据需要减少数据集合的大小或者维数以便让我们看见森林而不是只看见树木。相似的变量(即提供类似信息的变量)可以合并到一个变量。类似地,聚类分析可把所有记录划分到由相似记录构成的几个组里。一数据挖掘介绍 1.2 任务任务晰卡皖萨珐浦傻注坠痒砒麻府鄂哥映慰拴帮幢葛镇裁谭疟挎旭琉泌屹输趟数据挖掘算法的几何思想数据挖掘算法的几何思想1.2.6 数据显示数据显示

10、了解数据包含信息的另一个技术是图形分析。例如,两个变量之间的散布图可以让我们迅速地看到变量之间的关系。 一数据挖掘介绍 1.2 任务任务嘎芯啮鞍哆题摆恬柳睛警旷玉扰盅南滴输牌疼兜钱电洋浴跺巨偿嘱赁价份数据挖掘算法的几何思想数据挖掘算法的几何思想数据挖掘任务以及工具分类: k最近邻点,简单贝叶斯(Nave Bayes),分类树,判别分析,Logistic回归,神经网络,支持向量机预测: 回归,神经网络,时间序列关联法则:关联分析数据精简:主成分分析、相关分析、粗糙集探索性分析聚类分析档蒲正激告盈歉苇板名倦低磊蛙支加冰左房狰谁嫩西落都勺档宦畅蠢灌伯数据挖掘算法的几何思想数据挖掘算法的几何思想17一

11、数据挖掘介绍1.3 数据挖掘步骤数据挖掘步骤 把数据划分为 训练数据和验证数据两个部分只用训练数据训练模型得到结果,看一下结果是否令人满意检查在验证数据上的结果是否也令人满意研究在验证数据上的各种输出结果尝试几种备择模型选择和部署最佳模型烂弟猴轴性旱阂涛丹绵伶快受血肛耍材菲巷戮晋钨支痴聚烦放提掷棕醉玫数据挖掘算法的几何思想数据挖掘算法的几何思想二数据挖掘算法思想和应用2.1.1 决策树几何思想:把预测变量空间划分为多个多维空间的“长方形”,每一个“长方形”对应一个类别。18腋鄂娇探前酵蛛炎呕唾老燕恃浪绎嘉抡豌圆工泽龋狈滩闷炽刁忻劳鬼愿骆数据挖掘算法的几何思想数据挖掘算法的几何思想19二数据挖掘

12、算法思想和应用2.1.1 决策树疡扒碑事册艘译扇戏咨乌矩湍皇秩掂留烦菇道弯适富蜜杨斑湖椎们蔬叶垒数据挖掘算法的几何思想数据挖掘算法的几何思想20二数据挖掘算法思想和应用2.1.1 决策树拧除壬废齿亭主刻愚拳劳郎扎填赏眯肌映费扒裳栖葫褐按洗然恭冗侈吐役数据挖掘算法的几何思想数据挖掘算法的几何思想Iris花21抖旺背好沙敏蚤尔谁猩撕婴晤且撩始戍陇妇彭杖迫下额矛仲湃蒸结反孺蘸数据挖掘算法的几何思想数据挖掘算法的几何思想例如:输入变量有X1,X2,Xk, 输出变量y有个类别y1,y2,y3.假定所有的输入变量和输出变量都是随机变量。假定在每一个输出类别上输入变量相互独立。针对每一个观测记录,计算给定输

13、入变量值时输出变量等于每一个类别的条件概率。在某一个类别上的条件概率最大,该观测记录就划为某一类。对每一个观测记录计算:P(Y=y1|X1=x1,X2=x2,Xk=xk)P(Y=y2|X1=x1,X2=x2,Xk=xk)P(Y=y3|X1=x1,X2=x2,Xk=xk)22二数据挖掘算法思想和应用2.1.2 简单贝叶斯分类思想某果辑兔渠暮烫谷疏本括头爸艘道赋眉迂党穆控霸赃敷凌起僳沂窿宙恋构数据挖掘算法的几何思想数据挖掘算法的几何思想23二数据挖掘算法思想和应用2.1.2 简单贝叶斯辖先妻惶贯枕渤剂宽趁厦尿浪淡归寨炬污诣茧茅洽衰靖粟沮凋们续矮寞竿数据挖掘算法的几何思想数据挖掘算法的几何思想输出变

14、量只有个类别,即:和对每一个观测记录的输入变量,计算其输出变量等于的概率。该概率是输入变量某线性组合的单调函数。当该概率大于某个值时划分到一个类;否则划分到另一个类。24二数据挖掘算法思想和应用2.1.3 Logistic回归侮吕菱密募俞蜗访臭萝谰跋郝轩纬豢椰忽扦玄靛答蛛删蛙壁素菜嘻波佑医数据挖掘算法的几何思想数据挖掘算法的几何思想25二数据挖掘算法思想和应用2.1.3 Logistic回归Logistic 回归模型拟和的爸修购悉蔡免副磐绦番多苫察弟宙促异哑坐惩隐哦疵棺临灸界道沼巧诞怖数据挖掘算法的几何思想数据挖掘算法的几何思想贝叶斯判别fisher判别函数分类思想:在输入变量空间中找一条直线

15、,使得几个输出类别在这条直线上的投影尽可能地分开。26二数据挖掘算法思想和应用2.1.4 判别分析爵哑江娩龄喊灯封浦纺炬韩氏潦枯姐沾哟酿菇摧遮命冈觉艺肘众慑婉衰缄数据挖掘算法的几何思想数据挖掘算法的几何思想27二数据挖掘算法思想和应用2.1.4 判别分析菊棍狞枫紧轰陷舍货承想畏购请茨圈及棍突迸摊抚练旋偿齐诸白玄矢颗躯数据挖掘算法的几何思想数据挖掘算法的几何思想假定K=3对数据集合中的每一个点,检查它在预测变量空间中最邻近的个点,如果这个邻居中的大多数都属于某一个类别,那么该点就属于此类别。这是“民主投票方式”的分类法28二数据挖掘算法思想和应用2.1.5 k最近邻点捍扣冷帧裔馅轻孝临帅酗承哆存

16、入袄聘械殉悄痴占迸撰愤须艘渡歹骆却咖数据挖掘算法的几何思想数据挖掘算法的几何思想29二数据挖掘算法思想和应用2.1.5 k最近邻点怂怖邑陡熬追噪麻数弃壮嗓衬躇宛昔恶蓉竭关迷闻契目玲槽墒惩孝瓜枚牟数据挖掘算法的几何思想数据挖掘算法的几何思想人类的大脑估计有一百亿个神经元,每一个神经元平均和其它10,000个神经元相连接。神经元通过神经突触接收信号,神经突触控制着信号的反应。这些神经突触的网络连接被认为在大脑活动中起着关键作用。人工神经网络的灵感来源于科学家对大脑行为研究的生理发现。30二数据挖掘算法思想和应用2.1.6 神经网络农偿敷立望率粮貌议磨席瑰檄暇黎彻必姨型嫡攻俞宗罢纽射吞滥崖亥超驱数据

17、挖掘算法的几何思想数据挖掘算法的几何思想31二数据挖掘算法思想和应用2.1.6 神经网络掖礼愧灸声绣徽铜炊下茨胖吠忍辅卢迈嘘拱堆烁酬枢醇犬镇椒椅孙锁栗墩数据挖掘算法的几何思想数据挖掘算法的几何思想32二数据挖掘算法思想和应用2.1.6 神经网络绵耗望愈补黍兼有究咬地系笨雌玫措骋箭冷妻哈熄掐辐毡屁鲍吏驭饺蚁埋数据挖掘算法的几何思想数据挖掘算法的几何思想思想:找到一条直线(或者多维空间的超平面)思想:找到一条直线(或者多维空间的超平面),使得数据集合的点到该直线的竖直距离平方和,使得数据集合的点到该直线的竖直距离平方和最小最小二数据挖掘算法思想和应用2.2.1 多元线性回归刁详瘤侈纬挟镶胜蛋戮剩忘

18、辞沉经需霹蔗盖茫初捡缓炒谰会悲番淀剩戌卉数据挖掘算法的几何思想数据挖掘算法的几何思想思想:在保证数据信息丢失不多的情况下,把高维空间的数据投影到低维空间。目的是除掉变量之间包含信息的冗余、并降低数据的维数。34二数据挖掘算法思想和应用2.3.1 主成分分析喀瑞吸彦噬硅挑孙俭咋耀湍雾牌屯缚揉露矢辽迷柏匀拦碉贴卸匣椒躇辽撞数据挖掘算法的几何思想数据挖掘算法的几何思想35二数据挖掘算法思想和应用2.3.1 主成分分析辊单朗阀裂凭喘吕阑忽喂钠硬匀缎爪祈荆宦砚奢募释烦翔暖定咙跨斗砰憎数据挖掘算法的几何思想数据挖掘算法的几何思想聚类分析的目的是根据对象几种属性的测量值组成相似对象的几个集合。关键的思想是把

19、数据以一种有利于进行分析的方式归类。36二数据挖掘算法思想和应用2.3.2 聚类分析难渭紊拨林含投腿般善嘴油颗梢纲厄拓檄挑亮烫藤薪巩板癸敌者珊阅弦茵数据挖掘算法的几何思想数据挖掘算法的几何思想37XYk1k3二数据挖掘算法思想和应用2.3.2 聚类分析榔刊纶态患搜祷狮缎磐揪投色氖抓票闰啡鸳似矮骑猩帕蕊富茁茅时牧垂刀数据挖掘算法的几何思想数据挖掘算法的几何思想38二数据挖掘算法思想和应用2.3.2 聚类分析Y脱院掣丢协赂熙赖漂询押范咯捂坡昏拙醇暮郝诗抿辗借渭晰笼刻洁誉蒙潘数据挖掘算法的几何思想数据挖掘算法的几何思想关联分析研究的是“什么跟什么在一起”。例如,一家书店的经理可能很关心客户买书的习惯以便卖出更多的书。这些方法又称为购物篮分析(Market basketanalysis),因为他们起源于确定购买活动关系的客户交易数据库研究。39二数据挖掘算法思想和应用2.3.3 关联分析厌菏檄私酝娩暇籍牺坠抢浸蛰逐扛曳牵胺瞩舟翘柄倪盛炬剐梁已竞寞佛暂数据挖掘算法的几何思想数据挖掘算法的几何思想40 谢谢观赏!谢谢观赏!李保坤李保坤西南财经大学统计学院副教授西南财经大学统计学院副教授美国新墨西哥州立大学博士美国新墨西哥州立大学博士确店户夫奥爽慌霉佐棉奥暇缎逾款伶牌焦鹏探颇茅晴裹戏斗竟筛令入肺麓数据挖掘算法的几何思想数据挖掘算法的几何思想

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号