商务数据挖掘介绍(教授制作)ln12

上传人:mg****85 文档编号:50555281 上传时间:2018-08-08 格式:PPT 页数:40 大小:1.68MB
返回 下载 相关 举报
商务数据挖掘介绍(教授制作)ln12_第1页
第1页 / 共40页
商务数据挖掘介绍(教授制作)ln12_第2页
第2页 / 共40页
商务数据挖掘介绍(教授制作)ln12_第3页
第3页 / 共40页
商务数据挖掘介绍(教授制作)ln12_第4页
第4页 / 共40页
商务数据挖掘介绍(教授制作)ln12_第5页
第5页 / 共40页
点击查看更多>>
资源描述

《商务数据挖掘介绍(教授制作)ln12》由会员分享,可在线阅读,更多相关《商务数据挖掘介绍(教授制作)ln12(40页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘算法的几何思想李保坤老师西南财经大学统计学院内容概要一 数据挖掘介绍什么是数据挖掘数据挖掘的主要任务数据挖掘简单步骤二 数据挖掘算法及其几何思想分类:分类树、简单贝页斯、Logistic回归、神经网络、判别分析、k-最近邻点预测:多元线性回归、神经网络数据精简:主成分分析探索性分析:聚类关联分析:关联法则三 西南数据挖掘系统一 数据挖掘介绍1.1 什么是数据挖掘是近来创造的名词,是把统计学、计算机科学 的一些思想综合运用到科学、工程和商业方面 大型数据库上以发现事物内在规律的方法。数据挖掘是建立在规模、速度、和简单化上的 统计学;“是用统计学和计算机科学的方法为大型数据 建模的一种综合

2、工具。”我的想法“会数据挖掘找工作时工资要高一些”!-研究生同学的反馈信息4一 数据挖掘介绍1.1 什么是数据挖掘数据挖掘概念及商务应用数据挖掘概念及商务应用客户关系管理金融电子商务和互联网客户关系管理 直销(Target Marketing)客户流失预测/跳槽分析(Attrition Prediction/Churn Analysis) 欺诈探测(Fraud Detection)信用评分(Credit Scoring)金融商业问题:公司债券的定价取决于几种 因素, 公司的风险特征(risk profile) 、债务资历(seniority of debt)、公司 历史等等 解决方案:通过数据

3、挖掘建立预测价格 的更为精确的模型电子商务和互联网推荐系统把点击鼠标者变成客户1.2.1 分类数据挖掘的一项基本任务就是用类别已知的数据找 出规则,然后把这些规则用在未进行分类的数据上 。 分类或许是数据挖掘应用最广泛的任务。 一 数据挖掘介绍 1.2 任务10一 数据挖掘介绍1.2 任务1.2.1 分类举例一家金融服务公司为其客户提供房屋净值信贷额度 。该公司曾把该项贷款发放给了数千客户,其中的 许多接收者(大约20%)有贷款欺诈行为。该公司 希望使用地理信息、人口信息、和经济状况信息等 变量建立一个模型预测一个申请人将来会不会欺诈 。该信用评分模型给每一个贷款申请人计算还贷欺诈 的概率。在

4、此要设定一个阈值,欺诈概率超过阈值 的那些申请人将建议不批准。1.2.2 预测预测和分类相似,差别在于我们是预测一个变量的数 值,而不是一个类别。当然,在分类时我们试图去预测一个类别,而“预测” 这个术语在数据挖掘里通常指的是预测一个连续变量 的数值。 (另外,预测和估计也经常被混用)一 数据挖掘介绍1.2 任务1.2.3 关联分析 有了储存客户交易信息的大型数据库自然就产生了 对购买物品进行的关联分析(哪种物品和哪种物品 是搭配着买的)。通过关联分析得到的“关联法则” 然后以多种方式被利用。例如,百货商店可以利用 关联法则在扫描了一个顾客的采购单后印制优惠券 ,优惠卷上打折扣的商品是由通过分

5、析大量顾客的 采购单得到的关联法则决定的。一 数据挖掘介绍1.2 任务1.2.4 数据精简数据分析经常需要把复杂的数据进行精简。分析 人员不是处理成千上万种商品,而是希望把数据 压缩成几个小组。这种把大量的变量(或者记录 )合并而得到一个较小数据集合的过程就叫数据 精简。 一 数据挖掘介绍 1.2 任务1.2.5 探索性分析审查和检验数据以了解它包含什么信息。 例如为全面了解数据需要减少数据集合的大小或者 维数以便让我们看见森林而不是只看见树木。相似 的变量(即提供类似信息的变量)可以合并到一个 变量。类似地,聚类分析可把所有记录划分到由相 似记录构成的几个组里。一 数据挖掘介绍1.2 任务1

6、.2.6 数据显示了解数据包含信息的另一个技术是图形分析 。例如,两个变量之间的散布图可以让我们 迅速地看到变量之间的关系。 一 数据挖掘介绍1.2 任务数据挖掘任务以及工具数据挖掘任务以及工具分类:k最近邻点,简单贝叶斯(Nave Bayes),分类树,判 别分析,Logistic回归,神经网络,支持向量机 预测:回归,神经网络,时间序列 关联法则:关联分析 数据精简:主成分分析、相关分析、粗糙集 探索性分析聚类分析17一 数据挖掘介绍 1.3 数据挖掘步骤把数据划分为 训练数据和验证数据 两个部分只用训练数据 训练模型得到结果,看一下 结果是否令人满意检查在验证数据上的 结果是否也令人满意

7、研究在验证数据 上的各种输出结果尝试几种备择模型选择和部署 最佳模型二 数据挖掘算法思想和应用2.1.1 决策树几何思想:把预测变量空间划分为多个 多维空间的“长方形”,每一个“长方形”对 应一个类别。1819二 数据挖掘算法思想和应用2.1.1 决策树20二 数据挖掘算法思想和应用 2.1.1 决策树Iris花21例如:输入变量有X1,X2,Xk, 输出变量y有个类别 y1,y2,y3.假定所有的输入变量和输出变量都是随机变量。假定 在每一个输出类别上输入变量相互独立。针对每一个观测记录,计算给定输入变量值时输出变 量等于每一个类别的条件概率。在某一个类别上的条 件概率最大,该观测记录就划为

8、某一类。 对每一个观测记录计算: P(Y=y1|X1=x1,X2=x2,Xk=xk) P(Y=y2|X1=x1,X2=x2,Xk=xk) P(Y=y3|X1=x1,X2=x2,Xk=xk)22二 数据挖掘算法思想和应用2.1.2 简单贝叶斯分类思想23二 数据挖掘算法思想和应用 2.1.2 简单贝叶斯输出变量只有个类别,即:和对每一个观测记录的输入变量,计算其 输出变量等于的概率。该概率是输入 变量某线性组合的单调函数。当该概率大于某个值时划分到一个类; 否则划分到另一个类。24二 数据挖掘算法思想和应用 2.1.3 Logistic回归25二 数据挖掘算法思想和应用 2.1.3 Logist

9、ic回归Logistic 回归模型 拟和的贝叶斯判别fisher判别函数分类思想:在输入变量空间中找一条直线,使得几 个输出类别在这条直线上的投影尽可能 地分开。26二 数据挖掘算法思想和应用 2.1.4 判别分析27二 数据挖掘算法思想和应用 2.1.4 判别分析假定K=3对数据集合中的每一个点,检查它在预 测变量空间中最邻近的个点,如果这 个邻居中的大多数都属于某一个类别 ,那么该点就属于此类别。这是“民主投票方式”的分类法28二 数据挖掘算法思想和应用 2.1.5 k最近邻点29二 数据挖掘算法思想和应用 2.1.5 k最近邻点人类的大脑估计有一百亿个神经元,每 一个神经元平均和其它10

10、,000个神经元 相连接。神经元通过神经突触接收信号 ,神经突触控制着信号的反应。这些神 经突触的网络连接被认为在大脑活动中 起着关键作用。人工神经网络的灵感来源于科学家对大 脑行为研究的生理发现。30二 数据挖掘算法思想和应用 2.1.6 神经网络31二 数据挖掘算法思想和应用 2.1.6 神经网络32二 数据挖掘算法思想和应用 2.1.6 神经网络思想:找到一条直线(或者多维空间的超平面) ,使得数据集合的点到该直线的竖直距离平方和 最小二 数据挖掘算法思想和应用 2.2.1 多元线性回归思想:在保证数据信息丢失不多的情况下 ,把高维空间的数据投影到低维空间。目 的是除掉变量之间包含信息的

11、冗余、并降 低数据的维数。34二 数据挖掘算法思想和应用 2.3.1 主成分分析35二 数据挖掘算法思想和应用 2.3.1 主成分分析聚类分析的目的是根据对象几种属性的 测量值组成相似对象的几个集合。关键 的思想是把数据以一种有利于进行分析 的方式归类。36二 数据挖掘算法思想和应用 2.3.2 聚类分析37XYk1k3二 数据挖掘算法思想和应用 2.3.2 聚类分析38二 数据挖掘算法思想和应用 2.3.2 聚类分析Y关联分析研究的是“什么跟什么在一起”。 例如,一家书店的经理可能很关心客户 买书的习惯以便卖出更多的书。这些方 法又称为购物篮分析(Market basket analysis),因为他们起源于确定购买活动 关系的客户交易数据库研究。39二 数据挖掘算法思想和应用 2.3.3 关联分析40谢谢观赏!李保坤西南财经大学统计学院副教授 美国新墨西哥州立大学博士

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号