Office 2007数据挖掘外接程序培训讲义

资源描述

《Office 2007数据挖掘外接程序培训讲义》由会员分享，可在线阅读，更多相关《Office 2007数据挖掘外接程序培训讲义（28页珍藏版）》请在金锄头文库上搜索。

1、,Office 2007 数据挖掘外接程序,DMC第一次讲课,主讲人：韩钧指导老师:谢邦昌单位：厦门大学计划统计系 06硕 E-mail： MSN： ,什么是DM？,数据挖掘一般是指在数据库中，利用各种分析方法与技术，将过去所累积的大量繁杂的历史数据中，进行分析、归纳与整合等工作，以提取出有用的信息，找出有意义且用户有兴趣的模式(Interesting Patterns)，为企业管理阶层的决策提供参考依据。,SQL简介,Microsoft SQL Server 2005 扩展了 SQL Server 2000 的性能、可靠性、可用性、可编程性和易用性。SQL Server 2005 包含

2、了多项新功能，这使它成为大规模联机事务处理 (OLTP)、数据仓库和电子商务应用程序的优秀数据库平台。,同学们近期会接触到的,Analysis Services 引入了新管理工具、集成开发环境以及与 .NET Framework 的集成。许多新功能扩展了 Analysis Services 的和分析功能。,数据挖掘,想要多了解SQL一点,请先查看“开始菜单”SQL教程和在线丛书。下一周，来升强老师会为大家进行具体讲授,Solution： Office 2007 数据挖掘外接程序,不太懂数据库，能搞数据挖掘吗？,Logistics regression,许多社会科学问题的观察，只是分而非续

3、的。对于分问题时，线性回归就适用。,因变量被看做离散型随机变量！,Logistic Regression就是针对二元因变，即是1或0。常代表选择中的是与否。如果该随机变量的概率分布是 0 1 （，1- ）则被称作胜算比(Odds Ratio),很多时候，自变量X对于的影响服从logistic曲线，可以写成如下表达式现在我们要估计的是与这两个参数。请注意，不能够解释成X变化一个单位，概率变化的数量。,的意义是这样的,0， X与正相关 0， X与负相关 X增加一个单位，的变化不是个常数，要用来计算。,NeuralNetwork类神经网络,类神经网络和回归分析不同，没有

4、任何假设的机率分布，是模式识别和误差最小化的过程，在每一次经验中提取和学习信息。类神经网络可以处理连续型和类别型的数据，对数据進行预测。,Backpropagation Neural Networks(BP神经网络）,神经元的结构,x1,x2,xn,w1j,w2j,wnj,yj,Pj,f(Pj),n表示变量的个数 xi表示第i个输入变量 Wij表示第j个神经元的第i个变数的权重 j是第j个神经元的阈值 Pj表示第j个神经元的组合函数 f（）是神经元的启动函数 yi=f(Pj)是第j个神经元的输出值。,決策樹(Decision Tree),分类的原理,数据库,分类标记,监督式(supervis

5、ed learning)的机器学习法- 決策樹(Decision Tree),很明显，性别、年龄、婚姻、家庭等属性可能会影响“是否购买房车” 但是那种属性影响大呢？按照“年龄”这种有多个取值的属性来分类，分界线划在哪里合适呢？决策树的原理就是不断尝试用各种属性，每个属性的各个取值，分出的类与类之间，在分类标签(如“是否购买房车”)方面差异化最大。,衡量类间差异的原理：信息熵（GainRatio）原理基尼系数（Gini Index）原理如果分类标签是连续变量，则决策树算法自动变成回归树算法，衡量类间差异的原理变成组间方差最大化,与聚类(clustering)比较,聚类是非监督式的学习

6、，不凭借分类标记把个体归成几类。聚类没有预测功能，分类可以预测。例如只要知道新出现的潜在客户的年龄、婚姻、性别等资料，就能推断其“是否购买房车”的可能性大小。,Association Rule关联规则,关联规则判断标准支援度（support,也称广泛度，普遍度）置信度（confidence,也称预测度）增益(lift),1、支援度sup(.)：表示在购物篮分析中同时包含关联规则左右两边物品的交易次数百分比，即支持这个规则的交易的次数百分比。,sup(X21Y11) = P(X21Y11) = = 40%,实际运用中，专家给出最小支持度与最小置信度，一旦计算出的支持度和置信度高于此标准

7、，则判定该关联规则为“有趣”,2、置信度confidence(.)：是指购物篮分析中有了左边商品，同时又有右边商品的交易次数百分比，也就是说在所有的购买了左边商品的交易中，同时又购买了右边商品的交易概率。,confidence(X21Y11) = P(Y11|X21) = = 74.1%,增益是support和confidence的有效补充！如10000次购买中，6000次出现游戏机，7500次出现DVD影碟，4000次两者都有。游戏机=影碟（support=40%,confidence=66%）但是，购买影碟的无条件概率是75%60%!游戏机对影碟的影响是负面的！,3、增益lift(.)

8、：增益是两种可能性的比较，一种是在已知购买了左边商品情况下购买右边商品的可能性，另一种是任意情况下购买右边商品的可能性。,lift(X21Y11) = P(Y11|X21) P(Y11) = 74.1% 65% = 9.1%,Nave Bayes Classifer,一种简单且实用的分类方法单纯贝氏分类器会根据训练样本，对于所给予测试对象的属性值(a1,a2,a3,an)指派具有最高机率值的类别(C表示类别的集合)为目标结果。其中，假设一共有n个学习概念的属性A1, A2, , An，a1为A1相对应的属性值。,应用Bayes公式,属性独立：,2.预测推论新测试样本所应归属的类别,贝氏定理

9、：,1.计算各属性的条件机率P(C=cj | A1=a1,An=an),Sequence Clustering,Sequence Clustering在找出先后發生事物的关系，重点在于分析数据间先后序列关系。 Association则是找出某一事件或资料中會同时出現的状态，例如项目A是某事件的一部份，则项目B也出现在该事件中的机率有a %。,顾客通常在购买某类商品后，经过一段時間，会再购买另一类商品例如:租過黄飞鸿第一集，经过一段时间，通常会再租黄飞鸿第二集，之后再租黄飞鸿第三集例如:买过“棉被、枕头、床单”之后，经过一段时间，通常会再购买“纸尿裤、奶粉” 例如:购买打印机的顾客，有80%的客户在三个月内购买墨水盒。,设定发现模式的时间间隔(interal,int) int=0,无时间间隔,找出严格连续的序列。DNA分析通常需要无时间间隔的连续序列。 Min(interval) intMax(interval),例如模式”某人租影片A,可能30天内租影片B”表示,int 30。 int=c 0,具有确定间隔的模式。例如搜索”每次道琼指数下降超过5%，两天后可能结果” ，此时搜索间隔int=2天的序列模式。,实施Sequence Clustering分析时，要事先决定最小Support和最小Confidence,

展开阅读全文

Office 2007数据挖掘外接程序培训讲义

最新文档