现代统计方法及案例分析

资源描述

《现代统计方法及案例分析》由会员分享，可在线阅读，更多相关《现代统计方法及案例分析（62页珍藏版）》请在金锄头文库上搜索。

1、现代统计方法及案例分析基于数据挖掘的数据准备报告内容及目的让大家了解数据挖掘的概念，认识海量数据分析时所遇到的问题，在此基础上，介绍原始大型数据库的基本表述和特征，了解数据准备的不同技术，比较去除丢失值的不同方法，构造时间相关数据的统一表述方法，实现一些数据预处理技术。其目的是让大家从中领悟现代统计方法的基本思想。现代统计方法及案例分析一、数据挖掘的定义二、数据挖掘与知识发现三、海量数据分析中遇到的问题四、数据准备1、数据选择2、数据预处理3、数据变换What are these numbers trying to Tell me?nMatrix Codesn：，舅舅：不要吃酒，吃酒误事，，

2、，吃了二两酒，不是动怒，就是动武，，. 。吃酒要被酒杀死，一点酒也不要吃。What Are These Numbers Trying to Tell Us?What Are These Numbers Trying to Tell Us?n7 2 n2x3 n40 6 n二四六八 n0000 n 1 1 = 1 n10002 =100100100 n7/8 不三不四接二連三陸續不斷無獨有偶掛萬漏一一成不變千方百計七上八下一、数据挖掘的技术定义与商业定义n什么是数据挖掘(Data Mining)？关于定义取决于定义者的观点和背景，各人的说法不一. Friedman, J.

3、H.在技术报告Data Mining and Statistics: Whats The Connection? 中总结出了多家关于数据挖掘的定义(也有对知识发现而言的)：nFayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程. nZekulin的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息，并用它来进行关键的商业决策的过程. nFerruzza给出数据挖掘是用在知识发现过程，来辩识存在于数据中的未知关系和模式的一些方法.nJonn提到数据挖掘是发现数据中有益模式的过程. nParsaye定义数据挖掘是我们为那些未知的

4、信息模式而研究大型数据集的一个决策支持过程.n这些表达方式虽然不同，但从各自的角度描述出了对数据挖掘的理解.这里我们主要从技术和商业的角度给出数据挖掘的定义.1、数据挖掘的技术定义n从技术角度，数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程.n它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科.这个定义包括好几层含义：n数据源必须是真实的、大量的、含噪声的；n发现的是用户感兴趣的知识；n发现的知识要可接受、可理解、可运用；n这些知识是相对的，是有特

5、定前提和约束条件的，在特定领域中具有实际应用价值.什么是知识呢?n从广义上理解，数据、信息是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识.n人们把数据看作是形成知识的源泉，好像从矿石中采矿或淘金一样.2、数据挖掘的商业定义从商业应用角度看，数据挖掘是一种新的商业信息处理技术。数据挖掘也可以描述为：按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证已知的规律性，且进一步将其模型化的数据处理方法.二、数据挖掘与知识发现（DM & KDD）1、知识发现(Knowledge Discovery in Database)过程知识发现过程可以粗

6、略的理解为三部曲：数据准备(data preparation) 数据挖掘(data mining) 结果的解释评估(interpretation and evaluation) 知识发现过程示意图n数据准备又可分为三个子步骤：数据选取、数据预处理和数据变换.n数据挖掘阶段主要是确定开采的任务，如数据总结、分类、聚类、关联规则发现或序列模式发现等. n结果解释和评价主要是数据挖掘阶段发现出的模式，经过用户和机器的评价，可能存在冗余或无关的模式，这时需要将其剔除。如果有的模式不满足用户要求，需要将整个发现过程退回到发现阶段之前。2、数据挖掘的地位KDD是一种知识发现的一连串程序，数据

7、挖掘只是KDD的一个重要程序 . 数据挖掘主要是利用某些特定的知识发现算法，在一定的运算效率的限制内，从数据中发现有关的知识，即隐藏的模式. 数据挖掘是KDD中最重要的一步，在KDD的全过程中起到了至关重要的作用. 因此，人们往往不加区别地使用数据挖掘和KDD.親愛的齊：我們的感情，在組織的親切關懷下、在領導的過問下，一年來正沿著健康的道路蓬勃發展。這主要表現在：（一）我們共通信121封，平均3.01天一封。其中你給我的信51封，占42.1%我給你的信70封，占57.9%。每封信平均1502字，最長的達5215字，最短的也有624字。我们不能这样简单的理解统计三、海量数据分

8、析中遇到的问题（二）約會共98次，平均3.7天一次。其中你主動約我38次，占38.7%我主動約你60次，占 61.3%。每次約會平均3.8小時，最長達6.4小時，最短的也有1.6小時。（三）我到你家看望你父母38次，平均每9.4 天一次，你到我家看望我父母36次，平均10天一次。以上充分証明一年來的交往我們已形成了戀愛的共識，我們愛情的主流是互相了解、互相關心、互相幫助，是平等互利的。當然，任何事物都是一分為二的，缺點的存在是不可避免的。我們二人雖然都是積極的，但從以上的數據看，發展還不太平衡，積極性還存在一定的差距，這是前進中的缺點。相信在新的一

9、年里，我們一定會發揚成績、克服缺點、攜手前進，開創我們愛情的新局面。因此，我提出三點意見供你參考：（一）要圍繞一個愛字，（二）要狠抓一個親字，（三）要落實一個合字。讓我們弘揚團結拼搏的精神，共同振興我們的愛情，爭取達到一個新高度，登上一個新台階。本著我們的婚事我們辦，辦好婚事為我們的精神，共創輝煌！你的小惠 Given7 2 5 8 11 1 6nWhat is the mean?nWhat is the median?nWhat is the first quartile?nWhat is the third quartile?Introductory Statistic

10、sMeanPut in order1 2 5 6 7 8 11 Q1 Median Q3Givenx1, x2, x3, , xnnWhat is the mean?nWhat is the median?nWhat is the first quartile?nWhat is the third quartile?MeanPut in orderx(1) x(2) x( ) x(n-1) x(n) MedianGivenx1, x2, x3, , xnnwhere n=300,000,000.nWhat is the mean?nWhat is the median?nWhat is the

11、 first quartile?nWhat is the third quartile?四、数据准备（一）数据选择（二）数据预处理（三）数据变换1、原始数据的表述数据样本是数据挖掘过程的基本组成部分（一）数据选择n每个样本都用几个特征来描述，每个特征有不同类型的值。n常见的类型有：数值型和分类型。n数值型包括实型变量和整型变量n注：具有数值型值的特征有两个重要的属性：其值有顺序关系和距离关系。n注意：市场调查资料 n分类型变量的两个值可以相等或不等。n一个有两个值的分类型变量原则上可以转化成一个二进制的数值型变量，这种数值型变量有两个值：0或1；而有N值的分类型变量原则上可以转化成一

12、个二进制的数值型变量，这种数值型变量有N个值。例如：如果变量“季节”有4个值：春、夏、秋、冬。特征值编码春 1000夏 0100秋 0010冬 0001定量型共有四种1）标称数据(nominal data).表示类别或属性的数值数据，如表示性别的数字值.表示性别的数字值(1或2)就是标称数据值.标称数据的一个重要特性是它没有相关重要性.如，即使男性=1，女性=2，也不意味着女性的值是男性的2倍或更高.对于建模来说，只有两个值的标称变量应编码为0和1. 2、数据分类 2）序数数据(ordinal data)序数数据是表示有相对重要性的类别的数值数据，可用于给强度、重要性分等级.例如，

13、用1-5表示用户对某产品的质量评价，分别表示很差、较差、中等、较好、很好.n3）间隔数据(interval data).n 间隔数据是有相对重要性，没有0点的数值数据.对它而言，加、减是有意义的操作.例如，可以用更详细的数字来分析产品质量的好坏，可以用0-100之间的数字具体分析产品之间的差距.n4）连续数据(continuous data)连续数据是开发预测模型时最常用的数据，适用于所有基本的算术运算，包括加、减、乘、除.大多数业务数据如销售额、余款、差额等都是连续数据.另一种数据分类维度是基于数据与时间有关的行为特性.我们把那些不随时间的变化而变化的数据称为静态数据.而另一部分随

14、时间变化而变化的属性值，我们称之为动态数据或时间数据.在大多数的数据挖掘算法中都使用的静态数据，若要使用动态数据，则需要进行特殊的考虑和预处理.这方面的内容将在后面介绍.（二）数据预处理1、噪声数据的处理噪声(noise)是一个被测变量中的随机误差或偏差.下面我们将要讨论给定一个数值型属性，要如何平滑数据去除噪声的方法.1）数据的平整一个数值型的特征y可能包括许多不同的值，这些数据之间的小小差异也许并不重要，但是却有可能影响到挖掘方法的性能甚至最终结果.实际上我们也可以把这些数据之间的差异看成是同一数值的随机变差，因此有时对这些数据进行平整处理还是很重要的.有些情况下的平整算法比较

15、复杂.减少不同的数值数目意味着同时减少了数据空间的维度，这对数据挖掘的方法十分有利.这样的平整方法可用于将连续型特征分解成一系列离散二元“真假”值的特征.2）Bin方法.Bin方法也就是分箱方法，是通过利用相应被平滑数据点的“邻居”(即周围的值)，对一组排序数据进行平滑.排序成的这些数据被分配到一些“桶”或箱中.由于Bin方法考察的是相邻的值，因此它进行局部平滑.下面给出了一些Bin的方法技术3）聚类方法通过聚类分析可以检测到异常数据，也就是孤立点.聚类将相似或相邻近的数据聚合到一起形成了各个聚类集合.直观地看，落在聚类集合之外的值就被认为是孤立点.孤立点之值作为噪声处理，将其删除，试用“聚类”中心值代替.4）回归分析法可以通过回归关系，根据大量统计数据，找出变量之间在数量变化方面的统计规律，从而消除变量之间的随机关系，以达到拟合函数对数据平滑的目的.例如可以借助线性回归(linear regression)，拟合一个变量与其他多个变量之间的关系，这样就可以用这一关系以一组变量值来帮助预测另一个变量.通过回归分析可以消除随机因素，除去噪声.2、异常的分析例如：数据集为：S=S1,S2,S3,S4,S5,S6,S7=(2,4),(3,2),(1,1),(4,3),(1,6),(5,3),(4,2 )欧氏距离 d=(X1-X2)2+(Y1-Y2)21/2取阈

展开阅读全文