大数据时代的数据挖掘与商务智能(三)

资源描述

《大数据时代的数据挖掘与商务智能(三)》由会员分享，可在线阅读，更多相关《大数据时代的数据挖掘与商务智能(三)（239页珍藏版）》请在金锄头文库上搜索。

1、大数据时代的数据挖掘与商务智能,1,第三部分基于统计的传统数据分析技术,2,数据分析基本概念,统计学简介测量与数据数据来源数据的类型数据预处理技术,3,统计数据分析方法,描述统计推断统计常用统计分析软件,4,数学家的幽默,统计学家调侃数学家：你们不是说若且，则吗！那么想必你若喜欢一个女孩，那么这个女孩喜欢的男生你也喜欢吧？数学家反问道：那么你把左手放到一锅一百度的开水中，右手放到一锅零度的冰水里想来也没事吧！因为它们平均不过是五十度而已！”,5,何为统计学？,统计与数量有关，同时它已经渗透到社会经济活动和科学研究的方方面面。那么究竟何为统计？统计是如何开展研究的？作为一门科学

2、的统计学与其他学科有何区别与联系？,6,统计(Statistics)的涵义,统计是人们认识客观世界总体数量变动关系和变动规律的活动的总称，是认识客观世界的有力工具。统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据，以便给出正确认识的方法论科学。,7,统计的研究对象的特点,数量性。统计数据是客观事物量的反映。总体性。统计的数量研究是对现象总体中各单位普遍存在的事实进行大量观察和综合分析。变异性。总体各单位的特征表现存在着差异，而且这些差异并不是事先可以预知的。,8,统计研究的基本环节,9,统计设计,收集数据,整理与分析,资料积累开发应用,统计学理论与相关实质性学科理

3、论,描述统计推断统计,统计调查、实验,统计设计,根据所要研究问题的性质，在有关学科理论的指导下，制定统计指标、指标体系和统计分类，给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。搞好统计设计不仅要有统计学的一般理论和方法为指导，而且还要求设计者对所要研究的问题本身具有深刻的认识和相关的学科知识。,10,收集数据,统计数据的收集有两种基本方法。对于大多数自然科学和工程技术研究来说，有可能通过有控制的科学实验去取得数据，这时可以采用实验法。对于社会经济现象来说，一般无法进行重复实验，要取得有关数据就必须进行调查观察。海量数据的积累！,11,整理与分析,描述统计是指对

4、采集的数据进行登记、审核、整理、归类，在此基础上进一步计算出各种能反映总体数量特征的综合指标，并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。推断统计是在对样本数据进行描述的基础上，利用一定的方法根据样本数据去估计或检验总体的数量特征。推断统计是现代统计学的主要内容。,12,统计资料的积累、开发与应用,对于已经公布的统计资料需要加以积累，同时还可以进行进一步的加工，结合相关的实质性学科的理论知识去进行分析和利用。如何更好地将统计数据和统计方法应用于各自的研究领域是应用统计学研究的一个重要方面。,13,统计学的流派,政治算术学派国势学派社会统计学派数理统计学派理论统计学应

5、用统计学,14,政治算术学派与国势学派,政治算术学派。最早的统计学源于17世纪英国。其代表人物是威廉配第(William Patty，16231687年) 。政治算术学派主张用大量观察和数量分析等方法对社会经济现象进行研究的主张，为统计学的发展开辟了广阔的前景。国势学派。最早使用“统计学”这一术语的是德国国势学派。国势学派虽然创造了统计学这一名词，但他们主要使用文字记述方法对国情国力进行研究，其学科内容与现代统计学有较大差别。,15,社会统计学派,1850年，德国的统计学家克尼斯(K.G.A.knies)发表了题为独立科学的统计学的论文，提出统计学是一门独立的社会科学，是一门对社会经济现象进

6、行数量对比分析的科学。各国学者在社会经济统计指标的设定与计算、指数的编制、资料的收集与整理、统计调查的组织和实施、经济社会的数量分析和预测等方面做出的贡献已成为现代统计学的重要组成部分。例如， “恩格尔系数”，至今仍为人们广泛使用。国内生产总值(GDP)的核算方法被称为“20世纪最伟大的发明之一。”,16,数理统计学派,认为统计学是一门通用的方法论科学。创始人是比利时统计学家凯特勒(Adolphe Quetelet，17961874年)。他所著的代表作社会物理学等将概率论和统计方法引入社会经济方面的研究。从19世纪中叶到20世纪中叶，数理统计学得到迅速发展。英国生物学家高尔顿提出并阐述

7、了“相关”的概念；皮尔逊提出了计算复相关和偏相关的方法。戈塞特建立了“小样本理论”，即所谓的“t分布”；费歇尔样本相关系数的分布、方差分析、实验设计等方面的研究中做出了重要贡献。到20世纪中期，数理统计学的基本框架已经形成。数理统计学派成为英美等国统计学界的主流。,17,理论统计学和应用统计学,历经300多年的发展，统计学目前已经成为横跨社会科学和自然科学领域的多科性的科学。 “统计学是有关如何测定、收集和分析反映客观现象总体数量的数据，以便给出正确认识的方法论科学。” 现代统计学可以分为两大类：一类是以抽象的数量为研究对象，研究一般的收集数据、整理数据和分析数据方法的理论统计学。另一

8、类是以各个不同领域的具体数量为研究对象的应用统计学。,18,数学与统计学的联系,数学与统计学都是研究数量规律的，都要利用各种公式进行运算。数学中的概率论，为统计学提供了数量分析的理论基础。统计学中的理论统计学以抽象的数量为研究对象，其大部分内容也可以看作是数学的分支。,19,统计学与数学的区别,从研究对象看，数学以最一般的形式研究数量的联系和空间形式。统计学特别是应用统计学则总是与客观的对象联系在一起的。从研究方法看，数学主要是逻辑推理和演绎论证的方法。而统计本质上是归纳的方法。统计学家特别是应用统计学家需要深入实际，进行调查或实验去取得数据，研究时不仅要运用统计的方法，而且还要掌握某一专

9、门领域的知识。,20,测量与数据,数据是通过把感兴趣领域里的实体以某种测量过程映射到符号表示得到的。测量就是把实体的一个给定属性与一个变量值联系起来。,21,属性（变量）: 重量属性（变量）值： 2kg,测量,统计数据,22,基本构成要素,实体（Element）,变量（Variable）,观测（Observation）,关于实体的一种属性或特征,研究对象由各实体组成,关于某一实体所有各变量的信息,变量与变量值,说明现象的某一数量特征的概念也被称为变量，变量的具体取值是变量值，统计数据就是统计变量的具体表现。连续型变量是指变量的取值在数轴上连续不断，无法一一列举，即在一个区间内可

10、以取任意实数值。离散型变量是指变量的其取值是整数值，可以一一列举。,23,例：员工个人资料表,24,变量的测度等级,变量的测度等级：量化程度变量的测度等级直接关系到数据分析方法的选择。常用的划分为四种名义测度（Nominal ）有序测度（Ordinal）间距测度（Interval）比率测度（Ratio）,25,名义测度（Nominal ）,变量用多种状态来表示，这些状态之间既没有数量关系，也没有等级关系。例如，性别（男、女），颜色（红、黄、蓝）可以用数字表示（编码），但数字只是用作标签。编码的数值之间不存在有实际意义的量的关系。,26,有序测度（Ordinal）,有序测度量化

11、水平高于名义测度变量编码不仅具有分类的作用，而且也存在量的关系（等级或次序关系）。例如，受教育程度（文盲半文盲1、小学2、初中3、高中4、大学及以上5）编码的数值之间存在有实际意义的量的关系，编码值可以应用于不等式计算。,27,间距测度（Interval）,变量取值不再是类的编码，而是采用一定单位的实际测量值。可以度量两个不同变量值之间的差异及大小。例如，温度（5摄氏度，10摄氏度）数值之间可以进行加法和减法，但不不能进行乘除计算。因为这一测度等级的变量所取得的0值不是物理意义上的绝对0。,28,比率测度（Ratio）,最高级的测度等级。大多数物理量, 例如质量, 长度以及能量都是

12、比率测度; 华氏温度也是比率测度。可以进行各种运算。较高等级的变量可以降级使用。,29,数据来源,直接来源：第一手资料统计调查（普查、抽样调查）统计实验（实验设计）间接来源：第二手资料企业业务数据与客户数据政府部门统计数据（例如统计局）商务数据服务公司万维网上的相关数据（WWW）,30,总体和样本,总体：又称母体，指所要研究对象的全体，由许多客观存在的具有某种共同性质的单位构成。总体单位数用 N 表示。样本：又称子样，来自总体，是从总体中按随机原则抽选出来的部分，由抽选的单位构成。样本单位数（容量）用 n 表示。总体是唯一的、确定的，而样本是不确定的、可变的、随机的。,3

13、1,总体参数和样本统计量,总体参数：反映总体数量特征的指标。其数值是唯一的、确定的。样本统计量：根据样本分布计算的指标，是随机变量。,32,数据的类型,横截面数据又称为静态数据，它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。时间序列数据又称为动态数据，它是指在不同时间对同一总体的数量表现进行观察而获得的数据。例如，2008年全国各省市自治区的国内生产总值就属于横截面数据。而“十一五”期间我国历年的国内生产总值就属于时间序列数据。面板数据：横截面数据与时间序列数据交织在一起。非结构化数据,33,面板数据,所谓“面板数据”也称为“平行数据”，是指对不同时刻的截面个体作连

14、续观测所得到的多维时间序列数据。例如，在研究生产成本与企业规模和技术进步的关系时，选择不同规模企业在不同时间上的数据作为样本观测值，这些观测值数据就是面板数据。,34,非结构化数据,相对于结构化数据(即存储在数据库中，可以用二维表结构来逻辑表达的数据)而言,不方便用数据库二维表来表现的数据即称为非结构化数据。包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。据调查，现在人们所使用的数据有 80% 是非结构化的，而非结构化的数据又往往同结构化的数据结合在一起。,35,数据与模型的关系,36,数据的质量,数据分析的有效性与数据质量密不可分。 GIGOGarbage In

15、, Garbage Out. 垃圾进，垃圾出。,37,数据的质量,数据分析研究的目的不同，对样本数据要求也不同。选择样本数据，除了考虑数据的可得性之外，还必须考虑数据的可用性。为保证分析结论的可靠性，应从完整性、准确性、可比性和一致性等方面对选取的样本数据的质量进行考虑。,38,数据的完整性,人们无论是从宏观、中观和微观角度研究的现象都可以看成一个系统，研究所依据的数据，作为系统状态和其内部机制及外部环境的数量应该是完整的，否则，模型就无法确定。在统计模型中，表现为样本数据的完整性。百分之百的完整是难以达到的，但对于少数“遗失数据”，必须采用科学的方法人为地补充以达到数据的完整性。,39,

16、数据的准确性,数据的准确性包括两个方面的含义。一是它必须准确反映它所代表的研究对象的状态，要求统计数据或调查数据本身是准确的；二是它必须是模型研究中所要求的数据，它要求研究人员准确地选择、应用数据。,40,数据的可比性与一致性,数据的可比性即数据口径问题，在统计模型研究中人们得到的统计数据，经常具有比较差的可比性，其原因在于统计范围口径的变化，必须进行处理后才能为研究所用。统计分析方法，是从历史的数据或同一时间截面的不同点的数据中寻找其内在规律性，如果数据是不可比的，当然找出的规律并不能反映对象本身的固有规律。数据的一致性并不是可比性可以包容的，主要指纵向一致性(例如用于商品分类的代码不一致)。,41,数据预处理,为什么需要预处理数据清理数据集成和变换数据规约,42,为什么需要预处理,脏数据不完整，含噪声，不一致数据清理通过填写空缺值，平滑噪声数据，识别删除异常点，并解决不一致来清理数据。,43,脏数据形成的原因,滥用缩写词数据输入错误数据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同

展开阅读全文