数据描述性分析课件

上传人:M****1 文档编号:568812181 上传时间:2024-07-27 格式:PPT 页数:182 大小:1.98MB
返回 下载 相关 举报
数据描述性分析课件_第1页
第1页 / 共182页
数据描述性分析课件_第2页
第2页 / 共182页
数据描述性分析课件_第3页
第3页 / 共182页
数据描述性分析课件_第4页
第4页 / 共182页
数据描述性分析课件_第5页
第5页 / 共182页
点击查看更多>>
资源描述

《数据描述性分析课件》由会员分享,可在线阅读,更多相关《数据描述性分析课件(182页珍藏版)》请在金锄头文库上搜索。

1、第一章数据描述性分析数据描述性分析课件学习目的及重难点提示学习目的及重难点提示本章学习目的: 学会利用数据的描述性分析对数据的各种特性作初步了解,尤其是结合软件学会数据分布的拟合检验。重难点提示:检验p-值 SAS等许多软件对假设检验均以检验p-值作为其输出结果,检验p-值是本章的一个重要概念。p-值越小,拒绝原假设的理由越充分。数据描述性分析课件1.1数据的数字特征数据分析研究的对象是数据,它们是个观测值:如果这个观测值就是所要研究对象的全体,那么数据分析的任务就是提取数据中包含的有用信息。如果数据是从总体中抽出的样本,就要分析推断样本中包含的总体的信息。,数据描述性分析课件1.1.1均值、

2、方差等数字特征一元数据的数字特征主要是以下几种。设个观测值为其中称为样本容量。1均值(meanvalue):即是的平均数:均值表示数据的集中位置。数据描述性分析课件均值、方差等数字特征2方差var.(variance)、标准差SD(standarddeviation)与变异系数C.V.(coefficientofvariation)方差是描述数据取值分散性的一个度量,是数据相对于均值的偏差平方的平均其量纲是数据量纲的平方。标准差数据描述性分析课件均值、方差等数字特征变异系数:刻画数据相对分散性的度量 CV校正平方和CSS未校平方和 USS 数据描述性分析课件变异系数用来比较不同总体数据分布的离

3、比较不同总体数据分布的离散程度,散程度,刻画数据的相对分散刻画数据的相对分散。 例例 甲乙企业职工的年均收入分别为2W元和5W元,收入的标准差分别为3K和5K元,哪家企业职工的收入差距小一些? 分析分析 不同企业的年均收入不同,不能直不同企业的年均收入不同,不能直接比较标准差,只能比较标准差系数。接比较标准差,只能比较标准差系数。 甲:甲: 3K/2W=15%3K/2W=15% 乙:乙: 5K/5W=10%5K/5W=10% 结论结论 乙企业职工收入差距小于甲企业。乙企业职工收入差距小于甲企业。数据描述性分析课件偏度与峰度3偏度(skewness)与峰度(kurtosis)偏度与峰度是刻画数据

4、的偏态、尾重程度的度量。它们与数据的矩有关。数据的矩分为原点矩与中心矩。k阶原点矩k阶中心矩数据描述性分析课件偏度(Skewness)其中s是标准差。偏度是刻画数据对称性的指标。关于均值对称的数据其偏度为0,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负。 数据描述性分析课件偏度频频数数频频数数频频数数偏向左偏向左 0数据描述性分析课件峰度峰度(Kurtosis)当数据的总体分布为正态分布时,峰度近似为0;当分布较正态分布的尾部更为分散时,峰度为正,否则峰度为负。当峰度为正时,两侧极端数据较多;当峰度为负时,两侧极端数据较少。数据描述性分析课件总体的数据特征设观测数据是由总体X中取出的样本

5、,总体的分布函数是。当X为离散分布时,总体的分布可由概率分布列刻画:总体为连续分布时,总体的分布可由概率密度刻画。连续分布中最重要的是正态分布,它的概率密度及分布函数分别为 数据描述性分析课件总体的数据特征具有正态分布的总体成为正态总体。数据描述性分析课件总体的数据特征与样本数字特征对应的是总体的数字特征总体均值总体方差总体标准差总体变异系数 数据描述性分析课件总体的数据特征总体原点矩(k阶)总体中心矩(k阶)总体偏度总体峰度数据描述性分析课件总体偏度总体偏度是度量总体分布是否偏向某一侧的指标。若总体分布在右侧更为扩展,偏度为正;若分布在左侧更为扩展,偏度为负。偏度为正的概率密度偏度为负的概率

6、密度f(x)f(x)xx数据描述性分析课件细尾,峰度为负,两侧极端数据较少正态分布,总体峰度为0粗尾,峰度为正,极端数值分布范围较广总体峰度总体峰度是以同方差的正态分布为标准,比较总体分布尾部分散性的指标。数据描述性分析课件总体数字特征和样本数字特征根据统计学的结果,样本数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,相应的样本数字特征是总体数字特征的相合估计,从而当n较大时,有数据描述性分析课件总体数字特征和样本数字特征当观测数据是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据是等可能性的,即为;总体分布是离散均匀分布:对这种情况,数据数字特征即总体数字特

7、征“让数据本身说话”。数据描述性分析课件例1.1从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208.958.33计算均值、方差、标准差、变异系数、偏度、峰度。 数据描述性分析课件通过计算,得8.487,3.406,1.845,CV21.745,0.035,0.852,的绝对值比较小,可以认为是来自正态总体的数据。 数据描述性分析课件SAS软件介绍随着信息技术的迅速发展-特别是数据仓库技术的广泛应用,企业拥有的数据量急剧增大,在这大量的数据信

8、息中,隐藏着企业运作的利弊得失,若能够对这种海量的数据与信息进行快速有效地深入分析和处理,就能从中找出规律和模式,获取企业决策所需知识,帮助企业进行迅速有效的运筹决策。数据描述性分析课件SAS软件介绍由于统计分析方法处理数据一般计算量非常大,所以在计算机普及以前,这些方法大多都是停留在理论研究上。随着计算机及各种高级编程语言的普及,这些方法越来越多地被应用到实际中。统计分析软件如SAS及SPSS等的开发和普及,大大减少了对计算机编程的要求。数据描述性分析课件SAS软件介绍SAS(StatisticalAnalysisSystems)系统于1966年开始研制,1976年由美国SAS公司实现商业化

9、,1985年推出SAS/PC版本,目前已推出Windows系统支持的8.02版和9.0版,是目前国际上公认的著名的数据统计分析软件系统之一。数据描述性分析课件SAS软件介绍SAS系统最大的特点是将数据管理和统计分析融为一体。Windows版的SAS系统软件操作简单,它提供一种交互方式运行SAS程序。SAS系统的基础是SAS语言,SAS语言是一种近似自然语言的非过程语言(第四代语言),用户不用告诉SAS“怎样做”,只需告诉它你想“做什么”。数据描述性分析课件SAS软件在数据处理与统计分析领域,SAS系统已成为国际上流行标准企业管理软件。美国财富杂志评选的500家最大公司中的90%以上的企业都在应

10、用SAS软件。在北美,SAS被广泛地应用于所有的金融公司,医药研发机构和政府调查和监管部门。特别是在加拿大的金融中心-多伦多,每年更是需要大量熟练掌握和运用SAS的科技人员。数据描述性分析课件SAS软件SAS系统应用范围广,包括统计学、心理学、经济学、生物学、商业、金融、医药卫生、图形显示、数据输入、数据检索、报表生成、统计计算、市场研究、销售管理、调查分析、建立预测模型等方面。数据描述性分析课件SAS软件SAS的宗旨是为所有需要进行数据处理、数据分析的非计算机工作人员提供一种易学易用、完整可靠的软件系统。SAS语言本身是一种非过程语言(第四代语言),类似于C语言,且综合了各种高级语言的功能和

11、灵活的格式,将数据处理和统计分析融合于一体。数据描述性分析课件SAS中国数据描述性分析课件SAS中国数据描述性分析课件SAS中国数据描述性分析课件SAS中国数据描述性分析课件SAS系统的启动和退出启动1双击桌面图标;2执行开始菜单中程序菜单项。退出1选择关闭按钮;2执行菜单命令【File】【Exit.】;3在命令框执行BYE或ENDSAS命令。数据描述性分析课件菜单栏程序编辑窗口,F5输出记录窗口,F7运行记录窗口,F6工具栏数据描述性分析课件三个最重要的窗口Editor程序编辑窗口,用于编辑SAS源程序文件,支持全窗口编辑功能。当用户输入的字串不正确时,对应的颜色不对,警告使用者发生错误。L

12、og运行记录窗口,用于显示和记录SAS程序的运行情况,说明程序运行成功或存在错误。Output输出记录窗口,分页显示SAS程序运行所产生的文本型输出结果。数据描述性分析课件其他窗口SASV8系统在主界面增加了Explorer窗口与Results窗口。Explorer窗口用于显示SAS库及其数据集。Results窗口用于显示SAS程序运行成功时输出结果的目录。通过它可以方便地查找到要看的结果。数据描述性分析课件SAS系统SAS由基本部分和外加模块组成,其中主要部分包含的功能如下:基本部分BASESAS部分统计分析计算部分SAS/STAT绘图部分SAS/GRAPH矩阵运算部分SAS/IML运筹学和

13、线性规划SAS/OR经济预测和时间序列分析SAS/ETS数据描述性分析课件SAS系统BASESAS是SAS系统的核心平台;提供31个初等SAS过程,按照用途归为4类:简单统计计算:means过程、univariate过程、freq过程等。报表生成:table过程、chart过程、plot过程等。得分方法:standard过程、rank过程等。实用方法:sort过程、format过程、dbf过程、dif过程等。数据描述性分析课件SAS系统SAS/STAT是SAS系统的精华,是用来解决实际问题的主要部分。包括:回归分析、方差分析、属性数据分析、多变量分析、判别分析、聚类分析、得分分析、残存分析共8

14、类26个过程。数据描述性分析课件SAS模块SAS8.02的完整版本包含数十个模块。常用的模块有base,graph,stat,insight,assist,analyst模块等,分别执行基本数据处理、绘图、统计分析、数据探索、可视化数据处理等功能。数据描述性分析课件例1.1的SAS程序/*program电导率*/DATAdiandaolv;(数据步)/*建立一个临时SAS数据集*/Inputx;/*指明数据集中的变量名称*/Cards;/*表明后面将给出数据*/数据描述性分析课件例1.1的SAS程序9.898.00.8.33;/*结束符*/ProcmeansmeanvarCVskewkurt;

15、(过程步)run;数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件SAS程序的一些语法规定SAS程序由语句组成,每个语句用西文西文状态下的分号“;”作为结束符(注:不能使用中文的“;”)。程序命令使用的英文单词一般不区分大小写字母(在作为数据的字符串中系统区分大小写字母)。SASV8版中提供了智能编辑窗口,SAS程序中的关键字、语句名、数据都由不同颜色显示,当输入错误时颜色显示不正确,可以方便查找改正。数据描述性分析课件SAS程序由两类“操作步”构成,一种叫数据步(datastep),一种叫过程步(procstep);数据步以DATA语句开始,过程步以PROC语句开始。

16、每个“操作步”由若干个语句构成,一条语句可以占多个程序行,多条语句也可以写在一个程序行内,在语法上只要保证每个语句以分号作为结束符即可。每个SAS过程一般以Run语句结束。有些过程需要使用Quit语句结束过程的运行。数据描述性分析课件SAS系统基本操作及基本概念数据集(dataset)和库统计学的操作都是针对数据的,SAS中容纳数据的文件称为数据集,数据集又包含在不同的库(暂且理解为数据库吧)中。SAS中的库分为永久性和临时性两种。顾名思义,存在于永久库中的数据集是永久存在的(只要你不去删除它),临时库中的数据集则在你退出SAS后自动被删除。至于SAS中库的概念,最简单的理解就是一个目录,一个

17、存放数据集的目录。数据描述性分析课件SAS系统基本操作及基本概念SAS程序概述SAS程序包括多个步骤和一些控制语句,一般情况下均包括一个或多个数据步或过程步,它们之间任何形式的组合均可成为一段SAS程序,只要能完成一个完整的功能。通常情况下SAS程序还包括一些全程语句,用以控制贯穿整个SAS程序的某些选项、变量或程序运行的环境。数据描述性分析课件SAS系统基本操作及基本概念SAS程序概述SAS程序的语句一般以关键字开始,以一个分号结束,一条语句可占多行;SAS语句对字母的大小写不敏感对字母的大小写不敏感,你可以根据个人习惯决定字母的大写或小写。一个SAS语句有两个重要特征:1、它通常由SAS关

18、键词(keyword)开始2、它总是以分号“;”结束数据描述性分析课件SAS语句是自由格式的,也就是说1它们可以在任一列开始和结束;2一个语句可以由几行组成;3几个语句可以在同一行内;SAS语句中的词(words)之间用空格或特殊符号分隔。数据描述性分析课件SAS程序概述库名(库标记)的定义为了保存数据和方便操作起见,习惯于指定自己的库名及其路径(目录),因为SAS系统中已有的永久库(SASUSER)无论库名还是其对应的路径都太过繁琐,使用太不方便。程序中用到的数据,都可以永久的保存于该路径下,保证以后可以重复使用。指定库名的语句为全程语句,其格式如下:Libname库名路径;数据描述性分析课

19、件例如:我们指定的库名为“a”,路径为:“d:data”,SAS语句如下:libnamead:data;数据描述性分析课件SAS程序概述数据步SAS的数据步以data语句开始,用于创建和处理数据集。data语句以关键字“data”开始,格式如下:data数据集名;例如:dataa.case;将创建在库a中名为case的SAS数据集,语句执行后你可在与库a对应的目录下看到刚刚建立的数据集文件case。数据描述性分析课件data语句所指定的数据集,一般都是以“库名.数据集名”的格式出现的,也可以单独的“数据集名”出现,此时的数据集系统默认为是临时库中的数据集,退出系统后将会被删除。数据描述性分析课

20、件data语句有两个重要的功能,标志数据步的开始和命名将要创建的SAS数据集。除data语句外,数据步一般情况下还包括infile语句、input语句以及datalines语句等。在不同的数据输入方式下对于它们的使用方式也不一样。数据描述性分析课件SAS程序概述SAS程序有两种常见的数据输入方式,即从外部文件读入和直接输入两种方式。(1)外部文件读入方式数据若已经包含在某个外部文件(文本文件或数据文件)中,可用此方法输入数据到数据集文件中。在以上介绍的data语句后,写入以下语句:infile外部文件的所在位置及名称选项;input变量名1变量名2变量名n;数据描述性分析课件infile语句用

21、于从外部文件读入数据,必须出现在input语句之前。它的功能是指定一个包含原始数据的外部文件。input语句用于向系统表明如何读入每一条数据记录。它的主要功能有:读入由语句指定的数据列,为相应的数据域定义变量名,确定变量的读入模式。数据描述性分析课件SAS中变量的命名中变量的命名最多8个字符长,第一个字符必须是字母或者下划线,不能有空格。特殊字符(如$,#)也不允许在SAS名中使用。合法变量名如:AA1abcnameageSAS系统保留的特殊变量名,以下划线开始和结尾。如:_N_和_ERROR_等。数据描述性分析课件例libnamead:data;dataa.student;infiled:d

22、atastudent.txt;inputname$heightweight;以上程序将目录“d:data”下的文本文件“student.txt”中的数据输入数据集student中,该数据集存放于目录“d:data”下。数据描述性分析课件SAS程序概述(2)直接输入方式数据量较少时采用此种输入方式,在data语句之后写入如下语句:input变量名1变量名2变量名n;datalines;(在以前的版本下为cards,新版本下两者可通用)(数据行)(数据行);数据描述性分析课件例libnamead:data;dataa.student;inputname$heightweight;(name后面的$

23、符号表示变量name为字符型变量)datalines;Linda17151Mary16850Selina16949;以上程序将直接建立数据集文件student,该数据集文件存放于目录“d:data”下。数据描述性分析课件MEANS过程PROCMEANS选择项(options)VAR变量名表;指定需求计算的数值变量及次序;BY变量名表;按其取值形成多个观测组,然后计算对应的描述性统计量(要求对By变量已排序)CLASS变量名表;与By类似,但不要求事前排序,结果以单表形式输出FREQ变量名表;输入数据系频数表资料时才使用OUTPUTOUT=SAS数据集统计量关键词变量名表;数据描述性分析课件SA

24、S中可以计算的描述性统计量部分关键字及其含义关键字所代表的含义n有效数据记录数nmiss缺失数据记录数mean均值std标准差var方差median中位数mode众数CV变异系数max最大值数据描述性分析课件SAS中可以计算的描述性统计量部分关键字及其含义关键字所代表的含义min最小值css校正的离均差平方和uss未校正的离均差平方和skew偏度kurt峰度clm可信限(上下界值)lclm可信限下侧界值uclm可信限上侧界值qrange四分位数间距数据描述性分析课件例1.2某厂的某种悬式绝缘子机电破坏负荷试验数据(单位:吨)分组表示如表,计算这批分组数据的均值、方差、标准差、变异系数、偏度、峰

25、度。组段组中值 组频数5.56.05.7546.06.56.2536.57.06.75157.07.57.25427.58.07.75498.08.58.25788.59.08.75509.09.59.25319.510.0 9.755数据描述性分析课件数据描述性分析课件数据描述性分析课件例1.3某克山区病测得11例克山病患者与13名健康人的血磷值(nmol/L)如表,试求两组的平均血磷值和标准差。患者组0.841.051.201.201.391.531.671.801.872.072.11健康组0.540.640.640.750.760.811.161.201.341.351.481.581

26、.87数据描述性分析课件例1.3SAS程序为datap9;dog=1to2;inputn;doi=1ton;inputx;output;end;end;Cards;110.841.051.201.201.391.531.671.801.872.072.11130.540.640.640.750.760.811.161.201.341.351.481.581.87;procmeans;varx;byg;run;数据描述性分析课件数据描述性分析课件中位数、分位数、三均值与极差均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。若总体的分布未知,或者数据严重偏

27、态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。数据描述性分析课件次序统计量数据描述性分析课件中位数与极差中位数的计算公式是中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。数据描述性分析课件中位数与极差对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。极差极差的计算公式是它是描述数据分散性的数字特征。数据越分散,极差越大。数据描述性分

28、析课件例考虑下列样本:53113178写出次序统计量,并求中位数、极差。数据描述性分析课件分位数对和容量为的样本它的分位数是 数据描述性分析课件分位数分位数又称为第100百分数。大体上整个样本的100的观测值不超过分位数。0.5分位数(第50百分位数)就是中位数M。在实际应用中,0.75分位数与0.25分位数(第75百分位与第25百分位数)比较重要,它们分别称为上、下四分位数,并简记为下列分位数也在实际应用中经常用到:,。数据描述性分析课件例考虑下列样本:53113178计算上面数据的,及,。数据描述性分析课件以此类推,我们可以得到其他的结果:数据描述性分析课件数据描述性分析课件数据描述性分析

29、课件数据描述性分析课件均值与中位数M皆是描述数据集中位置的数字特征。计算时,用了样本的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用比用M描述数据的集中位置为优。然而,当存在异常值时,缺乏稳健性,而M具有很强的稳健性。考虑到要充分利用样本信息,又要具有较强的稳健性,可以用三均值作为数据集中位置的数字特征。三均值的计算公式是:数据描述性分析课件数据描述性分析课件例1.1(续)从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756.208

30、.958.33计算中位数、诸分位数、极差、四分位数、三均值,并分析是否有异常值。 数据描述性分析课件数据描述性分析课件数据描述性分析课件上、下截断点分别为1.29和15.05,故数据无异常值。数据描述性分析课件SPSS软件SPSS(StatisticalProductandServiceSolutions),“统计产品与服务解决方案”软件。最初软件全称为“社会科学统计软件包”(SolutionsStatisticalPackagefortheSocialSciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为“统计产品与服务解决方案

31、”,标志着SPSS的战略方向正在做出重大调整。数据描述性分析课件SPSS是世界上最早的统计分析软件,由美国斯坦福大学的三位研究生于20世纪60年代末研制,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。1984年SPSS总部首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,极大地扩充了它的应用范围,并使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。数据描述性分析课件迄今SPSS软件已有30余年的成长历

32、史。全球约有25万家产品用户,它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业,是世界上应用最广泛的专业统计软件。2009年7月28日,IBM以12亿美元现金收购统计分析软件公司SPSS。数据描述性分析课件SPSS使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。数据描述性分析课件SPSS的特点1、操作简单:除了数据录入及部分命令程序等少数输入工作需要键盘键入外,大多数操作可通过“菜单”、“按钮”和“对话框”来完成。2、

33、无须编程:具有第四代语言的特点,告诉系统要做什么,无需告诉怎样做。只要了解统计分析的原理,无需通晓统计方法的各种算法,即可得到需要的统计分析结果。对于常见的统计方法,SPSS的命令语句、子命令及选择项的选择绝大部分由“对话框”的操作完成。因此,用户无需花大量时间记忆大量的命令、过程、选择项。数据描述性分析课件3、功能强大:具有完整的数据输入、编辑、统计分析、报表、图形制作等功能。自带11种类型136个函数。SPSS提供了从简单的统计描述到复杂的多因素统计分析方法,比如数据的探索性分析、统计描述、列联表分析、二维相关、秩相关、偏相关、方差分析、非参数检验、多元回归、生存分析、协方差分析、判别分析

34、、因子分析、聚类分析、非线性回归、Logistic回归等。数据描述性分析课件4、方便的数据接口:能够读取及输出多种格式的文件。比如由dBASE、FoxBASE、FoxPRO产生的*.dbf文件,文本编辑器软件生成的ASC数据文件,Excel的*.xls文件等均可转换成可供分析的SPSS数据文件。能够把SPSS的图形转换为7种图形文件。结果可保存为*.txt及html格式的文件。数据描述性分析课件5、灵活的功能模块组合:SPSSforWindows软件分为若干功能模块。用户可以根据自己的分析需要和计算机的实际配置情况灵活选择。6、针对性强:SPSS可以针对初学者、熟练者及精通者都比较适用。并且现

35、在很多群体只需要掌握简单的操作分析,大多青睐于SPSS,像薛薇的基于SPSS的数据分析一书也较适用于初学者。而那些熟练或精通者也较喜欢SPSS,因为他们可以通过编程来实现更强大的功能。数据描述性分析课件例1.1的SPSS处理数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件1.2数据的分布数据的数字特征刻画了数据的主要特征,而要对数据的总体情况作全面的描述,就要研究数据的分布。对数据分布的主要描述方法是直方图与茎叶图、数据的理论分布即总体分布。数据分析的一个重要问题是要研究数据是否来自正态总体,这是分布的正态性经验的问题。数据描述性分析课件直方图、经验分

36、布函数与QQ图对于数据分布,常用直方图进行描述。将数据取值的范围分成若干区间(一般是等间隔的),在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或频率/组距。在高度是频率/组距的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。数据描述性分析课件组距对直方图的形态有很大的影响,组距太小,每组的频数较少,由于随机性的影响,邻近区间上的频数可能很大;组距太大,直方图所反映概率密度的形态就不灵敏。数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分

37、析课件数据描述性分析课件QQ图(QuantileQuantileplot)数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件例1.5数据描述性分析课件(1)作直方图,并拟合正态分布曲线;(2)作经验分布函数图,并拟合正态分布函数曲线;(3)作正态QQ图,并从直观上鉴别样本数据是否来自正态分布总体。数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件可以做描述分布形状的图形,即作直方图,拟合参数概率密度,作经验分布曲线及拟合的分布曲线,作QQ图等。PROCCAPABILITY过程数据描述性分析课件茎叶图、箱线图及五数总

38、括与直方图相比较,茎叶图更能细致地看出数据分布的结构。例某班有31个学生,某门课程的考试成绩如下:254550545561646872757578798183848484858686868789898990919192100做出其茎叶图。数据描述性分析课件数据描述性分析课件数据描述性分析课件茎叶图的特点茎叶图与直方图一样,可以直观地看出数据的分布状况。从茎叶图分析,可大致直观地看出这批数据是否接近对称,分散性如何,是否有异常值,数据中是否有间隙等等。利用茎叶图,很自然地可以对所有数据排序。从茎叶图可以看出由原始数据得到的次序统计量。对于排过序的一批数据,从小到大的每个数据的排序名次,称为升秩;

39、而从大到小的每个数据的排序名次,称为降秩。每个数据的升秩与降秩的较小者,称为该数据的深度,即深度min(升秩,降秩)数据描述性分析课件例1.6铅压铸件硬度数据如下:53.070.284.355.378.563.571.453.482.567.369.573.055.785.895.451.174.454.177.852.469.153.564.382.755.770.587.550.772.359.5做出数据的茎叶图。数据描述性分析课件数据描述性分析课件数据描述性分析课件箱线图茎叶图是探索性数据分析所采用的重要方法。而箱线图也能直观简洁地展现数据分布的主要特征。数据描述性分析课件例1.7某班有

40、31个学生,某门课程的考试成绩如下:254550545561646872757578798183848484858686868789898990919192100做出以上数据的箱线图。数据描述性分析课件数据描述性分析课件数据描述性分析课件正态性检验与分布拟合检验上面介绍的茎叶图、箱线图等对随机型、确定型的数据都有用,其特点是图像生动直观。在直方图、经验分布函数的介绍中,曾提到在总体存在某种类型的分布时,配一条合适的总体概率密度曲线或总体分布函数曲线。然后,所配曲线是否合适,是需要进行统计检验的。数据描述性分析课件假设检验的基本步骤根据实际问题的要求提出原假设和备择假设;构造适当的检验统计量J,

41、在原假设为真时,它的分布是已知的;对给定水平,确定拒绝域W的形式;根据统计量的观测值确定是拒绝原假设还是接受原假设。数据描述性分析课件检验法:P值与比较根据给定 查表,得拒绝域,与统计量比较。根据统计量计算 值,与 比较。数据描述性分析课件单个正态总体均值的t检验数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件数据描述性分析课件例1.8对以下数据进行正态性W检验:9.898.006.406.175.397.279.0810.4011.208.756.4511.9010.309.589.247.756

42、.208.958.33数据描述性分析课件数据描述性分析课件数据描述性分析课件PROC UNIVARIATE data=SAS数数据据集集 normal plot; VAR 变量变量; FREQ 变量变量; ID变量变量; OUTPUT OUT=dataset keyword=name;Run;PROCUNIVARIATE过程数据描述性分析课件求数据集中某(些)变量均数(求数据集中某(些)变量均数(mean)百分)百分位数(位数(percentiles)、极值()、极值(extremes)等基)等基本统计量。与本统计量。与MEANS过程的区别在于它可以过程的区别在于它可以计算更多的反应数据分布的

43、统计量。计算更多的反应数据分布的统计量。 Normal:用于正态性检验。用于正态性检验。 Plot:给出茎叶图、箱式图及正态概率图,检给出茎叶图、箱式图及正态概率图,检验数据是否服从正态分布。验数据是否服从正态分布。数据描述性分析课件测定测定30名正常男子血浆中性脂肪含量名正常男子血浆中性脂肪含量(mg/lw ml)的结果如下:的结果如下: 163 219 313 169 281 264 124 94 224 145 285 107 269 416 662 249 136 100 199 407 94 235 120 128 560 80 217 252 165 107例1.9数据描述性分析课

44、件Libname b “d:mysas”; data b.blood; input x; cards; 163 219 313 169 281 264 124 94 224 145 285 107 269 416 662 249 136 100 199 407 94 235 120 128 560 80 217 252 165 107 ; proc print; run; proc univariate normal plot; var x; run; 数据描述性分析课件例:ex1.10注意:UNIVARIATE过程中不能指定基本统计数(如N,MEAN,MODE等),如果指定则程序将出错,这一

45、点与MEANS和SUMMARY过程不同。数据描述性分析课件1.3多元数据的数字特征与相关分析以上我们分析的都是一元数据,但在实际中,人们更多遇到的是多元数据。对于多元数据,除分析各变量的取值特点外,更要分析各个变量之间的相关关系。数据描述性分析课件1.3.1二元数据的数字特征及相关系数设是二元总体,从中取得观测数据引进数据观测矩阵记数据描述性分析课件二元数据的数字特征及相关系数则,称为二元观测数据的均值向量。记为变量,的观测数据的协方差。数据描述性分析课件二元数据的数字特征及相关系数协方差矩阵有,即协方差矩阵是对称矩阵。由Schwarz不等式所以S总是非负定的,一般是正定的。数据描述性分析课件

46、二元数据的数字特征及相关系数观测数据的相关系数(Pearson相关系数)计算公式是由Schwarz不等式,有即总有数据描述性分析课件散点图数据描述性分析课件当时,称是不相关的(或近似不相关的);当时,称是线性正相关的;当时,称是线性负相关的;当时,称是完全线性相关的;因此,是二元总体的两个分量之间的线性联系密切程度的度量。数据描述性分析课件二元数据的数字特征及相关系数设二元总体的分布函数是;总体协方差是;,是X、Y的方差,是总体的相关系数,即由于观测数据的相关系数是总体相关系数的相合估计,故当n充分大时,有数据描述性分析课件二元数据的数字特征及相关系数由二元观测数据可以算得相关系数,但当二元总

47、体的两个分量不相关,即时,这样算得的相关系数是没有实际意义的。因此,需要做假设检验:数据描述性分析课件二元数据的数字特征及相关系数可以证明,当是二元正态总体,且成立时,统计量:服从自由度为的分布。设由实际观测数据算得的相关系数值为,又按上述公式算得的值是,则值为数据描述性分析课件二元数据的数字特征及相关系数对给定的显著水平,当,拒绝;而当,接受。当拒绝时,认为算得的相关系数有实际意义。数据描述性分析课件Spearman相关系数样本的秩设其次序统计量是若,则称是在样本中的秩,记作,对每一个称是第个秩统计量。总称为秩统计量。当观测数据中有两个观测值相等,则相应的秩统计量不能唯一确定,通常对相同的观

48、测值,其秩取为它们秩的平均值。数据描述性分析课件例:-0.8,-3.1,1.1,-5.2,4.2次序统计量是-5.2,-3.1,-0.8,1.1,4.2而秩统计量是3,2,4,1,5-0.8,-3.1,-0.8秩统计量是2.5,1,2.5数据描述性分析课件Spearman相关系数数据描述性分析课件Spearman相关系数数据描述性分析课件例1.11某种矿石有两种有用成分A,B。取10个标本,分析每个标本中成分A的含量百分数x()及y()的数据如下:X()67547264392258434634Y()24152319161120161713数据描述性分析课件(1)计算相关系数,作假设检验(2)计

49、算秩相关系数,也作上述检验。数据描述性分析课件PROCCORR过程用以计算SAS数据集中变量间的相关系数矩阵或协方差矩阵;除通常的Pearson相关系数外,还可产生如Spearman秩相关等几种关联性度量矩阵;在相关系数矩阵的各元素下方给出检验此相关系数为零的检验P值,用来判断相应变量对关联性的显著性;自动产生各变量的一些描述性统计量的值(如均值、标准差、中位数等)。数据描述性分析课件PROCCORRPROCCORR选项串;VAR变量名称串;WITH变量名称串;RUN;数据描述性分析课件PROCCORR选项串第一类选项:界定输出输入文件的名称:1DATA输入文件名称省略时如同其它过程2OUTP

50、输出文件名称含有Pearson相关系数之矩阵、各变量的平均数、标准差、观察体个数;3OUTS输出文件名称含有Spearman相关系数之矩阵、各变量的平均数、标准差、观察体个数;4OUTK输出文件名称含有Kendallstaub相关系数之矩阵、各变量的平均数、标准差、观察体个数;数据描述性分析课件PROCCORR选项串5OUTH输出文件名称含有HoeffdingsD相关系数之矩阵、各变量的平均数、标准差、观察体个数;数据描述性分析课件PROCCORR选项串第二类选项:界定测量关系强度的方法,内置值是Pearson:1PEARSON:要求输出Pearson相关系数矩阵,这也是这类的内置值;2SPE

51、ARMAN:要求输出SPEARMAN相关系数矩阵;数据描述性分析课件PROCCORR选项串第三类选项:界定输出1BESTn:只输出每一变量与其他变量间最高的n个关联系数;2NOSIMPLE:不输出变量的描述性统计值:平均数、标准差、中位数、最大值、最小值等;3NOPRINT:不输出任何报表;4NOCORR:输出不包括相关系数;5NOPROB:不输出相关系数的显著性检定结果;6COV:要求计算协方差矩阵;数据描述性分析课件PROCCORR指令串VAR变量名称串可在本指令中列举被分析的变量。若省略此变量,则对所有数值变量进行分析。WITH变量名称串须跟VAR指令联用,WITH指令中列举的m个变量,

52、与VAR指令中列举的n个变量,将联合产生m*n的矩阵。矩阵中,WITH的变量是横列变量(Row),VAR的变量是纵行变量(Column)。若只选用VAR指令而忽略WITH指令,则产生n*n正方对称矩阵。数据描述性分析课件数据描述性分析课件数据描述性分析课件SPSS操作分析-相关分析-两个变量相关分析ex1.11.sav数据描述性分析课件1.3.2多元数据的数字特征与相关矩阵X协方差矩阵:S相关矩阵:R关系:R=D-1/2SD-1/2对于SPEARMAN系数,同样有类似的结果。样本均值向量协方差矩阵相关矩阵是总体均值向量协方差矩阵相关矩阵的相合(一致性)估计。数据描述性分析课件作业理论上机数据描述性分析课件

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号