《数据分析》ppt课件

资源描述

《《数据分析》ppt课件》由会员分享，可在线阅读，更多相关《《数据分析》ppt课件（124页珍藏版）》请在金锄头文库上搜索。

1、1,第九讲数据分析（一）,余可发博士江西财经大学工商管理学院,2,一、数据处理与分析过程,1、编辑 2、编码 3、数据输入 4、数据分析（描述性分析、单变量分析、双变量分析、多变量分析） 5、解释,3,二、编辑,编辑就是检查和调整数据遗漏、易读性和一致性的过程。编辑人员的任务就是要检查调查问卷或者其他数据收集形式中出现的错误和遗漏。当发现问题时，编辑要及时调整数据让他们变得更加完整、一致、可读。,4,编辑技巧： 1、退回重新填写 2、按缺失数据处理 3、丢弃（1）不符合要求的问卷和少。（2）样本单位数很大。（3）不符合要求的问卷与符合要求的问卷之间在调查对象上的特征上没有明显的

2、不同。（4）不符合要求的回答在该问卷中占很大的比例。（5）对关键变量的回答是缺失的。,5,编辑的类型：现场编辑后期编辑,6,编辑的任务： 1、确定是否需要补充调查 2、编辑的一致性 3、编辑的完整性,7,三、编码,编码就是将数字标度或其他符号分配给不同答案的过程。相关概念：域：一种类型的数据。记录：相关域的集合。文件：相关记录的集合。,8,9,编码工作一般包括以下几个方面：（1）确定变量（2）确定变量值（3）无结构问题的编码（4）编码说明书及数据输出格式说明书。,10,问题025：您认为打工的外地人对北京市的社会秩序是否有影响？（单选） 1有很大影响 2有较大影响 3没

3、有影响 4不好说,4,编码,答案,11,2）制作编码表,12,变量名: 一个数据文件中, 一个变量只能有一个唯一名称。,码位：某一变量在数据文件中占据的栏位,码数：某一变量由几位数组成。,该变量是数值型（Numeric）如定距、定比，还是字串型（String），如定类、定序。前者在统计中可以做高级运算，后者则不可以。,不适于被访人回答的问题的编码。一般采用7，97，997等。,被访人回答不知道时的编码。一般采用8，98，998等。,被访人拒绝回答某变量时的编码。一般采用9，99，999等。,问卷中出现漏答时的处理编码。一般采用9，99，999等。,13,四、数据录入,采用DOS

4、、WPS、CCED等软件，按ASCII码方式录入成文本文件（*.dat；*.txt）。这种录入方式的特点是，数据之间没有间隔，录完一个数码后自动后移，录入速度较快。缺点是容易错位。,采用SPSS数据编辑器（SPSS Data Editor）录入。其优点是不容易错位，缺点是不能自动后移，录入速度慢，数据错误不容易修改。,14,五、数据分析,描述分析法假设检验法方差分析法聚类分析法判别分析法回归分析法,15,1、描述性统计分析,频数、频率分析数据集中趋势分析算术平均数中位数众数数据分散趋势分析全距（极差）四分位差标准差数据总体形态分布偏度（Skewness）峰度（K

5、urtosis）,16,频数、频率分析（1）,例1：假设有样本数据,17,18,19,算术平均数,未分组数据的平均数计算分组数据的平均数计算上例的计算结果,20,中位数的计算（1）,未分组数据的中位数计算对所有数据进行排序，当数据量为奇数时，取中间数为中位数，当数据量为偶数时，取最中间两位数的平均数为中位数。上例中数据量为100，是偶数，所以应取排序后第50位数和第51位数的平均值作为中位数。第50位数是3，第51位数也是3，所以中位数为3。,21,中位数的计算（2）,分组数据的中位数计算下式中L为中位数所在组的下限值，fm为中位数所在组的组频数， Sm-1为至中位数组时累计总频数，h

6、为组距。,22,中位数的计算（3）,例2：假设有分组数据如下（销售额单位为万元）,23,中位数的计算（4）,依据公式例2的中位数为,24,众数的计算,未分组数据的众数为出现次数最多的数。分组数据的众数依据下式计算获得。表达式中1表示众数所在组与前一组的频数差，2表示众数所在组与后一组的频数差。依据公式，例2分组数据的众数为104.29万元。,25,全距（极差）的计算,全距指的是样本数据中最大值与最小值之间的距离，因而也叫极差。例1中最小值为1，最大值为6，因而全距为6-1=5。,26,四分位差的计算,四分位差是一种按照位置来测定数据离散趋势的计量方法，它只取决于位于样本排序后中间50%位

7、置内数据的差异程度。即第一个四分位与第三个四分位数据之间的差异。例2的四分位差计算过程如下,27,标准差的计算（1）,未分组数据的标准差计算,28,标准差的计算（2）,分组数据的标准差的计算,29,常用图形柱形图,30,直方图,德国英国法国意大利西班牙荷兰瑞典瑞士比利时奥地利土耳其挪威丹麦中国芬兰葡萄牙希腊俄罗斯 200 400 600 800 1000 1200 1400 xxx年中国内地与欧洲各国市场调查业的市场规模比较（年营业额：百万美元）,31,饼形图,32,趋势图,3 2.5 2 15元 14元 13元 12元 11元 10元 9元 8元以下,33

8、,散点图,森氏满 10.5% 意 4 度沃力中美 3 14.4% 38.5% 2 1 20% 40% 首都知名度郑州市主要纯水品牌的知名度、美誉度和市场占有率,34,态度对比图,35,轮廓形象图,36,雷达图,37,数据分布形态图,38,SPSS的描述性分析,Frequencies：频数分布表 Descriptives：一般性描述 Explore：探索性分析 Crosstabs：交叉列表,39,描述性分析,频数分布表,一般性描述,探索性分析,交叉列表,计算连续变量的相对比,40,频数分布表(Frequencies),调用此过程可进行频数分布表的分析.频数分布表是描述性统计中最常用的方法

9、之一,此外还可对数据的分布趋势进行初步分析。,41,待分析变量的列表,是否显示频数表,定义需要计算的统计量,定义需要绘制的统计图,定义表格,42,百分位数,分布特征描述,离散趋势,集中趋势,Frequencies：定义统计量,43,统计图类型,直方图加上正态曲线,以频数绘制条图或饼图,Frequencies：定义统计图,无图形,条图,饼图,直方图,以构成比绘制条图或饼图,44,Frequencies：定义表格,45,Frequencies：结果解释,46,Frequencies：结果解释,47,Frequencies：结果解释,48,一般性描述(Descriptives),描述性分析,调用此过

10、程可对变量进行描述性统计分析，计算并列出一系列相应的统计指标，且可将原始数据转换成标准Z分值并存入数据库，所谓Z分值是指某原始数值比其均值高或低多少个标准差单位，高的为正值，低的为负值，相等的为零。,49,是否保存标准变换后的数据,50,Descriptives：定义统计量,51,Descriptives：结果解释,52,Descriptives：结果解释,此外，系统以zheight和zweight为变量名将原始数据转换成标准z分值，存放在原数据库中。新变量具有均值为0、标准差为1的特征，亦即变量的标准化过程。,53,探索性分析(Explore),描述性分析,调用此过程可对变量进行更为深入详

11、尽的描述性统计分析，故称之为探索性统计。它在一般描述性统计指标的基础上，增加有关数据其它特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。,54,两者均有,统计量,图,分组变量列表,待分析变量列表,55,Explore：定义统计量,Descriptives：输出均数、均数的95%可信区间、去掉5%极端值的均数、中位数、方差、标准差、最小值、最大值、全距、四分位数间距、偏度系数、峰度系数。,M-estimators：输出集中趋势的最大似然比的稳健估计。 Outliers：输出五个最大值与五个最小值。 Percentiles：输出第5%、10%、25%、50%、7

12、5%、90%、95%位数。,56,箱图绘制方式,茎叶图,正态性检验/正态分布图,Explore：定义统计图,直方图,57,Exclude case listwise:不分析有任一缺失值的记录 Exclude case pairwise:不分析计算某统计量时有缺失值的记录 Report values:报告缺失值,缺失值的处理方式,Explore：缺失值的处理,58,Explore：结果解释,原始数据的基本情况：男性有效数据459，缺失1，合计460；女性有效数据538，缺失2，合计540。,59,Explore：结果解释,60,Explore：结果解释,描述性分析,左面为箱图，图中方箱为四分位数

13、，中心粗线为中位数，两端线为最大值与最小值，之外的圆圈代表可疑的离群值。,61,2、假设检验,假设检验又叫显著性检验（test of significance）。显著性检验的方法很多，常用的有u检验、t检验、F检验和2检验等。尽管这些检验方法的用途及使用条件不同，但其检验的基本原理是相同的。,62,假设检验的步骤,建立假设。对样本所属总体提出假设，包括无效假设H0和备择假设HA；确定显著水平。常用的显著水平0.05和0.01；从无效假设H0出发，根据样本提供信息构造适宜统计量，并计算统计量值或概率；由附表查出相应的统计量临界值，比较样本统计量值与临界值大小，根据小概率原理做出统计

14、推断（或由概率大小做出判断）。,63,统计假设检验的几何意义,统计假设检验从本质上来说，就是根据显著水平将统计量（数）的分布划分为接受区和否定区两部分。前者为接受原假设H0的区间，后者为否定H0 ，而接受HA的区间。当试验结果落入接受区，就接受H0 ；反之，否定H0 ，而接受HA 。否定区的概率为，接受区的概率为1- 。,64,是否否定无效假设或，用实际计算出的统计量u或t的绝对值与显著水平对应的临界值ua 或ta比较。若|u|ua 或|t|ta，则在水平上否定；若|u| ua或 |t| ta，则不能在水平上否定。区间和或称为水平上的否定域，而区间（）则称为水平上的接受域。,6

15、5,图1 双侧检验时H0的接受域和否定域,66,统计假设检验的两类错误,统计假设检验的是根据 “小概率事件实际不可能性原理”来否定或接受无效假设的，所以不论是接受还是否定无效假设，都没有100%的把握。也就是说，在检验无效假设时可能犯两类错误。第一类错误：H0本身是成立，但通过检验却否定了它，犯了“弃真”错误，也叫型错误（type error）、错误。型错误，就是把非真实差异错判为真实差异，即为真，却接受了。,67,第二类错误：H0本身不成立，但通过检验却接受了它，犯了“纳伪”错误，也叫型错误（type error）、错误。型错误，就是把真实差异错判为非真实差异，即为真，却未能否定。统计检验是基于 “小概率事件实际不可能性原理”来否定H0，但在一次试验中小概率事件并不是绝对不会发生的。如果我们抽得一个样本，它虽然来自与H0 对应的抽样总体，但计算所得的统计量却落入了否定域中，因而否定了H0，于是犯了型错误。犯这类错误的概率不会超过a。,68,图2 两类错误示意图,69,假设检验的类型,参数假设检验 U检验 t检验非参数检验,70,参数统计（parametric statistics）： t、Z、和F检验均属参数检验。其共同特点是，假定随机样本来自某种

展开阅读全文

《数据分析》ppt课件

最新文档