11 第14章 数据分析

上传人:飞*** 文档编号:4440659 上传时间:2017-08-06 格式:PPTX 页数:52 大小:1.51MB
返回 下载 相关 举报
11 第14章 数据分析_第1页
第1页 / 共52页
11 第14章 数据分析_第2页
第2页 / 共52页
11 第14章 数据分析_第3页
第3页 / 共52页
11 第14章 数据分析_第4页
第4页 / 共52页
11 第14章 数据分析_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《11 第14章 数据分析》由会员分享,可在线阅读,更多相关《11 第14章 数据分析(52页珍藏版)》请在金锄头文库上搜索。

1、第11讲(第14章) 数据分析,数据整理的程序一般如下:1. 对原始资料进行审核、订正2. 编码3. 数据的录入4. 数据的清洁5. 进行统计预处理6. 制订数据分析的初步方案7. 数学处理,上章与本章内容衔接,在大量的调查工作结束后,就要对这些资料进行统计归类、整理分析,即统计分析对调查资料进行整理统计运用统计图进行描述性分析进行分布分析和相对分析集中量数分析与离中量数分析,【本章的实质性工作】,Contents,第一节数据分析的作用与要求,一、数据分析的含义它是指对市场调研与预测过程中收集到的各种数据资料进行适当的处理,使其显示一定的含义,进而反映不同数据之间以及新数据与原数据之间的联系,

2、并通过分析,得出某些结论。二、数据分析的作用,数据分析在数据收集之后进行,但应根据整个项目的目的、特点预先设计好数据分析技术,制订数据分析计划。数据分析计划:确定所需变量测量这些变量所用的方法数据分析过程及所用的技术,三、数据资料分析的要求,Contents,统计描述,频数分布:在分组的基础上,把总体的所有单位按组归并排列,形成总体中各个单位在各组间的分布,称为频数分布。又称分布数列。两个要素:总体按其标志所分的组各组所分布的单位数,频数直方图,交叉列表分析,频数分布一次描述一个变量,而交叉表,或列联表(cross-tabulation)可同时描述两个或更多变量。一、概念交叉表(列联表) 分析

3、法是一种以表格的形式同时描述两个或多个变量的联合分布及其结果的统计分析方法,此表格反映了这些只有有限分类或取值的离散变量的联合分布。,性别和互联网使用频率,某保险公司对影响保户开车事故率的因素进行调研,并对各种因素进行了交叉表分析。交叉表法的起点是单变量数据,然后依研究目的将这些数据分成两个或多个细目。表1 驾驶员的事故率,二、交叉列表分析中变量的选择和确定,然后,在性别基础上分解这个信息,判断是否在男女驾车者之间有差别。这样就出现了二维交叉表2。表2 男女驾驶员的事故率,二、交叉列表分析中变量的选择和确定,这个表的结果令男士懊恼,因为他们的事故率较女士驾车时涉及的事故率要高。但人们会提出这样

4、的疑问而否定上述判断的正确性,即男士的事故多,是因为他们驾驶的路程较长。这样就引出第三个因素驾驶距离,于是出现了三维交叉表3。表3 不同驾驶距离下的事故率,二、交叉列表分析中变量的选择和确定,结果表明:男士驾驶者的高事故率是由于他们的驾驶距离较女士长,但并没有证明男士和女士哪个驾驶得更好或更谨慎,仅证明了驾车事故率只与驾驶距离成正比,而与驾驶者的性别无关。,二、交叉列表分析中变量的选择和确定,二、交叉列表分析中变量的选择和确定,强调:变量的确定在资料收集之前。确定列表中变量的内容和数量,由调研项目的特征决定。在描述性调研中,研究者有较大的自主权来选择这些变量。在探索性研究中,研究者凭主观意识选

5、择所有的用于交叉表的变量。,三、双变量交叉列表分析法,最基本的交叉列表分析法。把双变量交叉列表中各项绝对数的表示转换成百分数,能更清楚地显示相关关系。行百分比与列百分比的选择取决于哪个变量是因变量哪个变量是自变量。一般的规则是,在自变量的方向上,对因变量计算百分比。,例,研究城镇居民在某地的居住时间与其对当地百货商场的熟悉程度之间的关系,对“居住时间”和“熟悉程度”这两个变量进行交叉列联分析。表4. 居住时间与对百货商场的熟悉程度的交叉列联分析(频数),例,那么,到底居住时间与对商场的熟悉程度有没有关系呢? 进一步计算出百分比,则可以看得更直观一些。表5.居住时间与对百货商场的熟悉程度的交叉列

6、联分析(%),例,以表5为例,居住时间为自变量,对商场的熟悉程度为因变量,因而可以对各居住时间分别计算熟悉程度的百分比。看来,同样住在该地区的人,居住时间越长,对购物环境反而更不熟悉。这个结论是有一定道理的,在一个地方居住很长时间的人一般相对来说更没有动力去熟悉该商场。如果我们在因变量的方向上对自变量计算百分比(如表6所示),则显然没意义。,例,表6. 居住时间与对百货商场的熟悉程度的交叉列联分析(%)对当地商场不熟悉会影响居民在该地的居住时间,这显然是不合理的。但由此可见需要检查第三因素的影响。,四、三变量交叉列表分析法,(一)更精确显示原有联系(二)显示原有联系是虚假的(三)显示出原先被隐

7、含的联系(四)不改变原先反映出的联系,三变量交叉列表,提炼原来的关系,Purchase of Fashion Clothing by Marital Status,原来的关系是虚假的,Ownership of Expensive Automobiles by Education Level and Income Levels,揭示隐藏的联系,28,Desire to Travel Abroad by Age and Gender,29,Table 15.11,原来的关系没有变化,交叉列联表分析的优缺点,易于理解,便于解释,操作简单却可以解释比较复杂的现象,因而在市场调查中应用非常广泛。优点:交

8、叉表的分析结果很容易直观地被理解;明了的解释加强了调研结果与经理行为的联系;一系列交叉表比多变量分析更有助于理解复杂的问题;交叉表可减弱空格问题,这在多元离散变量分析中更突出;交叉表将复杂的数据简单化。,局限性:如果需要考虑多个变量,样本容量就应相当大;很难确保对所有的相关变量进行了分析,如果变量选择不适当,就会得出错误的结论。即使变量选择的正确,研究者也许会因使用不当而无法找到真正的关系。应用:只能用于有数据基础的变量分析,它描述的是变量间的关系,但不一定是因果关系。,Contents,数据资料的概括技术,描述性统计分析:数据的分布分析又称结构性分析,主要通过数据的频数分布或频率分布来显示总

9、体或样本分布的类型和特征,反映总体或样本的结构与特点。 常见分布曲线的类型有:钟形分布(又分正态分布、右偏分布、左偏分布)U形分布J形分布(分正J形分布和反J形分布)多峰分布,1. 钟形分布,数据的分布分析,2. J形分布,(一)数据的分布分析,3. U形分布,(一)数据的分布分析,4. 多峰分布,(一)数据的分布分析,统计量,2. 对数据分布的特征,用量化值进行测度和描述: 一是分布的集中趋势,反映各统计数据向其中心值靠拢或聚集的程度;二是分布的离中趋势,反映各数据远离其中心值的程度。,集中趋势指标 (Measures of Location),均值 mean众数 mode中位数median

10、,X,=,X,i,/,n,S,i,=,1,n,差异性指标 (Measures of Variability ),全距 range Range = Xlargest Xsmallest.平均差四分位差 interquartile range,方差 variance标准差 standard deviation变异系数 coefficient of variation,s,x,=,(,X,i,-,X,),2,n,-,1,S,i,=,1,n,差异性指标 (Measures of Variability ),形状指标 (Measures of Shape),Skewness(偏度). Kurtosis(

11、峰度),Skewness of a Distribution,Skewed Distribution,Symmetric Distribution,Mean Median Mode (a),Mean Median Mode (b),Contents,1. 总量指标和相对指标总量指标是反映社会经济现象总体规模或水平的指标,又称为绝对数。相对指标是两个有联系的总量指标对比计算的比率,又称为相对数。,综合分析指标,根据相比较的总量指标之间的关系不同,相对指标可以划分为若干种类型: (1)结构相对指标: (2)比例相对指标:,1. 总量指标和相对指标,(3)强度相对指标: (4)比较相对指标: (5)

12、动态相对指标:,相对指标,2. 描述总量指标和相对指标的一些常用术语 (1)静态比较与动态比较 (2)基期与报告期报告期又称为计算期,即被研究的时期。 作为比较基础的时期称为“基期”。 (3)时期和时点,常用术语,发展水平发展水平就是动态数列中的每一项具体指标数值。其数值可以表现为绝对数、相对数或平均数。增长量 = 报告期水平 基期水平发展速度3. 增长速度,动态分析指标,环比发展速度=,定基发展速度=,= 发展速度1,利用excel进行数据分析,Excel函数(统计)透视表数据分析(描述性统计分析),【思考题】 1.调查资料的处理包括哪些步骤? 2.调查资料的审核包括哪些内容?3.如何对问卷中封闭式问题进行编码?4.如何对问卷中开放式问题进行编码?5.数据自动清理包括哪些内容?6.对于缺失数据处理的方法有哪些?7.数据集中趋势的指标有哪些?各有何其特色?8. 数据离散趋势的指标有哪些?各有何其特色?9.什么是交叉列表?如何正确的选择和确定交叉列表中的变量?10.什么是两变量交叉列表?11.什么是三变量交叉列表?12.怎样对两变量交叉列表中的两变量相关关系进行判断?,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 调研报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号