描述性统计分析－金锄头文库

资源描述

《描述性统计分析》由会员分享，可在线阅读，更多相关《描述性统计分析（48页珍藏版）》请在金锄头文库上搜索。

1、L/O/G/O2012年3月20日数据分析描述统计前言在做数据分析的时候，一般首先要对数据进行描述性统计分析，以便于描述测量样本的各种特征及其所代表的总体的特征以及发现其数据的内在规律，再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述，主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。目录集中趋势离散趋势探索分析集中趋势定义在统计学中是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在。度量方法集中趋势的度量包括了均值（mean），中位数（median），众数（mo

2、de）。均值、中位数、众数用那一个去度量平均水平呢？以及为什么？均值、中位数、众数的渊源u定义均值：表示一系列数据或统计总体的平均特征的值中位数：将总体单位的某一数量标志的各个数值按照大小顺序排列，居于中间位置的那个数值就是中位数。众数：众数是指变量数列中出现次数最多或频率最大的变量值。1.1.众数、中位数、算术平均数的比较众数、中位数、算术平均数的比较均值比中位数、众数对数据的概括能力要强。相对于中位数和众数而言均值对数据的灵敏度较大。均值比中位数、众数偏于计算和分析。均值的抗耐性较差，极容易受个别和少数极端值的影响。均值适用范围比中位数、众数窄。2.众数、中

3、位数、算术平均数数值关系（一）对称分布情况下（二）偏态分布情况下数据类型与集中趋势测度值为该数据类型最适合用的测度值.均值、中位数、众数的代表性衡量及使用前面我们知道均值、中位数、众数的定义不同，特点和适用范围不同，在衡量这些平均指标的代表性时要根据不同的情况加以具体分析。 1.对于不同的总体在平均指标相等的情况下，我们一般用总体的标准差这个指标来衡量这些平均指标的代表性大小，一般来说，标准差较大的总体其平均指标的代表性较小。 2.对于不同的总体在其平均指标不相等的情况下，我们一般用离散系数来衡量这些平均指标的代表性，一般来说，这时离散系数较小的总体其平均指标的代表性较大。 3.

4、对于同一总体中算术平均数、中位数、众数的代表性高低的衡量。由于这些起代表意义的平均指标本身所具有的特点不同，应用范围不同，在描述和反映不同现象时的代表性也不同，只有根据它们的不同特点，正确恰当地根据不同的情况选择不同的平均指标，才能够提高这些平均指标的代表性，更客观、准确地反映和描述事物现象的本质特征。例子找一个能够代表二次装修年限的代表性指标，均值、中位数、众数，哪一个更合理？作业3.savStatistics 两次装修间隔时间 NValid2,700 Missin g0Mean6.70 Std. Error of Mean0.064 Median6.00 Mode10 Std

5、. Deviation3.337数据的均值是6.70，中位数是6.众数是10 。如果一只脚放在摄氏1度的水里，另一只脚放在摄氏79 度的水里，平均水温40度。你感觉舒服极了！？这只是一个笑话。说明了只了解数据的集中趋势是不够的。还需要看数据的离散程度。离散趋势1. 离散趋势的各测度值是对数据离散程度所做的描述 2. 反映各变量值远离其中心值的程度，因此也称为离中趋势 3. 从另一个侧面说明了集中趋势测度值的代表程度。离散趋势测度指标 1、全距 2、四分位差 3、平均差 4、标准差 5、方差 6、离散系数四分位差是四分位数中间两个分位之差。平均差是总体各单位标志值对其算术平

6、数的离差绝对值的算术平均数。总体各单位标志值对其算术平均数离差平方的算术平均数的平方根又称均方差或均方根差标准差的平方即为方差一组变量值的最大值与最小值之差变异系数定义：标准差与平均数的比值称为变异系数，是衡量资料中各观测值变异程度的另一个统计量。记为C.V。作用：反映单位均值上的离散程度，常用在两个总体均值不等的离散程度的比较上。若两个总体的均值相等，则比较标准差系数与比较标准差是等价的。变异系数又称离散系数。标准差解决了单位相同、平均数相同的数据离散程度，那么不满足这两点数据的离散度比较还能用标准差吗？标准差与标准误的区别标准差 u定义：总体各单位标志值对其算术平均数离

7、差平方的算术平均数的平方根，又称均方差或均方根差。 u计算公式：标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的，标准差未必相同。标准误u定义：标准误差定义为各测量值误差的平方和的平均值的平方根，故又称为均方误差。 u计算公式：为了描述由抽样所致的样本指标（均数或率）的离散程度。需要计算统计量的变异指标，称样本统计量的标准差为标准误。标准误的意义：反映样本统计量的离散程度，也反映抽样误差的大小。标准误越小，抽样误差越小，用样本均数估计总体均数的可靠性大。LOGO标准差和标准误的区别标准差衡量的是样本数据的离散程度. 标准差主要有两点作用:

8、对样本进行标准化处理和确定异常值标准误是样本均值的标准，表示的是抽样的误差。标准误的作用主要是用来做区间估计，常用的估计区间是均值加减n倍的标准误。95%的参考值范围参考值的概念参考值的计算参考值与置信区间的区别参考值的概念医学参考值是指包括大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数，也称正常值。习惯上取该人群的95%的个体某项医学指标的界值。取单侧还是双侧根据指标的实际情况而定。例如人体血压，过高过低都为异常。参考值范围需要确定上下限。若指标仅过高和过低为异常，则取单侧。过低异常，则取下限；过高异常则单侧去上限。参考值的计算计算数据

9、的95%参考值有两种方法：数据服从正态分布时可以从正态分布原理求出；数据非正态分布时否则就应当用百分数法求出。可信区间与参考值范围的区别1.从意义来看 95参考值范围是指同质总体内包括95个体值的估计范围，而总体均数95可信区间是指按95可信度估计的总体均数的所在范围。 2.从计算公式看若指标服从正态分布，95参考值范围的公式是：1.96s 。总体均数95可信区间的公式是：。前者用标准差，后者用标准误。前者用1.96，后者用为 0.05，自由度为v的t界值。可信区间的解释从总体中做随即抽样，对于含量为n的每个样本而言。都可以算得一个区间。以95%的可信区间为例：理解1

10、意味着同一总体中做100次重复抽样，可得到100个可信区间，平均有95个可信区间包含总体均数。只有5个可信区间不包含总体均数。理解2 对于某一区间而言，它包含总体均数的可能性为95%，而不包含总体均数犯错误的概率仅为5%。例子作业5.sav分别求两组数据95%的参考值范围和可信区间。对于第一组数据，因近似呈正态分布，所以 95%的参考值为： (3.01,6.39) 对于第二组数据，峰度和偏度不为0 ，即数据不服从正态分布，直接取 2.5%和 97.5%：即（63.40， 97.02）第一组数据的置信区间为：（ 4.53,4.87）第二组数据的置信

11、区间为（ 87.11,88.65 ）异常值的检验与处理当一组数据对称分布时，经验法则表明：约有68%的数据在平均数加减1个标准差的范围之内；约有95%的数据在平均数加减2个标准差的范围之内；约有99%的数据在平均数加减3个标准差的范围之内。当一组数据不再是对称分布时，切比雪夫不等式表明：至少有75%的数据落在平均数加减2个标准差的范围以内；至少有89%的数据落在平均数加减3个标准差的范围以内；至少有94%的数据落在平均数加减4个标准差的范围以内。什么样的数值是异常值呢？1.异常值的定义定义：一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍

12、标准差的测定值，称为高度异常的异常值。2.异常值的危害异常值的存在对分析结果（均值和标准差) 产生重要的影响，异常值的检验与正确处理是保证原始数据可靠性、平均值和标准差计算的准确性的前提。异常值的检验方法一：异常值的检验方案二：用SPSS绘制一组数据的箱线图。异常值：值与框的上下边界的距离在1.5倍框的长度到3倍框的长度之间的个案。极端值：值距离框的上下边界超过3倍框的长度的个案。在箱线图里面异常值用“o”表述。极端值用“*”表示最小值四分之一分位数中位数四分之三分位数最大值异常值的检验方法三：计算统计量(X1+X2+Xn)/n s=(Xi-)/(n-1)(i=1,2

13、n) Gn=(X(n)-)/s 注：式中样本平均值； s样本标准差； Gn格拉布斯检验统计量。确定检出水平，查表得出对应n，的格拉布斯检验临界值G1-(n)。当GnG1-(n),则判断Xn为异常值，否则无异常值给出剔除水平的G1-(n),当当GnG1-(n)时,Xn 为高度异常值，应剔除。 SPSS中异常值检验的几种方法介绍离群值（箱图探索）.值与框的上下边界的距离在1.5倍框的长度到3倍框的长度之间的个案。框的长度是内距。极端值（箱图）.值距离框的上下边界超过3倍框的长度的个案。框的长度是内距在回归模型诊断里面，一般称预测值与实际值的偏差为“残差“,残差有几种表示方法:

14、标准化残差, 学生化残差等等，按照需要取一种残差，再按照某种标准取一个阀值来限定异常点，只要那个点的残差大于阀值，就可以认为它是异常点。正态性检验方法1.直方图 2.茎叶图 3.箱线图 4.P-P图 5.Q-Q图 6 偏度、峰度检验法： 7.样本的四分位差和标准差的比值 8.Kolmogorov-Smirnov正态性检验 9.Shapiro-Wilk(W检验)1.直方图直方图:用矩形的宽度和高度表示频数分布的图形。图为作业3第一次评分结果直方图数据分组频数 2.茎叶图频数树茎树叶茎叶图相当于横置的直方图，但它可以保留原始数据的信息。 3.箱线图中位数与上四分位数

15、的距离下四分位数与众位数间的距离判断方法：观察矩形位置和中位数 ,若矩形位于中间位置且中位数位于矩形的中间位置，则分布较为对称，否则是偏态分布如何看数据是否服从正态分布呢？4.P-P图理论累积概率实际值计算的累积概率实际值计算的累积概率差值解读：若数据服从正态分布，P-P图样本数据点呈对角线分布。P-P趋势图应随机分布在Y=0的两侧。 5. Q-Q图以上两种方法以Q-Q图为佳，效率较高。观察值分位数观察值分位数理论分位数观察值分位数与理论分布分位数的差值解读：若数据服从正态分布，Q-Q图样本数据点呈对角线分布。Q-Q趋势图应随机分布在Y=0的两侧。 6 偏度、峰度检验法：g1表示偏度，g2表示峰度，通过计算g1和 g2及其标准误g1及g2然后作U检验。两种检验同时得出U0.05 的结论时，才可以认为该组资料服从正态分布7.样本的四分位差和标准差的比值比值=表示四分位差，S表示标准差。若数据服从正态分布，则比值接近于1.3。8.Kolmogorov-Smirnov正态性检验定义：K-S检验是检查单一样本是否来自某一特定分布的方法。检验方法：以样本数据的累积频数与特定理论分布比较，若两者间的差距较小，则推论该样本取自某特定分布族。8.Kolmogorov-Smi

展开阅读全文

描述性统计分析

最新文档