【6A文】Stata中变量描述分析和作图

资源描述

《【6A文】Stata中变量描述分析和作图》由会员分享，可在线阅读，更多相关《【6A文】Stata中变量描述分析和作图（51页珍藏版）》请在金锄头文库上搜索。

1、第三讲描述性分析与画图,进行描述性统计分析的目的：对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征，把握数据的总体分布形态，进而决定如何对数据作进一步处理，进而回答所要研究的问题。,本章主要内容,6.1频数分布 6.2条件频数分布 6.3频数分布的常见错误分析及解决方法 6.4变量的中央趋势和离散趋势 6.5描述数值型数据统计量的其它方法 6.6画图,数据描述的方法,获得数据的目的是为了描述和分析数据，回答研究问题数据分析的第一步是描述变量的基本特征。只有在熟悉数据的基本特征和变量分布的基础上，才能决定如何对数据作进一步处理描述性统计通过一系列的程序帮助组织、归纳、总结样本的基

2、本特征。常见的方法包括频数分布、百分比、分位数、均值和标准差、中数、众数、最大值和最小值等单变量分析（univariate analysis）。考察变量的属性分布二元或多元交叉表、二元相关关系分析图形,描述性分析的菜单窗口,该内容是statistics菜单下的首个选项： Statistics Summaries，tables & tests,6.1频数分布频数、比例（proportion）、百分比（percentage）和比率（ratio）等描述性统计方法适用于所有类型数据，包括定性、定序、定距和定比数据。,频数与频数分布,频数也称次数，即分布在各个类别中的数据个数频数分布就是对样本

3、中变量的不同属性出现次数的描述假如一个班60%的同学是女生，40%的同学是男生，则60%和40%是女生和男生的分布情况 2000年人口普查显示，中国7%的人群年龄在65岁及以上，则7%是当时老年人口在总人口中所占的比例,菜单窗口,在Stata的窗口菜单下，有多种描述数据频数分布特征的选项，每一选项都具有一定独特的功能，但有些功能是相通的,单变量频数分布,. tab 变量名：. tab也可写为tabulation，是获得频数分布的基本命令：需要输出频数分布的变量名称该命令不对频数分布作任何定义，只提供单个变量的频数分布 . tab girl 该命令告诉Stata，给变量girl生成一张频

5、多个变量 . tab girl urban 该命令告诉Stata，给变量girl和urban各自生成一张频数分布表,6.2条件频数分布条件频数分布也称交叉频数表为或列联表，同时生成两个变量之间关系的频数分布，属于相关分析中的一种.,基本命令,.tab提供、且只能提供双变量的交叉分析，生成二者之间的交叉频数分布，相当于命令tabulate 若其令后面仅有一个变量，则Stata输出该变量的频数分布若多于两个变量，则会出现错误提示 Stata的默认方法是，tab后面的第一个变量被当成行变量，第二个变量被当成列变量 .tab2也提供双变量的交叉分析表 .tab和tab2的主要区别在于，前者仅可以用

6、于两个变量的交互分析（tab后面最多只能有两个变量）；tab2可同时生成多个两两变量之间的交互频数分布表,例1,.tab girl enroll, chi2 column row miss nokey : 提供两个变量关系的卡方 : 提供列变量的百分比 : 提供行变量的百分比 : 提供缺失变量的比例 : 压缩单元格内容的提示,6.3频数分布的常见错误之一,too many variables specified 导致I类错误的原因在于，混淆了tab，tab1，tab2的用法 .tab可用于生成单个变量的频数分布，其后只能接一个变量；.tab也可用来描述两个变量的交叉分布，其后面只能接两个变量

7、tab1后面可以接多个变量，但只能分别生成单个变量的频数分布，而不能生成交叉表 tab2则可以生成多个双变量的交叉表因此，若使用下列命令，则会遇到这类错误 . tab urban yrsch enroll too many variables specified r(103);,6.3频数分布的常见错误之二,too many values 导致这类错误的原因在于，在试图生成两个变量的交叉表时，每个变量都包含太多的取值。比如： . tab age weight . too many values （变量的取值太多）这里，变量age和weight均为连续变量，且都有很多的取值，尤其是weigh

8、t 若需要生成二者之间的交叉表，可以限制其中一个或两个变量的取值，或者将它们转换为分类变量,6.4变量的中央趋势和离散趋势,集中趋势：众数,数据分布的一种表现形式。频数最多的组段代表了中心位置（平均水平），从两侧到中心，频数分布逐渐增加描述集中趋势的方式包括：众数、均值、中位数众数（mode）：最常出现的观察值或属性如果在全班30个学生中， 20个18岁的学生、5个19岁、5个20岁，则18是众数众数适用于所有类型数据，但主要用于测度分类数据的集中趋势一个数据可以有两个或多个众数，故众数具有不唯一性的特点,集中趋势：算术均值（mean，average）,加总多个观察值，除以总观察量得

9、到的数值适用于正态分布或者近似正态分布；均数受特大值和特小值的影响，会偏大或偏小，故对偏态分布的资料，均数的代表性差，不适合描述偏态分布的集中趋势；全域（总体）均数称为；样本均数称为,集中趋势：中位数（median）,将一组数值从小到大排列后，位于中间的数值；若5个人的年龄分别为1 ，3，6，8，32，则中位数为6（均值为10）；中位数度量方式适用于偏态分布数据。中位数不受两端特大值和特小值的影响，只和位置居中的观察值有关；对于正态分布，理论上中位数等于均数；,离散趋势：极差或者全距（range，R）,数据分布的另一种表现形式。从中心到两侧，频数分布逐渐减少。反映了数据的离散程度或

10、变异程度；描述离散趋势的方法包括：级差、方差、标准差；极差或者全距（range，R）：表示变量取值中的最大值和最小值之差。适合所有分布类型的数据； R最大值最小值计算简单，但不能反映所有变量值的变异程度，易受最大值和最小值的影响，不稳定,离散趋势：方差（variance）,方差（variance）：表示一组变量取值的平均离散程度。方差越大，离散或者变异程度越大。适合描述近似正态分布资料的离散趋势。,离散趋势：标准差（standard deviation）,方差的开方，和均数的单位一致，也是数据波动性的一种度量，即是对围绕均值的离散趋势的测量标准差和方差是实际中应用最广的测量离散程度的统

11、计量如果一个变量具有正态分布，则均值 68%的数值将会位于离平均值加减一个标准差的范围内； 95%的个案将会位于加减两个标准差的范围内； 99.9%的个案将会位于加减三个标准差的范围内标准差越小，数据的分布就越围绕均值聚集；标准差越大散，数据的分布就越分散。,离散趋势：标准差（II）,适合描述近似正态分布资料的离散趋势方差或标准差都是根据全部数据计算的，反映了每个数据与其均值相比平均相差的数值，因此能准确地反映数据的离散程度计算公式：,离散趋势：自由度,为什么样本标准差的分母是n-1呢自由度：一组数据中可以自由取值的个数。当样本的个数为n时，若样本均值确定后，必有一个数据不能自由取值

12、。因此，只有n-1 个数据可以自由取值；假如样本有3个数值，x=4，y=8，z=18，则均值=10。当均值=10确定后，x，y，z中只有两个数可以自由取值；在抽样估计中，当用样本方差去估计总体方差时，样本方差是总体方差的无偏估计量。,正态分布与偏态分布,正态分布（normal distribution）,一个变量的集中位置居中，左右两侧频数基本对称的分布从形态上看，正态曲线两头低、中间高、左右对称正态分布是一条单峰、对称呈钟形的曲线，其对称轴为x=，并在x=时取最大值。从x=点开始，曲线向正负两个方向递减延伸，不断逼近x轴，但永不与x轴相交，因此说曲线在正负两个方向都是以x轴为渐近线的

13、其性质如下：函数方程中为位置参数；为形状参数若不变，函数曲线形状不变。变大时，曲线位置向右移；变小时，曲线位置向左移若不变，函数曲线位置不变。变大时，曲线形状变得越来越胖、矮；变小时，曲线形状变得越来越瘦、高,正态分布,.histogram yrsch if yrsch =13, percent start(0) width(1)normal,偏态分布,数据的集中位置偏向一侧，频数分布不对称。偏态分布有两种表现形式正偏态分布：集中位置偏向数值小的一侧或者左侧，有较长的右尾部负偏态分布：集中位置偏向数值大的一侧或者右侧，有较长的左尾部,.histogram weight, percen

14、t start(0) normal ysize(4.5) xsize(2.5),.histogram height, percent start(0) normal ysize(4.5) xsize(2.5),6.5 描述性统计,.sum连续变量该命令给出标准统计量。输出结果包括： Obs Mean Std. Dev. Min Max （观察量）（均值）（标准差）（最小值） (最大值） .sum连续变量，detail summ 或 summarize 得出同样的结果,标准信息描述,. sum age yrsch weight height Variable | Obs Mean Std

15、. Dev. Min Max -+- age | 2341 10.09227 5.283423 0 19 yrsch | 1830 6.031694 3.440358 0 15 weight | 2103 34.85635 18.54676 .4 151 height | 2100 132.8193 30.60277 0 185.5 由于缺失值个数的差异，几个变量的观察值都不一样,详细情况描述,.sum age, detail age in 2004 - Percentiles Smallest 1% 0 0 5% 1 0 10% 2 0 Obs 2321 25% 5 0 Sum of Wgt. 2321 50% 10 Mean

展开阅读全文