【6A文】Stata中变量描述分析和作图

上传人:Jerm****014 文档编号:69459053 上传时间:2019-01-13 格式:PPT 页数:51 大小:601KB
返回 下载 相关 举报
【6A文】Stata中变量描述分析和作图_第1页
第1页 / 共51页
【6A文】Stata中变量描述分析和作图_第2页
第2页 / 共51页
【6A文】Stata中变量描述分析和作图_第3页
第3页 / 共51页
【6A文】Stata中变量描述分析和作图_第4页
第4页 / 共51页
【6A文】Stata中变量描述分析和作图_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《【6A文】Stata中变量描述分析和作图》由会员分享,可在线阅读,更多相关《【6A文】Stata中变量描述分析和作图(51页珍藏版)》请在金锄头文库上搜索。

1、第三讲 描述性分析与画图,进行描述性统计分析的目的: 对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征,把握数据的总体分布形态,进而决定如何对数据作进一步处理,进而回答所要研究的问题。,本章主要内容,6.1频数分布 6.2条件频数分布 6.3频数分布的常见错误分析及解决方法 6.4变量的中央趋势和离散趋势 6.5描述数值型数据统计量的其它方法 6.6画图,数据描述的方法,获得数据的目的是为了描述和分析数据,回答研究问题 数据分析的第一步是描述变量的基本特征。只有在熟悉数据的基本特征和变量分布的基础上,才能决定如何对数据作进一步处理 描述性统计通过一系列的程序帮助组织、归纳、总结样本的基

2、本特征。常见的方法包括 频数分布、百分比、分位数、均值和标准差、中数、众数、最大值和最小值等单变量分析(univariate analysis)。考察变量的属性分布 二元或多元交叉表、二元相关关系分析 图形,描述性分析的菜单窗口,该内容是statistics菜单下的首个选项: Statistics Summaries,tables & tests,6.1频数分布 频数、比例(proportion)、百分比(percentage)和比率(ratio)等描述性统计方法适用于所有类型数据,包括定性、定序、定距和定比数据。,频数与频数分布,频数也称次数,即分布在各个类别中的数据个数 频数分布就是对样本

3、中变量的不同属性出现次数的描述 假如一个班60%的同学是女生,40%的同学是男生,则60%和40%是女生和男生的分布情况 2000年人口普查显示,中国7%的人群年龄在65岁及以上,则7%是当时老年人口在总人口中所占的比例,菜单窗口,在Stata的窗口菜单下,有多种描述数据频数分布特征的选项,每一选项都具有一定独特的功能,但有些功能是相通的,单变量频数分布,. tab 变量名 :. tab也可写为tabulation,是获得频数分布的基本命令 :需要输出频数分布的变量名称 该命令不对频数分布作任何定义,只提供单个变量的频数分布 . tab girl 该命令告诉Stata,给变量girl生成一张频

4、数分布表,girl in | 2004, 0=boy | -1=girl | Freq. Percent Cum. -+- 0 | 1,248 53.70 53.70 1 | 1,076 46.30 100.00 -+- Total | 2,324 100.00 输出结果显示,该数据一共有2324个观察值 变量girl有两个取值:0代表男孩,1代表女孩 样本中有1248个男孩,占53.7%;女孩为1075,占46.3%,多变量频数分布,. tab1 变量a 变量b 变量c :同时获得多个变量频数分布的基本命令 :需要输出频数分布的变量名称 与tab或tabulate不同的是, . tab1可接

5、多个变量 . tab girl urban 该命令告诉Stata,给变量girl和urban各自生成一张频数分布表,6.2条件频数分布 条件频数分布也称交叉频数表为或列联表,同时生成两个变量之间关系的频数分布,属于相关分析中的一种.,基本命令,.tab提供、且只能提供双变量的交叉分析,生成二者之间的交叉频数分布,相当于命令tabulate 若其令后面仅有一个变量,则Stata输出该变量的频数分布 若多于两个变量,则会出现错误提示 Stata的默认方法是,tab后面的第一个变量被当成行变量,第二个变量被当成列变量 .tab2也提供双变量的交叉分析表 .tab和tab2的主要区别在于,前者仅可以用

6、于两个变量的交互分析(tab后面最多只能有两个变量);tab2可同时生成多个两两变量之间的交互频数分布表,例1,.tab girl enroll, chi2 column row miss nokey : 提供两个变量关系的卡方 : 提供列变量的百分比 : 提供行变量的百分比 : 提供缺失变量的比例 : 压缩单元格内容的提示,6.3频数分布的常见错误之一,too many variables specified 导致I类错误的原因在于,混淆了tab,tab1,tab2的用法 .tab可用于生成单个变量的频数分布,其后只能接一个变量;.tab也可用来描述两个变量的交叉分布,其后面只能接两个变量

7、tab1后面可以接多个变量,但只能分别生成单个变量的频数分布,而不能生成交叉表 tab2则可以生成多个双变量的交叉表 因此,若使用下列命令,则会遇到这类错误 . tab urban yrsch enroll too many variables specified r(103);,6.3频数分布的常见错误之二,too many values 导致这类错误的原因在于,在试图生成两个变量的交叉表时,每个变量都包含太多的取值。比如: . tab age weight . too many values (变量的取值太多) 这里,变量age和weight均为连续变量,且都有很多的取值,尤其是weigh

8、t 若需要生成二者之间的交叉表,可以限制其中一个或两个变量的取值,或者将它们转换为分类变量,6.4变量的中央趋势和离散趋势,集中趋势:众数,数据分布的一种表现形式。频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布逐渐增加 描述集中趋势的方式包括:众数、均值、中位数 众数(mode):最常出现的观察值或属性 如果在全班30个学生中, 20个18岁的学生、5个19岁、5个20岁,则18是众数 众数适用于所有类型数据,但主要用于测度分类数据的集中趋势 一个数据可以有两个或多个众数,故众数具有不唯一性的特点,集中趋势:算术均值(mean,average),加总多个观察值,除以总观察量得

9、到的数值 适用于正态分布或者近似正态分布; 均数受特大值和特小值的影响,会偏大或偏小,故对偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势; 全域(总体)均数称为;样本均数称为,集中趋势:中位数(median),将一组数值从小到大排列后,位于中间的数值; 若5个人的年龄分别为1 ,3,6,8,32,则中位数为6(均值为10); 中位数度量方式适用于偏态分布数据。中位数不受两端特大值和特小值的影响,只和位置居中的观察值有关; 对于正态分布,理论上中位数等于均数;,离散趋势:极差或者全距(range,R),数据分布的另一种表现形式。从中心到两侧,频数分布逐渐减少。反映了数据的离散程度或

10、变异程度; 描述离散趋势的方法包括:级差、方差、标准差; 极差或者全距(range,R):表示变量取值中的最大值和最小值之差。适合所有分布类型的数据; R最大值最小值 计算简单,但不能反映所有变量值的变异程度,易受最大值和最小值的影响,不稳定,离散趋势:方差(variance),方差(variance):表示一组变量取值的平均离散程度。方差越大,离散或者变异程度越大。适合描述近似正态分布资料的离散趋势。,离散趋势:标准差(standard deviation),方差的开方,和均数的单位一致,也是数据波动性的一种度量,即是对围绕均值的离散趋势的测量 标准差和方差是实际中应用最广的测量离散程度的统

11、计量 如果一个变量具有正态分布,则均值 68%的数值将会位于离平均值加减一个标准差的范围内; 95%的个案将会位于加减两个标准差的范围内; 99.9%的个案将会位于加减三个标准差的范围内 标准差越小,数据的分布就越围绕均值聚集;标准差越大散,数据的分布就越分散。,离散趋势:标准差(II),适合描述近似正态分布资料的离散趋势 方差或标准差都是根据全部数据计算的,反映了每个数据与其均值相比平均相差的数值,因此能准确地反映数据的离散程度 计算公式:,离散趋势:自由度,为什么样本标准差的分母是n-1呢 自由度:一组数据中可以自由取值的个数。当样本的个数为n时,若样本均值确定后,必有一个数据不能自由取值

12、。因此,只有n-1 个数据可以自由取值; 假如样本有3个数值,x=4,y=8,z=18,则均值=10。当均值=10确定后,x,y,z中只有两个数可以自由取值; 在抽样估计中,当用样本方差去估计总体方差时,样本方差是总体方差的无偏估计量。,正态分布与偏态分布,正态分布(normal distribution),一个变量的集中位置居中,左右两侧频数基本对称的分布 从形态上看,正态曲线两头低、中间高、左右对称 正态分布是一条单峰、对称呈钟形的曲线,其对称轴为x=,并在x=时取最大值。从x=点开始,曲线向正负两个方向递减延伸,不断逼近x轴,但永不与x轴相交,因此说曲线在正负两个方向都是以x轴为渐近线的

13、 其性质如下:函数方程中为位置参数;为形状参数 若不变,函数曲线形状不变。变大时,曲线位置向右移;变小时,曲线位置向左移 若不变,函数曲线位置不变。变大时,曲线形状变得越来越胖、矮;变小时,曲线形状变得越来越瘦、高,正态分布,.histogram yrsch if yrsch =13, percent start(0) width(1)normal,偏态分布,数据的集中位置偏向一侧,频数分布不对称。偏态分布有两种表现形式 正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部 负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部,.histogram weight, percen

14、t start(0) normal ysize(4.5) xsize(2.5),.histogram height, percent start(0) normal ysize(4.5) xsize(2.5),6.5 描述性统计,.sum连续变量 该命令给出标准统计量。输出结果包括: Obs Mean Std. Dev. Min Max (观察量) (均值) (标准差) (最小值) (最大值) .sum连续变量,detail summ 或 summarize 得出同样的结果,标准信息描述,. sum age yrsch weight height Variable | Obs Mean Std

15、. Dev. Min Max -+- age | 2341 10.09227 5.283423 0 19 yrsch | 1830 6.031694 3.440358 0 15 weight | 2103 34.85635 18.54676 .4 151 height | 2100 132.8193 30.60277 0 185.5 由于缺失值个数的差异,几个变量的观察值都不一样,详细情况描述,.sum age, detail age in 2004 - Percentiles Smallest 1% 0 0 5% 1 0 10% 2 0 Obs 2321 25% 5 0 Sum of Wgt. 2321 50% 10 Mean

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > 总结/计划/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号