stata中变量描述分析和作.ppt

上传人:m**** 文档编号:569515372 上传时间:2024-07-30 格式:PPT 页数:51 大小:595.05KB
返回 下载 相关 举报
stata中变量描述分析和作.ppt_第1页
第1页 / 共51页
stata中变量描述分析和作.ppt_第2页
第2页 / 共51页
stata中变量描述分析和作.ppt_第3页
第3页 / 共51页
stata中变量描述分析和作.ppt_第4页
第4页 / 共51页
stata中变量描述分析和作.ppt_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《stata中变量描述分析和作.ppt》由会员分享,可在线阅读,更多相关《stata中变量描述分析和作.ppt(51页珍藏版)》请在金锄头文库上搜索。

1、第三讲第三讲 描述性分析与画图描述性分析与画图进行描述性统计分析的目的:进行描述性统计分析的目的:对数据进行描述性分析的目的是熟悉和了解数据的基本统计特征,把握数据的总体分布形态,进而决定如何对数据作进一步处理,进而回答所要研究的问题。本章主要内容本章主要内容6.1频数分布6.2条件频数分布6.3频数分布的常见错误分析及解决方法6.4变量的中央趋势和离散趋势6.5描述数值型数据统计量的其它方法6.6画图数据描述的方法数据描述的方法获得数据的目的是为了描述和分析数据,回答研究问题获得数据的目的是为了描述和分析数据,回答研究问题数据分析的第一步是描述变量的基本特征。只有在熟悉数据的基本特征和变量分

2、布的基础上,才能决定如何对数据作进一步处理描述性统计通过一系列的程序帮助组织、归纳、总结样本的基本特征。常见的方法包括频数分布、百分比、分位数、均值和标准差、中数、众数、最大值和最小值等单变量分析(univariate analysis)。考察变量的属性分布二元或多元交叉表、二元相关关系分析图形描述性分析的菜单窗口描述性分析的菜单窗口该内容是statistics菜单下的首个选项:Statistics Summaries,tables & tests 6.1频数分布频数分布频数、比例(proportion)、百分比(percentage)和比率(ratio)等描述性统计方法适用于所有类型数据,包

3、括定性、定序、定距和定比数据。频数与频数分布频数与频数分布频数也称次数,即分布在各个类别中的数据个数频数分布就是对样本中变量的不同属性出现次数的描述假如一个班60%的同学是女生,40%的同学是男生,则60%和40%是女生和男生的分布情况2000年人口普查显示,中国7%的人群年龄在65岁及以上,则7%是当时老年人口在总人口中所占的比例菜单窗口菜单窗口在Stata的窗口菜单下,有多种描述数据频数分布特征的选项,每一选项都具有一定独特的功能,但有些功能是相通的单变量频数分布单变量频数分布. tab 变量名变量名 :. tab也可写为tabulation,是获得频数分布的基本命令 :需要输出频数分布的

4、变量名称该命令不对频数分布作任何定义,只提供单个变量的频数分布. tab girl 该命令告诉Stata,给变量girl生成一张频数分布表 girl in |2004, 0=boy | -1=girl | Freq. Percent Cum.-+- 0 | 1,248 53.70 53.70 1 | 1,076 46.30 100.00-+- Total | 2,324 100.00 输出结果显示,该数据一共有2324个观察值变量girl有两个取值:0代表男孩,1代表女孩样本中有1248个男孩,占53.7%;女孩为1075,占46.3%多变量频数分布多变量频数分布. tab1 变量变量a 变量

5、变量b 变量变量c :同时获得多个变量频数分布的基本命令 :需要输出频数分布的变量名称与tab或tabulate不同的是, . tab1可接多个变量 . tab girl urban该命令告诉Stata,给变量girl和urban各自生成一张频数分布表6.2条件频数分布条件频数分布 条件频数分布也称交叉频数表为或列联表,同时生成两个变量之间关系的频数分布,属于相关分析中的一种.基本命令基本命令.tab提供、且只能提供双变量的交叉分析,生成二者之间的交叉频数分布,相当于命令tabulate若其令后面仅有一个变量,则Stata输出该变量的频数分布若多于两个变量,则会出现错误提示Stata的默认方法

6、是,tab后面的第一个变量被当成行变量,第二个变量被当成列变量.tab2也提供双变量的交叉分析表.tab和和tab2的主要区别在于,前者仅可以用于两个变量的交互分析(tab后面最多只能有两个变量);tab2可同时生成多个两两变量之间的交互频数分布表例1.tab girl enroll, chi2 column row miss nokey : 提供两个变量关系的卡方: 提供列变量的百分比: 提供行变量的百分比: 提供缺失变量的比例: 压缩单元格内容的提示6.3频数分布的常见错误之一频数分布的常见错误之一too many variables specified导致I类错误的原因在于,混淆了tab

7、,tab1,tab2的用法.tab可用于生成单个变量的频数分布,其后只能接一个变量;.tab也可用来描述两个变量的交叉分布,其后面只能接两个变量tab1后面可以接多个变量,但只能分别生成单个变量的频数分布,而不能生成交叉表tab2则可以生成多个双变量的交叉表因此,若使用下列命令,则会遇到这类错误. tab urban yrsch enrolltoo many variables specifiedr(103);6.3频数分布的常见错误之二频数分布的常见错误之二too many values导致这类错误的原因在于,在试图生成两个变量的交叉表时,每个变量都包含太多的取值。比如:. tab age

8、weight. too many values(变量的取值太多)这里,变量age和weight均为连续变量,且都有很多的取值,尤其是weight若需要生成二者之间的交叉表,可以限制其中一个或两个变量的取值,或者将它们转换为分类变量6.4变量的中央趋势和离散趋势变量的中央趋势和离散趋势集中趋势:众数集中趋势:众数数据分布的一种表现形式。频数最多的组段代表了中心位置(平均水平),从两侧到中心,频数分布逐渐增加描述集中趋势的方式包括:众数、均值、中位数众数、均值、中位数众数众数(mode):最常出现的观察值或属性如果在全班30个学生中, 20个18岁的学生、5个19岁、5个20岁,则18是众数众数适

9、用于所有类型数据,适用于所有类型数据,但主要用于测度分类数据的集中趋势一个数据可以有两个或多个众数,故众数具有不唯一性的特点 集中趋势:算术均值(集中趋势:算术均值(mean,average)加总多个观察值,除以总观察量得到的数值适用于正态分布或者近似正态分布;正态分布或者近似正态分布;均数受特大值和特小值的影响,会偏大或偏小,故对偏态分布的资料,均数的代表性差,不适合描述偏态分布的集中趋势;全域(总体)均数称为;样本均数称为 集中趋势:集中趋势:中位数(中位数(median)将一组数值从小到大排列后,位于中间中间的数值;若5个人的年龄分别为1 ,3,6,8,32,则中位数为6(均值为10);

10、中位数度量方式适用于偏态分布适用于偏态分布数据。中位数不受两端特大值和特小值的影响,只和位置居中的观察值有关;对于正态分布,理论上中位数等于均数;离散趋势:离散趋势:极差或者全距(极差或者全距(range,R)数据分布的另一种表现形式。从中心到两侧,频数分布逐渐减少。反映了数据的离散程度或变异程度;描述离散趋势的方法包括:级差、方差、标准差;极差或者全距(极差或者全距(range,R):表示变量取值中的最大值和最小值之差。适合所有分布类型的数据;所有分布类型的数据;R最大值最小值计算简单,但不能反映所有变量值的变异程度,易受最大值和最小值的影响,不稳定离散趋势:离散趋势:方差(方差(varia

11、nce)方差(方差(variance):表示一组变量取值的平均离散程度。方差越大,离散或者变异程度越大。适合描述近似正态分布资料的离散趋势。离散趋势:离散趋势:标准差(标准差(standard deviation)方差的开方,和均数的单位一致,方差的开方,和均数的单位一致,也是数据波动性的一种度量,即是对围绕均值的离散趋势的测量标准差和方差是实际中应用最广的测量离散程度的统计量如果一个变量具有正态分布,则均值68%的数值将会位于离平均值加减一个标准差的范围内;95%的个案将会位于加减两个标准差的范围内;99.9%的个案将会位于加减三个标准差的范围内标准差越小,数据的分布就越围绕均值聚集;标准差

12、越大散,数据的分布就越分散。离散趋势离散趋势:标准差(:标准差(II)适合描述近似正态分布资料的离散趋势近似正态分布资料的离散趋势方差或标准差都是根据全部数据计算的,反映了每个数据与其均值相比平均相差的数值,因此能准确地反映数据的离散程度计算公式:离散趋势离散趋势:自由度:自由度为什么样本标准差的分母是n-1呢自由度:自由度:一组数据中可以自由取值的个数。当样本的个数为n时,若样本均值确定后,必有一个数据不能自由取值。因此,只有只有n-1 个数据可以自由取值;个数据可以自由取值;假如样本有3个数值,x=4,y=8,z=18,则均值=10。当均值=10确定后,x,y,z中只有两个数可以自由取值;

13、在抽样估计中,当用样本方差去估计总体方差时,样本方差是总体方差的无偏估计量总体方差的无偏估计量。正态分布与偏态分布正态分布(正态分布(normal distribution)一个变量的集中位置居中,左右两侧频数基本对称的分布从形态形态上看,正态曲线两头低、中间高、左右对称正态曲线两头低、中间高、左右对称正态分布是一条单峰、对称呈钟形的曲线,其对称轴为x=,并在x=时取最大值。从x=点开始,曲线向正负两个方向递减延伸,不断逼近x轴,但永不与永不与x轴相交轴相交,因此说曲线在正负两个方向都是以x轴为渐近线的其性质如下:函数方程中为位置参数;为位置参数;为形状参数为形状参数若不变不变,函数曲线形状不

14、变。变大时,曲线位置向右移;变小时,曲线位置向左移若不变不变,函数曲线位置不变。变大时,曲线形状变得越来越胖、矮;变小时,曲线形状变得越来越瘦、高正态分布正态分布.histogram yrsch if yrsch =13, percent start(0) width(1)normal偏态分布偏态分布数据的集中位置偏向一侧,频数分布不对称。偏态分布有两种表现形式正偏态分布正偏态分布:集中位置偏向数值小的一侧或者左侧,有较长的右尾部负偏态分布负偏态分布:集中位置偏向数值大的一侧或者右侧,有较长的左尾部 .histogram weight, percent start(0) normal ysiz

15、e(4.5) xsize(2.5).histogram height, percent start(0) normal ysize(4.5) xsize(2.5)6.5 6.5 描述性统计描述性统计.sum.sum连续变量 该命令给出标准统计量。输出结果包括: Obs Mean Std. Dev. Min Max(观察量) (均值) (标准差) (最小值) (最大值).sum.sum连续变量,detailsumm 或 summarize 得出同样的结果标准信息描述标准信息描述. sum age yrsch weight height Variable | Obs Mean Std. Dev.

16、Min Max-+- age | 2341 10.09227 5.283423 0 19 yrsch | 1830 6.031694 3.440358 0 15 weight | 2103 34.85635 18.54676 .4 151 height | 2100 132.8193 30.60277 0 185.5由于缺失值个数的差异,几个变量的观察值都不一样详细情况描述详细情况描述.sum.sum age, detail age in 2004- Percentiles Smallest 1% 0 0 5% 1 010% 2 0 Obs 232125% 5 0 Sum of Wgt. 23

17、2150% 10 Mean 9.658337 Largest Std. Dev. 5.08463175% 14 1890% 16 18 Variance 25.8534795% 17 19 Skewness -.31632799% 17 19 Kurtosis 1.917769变量age有2321个观察值最小值为0,最大值为191的样本为0岁5的样本1岁或以下10的样本2岁或以下25的样本5岁或以下99的样本在19岁及以下样本的均值为9.66;标准差为5.08;Variance、 Skewness和Kurtosis分别表示样本的方差为25.85、偏移度为-0.32和年龄分布的峰度为1.92。6

18、.5描述数值型数据统计量描述数值型数据统计量的其它方法的其它方法均值估计(均值估计(meanmean).mean.mean girl urbanMean estimation Number of obs = 5381- | Mean Std. Err. 95% Conf. Interval-+- girl | .4781639 .0068103 .464813 .4915148 urban | .1908567 .0053577 .1803535 .2013599-比例估计比例估计(proportionproportion). proportion. proportion girl urban

19、Proportion estimation Number of obs = 5381 _prop_1: girl = 0.boy _prop_2: girl = 1.girl _prop_3: urban = 0.Rural _prop_4: urban = 1.Urban- | Binomial Wald | Proportion Std. Err. 95% Conf. Interval-+-girl | _prop_1 | .5218361 .0068103 .5084852 .535187 _prop_2 | .4781639 .0068103 .464813 .4915148-+-ur

20、ban | _prop_3 | .8091433 .0053577 .7986401 .8196465 _prop_4 | .1908567 .0053577 .1803535 .2013599-使用使用tabletable命令描述数据命令描述数据. . tabletable 变量a, contentsmean 变量b sd 变量b :计算和表现统计量的命令:分组变量。按照其分类描述中央趋势或离散趋势的统计量:需要输出统计量的内容。后面括号内列出(1)要描述的统计量,(2)需要计算统计量的变量名称:分别指均值和标准差:需要计算均值和标准差的变量. table a b, contents(mea

21、n c sd d)按变量a和b的分类,计算变量c的均值、d的标准差.table.table urban, contentscontents(mean yrsch sd sibs)-urban |residence | mean(yrsch) sd(sibs)-+- 0,Rural | 5.622172 .6296451 1,Urban | 7.109127 .5369387-按urban的分类,计算变量yrsch的均值和sibs的标准差使用使用tabstattabstat命令描述数据命令描述数据 . tabstat a b c d :展示一个或多个数值型变量的描述性统计: 为变量a,b,c,d

22、提供均值统计量输出的统计量是可选择的。若不选择,则默认值为均值。其主要选项包括:. tabstat a b c d, by(e) statistics(mean sd) columns(statistics) :按照选项by后面变量的类别,分组计算统计量;by后面的变量多是分类变量,也可以是取值不多的连续变量:需要得到的统计量,可多选,不同统计量之间需用空格隔开:输出结果的格式可以选择:选择 columns(statistics),则竖列表述的是统计量,横行表现的是变量。若选择 columns(variables)格式,则反之使用使用tabulate, sum命令描述数据命令描述数据 . ta

23、b a b, sum(c) :接变量a、b的分类变量,计算变量c的统计量,并输出a、b的频数分布:sum后面接一个需要输出统计量的数值型变量:分类变量;:连续变量.tab strata, sum(yrsch) | Summary of year of school strata | Mean Std. Dev. Freq.-+- 1.city | 5.4191617 3.6970418 668 2.suburb | 6.6946721 3.3878349 488 3.town | 5.7541528 3.1821415 301 4.village | 6.4852547 2.9960408 3

24、73-+- Total | 6.031694 3.4403582 18306.6 画图画图数据往往使人眼花缭乱。没有人能记住数据中的所有数值。频数分布提供数据分布的一些基本特征和规律。若用图形表示频数分布,则更形象和直观统计图形是用点的位置、线段的升降、线条的长短或面积的大小等方法来表达数据的内容,包括统计资料反应的变化趋势、数量的多少、分布状态和相互关系等通过图形描述出来的数据便于阅读、比较和分析一张好的统计图表,胜过冗长的文字表述StataStata的制图功能的制图功能既可通过命令产生图形,也可以直接使用Graphics窗口菜单中的选项来实现在Easy graph的菜单下,Stata的作图

25、模块主要提供十种基本图形的制作:散点图散点图(twoway)、线图(line)、面积图(area)、柱形图(bar)、点图(dot)、圆形图(饼图)(pie)、直方图(histogram)、箱线图/盒型图(boxplot)、矩阵图、回归线图和功能图对简单图形(Easy graph)的巧妙应用,可以满足绝大多数用户的统计作图要求。但有时我们必须求助于复杂的制图功能在Graphics的主菜单下,可选择制作更复杂的图形StataStata制图的窗口菜单制图的窗口菜单StataStata的其它制图功能的其它制图功能Stata的某些非绘图命令也具有绘制图形的功能。比如在频数分布命令中,有制作简单茎叶图的

26、选项事件史分析提供生存曲线图回归分析提供回归线或残差图等Stata制图功能比较复杂。生成图形的过程中往往会遇到错误。有时,命令中一个不恰当的空格,一个不正确的标点符号都将使程序不能正常运行。因此,从窗口菜单入手可能更容易一些但是,Stata的图形种类及每种图形的选项虽多,但许多基本命令十分类似,可举一反三图形的种类及适用范围图形的种类及适用范围数据结构和变量属性的不同要求采用不同的图形散点图(散点图( Scatter Plot ).scatter描绘散点图;双向关系图型(twoway plottypes)之母适合于y轴和x轴均为数值型的数据用于反映两个或多个变量之间的关系。y轴往往被假定为因变

27、量,x轴被当作为自变量。其图形反映y轴的数值是否随x轴数值的变化而发生相应变化.scatter既是命令,也是双向关系图型(twoway graph)中的一种 散点图的基本命令散点图的基本命令u. graph twoway (scatter y x) (lfit y x)u这里ugraph twoway是命令uscatter表示图形类型uy 代表y变量,表现为纵轴ux代表x变量,表现为横轴u由于没有指定其它的限定条件,散点将表现为实心圆圈u. twoway scatter y xu同上,twoway是命令,scatter表示图形类型u. scatter y xu这里的scatter既表示图形类型

28、,也表示命令散点图的选项:总体外观散点图的选项:总体外观.scatter.scatter height age, title(Height of Children)subtitle(Stata Example)note(1) caption(Source: Chapter7)scheme(economist): 生成height和age散点图的基本命令: 给图形附上标题,标题在括号内:给图形添加副标题,副标题在括号内:给图形编号:给图形提供注释,note和caption的意思基本是一样的: 定义图形的外观,括号内的economist告Stata输出一个经济型的图形逗号后面所有的内容都属于选项,在所有图形中都是通用的逗号后面所有的内容都属于选项,在所有图形中都是通用的散点图的选项:绘图区域的大小散点图的选项:绘图区域的大小绘图区格式的比例通过region_options ysize(#)和xsize(#)选项控制。该选项指明绘图区的高度和宽度(单位:英寸)。比如,.scatter.scatter y x, xsize (4) ysize (4) :横轴(宽度)的选项:横轴的宽度;这里将其定义为4英寸:纵轴(高度)的选项:纵轴的高度;这里将其定义为4英寸该命令将生成一个4英寸 x 4英寸的图形

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号