stata软件基础：概率分布和抽样分布

资源描述

《stata软件基础：概率分布和抽样分布》由会员分享，可在线阅读，更多相关《stata软件基础：概率分布和抽样分布（16页珍藏版）》请在金锄头文库上搜索。

1、论文数据服务Stata软件基本操作和数据分析入门第三讲概率分布和抽样分布赵耐青概率分布累积函数 1. 标准正态分布累积函数norm(X) 2. t分布右侧累积函数ttail(df，X) ，其中df是自由度3. 2分布累积函数chi2(df，X) ，其中df是自由度4. 2分布右侧累积函数chi2tail(df，X) ，其中df是自由度5. F分布累积函数F(df1，df2，X)，df1为分子自由度，df2为分母自由度6. F分布右侧累积函数F(df1，df2，X)，df1为分子自由度，df2为分母自由度累积函数的计算使用正态分布计算 X服从N(0,1)，计算概率P(X1.96). di

2、splay norm(1.96) .9750021 即概率P(X1.96)，则. di 1- norm(1.96) .0249979 即概率P(X1.96)0.0249979 X服从N(,2)，则(0,1)XYN=，因此对其他正态分布只要在函数括号中插入一个上述表达式就可以得到相应概率。例如：X服从N(100,62)，计算概率P(X111.76)，则操作如下. di norm(111.76-100)/6) .9750021 即：概率P(X90)，操作如下. di 1-norm(90-100)/6) .952209652分布累积概率计算设X服从自由度为1的2分布，计算概率P(X3.84)，则操作

3、如下. di 1-chi2(1,3.84) .05004353 概率P(X3.84)=0.05004353设X服从自由度为3的2分布，计算概率P(X5)，则操作如下. di chi2(3,5) .82820288 概率P(X3.84)，则操作如下. di chi2tail(1,3.84) .05004353 概率P(X3.84)=0.05004353设X服从自由度为3的2分布，计算概率P(X5)，则操作如下.di chi2(3,5) .82820288 概率P(X2.2)，操作如下. di ttail(10,2.2) .02622053 概率P(t2.2)=0.02622053 (注意：这是右

4、累积函数)设t服从自由度为10的t分布，计算概率P(t2)，操作如下. di 1-ttail(10,-2) .03669402 概率P(t2)=0.03669402F分布累积概率计算设F服从F(3,27)，计算概率P(F1)，操作如下：. di F(3,27,1) 注意这里的函数是大写F，stata软件中是区分大小写的.59208514 概率P(F3)，操作如下：. di 1-F(4,40,3) .02954694 概率P(F3)=0 .02954694F分布右侧累积概率计算设F服从F(3,27)，计算概率P(F1)，操作如下：. di 1-Ftail(3,27,1) 注意这里的函数是大写F，

5、stata软件中是区分大小写的.59208514 概率P(F3)，操作如下：. di Ftail(4,40,3).02954694 概率P(F3)=0 .02954694概率分布的临界值计算正态分布的临界值计算函数invnorm(P) 例如：双侧U0.05(即：左侧累积概率为0.975)，操作如下. di invnorm(0.975) 1.959964 即U0.051.959964t分布的临界值计算函数invchi2tail(df,P) 例如计算自由度为28的右侧累积概率为0.025的临界值t28，操作如下. di invttail(28,0.025) 2.0484071 临界值t28，=2

6、.04840712分布的临界值计算函数invchi2(df,P) 或invchi2tail(df,P) 例如：计算自由度为1的2右侧累积概率为0.05的临界值20.05，操作如下：. di invchi2(1,0.95) 3.8414591 临界值20.05=3.8414591或者操作如下：. di invchi2tail(1,0.05)3.8414591 临界值20.05=3.8414591F分布的临界值计算函数invF(df1,df2,P) 或invF(df1,df2,P) 例如计算分子自由度为3和分母自由度27的右侧累积概率为0.05的临界值，操作如下：. di invF(3,27,0.

7、95) 2.9603513 临界值F0.05(3,27)= 2.9603513或者操作为：. di invFtail(3,27,0.05) 2.9603513 临界值F0.05(3,27)= 2.9603513产生随机数计算机所产生的随机数是通过一串很长的序列数模拟随机数，故称为伪随机数，在实际应用这些随机数时，这些随机数一般都能具有真实随机数的所有概率性质和统计性质，因此可以产生许许多多的序列伪随机数，一个序列的第一个随机数对应一个数，这个数称为种子数(seed)，因此可以利用种子数，使随机数重复实现。设置种子数的命令为set seed 数。每次设置同一种子数，则产生的随机序列是相同的。产

8、生(0,1)区间上的均匀分布的随机数 uniform() 例如产生种子数为100的20个在(0,1)区间上的均匀分布的随机数，则操作如下： clear 清除内存set seed 100 设置种子数为100 set obs 20 设置样本量为 20 gen r=uniform() 产生20个在(0，1)区间上均匀分布的随机数。list 显示这些随机数结果如下r 1. .7185296 2. .1646728 3. .9258041 4. .1833736 5. .0067327 6. .7413361 7. .3599943 8. .1634543 9. .445553 10. .648904

9、9 11. .3799431 12. .5964895 13. .0251346 14. .2164402 15. .6848479 16. .1270018 17. .6466258 18. .1869288 19. .4522384 20. .067132利用均匀分布随机数进行随机分组：例：某实验要把20只大鼠随机分为2组，每组10只，请制定随机分组方案和措施。第一步、把20只大鼠编号，1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20。并且标明。第二步、用Stata软件制定随机分组方案，操作如下：200 设置种子数为200 set ob

10、s 20 设置样本量为20 range no 1 20 建立编号1至20 gen r=uniform() 产生在(0,1)均匀分布的随机数gen group=1 设置分组变量group的初始值为1 sort r 对随机数从小到大排序replace group=2 in 11/20 设置最大的10个随机数所对应的记录为第2组，即：最小的10个随机数所对应的记录为第1组sort no 按照编号排序list 显示随机分组的结果结果如下：no r group 1. 1 .9512007 2 2. 2 .5249876 2 3. 3 .5129986 1 4. 4 .126439 1 5. 5 .586

11、6161 2 6. 6 .7059209 2 7. 7 .2633286 1 8. 8 .5644688 2 9. 9 .1171033 1 10. 10 .954065 2 11. 11 .4822863 1 12. 12 .3347736 1 13. 13 .5678902 2 14. 14 .7994431 2 15. 15 .1180503 1 16. 16 .9834299 2 17. 17 .2807874 1 18. 18 .095245 1 19. 19 .9446051 2 20. 20 .3467524 1随机分组整理如下第一组编号3479111215171820第一组编号

12、125681013141619产生服从正态分布N(，2)的随机数invnorm(uniform()*+。例如产生10个服从正态分布N(100，62)的随机数，操作如下: clear 清除内存set seed 200 设置种子数为200 set obs 10 设置样本量为10 gen x=invnorm(uniform()*6+100 产生服从N(100，62)的随机数list 显示随机数结果如下：x 1. 109.9397 2. 100.3761 3. 100.1955 4. 93.13968 5. 101.3131 6. 103.249 7. 96.2013 8. 100.9739 9. 9

13、2.86244 10. 110.1137教学应用：考察样本均数的分布。由于个体变异的原因，样本均数X的抽样误差(其定义为样本均数与总体均数的差值)是不可避免的，并且样本均数的抽样误差是呈随机变化的。对于一次抽样而言，无法考察样本均数的抽样误差的规律性，但当大量地重复抽样，计算每次抽样的样本均数X，考察样本均数X的随机分布规律性和统计特征。举例如下：利用计算机模拟产生100000个服从正态分布N(100,62)的样本，样本量分别为n=4，n=9，n=16，n=36，每个样本计算样本均数。这里关键处是要清楚什么是样本量(每次抽样所观察的对象个数，也就是每个样本的个体数n)、什么是样本个数(指抽

14、样的次数)，现以n=4为例，一条记录存放一个样本，样本量n=4，也就是每个样本的第1个数据放在第1列，第2个数据放在第2列，第3个数据放在第3列，第4个数据放在第4列，因此第1行是第一个样本，第2行是第2个样本，第100000行是第100000个样本，计算样本均数放在第5列，因此共有100000个样本均数。具体操作如下：clear清除内存set memory 60m扩大虚拟内存为60Mset obs 100000设置记录数为100000set seed 200设置种子数为200gen x1=invnorm(uniform()*6+100产生第1个随机数据gen x2=invnorm(uniform(

展开阅读全文