数据分析教程概率论初步

上传人:宝路 文档编号:47023201 上传时间:2018-06-29 格式:PPT 页数:37 大小:261.47KB
返回 下载 相关 举报
数据分析教程概率论初步_第1页
第1页 / 共37页
数据分析教程概率论初步_第2页
第2页 / 共37页
数据分析教程概率论初步_第3页
第3页 / 共37页
数据分析教程概率论初步_第4页
第4页 / 共37页
数据分析教程概率论初步_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《数据分析教程概率论初步》由会员分享,可在线阅读,更多相关《数据分析教程概率论初步(37页珍藏版)》请在金锄头文库上搜索。

1、SPSSSPSS数据分析教程数据分析教程SPSS数据分析教程第4章 概率论初步目录n4.1 离散型随机变量的仿真 q4.1.1 均匀分布的随机数q4.1.2 正态分布的随机数n4.2 理论分布q4.2.1 二项分布的分布函数和概率q4.2.2 连续分布的随机变量正态分布n4.3 经验分布n4.4 抽样分布n4.5 置信区间本章学习目标n用仿真方法从总体中抽取随机样本:生成服从 某种分布的随机数;n得到观测值的理论分布、经验分布;n理解抽样分布的形状;n掌握如何求置信区间;n学习如何从数据集中选择符合条件的个案。4.1 离散型随机变量的仿真 4.1.1 均匀分布的随机数 n假设我们有一个正方形,

2、它被均 匀的分为4个相同大小的小正方形 。现在从正方形的中心上方随机 地投掷一颗玉米粒1 000次,假 设每次投掷的玉米粒都等可能的 落在4个小正方形中的一个之中。n问题是:落在1号、2号、3号和4 号正方形中的情况如何呢?124 3模拟投掷的过程 (1)n第1步:设置随机数种子选择【转换】【随机数字生成器】,勾选 “设置起点”,并在“固定值”下的“值”中 输入一个用户给定的数值。 n第2步:生成均匀分布的随机数,等可能的产生 1,2,3和4这四个数共计1 000个.选择【转换】【计算变量】,在“目标变量 ”框中输入变量名 “Spinn”,在“数字表 达式”框中输入TRUNC(RV.UNIFO

3、RM(1,5),然 后单击【确定】按钮.模拟投掷的过程 (2)n第3步:然后分析这四个数出现的次数和相对 频率。选择【分析】【描述统计】【频率】 随机数分析(1)随机数分析(2)4.1.2 正态分布的随机数 n正态分布的随机变量是连续型随机变量, 它的可能取值是所有实数。数据分析的许 多模型和理论都要求数据服从正态分布, 因此正态分布的随机数在模拟中有广泛的 应用。 一、生成正态分布的随机数n第1步:设置随机数种子为123456 n第2步:选择【转换】【计算变量】, 应用 函数RV.Normal(0,1)。SET SEED=123456. COMPUTE Rnorm01= RV.NORM(0,

4、1). SAVE OUTFILE=D:SPSSIntrodataSim_norm.sav /COMPRESSED. EXECUTE生成随机数示意图二、分析这些正态随机数的性质n绘制随机数的序列图,有几种方法q方法1:选择【图形】【图表构建程序】,选择“条 ” q方法2:选择【分析】【预测】【序列图】q方法3:选择【图形】【旧对话框】【线图】该样本数据的确是从正态分布的总体 中随机抽取的呢? n绘制随机数的带有正态 曲线的直方图 4.2 理 论 分 布n除4.1中的均匀分布和正态分布外,常见的分 布还有二项分布、负二项分布、泊松分布、指 数分布、t分布等。SPSS软件中提供了这些常 见分布的分布

5、函数、概率分布函数和概率密度 函数。nSPSS的PDF与非中心PDF函数族提供了相关分布 的概率分布函数或者概率密度函数,CDF与非 中心CDF函数族提供了相关分布的累积概率分 布函数(或简称分布函数)。而逆DF函数族则 给出了相应分布的分位数。 4.2.1 二项分布的分布函数和概率 n如果随机试验只有两个可能的结果,设该试验 中成功的概率为p。如果将该试验独立地重复 进行次n次,这一串重复的独立试验称为重n贝 努力试验。如果用X表示在这次试验中成功的 次数,则随机变量X服从二项分布,其分布函 数为nCDF.BINOM(x,10,0.25),该函数用于计算出x 所对应的累计概率,即:(1) 这

6、里x表示不大于的最大整数。nPDF.BINOM(x,10,0.25)计算而X取某个特定值i 的概率为:(2)n由上面(1)式计算出的为分布函数的值;如 果是离散随机变量,(2)式给出的为概率值 ,它是随机变量X取各个离散值0,1,2, 10的概率 。n函数CDF.BINOM(x,10,0.25)用于计算n=10, p=0.25的二项分布下x的分布函数值或者称为 累计概率。二项分布的概率分布图4.2.2 连续分布的随机变量正态分布 n连续型随机变量的任何两个可能取值之间都有 无限多个可能的取值,因此所有可能取值是不 能列举的,也不能给随机变量的某可能取值赋 给一个唯一的概率值。n一般考虑连续型随

7、机变量的分布函数(即累积 概率函数(Probability Cumulative Function, CDF)和密度函数(Probabilitty Density Function,PDF)。nSPSS的CDF函数族给出的就是分布函数的值。 nCDF.NORMAL(x,0,1)是给出均值为0,标准差为 1的正态分布变量x的累计概率分布函数值。nPDF.NORMAL(x,0,1)是给出均值为0,标准差为 1的正态分布变量x的密度函数值。n可以画出累计概率分布 函数的线图n可以画出正态分布变量x 的密度函数的线图比较不同参数的正态分布函数4.3 经 验 分 布n把观测到的样本数据的相对频率分布称为

8、经验 分布,根据概率的频率定义,当样本量足够大 时,频率稳定到概率。实际问题中样本数据所 服从的分布常常是未知的,我们只能通过样本 数据的经验分布来了解数据的分布情况。nSPSS描述性统计菜单的的频率过程中把频率 称为百分比,而把结果出现的次数称为频率。 频率n数据GSS2004.sav,它记录了美国2004年社会 调查的数据,有调查对象的年龄、性别、受教 育年限、最高学历、子女个数等。这里我们考 察调查对象子女个数的分布情况。 频率表n选择【分析】【频率】,把变量“CHILDS” 选到右侧的“变量(V)”框中。相对频率直方图4.4 抽 样 分 布n由于样本选择的随机性,样本统计量也是随机 变

9、量,不同的样本,样本统计量的取值也可能 不同。 n每个随机变量都有其分布性质,例如描述性统 计量均值、方差、分位数等。样本统计量的分 布称为抽样分布。n模拟从同一个分布已知的总体中随机抽取若干 不同的样本,然后观察样本统计量的分布情况 。n从一个均值为50、标准差为10的正态总体中随 机抽取80个容量为50的样本。Sample80.sps INPUT PROGRAM. VECTOR X(80). LOOP #I = 1 TO 50. LOOP #J=1 TO 80. COMPUTE X(#J)=RV.NORMAL(50, 10). END LOOP. END CASE. END LOOP. END FILE. END INPUT PROGRAM. EXECUTE. 4.5 置 信 区 间nSPSS的许多过程都会给出相关统计量的置信区 间。例如在【描述】菜单中,它会给出均值的 置信区间;在回归分析中,它会给出拟合值和 预测值的置信区间,也可以给出所估计的回归 系数的置信区间。 作业

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号