第六章概率分布.－金锄头文库

资源描述

《第六章概率分布.》由会员分享，可在线阅读，更多相关《第六章概率分布.（119页珍藏版）》请在金锄头文库上搜索。

1、第六章概率分布,第一节概率的基本概念第二节正态分布第三节二项分布第四节抽样分布,第一节概率的基本概念,一、什么是概率在心理与教育研究中，大部分现象属于随机现象，随机现象又称随机事件。随机是指在一定条件下可能出现也可能不出现的，表明随机事件出现可能性大小的客观指标就是概率（probability）。概率的定义有两种，即后验概率和先验概率。,（一）后验概率(posterior probability)或统计概率随机事件A的频率当n无限增大时，随机事件A的频率会稳定在一个常数P，这个常数就是随机事件A的概率。,（二）先验概率(prior probability)或古典概率

2、古典概率模型要求满足两个条件：实验的所有可能结果（基本事件）是有限的；每一种可能结果出现的可能性相等。,二、概率的基本性质（一）概率的公理系统 1任何一个随机事件的概率都是非负的。 0 P（A）1 2不可能事件的概率等于零。 3必然事件的概率等于1。,（二）概率的加法定理互不相容事件：在一次实验或调查中，若事件发生，则事件就一定不发生，这样的两个事件为互不相容事件。加法定理(additive rule)：两互不相容事件A、B之和的概率，等于这两个事件概率之和。即,（三）概率的乘法定理独立事件：一个事件的出现对另一个事件的出现不发生影响。相关事件或相依事件：事件A的概率随事件B是

3、否出现而改变，事件B的概率随事件A是否出现而改变。,乘法定理(product rule)：两个独立事件同时出现的概率等于这两事件概率的乘积。,【例】从52张扑克牌（去掉大小王牌）中有放回地连续抽两张牌，即抽完第一张后将所抽的牌再放回去，混合好后再抽第二张。（1）第一次抽取红桃K第二次抽取方块K的概率是多少？（2）第一次抽取红桃第二次抽取方块的概率是多少？（3）抽牌两次皆为红色的概率是多少？,【例6-1】一枚硬币掷三次，或三枚硬币各掷一次，问出现两次或两次以上H的概率是多少？解：投掷硬币可能出现八种结果（HHH、HHT、HTH、THH、TTH、THT、HTT、TTT）。每种结果可能出现

4、的概率，依概率乘法规则计算：各为。,设P(A)代表3次H的概率，P(B)代表“HHT”这种结果的概率，P(C)代表“HTH”的概率，P(D)代表“THH”的概率。依据概率加法规则计算：,三、概率分布类型概率分布(probability distribution)：对随机变量取值的概率分布情况用数学方法（函数）进行描述，一般用概率分布函数进行描述。概率分布依不同的标准可以分为不同的类型。,（一）离散分布与连续分布离散分布：离散型随机变量的概率分布，即计数数据的概率分布。常用的离散分布有二项分布(binomi distribution)、泊松分布(Poisson distribution

5、)和超几何分布(hypergeometric distribution)等。,连续分布：连续随机变量的概率分布，即测量数据的概率分布。常用的连续分布有正态分布、负指数分布、威布尔分布等。,（二）经验分布与理论分布依分布函数的来源，可将概率分布分为经验分布与理论分布。经验分布(empirical distribution)：根据观察或实验所获得的数据而编制的次数分布或相对频率分布。理论分布(theoretical distribution)：随机变量概率分布的函数-数学模型；按某种数学模型计算出的总体的次数分布。,随机变量概率分布的性质，由它的特征数来表达。这些特征数主要有期望值（理论平均

6、数）和方差。,（三）基本随机变量分布与抽样分布依概率分布所描述的数据特征，可将概率分布分为基本随机变量分布与抽样分布（sampling distribution）。基本随机变量分布：随机变量各种不同取值情况的概率分布，常用的有二项分布、正态分布。抽样分布：从同一总体内抽取的不同样本的统计量的概率分布。,样本统计量主要有平均数、两平均数之差、方差、标准差、相关系数、回归系数、百分比率（或概率）等。统计量是基本随机变量的函数，故抽样分布也称随机变量函数的分布。,基本随机变量分布与抽样分布是应用于统计学上的理论分布，是统计推论的重要依据，只有对它们真正了解，才能明确各种统计方法的应用条件及注

7、意问题，并对各种具体方法有较为深刻的理解。,第二节正态分布,正态分布(normal distribution)：常态分布、常态分配，是连续随机变量概率分布的一种，在数理统计的理论与实际应用中占有最重要地位的一种理论分布。棣莫弗、拉普拉斯、高斯,一、正态分布特征（一）正态分布曲线函数正态分布曲线函数又称概率密度函数，其一般方程为,分布函数与概率密度函数分布函数F(x)=P(Xx)，表示随机变量X的值小于x的概率。概率密度f(x)是F(x)在x处的关于x的一阶导数，即变化率。如果在某一x附近取非常小的一个邻域x，那么，随机变量X落在(x, x+x)内的概率约为f(x)x，即P(xXx+

8、x)f(x)x。概率密度f(x)是X落在x处“单位宽度”内的概率。“密度”一词可以由此理解。,（二）正态分布的特征 1.正态分布的形式是对称的，其对称轴是经过平均数点的垂线。 2.正态分布的中央点最高，然后逐渐向两侧下降，曲线的形式是先向内弯，然后向外弯，拐点位于正负1个标准差处，曲线两端向靠近基线处无限延伸，但终不能与基线相交。,3.正态曲线下的面积为1，由于它在平均数处左右对称，故经平均数点的垂线将正态曲线下的面积划分为相等的两部分，各为0.50。,4.正态分布是一簇分布，随随机变量的平均数()、标准差()的大小与单位不同而有不同的分布形态。所有正态分布都可以通过Z分数公式非常容易地转

9、换成标准正态分布(standard normal distribution)。根据Z分数的性质可知，标准正态分布的=0，2=1。,标准正态分布通常写作N(0,1)正态分布。标准正态分布的密度函数：标准正态分布的密度函数及面积（概率）的计算公式：,5.正态分布中各差异量数数值相互间有固定比率。表6-1 正态分布中各种差异量数值的固定比率,6.在正态分布曲线下，标准差与概率（面积）有一定的数量关系。,二、正态分布表的编制与使用（一）正态分布表的编制与结构两种不同的编制方法（1）从Z=开始，表中列出的是某Z分数以下的累积概率；（2）从Z=0开始，计算从Z=0至某一定值之间的概率。,正

10、态分布表的结构一般包括三栏第一栏：Z分数单位；第二栏：密度函数或比率数值（y）；第三栏：概率值（p）。,（二）正态分布表的使用 1.依据Z分数求概率p，即已知标准分数求面积。求某Z分数值与平均数（Z=0）之间的概率。求某Z分数以上或以下的概率。求两个Z分数之间的概率。,2.从概率p求Z分数，即从面积求标准分数值。已知从平均数开始的概率值求Z值。已知位于正态分布两端的概率值求该概率值分界点的Z值。若已知正态曲线下中央部分的概率，求Z分数是多少。 3.已知概率p或Z值，求概率密度y，即正态曲线的高。,三、次数分布是否为正态分布的检验方法（一）皮尔逊偏态量数法正态分布：M=Md

11、=Mo 正偏态分布：MMdMo 负偏态分布：MMdMo 皮尔逊发现，在偏态分布(skewed distribution)中，Md离平均数较近、而距众数较远。,根据平均数与众数或中数的距离，皮尔逊提出了一个偏态量数公式，用来描述分布形态：当SK=0时，分布对称；当SK0时，分布属正偏态；当SK0时，分布属负偏态。,（二）峰度、偏度检验法 1.偏度系数(coefficient of skewness) 当g1=0时分布是对称的；当g10时，分布为正偏态；当g1200时，这个偏态系数的统计量g1才较可靠。,2.峰度系数(coefficient of kurtosis) 当g2=0时，正态分布的峰度

12、；g20时，分布的峰度比正态分布的峰度低阔；g21000时，g2值才比较可靠。,（三）累加次数曲线法因为标准正态分布的形式固定，因此其累加概率与标准差的关系也固定。根据这一点，可将一般分布的累加概率与标准正态分布累加概率相比较。,具体方法制作样本的累加次数分布表，列出累加比率和观测值相应的标准分数。制作样本的累加频率曲线图。纵坐标为次数比率01.00，横坐标为Z分数，一般为3+3。在同一坐标系中，制作累加正态分布概率曲线图。,画好图后，从图上直接比较正态分布概率曲线与样本的累加频率曲线，若两曲线完全重合，说明某样本的分布呈正态；若样本的累加频率曲线偏离正态累积曲线较大，则不符合正态分布

13、。,四、正态分布理论在测验中的应用（一）化等级评定为测量数据将等级评定转化为测量数据，首先要考虑被评定的心理量是否为正态分布。将等级评定转化为测量数据的方法是用各等级中点的Z分数代表该等级分数。,具体步骤根据各等级被评者的数目求各等级的人数比率；求各等级比率值的中间值，作为该等级的中点；求各等级中点以上（或以下）的累加比率；用累加比率查正态表求Z值，该Z分数就是各等级代表性的测量值；求被评者所得评定等级的测量数据的算术平均数，即为每个被评定者的综合评定分数。,【例6-2】表6-2是3位教师对100名学生的学习能力所作等级评定的结果。表6-3是3名学生从3位老师那儿获得的评定等

14、级，试将其转化为Z分数。,表6-2 3名教师对100名学生的评定结果,表6-3 各学生所获得的评定等级,表6-4 化等级评定为Z分数,学生1的平均成绩： (0.94+1.65+1.28)/3=1.29 学生2的平均成绩： (1.96+0.84+1.28)/3=1.36 学生3的平均成绩： (0.94+00.32)/3=0.42,（二）确定测验题目的难易度原理：假设一个测验中不同难易题目的分布是正态的，即一个测验中通过率较大和较小的题目很少，而通过率居中的题目较多。,确定题目难度分数的具体步骤计算各题目的通过率；用0.5减去通过率，不计正负号，获得正态分布表中的概率值（p）；依照p值查正

15、态表中相应的Z值，通过率大于50%的Z值计为负值，通过率小于50%的Z值计为正值；将查表得到的Z分数加上5便得到从010的十进制的难度分数值。,表6-5 难度分数的计算,（三）在能力分组或等级评定时确定人数将6个标准差除以分组的或等级的数目，做到Z分数等距；查正态分布表，从Z求p，即各等级或各组在等距的情况下应有的比率；将比率乘以欲分组的人数，便得到各等级或分组该有的人数。,所计算的各组人数分布，应与总数相等。有时由于从Z查p有误差，使结果不能与总数相符，这时应将居中的那一组做适当的增加或减少，因为这样做，对百分比率的影响甚小。,【例6-3】要把100人在某一能力上分成5个等级，各等

16、级应该有多少人，才能使等级评定做到等距？,表6-6 能力分为五组时各组人数的分布,（四）测验分数的正态化正态化的步骤当原始分数不服从正态分布时，先将原始分数的频数转化为相对累积频数(百分等级)，将它视为正态分布的概率；然后，通过查正态分布表中概率值相对应的Z值，将其转换成Z分数，达到正态化的目的。,正态化是利用改变次数的方法，将原来偏态分布中众数所偏的一边拉长，使之成为正态，这是一种非线性转换。正态化是建立正态标准分数的关键。原始分数正态化的前提条件：研究对象的总体事实上应该是正态分布，否则就会歪曲事实，这是使用各种正态化标准分数所必须注意的。,T分数(T scores)是从Z分数经过转化而来的一种正态化的标准分数，它是McCall (1939)创用的方法。心理与教育测验常用T分数来建立常模。T分数是将标

展开阅读全文