第三章 集中量数1、几个集中量数的公式计算 一览表平均数(M)算术平均数(M)未分组:分组数据: 加权平均数(单位权重不相等的情况)几何平均数(解决增长率的问题); ; 调和平均数(解决速度的问题)倒数的算术平均数的倒数: ;中数(Md)未分组:无重复值N=奇数:中数即位置的数;N=偶数:中数即中间两个数的平均数;有重复值若重复值没有位于中间,则求法与无重复值时一致;若重复值位于中间,则(P62): 图示:思路:①连续性数字,不是一个点,是一个区间; ②有几个重复的,则将组距除以几;分组众数(Mo)1、直接观察法.2、公式法皮尔逊经验法&金式插补法)①皮尔逊经验法:;②金式插补法: ;【组中值的计算】第四章 差异量数百分位数(点);百分等级未分组:分组:四分位差; (Q3与Q1即P25与P75)平均差未分组:分组:;(IxI为各组中点值对平均数离差的绝对值)方差与标准差未分组:①; ②原始数据代入:分组: 总方差与总标准差:标准差的应用差异系数标准分数第五章 相关关系相关系数适用资料公式积差相关(皮尔逊)①成对的数据(≥30对);②连续变量;③正态双变量;④线性关系; (N为成对数,x、y为离均差);原始值代入:等级相关斯皮尔曼等级相关(两列)两列具有线性关系的等级或顺序变量;1、等级差数法:(D为对偶等级之差)2、等级序数法:3、出现相同等级时:其中,;(N为成对数据数目,n为各列变量相同等级数)肯德尔等级相关(多列)肯德尔W系数(和谐系数):①K个评分人评N个对象,分析K个评分人的一致性程度;②同一个人先后K次评价N个对象,分析其前后一致性;1、基本公式:;(K为评价者数,N为被评对象数); (为评价对象获得的K个评价者给的等级之和,);2、相同等级时:;其中,s的意义同上,T如下:;(n为相同等级数)肯德尔U系数(一致性系数):对偶比较法:将N个事物两两配对,可配成N(N—1)/N对,然后对每一对进行比较,择优选择,优者记1,非优者记0;;N为被评价对象数目(即等级数),K为评价者数目,为对偶比较表中i>j(或i<j)格中的择优分数.(几个评价者认为i比j好,则为几)质与量的相关点二列相关正态连续变量&二分名义变量(真正的)★【用于非类测验(得分只有两种结果,答对得分,答错不得分)的测验内部一致性,每道题与总分的相关等问题;】;(其中,p、q二分称名变量两个值所占比例, 与为二分称名变量各自对应值的平均数,为连续变量的标准差);二列相关①两列数据均正态②一列为连续变量,一列为二分变量(人为划分);;或 ; 其中,y为标准正态曲线中p值对应的高度,查正态分布表可知。
多列相关适用于两列正态变量,其中一列为连续变量,另一列被人为地划分为多种类别(名义变量);;其中,Pi为每系列的次数比率,yL与yH分别为每一名义变量下(上)限的正态曲线高度,可由pi差正态表得知; 品质相关四分相关两列都是连续正态变量,且都人为地被划分为两个类别相关资料可以整理成四格表;;或系数(列联系数)两列变量均为真正的二分变量;(四格表)(与卡方检验联系);;列联表相关数据属于RC表的计数数据,欲分析所研究的二因素之间的相关程度时使用皮尔逊定义的列联系数(常用):另:第六章 概率分布1、几个基本概念(1)概率:表明随机事件出现的可能性大小的客观指标.(2)后验概率(统计概率): 先验概率(古典概率):(3)概率分布:对随机变量取值的概率分布的情况用数学方法(函数)描述2、概率的基本性质:※ 概率的公理系统:任何一个随机事件的概率都是非负的;在一定条件下必然发生的必然事件概率为1;在一定条件下必然不发生的事件,即不可能事件的概率为0※ 概率的加法定理※ 概率的乘法定理3、概率的分布类型划分划分标准分类备注依据随机变量是否具有连续性离散分布:离散随机变量的概率分布.(如:二项分布)离散随机变量:随机变量只取孤立的值。
即计数数据)连续分布:连续随机变量的概率分布,即测量数据的概率分布如:正态分布)依据分布函数的来源来分经验性:据观察或实验获得的数据而编制的次数分布或相对频率分布理论性:一是随机变量概率分布的函数(数学模型),二是按数学模型计算出的总体的次数分布(总体分布).依据概率分布所描述的数据特征而划分基本随机变量分布常用的有二项分布和正态分布.统计量(随机变量的函数):平均数、平均数之差、方差、标准差、相关系数、回归系数等抽样分布:样本统计量的理论分布4、几个重要分布★ 正态分布(1)特征:① 正态分布的形式是对称的,对称轴是经过平均数的垂线② 正态分布的中央点即平均数最高,然后逐渐向两侧下降;曲线形式先向内弯,再向外弯,拐点位于正负1个标准差处,曲线两端向基线无线靠近,但不相交③ 正态曲线下面积为1④ 正态分布是一族分布平均数决定其位置,标准差决定其形态.标准差越小,曲线越狭高⑤正态分布中各差异量数值间有固定比率⑥正态曲线下,标准差和概率(面积)有一定的数量关系.(2)正态分布表的利用① 已知Z分数求概率p,即已知标准分数求面积②已知概率P求Z分数.③已知概率或Z求概率密度y,即曲线的高.【直接查表即可。
注意已知的y是位于中间部分,还是两尾3)次数分布是否为正态的检验方法(4)正态分布理论在测验中的应用① 化等级评定为测量数据② 标准测验题目的难易度③ 在能力分组或等级评定时确定人数④ 测验分数的正态化二项分布(贝努里分布)(1)几个重要概念理解二项试验:必须满足几个条件——任何一次实验恰好只有2个结果;共有n次实验,n是事先给定的一个正整数;某种结果出现的概率在任何一次实验中都是固定的二项分布:试验仅有两种不同性质结果的概率分布两个对立事件的概率分布).具体定义如下:设有n次试验,各次试验是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q,即(1-p),则对于某事件出现X次的概率分布为:;表示在n次试验中有X次成功,成功的概率为p2)二项分布的性质① 二项分布是离散型分布,概率直方图是跃阶式p=q与p≠q)② 二项分布的平均数与标准差当p﹤q,np≥5,二项分布接近正态此时有,=np ,=npq(3)二项分布的应用当p﹤q,np≥5,二项分布接近正态.用其概率分布计算当np<5,直接用二项分布函数计算5、抽样分布一览表【样本分布:指的是样本统计量的分布.】正态分布样本平均数的分布总体分布为正态,总体方差已知,样本平均数分布为正态分布.【;变异误;标准误(SE);】总体分布为非正态,但总体方差已知,样本足够大(n>30),样本平均数渐进正态分布。
T分布含义及基本公式学生式分布左右对称、峰态比较高狭,分布形态随样本容量n-1的变化而变化的一族分布.【;】分布特点1、平均值为0;2、以平均值0左右对称分布,左侧t为负值,右侧为正值3、变量取值在4、当n趋近于无穷大时,t分布为正态分布,方差为1; 当n—1>30,t分布接近正态分布,方差大于1,随n—1的增大而渐趋于1; 当n—1<30,t分布于正态分布相差较大.分布表的使用t0.05(双侧)=t 0025(单侧)样本平均数的分布总体分布为正态,总体方差未知时,样本平均数为t分布其中,】总体非正态,总体方差未知,若n>30,则近似正态分布分布概念与公式随机变量平方和的分布;或随机变量转为标准分数,标准分数的平方和的分布也服从分布或用样本平均数估计总体总体平均数μ时为】分布特点1、正偏态分布.df趋近无穷大时,为正态分布2、值都是正值3、分布的可加性即卡方分布的和也是分布应用计数数据的假设检验;样本方差和总体方差差异是否显著的检验;F分布含义与公式【; ; ;】分布特点1、正偏态分布;2、F总为正值;应用F检验:考察任意两个样本的方差是否取自同一整体;方差齐性检验与方差分析;第七章 参数估计1、几个重要概念点估计、区间估计、置信区间、显著性水平(α)、置信度(置信水平即1-α)、标准误(平均数的离散程度):2、参数估计步骤总结(1)分析条件,选择方法,计算样本统计量; (2)计算样本平均数的标准误;【是关键!!】(3)确定显著性水平,求置信区间; (4)查找Z值或t值;(5)计算置信区间; (6)结果解释.正态分布表:或T分布表:或3、参数估计一览表总体平均数的估计总体方差已知(正态估计法)①总体正态分布.②总体非正态,n>30(近似正态估计法)。
标准误为总体方差未知(t分布估计法)①总体正态分布②总体非正态,n>30(近似t分布估计法)标准误采用样本的无偏方差作为总体方差的估计值即标准差与方差的区间估计标准差法1:采用总体方差估计区间的平方根法2:n>30(样本标准差的分布为渐进正态),标准差的平均数为 ,标准差分布的标准差为,则置信区间为:方差自正态总体中,随机抽取容量为n的样本,其样本方差和总体方差的比值的分布为分布,故可直接查表来确定和,置信区间为:二总体方差之比置信区间为;根据样本方差估计在1上下一定区间内(即区间是否包含1),可推论二总体方差相等若只关注两个总体方差是否相等则用单侧,若要比较二者谁大谁小则用双侧相关系数的区间估计积差相关【思路:先假设=0,求出置信区间,若不包含0,说明假设错误,再根据不为0的情况来解题.】总体相关系数为0即=0时样本相关系数分布为t分布,置信区间为: ; 总体相关系数不为0当n>500,; 置信区间为:利用费舍Z函数分布计算(应用广泛,不论是否为0,不论样本容量n的大小).步骤:①将样本相关系数转换为Z函数法1:公式法或法2:查r—转换表,直接由r值查值②计算标准误:③计算的置信区间:; ④将的置信区间转换为相关系数.(公式法或查表)等级相关(斯皮尔曼)①当9≤n≤20时,的分布近似为,的t分布。
置信区间为:②当n>20时,的分布近似正态分布,标准误为置信区间改为:比率及比率差异的区间估计比率的区间估计当,标准误或;置信区间为【ps:样本比率=x/n,是总体比率p的点估计值,可代替总体比率.故】当,此二项分布不接近正态,此时置信区间的估计直接查二项分布计算的统计表比率差异的区间估计当,时,比率差异的置信区间可用正态分布概率计算.①时,标准误为;置信区间为;②时,标准误。