定量资料统计学方法小结

上传人:博****1 文档编号:497061193 上传时间:2023-11-07 格式:DOC 页数:53 大小:1.21MB
返回 下载 相关 举报
定量资料统计学方法小结_第1页
第1页 / 共53页
定量资料统计学方法小结_第2页
第2页 / 共53页
定量资料统计学方法小结_第3页
第3页 / 共53页
定量资料统计学方法小结_第4页
第4页 / 共53页
定量资料统计学方法小结_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《定量资料统计学方法小结》由会员分享,可在线阅读,更多相关《定量资料统计学方法小结(53页珍藏版)》请在金锄头文库上搜索。

1、word计量资料分析常用的统计学方法小结第二章、定量资料的统计描述频率分布表与频率分布图:描述平均水平的统计指标描述集中趋势:算数均数、几何均数、中位数与百分位数、众数描述变异程度的统计指标描述离散趋势:极差、四分位数间距、方差、标准差、变异系数描述分布形态的统计指标:偏度系数、峰度系数第一节 频率分布表与频率分布图离散型定量变量和连续型定量变量的频率分布离散型定量变量的取值是不连续的。直接清点各变量值出现的频数计算相应的频率,即为频率分布表。离散型定量变量的频率分布图可用直条图表达,以各等宽矩形直条的高度表示各组频率的大小。连续型定量变量的取值是连续的。将数据适当分组,清点各组频数,并计算相

2、应频率,即为频率分布表。连续型定量变量的频率分布图可用直方图表达,纵坐标为频率密度,即频率/组距,直方图面积之和等于1.1、 离散型定量变量的频率分布步骤:1直接清点各变量值出现的频数 2计算各组频率,累计频数,累计频率2、 连续型定量变量的频率分布步骤:(1) 求极差range:即最大值与最小值之差,又称为全距。2决定分组组数、组距:根据研究目的和样本含量n确定分组组数,通常分为1015个组。组距=极差/组数,为方便计,组距为极差的十分之一, 再略加调整。3 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。4 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。

3、编制频率表的须知事项: 1分组不宜过粗,也不宜过细。通常分为1015个组。 2为计算方便,组段下限一般取较整齐的数值。确定各组段上下限时,各组段要连续但不重叠。除去最后一个组段,其余组段应包含下限值,不包含上限值。 3第一组段应包含最小值,最后一组段应包含最大值。3、 频数表和频数分布图用途(1) 描述频数分布的类型对称分布 :假如各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布 正偏态分布:右侧的组段数多于左侧的组段数, 频数向右侧拖尾。偏态分布 : 负偏态分布:左侧的组段数多于右侧的组段数,频 数向左侧拖尾。(2) 描述频数分布的特征 随机变量的分布具有两个特征集中趋势与离散

4、趋势。数据集中平均:总体中的个体具有某些同性质,这些同性质是的数据趋向同一数值,表现为变量值聚集在某个中心值的周围,称为集中趋势。数据变异离散:同一总体中的个体之间又普遍存在各种差异,使得变量值向平均水平左右离散,称为离散趋势。(3) 便于发现某些离群值或极端值。4便于进一步做统计分析和处理第二节 描述平均水平的统计指标描述集中趋势的指标统计上使用平均数average这一指标体系来描述一组变量值的集中位置或平均水平。常用的平均数有三种算数均数、几何均数、中位数。1、算术均数:简称均数mean可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。常用表示总体均数,用 表示样

5、本均数。均数适用于对称分布,特别是正态分布资料。 直接计算法利用原始数据: 加权法(利用频数表: k:频数表的组段数, f :频数, X:组中值。2、 几何均数geometric mean G可用于反映一组原始观察值不对称,但经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。1直接法计算公式:例 有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。根据G的倒数得到平均抗体效价为: 1:572加权法公式频率表法:f:各组频数之和,即n3、 中位数median M与百分位数percentile Px是将每

6、个变量值从小到大排列,位置居于中间的那个变量值。理论上有一半的观察值高于中位数,一半的观察值低于中位数。中位数适用于各种分布的变量,特别是偏峰分布的变量。只与位次居中的观察值有关,不受分布两端特大或特小值的影响。因此,在末端无确定值资料,不能计算均数和几何均数的时候,可计算中位数。(1) 直接法计算公式: n 为奇数时:n 为偶数时:(2) 频率表法:对于频率表资料,可以通过百分位数法近似计算中位数。 百分位数:是指将n 个观察值从小到大依次排序后,对于x%位的数值;表示将原始观察值分为两个局部,理论上有x%的观察值小于 有1-x%的观察值大于。所以百分位数P50就是中位数。fL:为小于L所在

7、组段的累计频数(3) 百分位数percentile直接算法:设有n个原始数据从小到大排列,第X百分位数的计算公式为: 当 为带有小数位时:Truncnx%的意思是n和x%的结果取整数 当 为 整数时: 例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。患 者:住院天数:1n=120,120乘5%等于6 ,为整数:(2) n=120,120乘99%等于118.8,带有小数,故取整 trunc118.8= 118 频数表算法:当 时,公式2-9即为中位数的计算公式例:试分别求例21频数表的第25、第75百分位数 P25 P754、

8、众数mode众数是一组观察值中出现频率最高的那个观察值;假如为分组资料,众数如此是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。正态分布时: 均数中位数众数正偏态分布时:均数 中位数 众数负偏态分布时:均数 中位数 众数第三节 描述变异程度的统计指标描述离散程度的指标同一总体中的不同个体之间存在差异称为变异。不同的观察指标,其变异程度不同;即使是同一观察指标,在不同总体中,其变异程度也会有所不同。常用的描述变异程度的指标包括极差、四分位数间距、方差、标准差、变异系数。1、极差Range极差,也称全距,用R表示:即一组变量值最大值与最小值之差。样本接近的同类资料相比拟,极差越大意味着数据

9、越离散,或者说数据之间的变异程度越大。极差计算简单,但仅利用了两端点值,稳定性差。R=最大值-最小值极差的特点:极差只能粗略地说明变量的变动X围。 极差只用最大值和最小值计算,未考虑到中间的全部信息。 偏态资料时更不稳定。2、 四分位数间距quartile range 四分位数间距,用Q表示P75和P25分别称为上四分位数和下四分位数。四分位数间距定义为P75和P25之差。 即Q=P75-P25 0% 25% 75% 100%如上图所示,理论上,有1/4个观察值比P75大,有1/4个观察值比P25小,P75和P25之间恰好包括总体中50%的个体观察值。Q越大意味着数据间变异越大。四分位间距可用

10、于各种分布的资料,特别对服从偏峰分布的变量。常把中位数和四分位间距结合起来描述变量的平均水平和变异程度。与极差相比,四分位间距更稳定,但仍未考虑数据中的每个观察值的离散程度。3、 方差variance 方差考虑了所有观察值的变异程度。总体方差用表示,定义为总离均差平方和,在总体所有个体中的平均;样本方差用表示。方差越大意味着数据间变异越大。(1) 平均偏差为利用每一个观察值的信息,计算各观察值偏离平均值的平均差距即离均差,他们的和称为离均差和。为免于正负抵消,可将每个观察值与均数的差值的绝对值相加再取平均,称为平均偏差mean difference)。 n2离均差平方和(sum of squa

11、re,SS)为克制平均偏差使用绝对值不便运算的缺点,可以将“离均差平方,即计算离均差平方和。其计算公式为:(3) 方差mean of square,MS)将离均差平方和取平均,即为方差variance。对于样本资料,取平均值时分母用n-1 代替nMS其中n-1称为自由度(df),在n个离均差平方项中,只有n-1个是独立的,称为自由度degree of freedom,df)其意义是当给定时,随机变量X“自由取值的个数。总和不变,自由度就少了一个,所以用n-1任何统计量的自由度=n-限制条件的个数。总体方差与样本方差总体方差:样本方差:4、 标准差(standard deviation,SD)

12、1 方差的平方根为标准差,总体标准差用表示,样本标准差用S表示 ,其度量单位与均数一致,所以最常用。标准差的公式还可以写成 :利用频数表计算标准差的公式为:(2) 标准差的意义和用途 说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差 . 标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。用于计算变异系数用于计算标准误(见后)结合均值与正态分布的规律,估计参考值的X围(见后)。5、 变异系数(coefficient of variation,CV) 变异系数(coefficient of variation,CV) 常用于比拟度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。 CV的意义是变异程度的大小,相对于平均水平的百分比。变异系数没有单位。变异系数越大意味着相对于均数而言变异程度越大。其中S为样本标准差, 为样本均数。6、 分布形态对教学评价的指导意义正态分布:说明学生考试成绩分布比拟正常。正偏态分布:说明低分段的学生人数比拟多,可能是试题难度偏高或者是此次考查内容学生掌握情况不好。负偏态分布:说明高分段的学生较多,可能是学生知识掌握较好,也可能是试题难度较低。平坡型分布:说明学生成绩差距较大,分布不集中,降低整体成绩的是分布在低分段的学生,所以应对这些学生

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号