定量资料统计学方法小结

上传人:工**** 文档编号:561490075 上传时间:2023-10-13 格式:DOC 页数:53 大小:1.18MB
返回 下载 相关 举报
定量资料统计学方法小结_第1页
第1页 / 共53页
定量资料统计学方法小结_第2页
第2页 / 共53页
定量资料统计学方法小结_第3页
第3页 / 共53页
定量资料统计学方法小结_第4页
第4页 / 共53页
定量资料统计学方法小结_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《定量资料统计学方法小结》由会员分享,可在线阅读,更多相关《定量资料统计学方法小结(53页珍藏版)》请在金锄头文库上搜索。

1、计量资料分析常用的统计学方法小结第二章、定量资料的统计描述厂频率分布表与频率分布图:描述平均水平的统计指标(描述集中趋势):算数均数、几何均数、中位数 与百分位数、众数描述变异程度的统计指标(描述离散趋势):极差、四分位数间距、方差、 标准差、变异系数描述分布形态的统计指标:偏度系数、峰度系数第一节频率分布表与频率分布图离散型定量变量和连续型定量变量的频率分布离散型定量变量的取值是不连续的。直接清点各变量值出现的频数计算相应 的频率,即为频率分布表。离散型定量变量的频率分布图可用直条图表达,以各等宽矩形直条的高度表示各组频率的大小。连续型定量变量的取值是连续的。 将数据适当分组,清点各组频数,

2、并计算 相应频率,即为频率分布表。连续型定量变量的频率分布图可用直方图表达,纵 坐标为频率密度,即频率/组距,直方图面积之和等于1.1、离散型定量变量的频率分布步骤:(1)直接清点各变量值出现的频数(2)计算各组频率,累计频数,累计频率2、连续型定量变量的频率分布步骤:(1)求极差(range):即最大值与最小值之差,又称为全距。(2)决定分组组数、组距:根据研究目的和样本含量 n确定分组组数,通常 分为1015个组。组距=极差/组数,为方便计,组距为极差的十分之一,再略加 调整。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包 含最大值。(4)划记计数:用划记法将所有数据归

3、纳到各组段,得到各组段的频数。编制频率表的注意事项:(1分组不宜过粗,也不宜过细。通常分为 1015个组。(2)为计算方便,组段下限一般取较整齐的数值。确定各组段上下限时, 各组段要连续但不重叠。除去最后一个组段,其余组段应包含下限值,不包含上 限值。(3)第一组段应包含最小值,最后一组段应包含最大值。3、频数表和频数分布图用途(1)描述频数分布的类型对称分布:若各组段的频数以中心位置左右两侧大体对称,就认为该资料 是对称分布广正偏态分布:右侧的组段数多于左侧的组段数, 频数向右侧拖尾。偏态分布:Y负偏态分布:左侧的组段数多于右侧的组段数,频 数向左侧拖尾。k(2)描述频数分布的特征随机变量的

4、分布具有两个特征一一集中趋势与离散趋势。 数据集中(平均):总体中的个体具有某些同性质,这些同性质是的数据 趋向同一数值,表现为变量值聚集在某个中心值的周围,称为集中趋势。 数据变异(离散):同一总体中的个体之间又普遍存在各种差别,使得变 量值向平均水平左右离散,称为离散趋势。(3)便于发现某些离群值或极端值。(4)便于进一步做统计分析和处理第二节描述平均水平的统计指标(描述集中趋势的指标)统计上使用平均数(average这一指标体系来描述一组变量值的集中位置或平 均水平。常用的平均数有三种算数均数、几何均数、中位数。1、算术均数:简称均数(mean)可用于反映一组呈对称分布的变量值在数量上的

5、平均水平或者说是集中位 置的特征值。常用卩表示总体均数,用X表示木样本均数。Xnx均数适用于对称分布,特别是正态分布资料直接计算法(利用原始数据):大全X Xi X2 川 XnX加权法(利用频数表):其中f1X1f2X 2f3X3fkXkf1 f2f3fkX本组段下限值+下组段下限值2fXk :频数表的组段数,f :频数, X :组中值2、几何均数(geometric mean G)可用于反映一组原始观察值不对称,但经对数转换后呈对称分布或正态分布 的变量值在数量上的平均水平。lgG 和略 lgX2 川 IgXJigXnG lg nIg表示以10为底的对数;Ig 1表示以10为底的反对数X 0

6、为正值例 有8份血清的抗体效价分别为 1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体 效价。G%51020408016032064056 .57Glg1(lg5lg10lg 20IIIlg640)/ 856.57根据G的倒数得到平均抗体效价为1:57(2)加权法公式(频率表法)lg 1(f lgx刀f:各组频数之和,即n3、中位数(median M)与百分位数(percentile Px)是将每个变量值从小到大排列,位置居于中间的那个变量值。理论上有一半 的观察值高于中位数,一半的观察值低于中位数。中位数适用于各种分布的变量, 特别是偏

7、峰分布的变量。只与位次居中的观察值有关,不受分布两端特大或特小 值的影响。因此,在末端无确定值资料,不能计算均数和几何均数的时候,可计 算中位数。(1)直接法计算公式:n为奇数时:M X(n1)2n为偶数时:M2X(n)X(; i)(2)频率表法:对于频率表资料,可以通过百分位数法近似计算中位数。百分位数:是指将n个观察值从小到大依次排序后,对于 x%位的数值;表 示将原始观察值分为两个部分,理论上有 x%的观察值小 px于有(1-x)%的观察值大于Px。所以百分位数P50就是中位数。M所在组段下限值组距 (n 50%至该下限值的累计频数)组所在组段下限值至上限值间的频数MLi ( n50%f

8、 L )if m刀fL:为小于L所在组段的累计频数(3)百分位数(percentile)直接算法:设有n个原始数据从小到大排列,第 X百分位数的计算公PxXtrunc( nX %) 1nX% 为带有小数位时:Trunc ( nx% )的意思是n和x%的结果取整数 当nX%为整数时:PxX(nX %)X(nX% 1)例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天 数从小到大排列如下,试求第 5百分位数和第99百分位数。患者: 1234567 * 8119118119120住院天数:1222334 I” 4 405404245(1) n=120, 120乘5%等于6,为整数:1

9、1P52 X(6) X(7)2(34)3.5(天)99trunc (nX %)Y(119)42(天)(2) n=120, 120乘 99%等于 118.8,带有小数,故取整 trunc( 118.8)= 118频数表算法:PxLxx-(nX%fL)Lx :第X百分位数所在组段下限fL :小于Lx各组段的累计频数ix :第x百分位数所在组段组距n:为总例数当 X %50%1 时,公式(2-9)即为中位数的计算公式2MP50L50 严( fL)f50 2例:脉搏组段(1)频数,f相对频数(4)= (3)/% )N累积频数=(3)J累积相对频数(6)=(5)/ N5621.5421.545953.8

10、575.3862129.231914.62651511.543426.15682519.235945.38712620.008565.38741914.6210480.00771511.5411991.5480107.6912999.23838510.77130100.00合计130试分别求例2 1频数表的第25、第75百分位数P25 = 65+3x(130x25% 19)/15 = 65.90P75 = 74+3x(130x75% 85)/19 = 74.664、众数(mode)众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较

11、粗糙。正态分布时: 均数=中位数=众数 正偏态分布时:均数 中位数 众数 负偏态分布时:均数 中位数 puluntl 聲ILK Positively Skewed Dlstibun(們軸】和倨凶汕唱帕m6.氐怖加和n(niedran exceeds ineafl)第三节描述变异程度的统计指标(描述离散程度的指标)同一总体中的不同个体之间存在差异称为变异。不同的观察指标,其变异程度不同;即使是同一观察指标,在不同总体中,其变异程度也会有所不同。常用的描述变异程度的指标包括极差、四分位数间距、方差、标准差、变异 系数。1、极差(Range)极差,也称全距,用R表示:即一组变量值最大值与最小值之差。

12、样本接 近的同类资料相比较,极差越大意味着数据越离散,或者说数据之间的变异程度 越大。极差计算简单,但仅利用了两端点值,稳定性差。R二最大值-最小值极差的特点:极差只能粗略地说明变量的变动围极差只用最大值和最小值计算,未考虑到中间的全部信息 偏态资料时更不稳定。2、四分位数间距(quartile range )四分位数间距,用Q表示P75和P25分别称为上四分位数和下四分位数。四分位数间距定义为P75和P25 之差。即 Q=P75-P250% ( 1)425%( 1)75%( 1)100%( 1)444如上图所示,理论上,有1/4个观察值比P75大,有1/4个观察值比P25小,P75和P25之

13、间恰好包括总体中50%的个体观察值。Q越大意味着数据间变异越大。四分位间距可用于各种分布的资料,特别对服从偏峰分布的变量。 常把中位数和四分位间距结合起来描述变量的平均水平和变异程度。与极差相比,四分位间距更稳定,但仍未考虑数据中的每个观察值的离散程 度。3、方差(varianee) 一 2 (X )方差考虑了所有观察值的变异程度。总体方差用表示,定义为总离均差平N方和,刀(X厂在总体所有个体中的平均;样本方差用S 表示。方差越大意味N着数据间变异越大。1)平均偏差为利用每一个观察值的信息,计算各观察值偏离平均值的平均差距(即离均差, 他们的和称为离均差和)。为免于正负抵消,可将每个观察值与均数的差值的绝 对值相加再取平均,称为平均偏差(mean differenee。刀(X f n/N(2)离均差平方和(sum of square,SS)为克服平均偏差使用绝对值不便运算的缺点,可以将“离均差”平方,即计算离 均差平方和。其计算公式为:SS2X X(3) 方差(mean of square,MS)(X X) 将离均差平方和取平均,即为方差(varianee)。对于样本资料,取平均值 时分母用n-1代替nMS

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 活动策划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号