资料的统计分析单变量分析概述.ppt

上传人:F****n 文档编号:96533771 上传时间:2019-08-27 格式:PPT 页数:78 大小:560KB
返回 下载 相关 举报
资料的统计分析单变量分析概述.ppt_第1页
第1页 / 共78页
资料的统计分析单变量分析概述.ppt_第2页
第2页 / 共78页
资料的统计分析单变量分析概述.ppt_第3页
第3页 / 共78页
资料的统计分析单变量分析概述.ppt_第4页
第4页 / 共78页
资料的统计分析单变量分析概述.ppt_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《资料的统计分析单变量分析概述.ppt》由会员分享,可在线阅读,更多相关《资料的统计分析单变量分析概述.ppt(78页珍藏版)》请在金锄头文库上搜索。

1、第十章 资料的统计分析 单变量分析,一、单变量描述统计,单变量统计分析分两大方面,即,描述统计和推论统计. 描述统计的主要目的在于用最简单的概括性反映出大量数据资料所容纳的基本信息.它的基本方法包括集中量数分析和离散量数分析等. 推论统计的主要目的使用从样本调查中所得到的数据资料来推断总体的情况,主要包括区间估计和假设检验等,1.频数分布与频率分布,(1) 频数分布(Frequency Distribution) 频数分布是指一组数据中取不同值的个案的次数分布情况.它一般是以频数分布表的形式表达.(见表1.),频数分布表的作用: A.简化资料.将调查得到的杂乱的原始数据,以十分简洁的统计表反映

2、出来. B.清楚地了解调查数据的众多信息.,(2)频率分布,频率分布(percentages distribution) 一组数据中不同取值的频数相对于总数的比率分布情况.常是以百分比的形式来表达. (见表2) 频率分布表 是不同类别在总体中的相对数量分布.她十分方便于不同总体和不同类别之间的比较.因此这种分布表的应用更为普遍.,例1、,某班学生的年龄分布,某班学生的年龄分布,一、单变量描述统计,1、频数分布与频率分布 频数分布:一组数据中取不同值的个案的次数分布情况 (数量) 频率分布:一组数据中不同取值的频数相对于总数的比率分布情况。通常以百分比的形式表达。 (相对数量),表9-1 某班学

3、生父亲的职业分布,表9-2 某班学生父亲职业分布,2.集中趋势分析,集中趋势分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。 最常见的集中量数有算术平均数,(简称平均数,也称为均值),众数和中位数三种.,2.集中趋势分析,(1)平均数(mean) 平均数是使用得最多的集中量数.平均数是指总体各单位数值之和除以总体单位数目所得之商 统计分析中习惯以X来表示.其计算公式如下 X n,从原始数据计算平均数,例2:某班10名学生的年龄分别为20、21、19、19、19、20、20、21、22、18、20岁,求他们的平均年龄。,从单值分组资料计算平均数,

4、首先要将每一个变量值乘以对应的频数f,得出各组的数值之和,然后将各组的数值之和全部相加,最后除以单位总数. Xf Xf f n,例3:调查某年级150名学生的年龄得到下列结果:,练习:100名工人的收入资料如下,计算他们的平均工资 表 100名工人的收入分布,从组距分组资料计算均值,在调查收入年龄等方面情况时,常常得到组距分组形式的资料,如我们知道各年龄段的人数,若要计算平均年龄就需要计算出各组的组中值,然后在按照单值分组资料计算平均数的公式计算. 组中值的计算公式为: 上限+下限 2,例4:调查某企业100名职工的收入得到如下资料,请计算平均收入.,练习:调查100名学生的成绩得到资料如下,

5、求平均成绩 表3 100名学生的成绩分布,注意:开口组的组中值,前面缺下限的开 邻组组距 口组的组中值 2,后面缺上限的开口 邻组组距 组的组中值 2,平均数 计算公式:,特点: 最常用的测度值 均值利用了全体数据 易受数据中极端值的影响 用于数值型数据,而不能用于分类数据和顺序数据,(2)众数(Mode),众数是一组数据中出现次数最多(即频数最高)的那个数值。 众数与平均数一样也可用来概括反映总体的一般水平或典型情况. 众数的求法: A.单值分组资料:频数最大者所对应的标志值 B.组距分组资料:组中值法 摘补法 单值分组资料 先在频数栏中找出最大的频数,然后找到最大频数所对应的标志值,这一标

6、志值即为众数.,(2)众数(Mode),组距分组资料(组中值法) 首先通过直接观察找出最高的频数,然后根据最高的频数找到它所对应的组;最后求出该组的组中值即为众数.,分类数据的众数(算例),数据-分类数据 0商品广告,顺序数据的众数(算例),数据:顺序数据 M0不满意,(2)众数(Mode),众数(ode)特点: 不受极端值的影响 可能没有众数或有几个众数(不唯一性) 主要用于分类数据,也可用于顺序数据或数值型数据,确定众数根据所依据资料的不同会有两种情况,、根据原始数据或单变量值分组资料确定众数 如果被研究总体单位数30 ,在对变量值由小到大排序后,就很容易找到众数。 若对原始数据按单变量值

7、进行分组,得到次数分布,那么次数最大的变量值即众数。 、根据组距分组资料确定众数 对总体比较大,离散型变量数值表现较多连续型变量,按组距分组形成次数分布。由组距分组资料计算众数,,(3)中位数(Median),把一组数据按值的大小顺序排列起来,处于中央位置的那个数值就叫中位数.它描述的是定序变量以上层次的变量. 它的含义是整个数据中有一半数值在它之上,另一半数值在它之下. 公式为: Md=(n+1)2,(3)中位数(Median),原始资料计算中位数 例:调查五个工厂的职工人数,按规模由小到大依次为 200人,300人,500人,800人,1000人.依据公式(5+1)2=3 为中间位置.即所

8、对应的数值500人即为中位数. 当数据为偶数时中位数处于中间两个数值之间,这时一般以中间两个数值的平均数作为中位数.,(3)中位数(Median),单值分组资料计算中位数 当资料为单值分组数据时,也是先求出数据组的中间位置,然后再找出其对应值,但寻找方式需要注意(以表3为例). 先计算中间位置: (n+1)2=(150+1)2=75.5 即,中间位置在第75个数值与76个数值之间,为了找到这个位置,需要列出累计频数.,(3)中位数(Median),由组距分组资料求中位数 具体方法是: 先列出累计频数,然后按同样的方法确定中位数 所在的组,最后利用下述公式计算出中位数的值. L为中位数所在组的下

9、限值. Cf(m -1)为中位数所在组以上的累计频数,为fm为中位数所在组的频数,i为中位数所在组的组距.(以表4为例),(3)中位数(Median),中位数特点: 不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,各变量值与中位数的离差绝对值之和最小,即,(4)中位数与平均数的比较,平均数要求计算所有的数值,而中位数只用到数值的相对位置,一般说平均数比中位数利用了更多的信息,更全面和准确. 平均数容易受到极端值的影响,中位数则不会受到这种影响. 平均数是一种比中位数更为稳定的量度,它随样本的变化比较少. 平均数要求定距以上变量,中位数要求定序以上变量.,3、离散趋势

10、分析,含义:指用一个特别的数值来反映一组数据相互之间的离散程度。 作用: 与集中量数一起,共同反映资料分布的全面特征 对相应的集中量数的代表性作补充说明。 常见的离散量数统计量有全距、标难差、异众比率、四分位差等。其中,标准差、异众比率、四分位差分别与平均数、众数、中位数相对应,判定和说明平均数、众数、中位数代表性的大小。,3、离散趋势分析,离散程度的描述统计量 适用条件:主要用于数值型数据 (1)全距(极差)(ange) 定义:一组数据的最大值与最小值之差 计算公式:,3、离散趋势分析,全距的特征: 离散程度的最简单测度值 易受极端值的影响 未考虑数据的分布 意义: 极差越大,在一定程度上说

11、明这组数据的离散程度越大,集中量数的代表性越低。,3、离散趋势分析,(2)标准差:Standard Deviation一组数据对其平均数的偏差的平方的算术平均数的平方根。(方差的算术平方根) 例4、某校3个系各选5名同学,参加智力竞赛,他们的成绩分别如下: 中文系:78、79、80、81、82 数学系:65、72、80、88、95 英语系:35、78、89、98、100,标准差的计算 A.根据原始资料计算 B.单值分组数据资料计算 C.组距分组资料计算:先计算出各组的组中值,然后按单值分组资料计算公式和方法计算即可。,210+3120+450+520 X= =3.4人 200,(3)异众率Va

12、riation Ratio,含义:一组数据中非众数的次数相对于总体全部单位的比率。 计算表2、表3的异众率。,150-50 VR= =0.67=67% 150,异众比率的意义与作用,意义:众数所不能代表的其他数值,即非众数的数值在总体中的比重. 作用:异众比率越大,即众数所不能代表的其他数值在总体中的比重越大时,众数在总体中所占的比重自然越小,众数的代表性越小. 反之,异众比率越小,即众数所不能代表的其他数值在总体中的比重越小,众数的代表性越大.,(4)四分位差Interquartile Range,先将一组数据按大小排列顺序,然后将其4等分,去掉序列中最高的1/4和最低的1/4,仅就中间的一

13、半数值来测定序列的全距。 Q1的位置(第一个四分位点)=(n1)/4 Q3的位置(第三个四分位点)=3(n1)/4 QD=Q3-Q1,计算四分位差的方法,(1)对原始资料: 例:调查11位同学的年龄如下:17岁、18岁、18岁、19岁、19岁、20岁、20岁、21岁、21岁、22岁、。 首先,求出Q1和Q3的位置: Q1 的位置= = =3 Q3的位置= = =9 其次,从数序中找出Q1=18,Q3=21 则四分位差Q= Q3Q1=2118=3,计算四分位差的方法,例:甲村有8户人家,每户人数如下: 2,3,4,7,9,10,12,12 首先,求出Q1位置= =2.25 Q1=3+0.25(4

14、3)=3.25 Q3 位置= =675 Q3=10+0.75(1210)=11.5 所以Q=11.5 3.25=8.25,计算四分位差的方法,(2)对单值分组资料,表9-4学生的学业成绩,计算四分位差的方法,据公式可知: Q1位置= =20.25 Q3位置= =60.75 从累积次数分布表中,很易看到在这两个位置上的值分别是丁级和乙级,所以 Q=乙丁=两个等级,计算四分位差的方法,(3)对组距分组资料: 对组距分组资料Q1和Q3的计算公式为: Q1=L1+ w1 Q3=L3+ w3,其中 L1=Q1属组之真实下限 L3= Q3属组之真实下限 f1=Q1属组之次数 f3= Q3属组之次数 cf1

15、=低于Q1属组下限之累积次数 cf3=低于Q3属组下限之累积次数 w1=Q1属组之组距 w3=Q3属组之组距 n为全部个案数,计算四分位差的方法,表9-5某企业100名职工收入的分布,计算四分位差的方法,表9-5所示的资料 其Q1位置= = =25.25, 所以Q1在300399组内; Q3位置= = =75.75, 所以Q3在400499组内。,计算四分位差的方法,由公式可知: Q1=300+ 100=312.5 Q3=400+ 100=475 所以Q=Q3-Q1=162.5,(5)离散系数,离散系数:Coefficient of Variation,标准差与平均数的比值,用百分比表示. 意义:对同一总体中的两种不同的离散量数统计量进行比较;对两个不同总体中的同一离散量数统计量进行比较。 公式: 离散系数的作用,离散系数,例题:对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。问广州居民相互之间在收入的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些? 广州居民收入的离散系数为 武汉居民收入

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号