统计学之数据的特征量与统计分析.doc

上传人:F****n 文档编号:95565734 上传时间:2019-08-20 格式:DOC 页数:37 大小:4.19MB
返回 下载 相关 举报
统计学之数据的特征量与统计分析.doc_第1页
第1页 / 共37页
统计学之数据的特征量与统计分析.doc_第2页
第2页 / 共37页
统计学之数据的特征量与统计分析.doc_第3页
第3页 / 共37页
统计学之数据的特征量与统计分析.doc_第4页
第4页 / 共37页
统计学之数据的特征量与统计分析.doc_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《统计学之数据的特征量与统计分析.doc》由会员分享,可在线阅读,更多相关《统计学之数据的特征量与统计分析.doc(37页珍藏版)》请在金锄头文库上搜索。

1、第三章 数据的特征量及统计分析第一节 集中量n 集中量是代表一组数据典型水平或集中趋势(central tendency)的量。n 它能反映频数分布中大量数据向某一点集中的情况。n 常用的集中量有算术平均数 、中位数Md 、众数M0等。一、平均数或算术平均数( mean or arithmetic average )的概念算术平均数是所有观察值的总和除以总频数之商,简称平均数或均数、均值。若以X1,X2,XN表示X变量各个观察值,N表示观察值的个数,则算术平均数可表示为:二、算术平均数的性质1.观察值总和等于算术平均数的N倍。2.在一组观察值中,每个观察值与该组均值之差(离均差)之和等于零。3

2、.在一组数据中,每个数都加上或减去一个常数,所得的平均数为原来的平均数加上或减去此常数。4.在一组数据中,每个数都乘以或除以一个常数,所得的平均数为原来的平均数乘以或除以这个常数。5.如果某一组观察值是由多个部分组成,这组观察值的平均数可由组成部分的平均数求得三、算术平均数的计算方法1.原始数据计算法2.频数分布表计算法可以用频数分布表计算一组数据算术平均数的近似值。公式为:频数分布表计算法3.用假定平均数计算平均数的方法设假定平均数为A,则,用假定平均数计算算术平均数的公式为:四、加权平均数、几何平均数、调和平均数六、算术平均数的优缺点算术平均数具备一个良好的集中量所应具备的一些特点:反应灵

3、敏、有公式严密确定、简明易懂、适合代数运算等等,因此是一个最常用的集中量。主要不足:当数据中有极端值时,不宜使用算术平均数。(截尾平均数)当数据不同质时,不宜使用算术平均数。1.截尾平均数:又称修剪平均数(trimmed mean)是从一组数据中去除一定百分比(如5%)的最大值和最小值数据后,再次计算的算术平均数。2.同质:同一种测量工具所测量的某一特质 。七、计算和应用算术平均数的原则同质性原则:算术平均数只能用于表示同类数据的集中趋势。平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的数据。平均数与标准差、方差相结合原则:描述一组数据时既要分析其集中趋势,也要分析

4、离散程度。二、中位数的计算方法52名学生数学成绩频数分布表三、中位数的特点及应用中位数是根据全部数据的个数来确定其位置的,意义简明,对按顺序排列的数据来讲,计算中位数也比较容易。中位数不受两端极端数据的影响,但反应不灵敏,也不适合进一步代数运算的要求。一般用于下列情况:一组数据中有极端数据时;资料属于等级性质时。四分位数 四分位数( quartile )( Q1,Q2,Q3)十分位数(decile )( Q1,Q2 Q9 )百分位数(percentile)(PP)四分位数数据: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36 由小到大排列的结果: 6, 7,

5、15, 36, 39, 40, 41, 42, 43, 47, 49Q1 = 15, Q2 = 40, Q3 = 43 四分位数的位置:Q1的位置=(n+1)/4Q2的位置=(n+1)/2 Q3的位置=3(n+1)/4n表示项数:数据: 7, 15, 36, 39, 40, 41 一共6项 Q1 的位置=(6+1)/4=1.75 Q2 的位置=(6+1)/2=3.5 Q3的位置=3(6+1)/4=5.25Q1 = 7+(15-7)(1.75-1)=13 Q2 = 36+(39-36)(3.5-3)=37.5Q3 = 40+(41-40)(5.25-5)=40.25百分位数的概念52名学生数学成

6、绩频数分布表计算第70百分位数四分位距的计算方法 1.原始数据计算法2.频数分布表计算法用中位数作集中量时,常用四分位距作差异量。因为它们都属于百分体系。百分位差(百分位距) 百分位距是指两个百分位数之差。常用的百分位距有两种:一是第90百分位数与第10百分位数之差,用P90P10表示。即依一定顺序排列的一组数据中间部位80%个频数的距离。另一个是第93百分位数与第7百分位数之差,用P93P7表示,是一组数据中间部位86%个频数的距离。计算公式:三、方差和标准差方差(variance)又称为变异数,是表示一组数据离散程度的统计指标。一般样本的方差用 或 表示,总体的方差用 表示。 标准差(st

7、andard deviation)是方差的算术平方根。一般样本的标准差用 S 或 表示,总体的标准差用 表示。标准差和方差是描述数据离散程度的最常用的差异量。1.方差和标准差的定义2方差和标准差的计算公式1) 原始数据计算法2)频数分布表计算公式52名学生数学成绩方差和标准差计算表标准差的合成某年级四个班的学生人数分别为50人、52人、48人、51人。期末数学考试各班平均成绩分别为90分、85分、88分、92分,标准差分别为6分、5.5分、7分、8.2分。求四个班成绩的总标准差。解:设N1=50, N2=52, N3=48, N4=51例题3-173方差和标准差的应用及优缺点方差与标准差是表示

8、一组数据离散程度的最好指标,是统计分析中最常用的差异量。标准差具备一个良好的差异量应具备的条件,如:反应灵敏,有公式严密确定,简明易懂,适合代数运算。应用方差和标准差表示一组数据的离散程度,须注意必须是同一类数据(即同一种测量工具的测量结果),而且被比较样本的水平比较接近。四相对差异量1.差异系数的概念及计算公式差异系数(coefficient of variation)是指标准差与其算术平均数的百分比,它是没有单位的相对数。常以CV表示,其计算公式为2.差异系数的作用比较不同单位资料的差异程度 ;比较单位相同而平均数相差较大的两组资料的差异程度可判断特殊差异情况 根据经验,一般CV值常在53

9、5之间。如果CV大于35时,可怀疑所求得的平均数是否失去了意义;如果CV小于5时,可怀疑平均数与标准差是否计算有误。比较计量单位不同的数据资料的差异程度上海市区6岁男童体重与身高数据:上海市区两组女童体重的数据: 3.差异系数的应用条件差异系数主要应用于平均数不等于零的连续数据。学科成绩可以勉强计算差异系数。五、偏态量及峰态量偏态量和峰态量是用以描述数据分布特征的统计量。偏态量和峰态量是用以描述数据分布特征的统计量。在考察频数分布是否呈正态分布时,也要用到偏态量和峰态量作为指标。一、偏态量 有两种计算方法:利用算术平均数与众数或中位数的距离来计算当频数分布呈正态时,算术平均数( )、中位数(M

10、d)和众数(Mo)三者合为一点,即 =Md=Mo;当频数分布呈偏态时, 与Md距离较近,而与Mo距离较远。分布呈正偏态时, MdMo;分布呈负偏态时, MdMo。皮尔逊根据他的这一发现,提出了描述数据分布形态的偏态量。其公式为:在这里,SK表示偏态量, 表示算术平均数,Mo表示众数, 表示标准差。当SK=0,则分布呈对称形;当SK,分布呈正偏态,当SK,分布为负偏态。由于Mo具有不稳定、不确定性,常可以用中位数及算术平均数来表示众数。将公式Mo3Md-2 代入上式:二、峰态量用两个百分位距来计算一个频数分布,若平均数周围频数比例越大,分布形态越高狭;若平均数周围频数比例较小,则分布形态越低阔。

11、常用的峰态量是以第75与第25百分位距比上2倍的第90与第10的百分位距。用公式可表示为:当Ku=0.263,分布呈正态峰;Ku0.263,分布呈高狭峰;Ku0.263,分布呈低阔峰。只有当n1000时,所计算出的峰态系数才比较可靠。六、标准分数1.标准分数的定义标准分数是将原始数据与其平均数之差,除以标准差所得的商。标准分数是以标准差为单位衡量某一原始数据与平均数之差的,即刻画了原始分数在平均数以上或以下几个标准差的位置上。实际上,标准分数是无名数(没有单位),是一种相对位置量数。2.标准分数的性质:一组数据的标准分数的平均数为0,即一组数据的标准分数的标准差为1,即3.标准分数的求法一组数

12、据平均数为83,标准差为6.56.求每个数据对应的标准分数4.标准分数的应用1)比较某个学生在不同测验中得分的优劣例:测验一个班级的数学成绩,平均分为80分,标准差为8分,又测验了该班的语文成绩,平均分为70分,标准差为5分。一名学生数学得分81分,语文得分78分。问该生哪一门科目在班上的成绩较好。解:Z数学=(81-80)/8=0.125Z语文=(78-70)/5=1.6故在班级中,该生语文成绩比数学成绩好。2)计算学生的总成绩例:在招生考试中,有甲、乙两个考生各科成绩如下。如果这两个考生只录取一个,请问应该录取哪个考生?第四章推断统计概述本章主要内容:概率论基本知识,几种常见的概率分布,抽

13、样分布的基本原理,参数估计的基本原理假设检验的基本原理第一部分 概率论基本知识 一、概率的定义 二、概率的性质三、概率的加法定理和乘法定理 四、概率分布类型一、概率的定义 1.后验概率(或统计概率) 随机事件的频率当n无限增大时,随机事件A的频率会稳定在一个常数P,这个常数就是随机事件A的概率。2.先验概率(古典概率)古典概率模型要求满足两个条件: 试验的所有可能结果是有限的; 每一种可能结果出现的可能性相等。二概率的性质1任何随机事件的概率都是在0与1之间的正数,即 0 P(A)12不可能事件的概率等于零,即 P(A)= 0 3必然事件的概率等于1,即 P(A)= 1 三概率的加法定理和乘法

14、定理概率的加法定理:若事件发生,则事件就一定不发生,这样的两个事件为互不相容事件。 两互不相容事件和的概率,等于这两个事件概率之和,即概率的乘法定理 若事件发生不影响事件是否发生,这样的两个事件为互相独立事件。 两个互相独立事件积的概率,等于这两个事件概率的乘积,即 例1:某一学生从个试题中任意抽取一题,进行口试。如果抽到每一题的概率为15,则抽到试题或试题的概率是多少? 如果前一个学生把抽过的试题还回后,后一个学生再抽,则个学生都抽到试题1的概率是多少? 计算抽到第一题或第二题的概率应为抽到第一题的概率和抽到第二题的概率之和,即四个学生都抽到第一题即四个学生同时抽到第一题,其概率应为抽到第一题的概率的乘积,即例2:从30个白球和20个黑球共50个球中随机抽取两次(放回抽样),问抽出一个黑球和一个白球的概率是多少? 解:抽出一个白球的概率为35,抽出一个黑球的概率为25。抽出一个黑球和一个白球的情况应包括先抽出一个黑球、后抽出一个白球和先抽出一个白球、后抽出一个黑球两种情况。因此:四、概率分布类型二项分布的概率分布函数 这里, !为阶乘符

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号