描述统计学ppt课件

上传人:资****亨 文档编号:143945484 上传时间:2020-09-03 格式:PPT 页数:95 大小:912.50KB
返回 下载 相关 举报
描述统计学ppt课件_第1页
第1页 / 共95页
描述统计学ppt课件_第2页
第2页 / 共95页
描述统计学ppt课件_第3页
第3页 / 共95页
描述统计学ppt课件_第4页
第4页 / 共95页
描述统计学ppt课件_第5页
第5页 / 共95页
点击查看更多>>
资源描述

《描述统计学ppt课件》由会员分享,可在线阅读,更多相关《描述统计学ppt课件(95页珍藏版)》请在金锄头文库上搜索。

1、描述统计学及其应用,李道军 E-MAIL:,目录,第一 :导论 第二 :数据的概括性度量:均值和标准差 第三 : 统计学的应用:相关分析与回归分析,1 导论,1.1 统计及其应用领域 1.2 统计数据的类型 1.3 统计中的几个基本概念,引言:什么是统计,搜集、整理、分析数据的科学就是统计,统计的核心问题就是关于数据的问题 统计是从数据中找出信息,并且做出结论。我们用的工具是图表和计算,加上常识判断。 统计结论是对一群个体“平均来说”(on the average)的结论。但对于任何特定的个体,可就没说什么。 结论并不是百分之百的数学定律不能百分百确实的用在现实生活里,能百分百确实地用数学定律

2、描述的,就不是现实生活。,什么是统计学? (statistics),统计学是收集、分析、表述和解释数据的科学(不列颠百科全书) 统计是一门收集、分析、解释和提供数据的科学(韦伯斯特国际辞典第3版) 统计指的是一组方法,用来设计实验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论(Mario F.Triola,初级统计学),统计研究的过程,实际问题,统计方法,描述统计(descriptive statistics),研究数据收集、整理和描述的统计学分支 内容 收集数据 整理数据 展示数据 描述性分析 目的 描述数据特征 找出数据的基本规律,推断统计 (inferentia

3、l statistics),研究如何利用样本数据来推断总体特征的统计学分支 内容 参数估计 假设检验 目的 对总体特征作出推断,描述统计与推断统计的关系,反映客观现象的数据,描述统计 (数据的收集、整理、显示和分析等),统计的应用领域,经济学,管理学,医学,工程学,社会学,统计学,1.2 统计数据的类型,1.2.1 分类数据、顺序数据、数值型数据 1.2.2 观测数据和实验数据 1.2.3 截面数据和时间序列数据,统计数据的分类,统计数据的分类,统计数据的分类 (按计量尺度分),分类数据(categorical data) 只能归于某一类别的非数字型数据 对事物进行分类的结果,数据表现为类别,

4、用文字来表述 例如,人口按性别分为男、女两类 2. 顺序数据(rank data) 只能归于某一有序类别的非数字型数据 对事物类别顺序的测度,数据表现为类别,用文字来表述 例如,产品分为一等品、二等品、三等品、次品等 3. 数值型数据(metric data) 按数字尺度测量的观察值 结果表现为具体的数值,对事物的精确测度 例如:身高为175cm、168cm、183cm,统计数据的分类(按收集方法分),观测的数据(observational data) 通过调查或观测而收集到的数据 在没有对事物人为控制的条件下而得到的 有关社会经济现象的统计数据几乎都是观测数据 试验的数据(experimen

5、tal data) 在试验中控制试验对象而收集到的数据 比如,对一种新药疗效的试验,对一种新的农作物品种的试验等 自然科学领域的数据大多数都为试验数据,统计数据的分类(按时间状况分),截面数据(cross-sectional data) 在相同或近似相同的时间点上收集的数据 描述现象在某一时刻的变化情况 比如,2005年我国各地区的国内生产总值数据 时间序列数据(time series data) 在不同时间上收集到的数据 描述现象随时间变化的情况 比如,2000年至2005年国内生产总值数据,1.3 统计中的几个基本概念,1.3.1 总体和样本 1.3.2 参数和统计量 1.3.3 变量,总

6、体和样本,总体(population) 所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素 分为有限总体和无限总体 有限总体的范围能够明确确定,且元素的数目是有限的 无限总体所包括的元素是无限的,不可数的 样本 (sample) 从总体中抽取的一部分元素的集合 构成样本的元素的数目称为样本容量或样本量 (sample size),参数和统计量,参数(parameter) 描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值 所关心的参数主要有总体均值()、标准差()、总体比例()等 总体参数通常用希腊字母表示 统计量(statistic) 用来描述样本特征的概括性数字度量

7、,它是根据样本数据计算出来的一些量,是样本的函数 所关心的样本统计量有样本均值(x)、样本标准差(s)、样本比例(p)等 样本统计量通常用小写英文字母来表示,变 量(variable),说明现象某种特征的概念 如商品销售额、受教育程度、产品的质量等级等 变量的具体表现称为变量值,即数据 变量可以分为 分类变量(categorical variable) :说明事物类别的名称 顺序变量(rank variable):说明事物有序类别的名称 数值型变量(metric variable) :说明事物数字特征的名称 离散变量:取有限个值 连续变量:可以取无穷多个值,变 量(其他分类),随机变量和非随机

8、变量 经验变量(empirical variables)和理论变量(theoretical variables) 经验变量所描述的是我们周围可以观察到的事物 理论变量则是由统计学家用数学方法所构造出来的一些变量,比如,z 统计量、t 统计量、2统计量、F 统计量等,变量及其类型,统计中的几个基本概念,几种常用的统计软件(software),典型的统计软件 SAS SPSS MINITAB STATISTICA Excel,2、数据的概括性度量,2.1集中趋势的度量 2.2离散程度的度量 2.3 偏态与峰态,数据分布的特征,2.1集中趋势的度量,2.1.1 分类数据:众数 2.1.2 顺序数据:

9、中位数和分位数 2.1.3 数值型数据:平均数 2.1.4 众数、中位数和平均数的比较,集中趋势(central tendency),众数(mode) 中位数(median) 平均数 (mean),众数(mode),一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据,中位数(median),排序后处于中间位置上的值,不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即,中位数(位置和数值的确定),位置确定,数值确定,平均数(mea

10、n),也称为均值 集中趋势的最常用测度值 一组数据的均衡点所在 4. 体现了数据的必然性特征 5. 易受极端值的影响 6. 有简单平均数和加权平均数之分 7. 根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x,简单平均数(Simple mean),设一组数据为:x1 ,x2 , ,xn (总体数据xN),样本平均数,总体平均数,加权平均数 (Weighted mean),设各组的组中值为:M1 ,M2 , ,Mk 相应的频数为: f1 , f2 , ,fk,样本加权平均,总体加权平均,加权平均数 (例题分析),加权平均数(权数对均值的影响),甲乙两组各有10名学

11、生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ):1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ):8 1 1,统计函数AVERAGE,平均数(数学性质),1.各变量值与平均数的离差之和等于零,2. 各变量值与平均数的离差平方和最小,几何平均数(geometric mean),n 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率 计算公式为,5. 可看作是平均数的一种变形,几何平均数 (例题分析),【例】某水泥生产企业1999年的水泥产量为100万吨,2000年与1999年相比增长率为9%,20

12、01年与2000年相比增长率为16%,2002年与2001年相比增长率为20%。求各年的年平均增长率,年平均增长率114.91%-1=14.91%,几何平均数 (例题分析),【例】一位投资者购持有一种股票,在2000、2001、2002和2003年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,统计函数GEOMEAN,众数、中位数和平均数的关系,众数、中位数、平均数的特点和应用,众数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大且有明显峰值时应用 中位数 不受极端值影响 数据分布偏斜程度较大时应用 平均数 易受极端值影响

13、数学性质优良 数据对称分布或接近对称分布时应用,2.2 离散程度的度量,2.2.1 分类数据:异众比率 2.2.2 顺序数据:四分位差 2.2.3 数值型数据:方差和标准差 2.2.4 相对离散程度:离散系数,离中趋势,数据分布的另一个重要特征 反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值,极差(range),一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布,R = max(xi) - min(xi),计算公式为,平均差(mean deviation),各变量值与其平均数离差绝

14、对值的平均数 能全面反映一组数据的离散程度 数学性质较差,实际中应用较少,计算公式为,未分组数据,组距分组数据,平均差 (例题分析),平均差 (例题分析),含义:每一天的销售量平均数相比, 平均相差17台,统计函数AVEDEV,方差和标准差(variance and standard deviation),数据离散程度的最常用测度值 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差,记为2();根据样本数据计算的,称为样本方差或标准差,记为s2(s),样本方差和标准差 (simple variance and standard deviation),未分组数据,组距分组

15、数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,样本标准差 (例题分析),样本标准差 (例题分析),含义:每一天的销售量与平均数相比, 平均相差21.58台,统计函数STDEV,总体方差和标准差 (Population variance and Standard deviation),未分组数据,组距分组数据,未分组数据,组距分组数据,方差的计算公式,标准差的计算公式,相对位置的度量:标准分数,标准分数(standard score),1. 也称标准化值 2.对某一个值在一组数据中相对位置的度量 3.可用于判断一组数据是否有离群点(outlier) 4.用于对变量的标准化处理

16、 5. 计算公式为,标准分数(性质),均值等于0 2.方差等于1,标准分数(性质),z分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1,标准分数 (例题分析),切比雪夫不等式(Chebyshevs inequality ),对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有94%的数据落在平均数加减4个标准差的范围之内,思考题,一家公司在招聘收职员时,首先要通过两项能力测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该位应试者哪一项测试更为理想?,2.3 偏态与峰态的度量,2.3.1 偏态及其测度 2.3.2 峰态及其测度,偏态

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号