统计学基础知识-4

上传人:子 文档编号:51931662 上传时间:2018-08-17 格式:PPT 页数:90 大小:1.59MB
返回 下载 相关 举报
统计学基础知识-4_第1页
第1页 / 共90页
统计学基础知识-4_第2页
第2页 / 共90页
统计学基础知识-4_第3页
第3页 / 共90页
统计学基础知识-4_第4页
第4页 / 共90页
统计学基础知识-4_第5页
第5页 / 共90页
点击查看更多>>
资源描述

《统计学基础知识-4》由会员分享,可在线阅读,更多相关《统计学基础知识-4(90页珍藏版)》请在金锄头文库上搜索。

1、統計學基礎知識山西財經大學 米子川1第四囘 統計學初步什麽是統計學 統計學的概念及統計思想導入基本統計量:均值、方差和標準差統計學解決問題的方式工業生產過程中的統計技術練習:分析一組資料的統計分佈和正態概率紙 的應用。2質量管理的第一基礎統計學是什麽?3统计是什么?统计是人类思维的一个归纳过程 站在一个路口,看到每过去20辆 小轿车时,也有100辆自行车通过 而且平均每10个轿车载有12个人 于是,你认为小汽车和自行车在这 个路口的运载能力为24:100 这是一个典型的统计思维过程4统计是什么?一般来说,统计先从现实世界收集数据( 信息),如观测路口的交通 然后,根据数据作出判断,称为模型 模

2、型是从数据产生的 模型也需要根据新的信息来改进 不存在完美的模型 模型的最终结局都是被更能够说明现实世 界的新模型所取代5统计学可以应用于几乎所有的科學领域精算,农业,动物学,人类学,考古学,审计学,晶体 学,人口统计学,牙医学,生态学,经济计量学,教育 学,选举预测和策划,工程,流行病学,金融,水产渔 业研究,遗传学,地理学,地质学,历史研究,人类遗 传学,水文学,工业,法律,语言学,文学,劳动力计 划,管理科学,市场营销学,医学诊断,气象学,军事 科学,核材料安全管理,眼科学,制药学,物理学,政 治学,心理学,心理物理学,质量控制,宗教研究,社 会学,调查抽样,分类学,气象改善,博彩等。

3、6统计是什么?一句话,统计学(statistics)是用以收集数 据,分析数据和由数据得出结论的一 组概念、原则和方法。7以归纳为主要思维方式的统计统计可应用于各个不同学科,在有些学科已 经有其特有的方法和特点;如生物统计 (biostatistics)、经济计量学 (econometrics)以及目前很热门的生物信 息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计質量管理和工業生産領域是統計學的一大重 要應用領域8现实中的随机性和规律性,概率和机会一些现象既有规律性又有随机 性(randomness) 肺癌患者中(主动或被动)吸 烟的比例较大,这体现了

4、规律 性 而绝非每个吸烟者都会患肺癌 ,这体现了随机性9现实中的随机性和规律性,概率和机会再如,一般来说,白种人 身材比黄种人要高些,这 就是规律性 但对于具体的一个白人和 一个黄种人,就很难说谁 高谁矮了,这体现随机性10我們在前面的課程中,引進了概率隨機變量及其分佈常用的統計分佈這些都是統計學研究的數學基礎,也 是質量管理的重要知識準備。統計學研究的基礎在於11統計學的基本工具統計變量和數据12变量和数据一节火车车厢有多少坐位是一个 固定的数目,称为常数(constant) 或者常量。但是,开车后,坐在这节车厢的 旅客有多少就没准了。这有随机 性。该车厢的乘客数为变量 (variable)

5、。13統計变量和数据一个学校的注册在校男女 生比例是固定的,为常量 但是,该校任意一群学生 的男女生比例就不一定和全 校的比例一样了,它为变量 (variable)。14有了变量,何谓数据? 不同机构调查所得到的太原市 收入万元以上市民的比例都不 一样,这是变量 而这些调查产生一些数目,这 些数目就是数据(data) 数据是关于变量的观测值。數據是什麽?15統計数据通过数据可验证有关的理论或假定 。 比如通过抽样调查验证美国选民对 共和党候选人的支持率是否超过 50% 通过抽样,可以检验某批产品是否 合格等等16变量之间的关系现实世界紧密联系的 人们想知道投资方式和经济效益之 间的关系、旅客人

6、数和经济发展之 间的关系等等 不讨论变量之间的关系,就无从谈 起任何有深度的应用,统计的基本 概念就仅仅是摆设而已。17定量变量间的关系例 广告投入和销售之间的关系。下表显示了某 企业广告投入和销售额之间的关系(万元)。广告1.03.23.25.55.97.17.39.210.8 12.1销售9.431.833.2 52.4 53.5 56.0 56.9 59.2 60.1 63.518横坐标代表广告投入,而纵 坐标代表销售收入。 看得出有何种关系吗?19定量变量间的关系能否从该数据回答下面问题: 这两个变量是否有关系? 如果有,它们的关系是否显著? 这些关系是什么关系,能否用数学模 型来描述

7、? 这个关系是否带有普遍性? 这个关系是不是因果关系?20定量变量间的关系关于因果关系在可控制的试验中,较容易找到因果关系; 比如治疗方式和疗效的关系等但是,一般来说,变量之间有关系这个事实 并不意味着一定存在明确的因果关系。21思考一下工業生産中的變量關係一般會是怎樣的?生産出一個不合格品和什麽因素有關係?必然 的還是偶然的?公鷄打鳴和太陽升起的關係22樣本和總體統計學的基本概念23数据是怎样得到的?在自然的未被控制的条件下观测到的数据, 称为观测数据(observational data)。在人工干预和操作情况下收集的数据就称为 试验数据(experimental data)。請你根據自己

8、的工作,举出观测数据和试验 数据的例子。24个体、总体和样本需要调查太原市民对交通规则的观点; 对象是所有市民, 目的是希望知道市民中对该问题的不同 看法各自占有的比例 显然,不可能去问所有的北京市民,而 只能够问一部分; 并且根据这一部分的观点来理解整个太 原市民的总体观点。25个体、总体和样本在这个例子中,单个太原市民的观 点称为个体(element) 所有太原市民对这个问题的观点为 一个总体(population),总体是 包含所有要研究的个体的集合。26个体、总体和样本而调查时问到的那部分市民的观点(也 就是部分个体)称为该总体的一个样本 (sample),是总体的一部分。也有可能试图

9、调查所有的人(比如人口 普查),那叫做普查(census)。27工業管理通常情況下,工業生産中的縂體指一個檢驗批 ,要求在相同時間、地點、設備、技術和原材 料儅要素前提下,完成生産。樣本是指部分個體的集合;單件產品是研究的個體。28均值、方差和標準差基本統計量29在对数据进行深入加工之前,总应该对数据有 所印象。可以借助于图形和简单的运算,来了解数据的 一些特征。由于数据是从总体中产生的,其特征也反映了 总体的特征。对数据的描述也是对其总体的一 个近似的描述。30如何用图来表示数据?31直方图32盒型图盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为上下四分 位数(点

10、);按照SPSS的默认选项,如果所有样本中的数目都在离四分位点1.5倍盒 子长度之内,则线的端点为最大和最小值,否则线长就是1.5倍的盒子长度(盒子长 度称为四分位间距),在其外面的度量单独点出33散点图34饼图35如何用少量数字来概括数据?大量的数字既繁琐又不直观;需要对数据 做人们时间和耐心所允许的简化 我们可以用 “平均”,“差距”或百分比等 来概括大量数字。 由于定性变量主要是计数,比较简单,常 用的概括就是比例或百分比。下面主要介 绍关于定量变量的数字描述。36如何用少量数字来概括数据?可用少量所谓汇总统计量或概括统计量 (summary statistic)来描述定量变 量的数据。

11、 这些数字是从样本数据得来的,因而也 是样本的函数, 任何样本的函数,只要不包含总体的未 知参数,都称为统计量(statistic)。 样本的随机性决定统计量的随机性(统 计量也是随机变量)37如何用少量数字来概括数据?概括统计量经常对应于总体的无 法观测到的某些参数。这时,统计量可作为这些参数的 估计。一些统计量还可以用来检 验样本和假设的总体是否一致。38如何用少量数字来概括数据?注:一些统计量前面有时加上“ 样本”二字,以区别于总体的同 名参数。如“样本均值”和“样本 标准差”,以区别于总体均值和 总体标准差;但在不会混淆时可 以只说“均值”和“标准差”。39数据的“位置”数据有位置吗?

12、这里三个数据的位置一样吗?40数据的“位置”“位置”一般是关于数据中某变量观测值 的“中心位置”或者数据分布的中心( center或center tendency)。 和这种“位置”有关的统计量就称为位置 统计量(location statistic)。 位置统计量当然不一定都是描述“中心” 了,比如后面要讲的k百分位数(或k 分位数)。41数据的“位置”最常用的位置统计量就是小学时所学到的算术 平均数,它在统计中叫做均值(mean);严格地 说叫做样本均值(sample mean),以区别于总体 均值。 如果记样本中的观测值为x1,xn,则样本均值 定义为42(样本)中位数(median)

13、是数 据按照大小排列之后位于中间的 那个数(如果样本量为奇数),或 者中间两个数目的平均(如果样 本量为偶数)。由于中位数不易被极端值影响, 所以中位数比均值稳健 (robust)。数据的“位置”43上下四分位数(或分别称 为第一四分位数和第三四 分位数,first quantile, third quantile)则分别位 于(按大小排列的)数据 的上下四分之一的地方。数据的“位置”44数据的“位置”一般地还称上四分位数为75百分位数(75 pecentile,有75的观测值小于它),下四分位 数为25百分位数(有25的观测值小于它)。 一般地,k百分位数(k-pecentile)意味着有k

14、 的观测值小于它。 如果令a=k%,则k百分位数也称为a分位数(a- quantile)。 样本中出现最多的数目,称为众数(mode)45数据的“尺度”这两个数据“胖瘦”一样吗?46数据的“尺度”数据中数目的分散程度由尺度统计 量(scale statistic)来描述。 尺度统计量是描述数据散布,即描 述集中与分散程度或变化( spread或variability)的度量。47数据的“尺度”从前面两个高三男生身高数据的盒形图。 左边的数据平均要高些,但右边的数据散 布范围要小得多。统计中有许多尺度统计量 。一般来说,数据越分散 ,尺度统计量的值越大。48数据的“尺度”极差(range);就是

15、极大值和极小值之间的 差。 前面两个高三男生身高数据的极差分别为 50cm和32cm。 盒形图盒子的长度为两个四分位数之差,称 为四分位数极差或四分位间距 (interquantile range);它描述了中间半 数观测值的散布情况。极差和四分位极差实 际上各自只依赖于两个值,信息量太少。49数据的“尺度”另一个常用的尺度统计量为(样本)标准差(standard deviation)。度量样本中各数值到均值距离的平均。 标准差实际上是方差(variance)的平方根。如果记样本 中的观测值为x1,xn,则样本方差为50数据的“尺度”两个均值一样,但右边的要“胖”些,方差为 左边的一倍51数据

16、的标准得分假定两个水平类似的班级(一班和 二班)上同一门课,但是由于两个任课老师的评分标准 不同,使得两个班成绩的均值和标 准差都不一样。52数据的标准得分一班分数的均值和标准差分别为78.53 和9.43,而二班的均值和标准差分别为 70.19和7.00。那么得到90分的一班的张颖是不是比得 到82分的二班的刘威成绩更好呢?怎么 比较才能合理呢?53数据的标准得分虽然这种均值和标准差不同的数据不能够直 接比较,但是可以把它们进行标准化,再比 较标准化后的数据。一个标准化的方法是把某样本原始观测值( 亦称得分,score)和该样本均值之差除以该 样本的标准差;得到的度量称为标准得分 (standard score,又称为z-score)。54数据的标准得分即,某观测值xi的标准得分定义为55数据的标准得分在我们的例子中,张颖的标

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号