统计学基础知识-4－金锄头文库

资源描述

《统计学基础知识-4》由会员分享，可在线阅读，更多相关《统计学基础知识-4（90页珍藏版）》请在金锄头文库上搜索。

1、統計學基礎知識山西財經大學米子川1第四囘統計學初步什麽是統計學統計學的概念及統計思想導入基本統計量：均值、方差和標準差統計學解決問題的方式工業生產過程中的統計技術練習：分析一組資料的統計分佈和正態概率紙的應用。2質量管理的第一基礎統計學是什麽？3统计是什么？统计是人类思维的一个归纳过程站在一个路口，看到每过去20辆小轿车时，也有100辆自行车通过而且平均每10个轿车载有12个人于是，你认为小汽车和自行车在这个路口的运载能力为24:100 这是一个典型的统计思维过程4统计是什么？一般来说，统计先从现实世界收集数据（信息），如观测路口的交通然后，根据数据作出判断，称为模型模

2、型是从数据产生的模型也需要根据新的信息来改进不存在完美的模型模型的最终结局都是被更能够说明现实世界的新模型所取代5统计学可以应用于几乎所有的科學领域精算，农业，动物学，人类学，考古学，审计学，晶体学，人口统计学，牙医学，生态学，经济计量学，教育学，选举预测和策划，工程，流行病学，金融，水产渔业研究，遗传学，地理学，地质学，历史研究，人类遗传学，水文学，工业，法律，语言学，文学，劳动力计划，管理科学，市场营销学，医学诊断，气象学，军事科学，核材料安全管理，眼科学，制药学，物理学，政治学，心理学，心理物理学，质量控制，宗教研究，社会学，调查抽样，分类学，气象改善，博彩等。

3、6统计是什么？一句话，统计学（statistics）是用以收集数据，分析数据和由数据得出结论的一组概念、原则和方法。7以归纳为主要思维方式的统计统计可应用于各个不同学科，在有些学科已经有其特有的方法和特点；如生物统计 (biostatistics)、经济计量学 (econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(Data Mining)的方法主体都是统计質量管理和工業生産領域是統計學的一大重要應用領域8现实中的随机性和规律性，概率和机会一些现象既有规律性又有随机性(randomness) 肺癌患者中（主动或被动）吸烟的比例较大，这体现了

4、规律性而绝非每个吸烟者都会患肺癌，这体现了随机性9现实中的随机性和规律性，概率和机会再如，一般来说，白种人身材比黄种人要高些，这就是规律性但对于具体的一个白人和一个黄种人，就很难说谁高谁矮了，这体现随机性10我們在前面的課程中，引進了概率隨機變量及其分佈常用的統計分佈這些都是統計學研究的數學基礎，也是質量管理的重要知識準備。統計學研究的基礎在於11統計學的基本工具統計變量和數据12变量和数据一节火车车厢有多少坐位是一个固定的数目，称为常数(constant) 或者常量。但是，开车后，坐在这节车厢的旅客有多少就没准了。这有随机性。该车厢的乘客数为变量 (variable)

5、。13統計变量和数据一个学校的注册在校男女生比例是固定的，为常量但是，该校任意一群学生的男女生比例就不一定和全校的比例一样了，它为变量 (variable)。14有了变量，何谓数据？不同机构调查所得到的太原市收入万元以上市民的比例都不一样，这是变量而这些调查产生一些数目，这些数目就是数据(data) 数据是关于变量的观测值。數據是什麽？15統計数据通过数据可验证有关的理论或假定。比如通过抽样调查验证美国选民对共和党候选人的支持率是否超过 50% 通过抽样，可以检验某批产品是否合格等等16变量之间的关系现实世界紧密联系的人们想知道投资方式和经济效益之间的关系、旅客人

6、数和经济发展之间的关系等等不讨论变量之间的关系，就无从谈起任何有深度的应用，统计的基本概念就仅仅是摆设而已。17定量变量间的关系例广告投入和销售之间的关系。下表显示了某企业广告投入和销售额之间的关系（万元）。广告1.03.23.25.55.97.17.39.210.8 12.1销售9.431.833.2 52.4 53.5 56.0 56.9 59.2 60.1 63.518横坐标代表广告投入，而纵坐标代表销售收入。看得出有何种关系吗？19定量变量间的关系能否从该数据回答下面问题：这两个变量是否有关系？如果有，它们的关系是否显著？这些关系是什么关系，能否用数学模型来描述

7、？这个关系是否带有普遍性？这个关系是不是因果关系？20定量变量间的关系关于因果关系在可控制的试验中，较容易找到因果关系；比如治疗方式和疗效的关系等但是，一般来说，变量之间有关系这个事实并不意味着一定存在明确的因果关系。21思考一下工業生産中的變量關係一般會是怎樣的？生産出一個不合格品和什麽因素有關係？必然的還是偶然的？公鷄打鳴和太陽升起的關係22樣本和總體統計學的基本概念23数据是怎样得到的？在自然的未被控制的条件下观测到的数据，称为观测数据(observational data)。在人工干预和操作情况下收集的数据就称为试验数据(experimental data)。請你根據自己

8、的工作，举出观测数据和试验数据的例子。24个体、总体和样本需要调查太原市民对交通规则的观点；对象是所有市民，目的是希望知道市民中对该问题的不同看法各自占有的比例显然，不可能去问所有的北京市民，而只能够问一部分；并且根据这一部分的观点来理解整个太原市民的总体观点。25个体、总体和样本在这个例子中，单个太原市民的观点称为个体(element) 所有太原市民对这个问题的观点为一个总体(population)，总体是包含所有要研究的个体的集合。26个体、总体和样本而调查时问到的那部分市民的观点（也就是部分个体）称为该总体的一个样本 (sample)，是总体的一部分。也有可能试图

9、调查所有的人（比如人口普查），那叫做普查(census)。27工業管理通常情況下，工業生産中的縂體指一個檢驗批，要求在相同時間、地點、設備、技術和原材料儅要素前提下，完成生産。樣本是指部分個體的集合；單件產品是研究的個體。28均值、方差和標準差基本統計量29在对数据进行深入加工之前，总应该对数据有所印象。可以借助于图形和简单的运算，来了解数据的一些特征。由于数据是从总体中产生的，其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。30如何用图来表示数据？31直方图32盒型图盒子的中间横线是数据的中位数(median)，封闭盒子的上下两横线（边）为上下四分位数（点

10、）；按照SPSS的默认选项，如果所有样本中的数目都在离四分位点1.5倍盒子长度之内，则线的端点为最大和最小值，否则线长就是1.5倍的盒子长度（盒子长度称为四分位间距），在其外面的度量单独点出33散点图34饼图35如何用少量数字来概括数据？大量的数字既繁琐又不直观；需要对数据做人们时间和耐心所允许的简化我们可以用 “平均”，“差距”或百分比等来概括大量数字。由于定性变量主要是计数，比较简单，常用的概括就是比例或百分比。下面主要介绍关于定量变量的数字描述。36如何用少量数字来概括数据？可用少量所谓汇总统计量或概括统计量 (summary statistic)来描述定量变量的数据。

11、这些数字是从样本数据得来的，因而也是样本的函数，任何样本的函数，只要不包含总体的未知参数，都称为统计量(statistic)。样本的随机性决定统计量的随机性（统计量也是随机变量）37如何用少量数字来概括数据？概括统计量经常对应于总体的无法观测到的某些参数。这时，统计量可作为这些参数的估计。一些统计量还可以用来检验样本和假设的总体是否一致。38如何用少量数字来概括数据？注：一些统计量前面有时加上“ 样本”二字，以区别于总体的同名参数。如“样本均值”和“样本标准差”，以区别于总体均值和总体标准差；但在不会混淆时可以只说“均值”和“标准差”。39数据的“位置”数据有位置吗？

12、这里三个数据的位置一样吗？40数据的“位置”“位置”一般是关于数据中某变量观测值的“中心位置”或者数据分布的中心（ center或center tendency）。和这种“位置”有关的统计量就称为位置统计量(location statistic)。位置统计量当然不一定都是描述“中心” 了，比如后面要讲的k百分位数（或k 分位数）。41数据的“位置”最常用的位置统计量就是小学时所学到的算术平均数，它在统计中叫做均值(mean)；严格地说叫做样本均值(sample mean)，以区别于总体均值。如果记样本中的观测值为x1,xn，则样本均值定义为42(样本)中位数(median)

13、是数据按照大小排列之后位于中间的那个数(如果样本量为奇数)，或者中间两个数目的平均(如果样本量为偶数)。由于中位数不易被极端值影响，所以中位数比均值稳健 (robust)。数据的“位置”43上下四分位数（或分别称为第一四分位数和第三四分位数，first quantile, third quantile）则分别位于（按大小排列的）数据的上下四分之一的地方。数据的“位置”44数据的“位置”一般地还称上四分位数为75百分位数（75 pecentile，有75的观测值小于它），下四分位数为25百分位数（有25的观测值小于它）。一般地，k百分位数（k-pecentile）意味着有k

14、的观测值小于它。如果令a=k%，则k百分位数也称为a分位数(a- quantile)。样本中出现最多的数目，称为众数(mode)45数据的“尺度”这两个数据“胖瘦”一样吗？46数据的“尺度”数据中数目的分散程度由尺度统计量（scale statistic）来描述。尺度统计量是描述数据散布，即描述集中与分散程度或变化（ spread或variability）的度量。47数据的“尺度”从前面两个高三男生身高数据的盒形图。左边的数据平均要高些，但右边的数据散布范围要小得多。统计中有许多尺度统计量。一般来说，数据越分散，尺度统计量的值越大。48数据的“尺度”极差(range)；就是

15、极大值和极小值之间的差。前面两个高三男生身高数据的极差分别为 50cm和32cm。盒形图盒子的长度为两个四分位数之差，称为四分位数极差或四分位间距 (interquantile range)；它描述了中间半数观测值的散布情况。极差和四分位极差实际上各自只依赖于两个值，信息量太少。49数据的“尺度”另一个常用的尺度统计量为（样本）标准差(standard deviation)。度量样本中各数值到均值距离的平均。标准差实际上是方差(variance)的平方根。如果记样本中的观测值为x1,xn，则样本方差为50数据的“尺度”两个均值一样，但右边的要“胖”些，方差为左边的一倍51数据

16、的标准得分假定两个水平类似的班级（一班和二班）上同一门课，但是由于两个任课老师的评分标准不同，使得两个班成绩的均值和标准差都不一样。52数据的标准得分一班分数的均值和标准差分别为78.53 和9.43，而二班的均值和标准差分别为 70.19和7.00。那么得到90分的一班的张颖是不是比得到82分的二班的刘威成绩更好呢？怎么比较才能合理呢？53数据的标准得分虽然这种均值和标准差不同的数据不能够直接比较，但是可以把它们进行标准化，再比较标准化后的数据。一个标准化的方法是把某样本原始观测值（亦称得分，score）和该样本均值之差除以该样本的标准差；得到的度量称为标准得分 (standard score，又称为z-score)。54数据的标准得分即，某观测值xi的标准得分定义为55数据的标准得分在我们的例子中，张颖的标

展开阅读全文