上海财经大学用统计学

上传人:cn****1 文档编号:587199970 上传时间:2024-09-05 格式:PPT 页数:223 大小:2.04MB
返回 下载 相关 举报
上海财经大学用统计学_第1页
第1页 / 共223页
上海财经大学用统计学_第2页
第2页 / 共223页
上海财经大学用统计学_第3页
第3页 / 共223页
上海财经大学用统计学_第4页
第4页 / 共223页
上海财经大学用统计学_第5页
第5页 / 共223页
点击查看更多>>
资源描述

《上海财经大学用统计学》由会员分享,可在线阅读,更多相关《上海财经大学用统计学(223页珍藏版)》请在金锄头文库上搜索。

1、1应用统计学管理科学与工程学科综合水平考试信息管理与工程学院2应用统计学考试大纲n考试要求:经济管理中常用的基本统计原理和方法熟悉统计计算方法和公式,并能正确地解释计算结果初步具有应用定量的统计模型以及科学的统计方法进行现代化管理和决策的能力信息管理与工程学院3应用统计学考试大纲(续)n考试内容:数据的整理与图形常用随机变量的分布以及抽样分布参数估计假设检验回归分析时间序列分析n考试时间:每年五月份第3个星期日下午信息管理与工程学院4应用统计学教学进度表日期教学内容教学方法3月3下午第一章 数据的整理与图形课堂与上机3月4上午第二章 常用随机变量的分布以及抽样分布课堂与上机3月17下午 第二章

2、 常用随机变量的分布以及抽样分布(续)课堂与上机3月18上午 第三章 参数估计课堂与上机3月31下午 第四章 假设检验课堂与上机4月1上午第五章 回归分析课堂与上机4月7下午第五章 回归分析(续)课堂与上机4月8上午第六章 时间序列分析课堂与上机4月14下午 总复习模拟试卷AB5月12上午 考试笔试2小时信息管理与工程学院5应用统计学目录n第一章 数据的整理与图形-10第一节 数据的整理与图形表示-12n一饼形图-18n二组距分组法与频率直方图-19n三条形图与柱状图-20n四并列条形图或柱状图-21n五茎叶图-22第二节 数据的描述性指标-18n一数据集中趋势的度量-24n二数据离散趋势的度

3、量-25信息管理与工程学院6应用统计学目录n第二章随机变量以及抽样分布-25第一节 随机变量概念和随机变量的数字特征-12n一随机变量的数学期望-18n二随机变量的方差和标准差-19第二节 常用随机变量以及分布-18n一01分布-24n二二项分布-25n三正态分布与标准正态分布-26第三节 总体与样本-27n一总体-28n二样本-29n三. 联合分布函数和联合概率密度 -30信息管理与工程学院7应用统计学目录n第二章常用随机变量的分布以及抽样分布-25第四节 抽样方法-30n一简单随机抽样-31n二分层抽样-32n三整群抽样-33n四系统抽样-34第五节 样本统计量的分布-18n一统计量-35

4、n二常用统计量-36n三三大分布( 卡方分布、t分布、F分)-37n四正态总体的样本均值和样本方差分布-38n五独立同分布的中心极限定理-40信息管理与工程学院8应用统计学目录n第三章参数估计-41第一节 参数的点估计-42n一参数点估计的一般提法-42n二参数点估计的求法-43n三点估计量的评价标准-44第二节 参数的区间估计-44n一参数区间估计的一般提法-44n二单侧置信区间-45n三关于一个正态总体均值和方差的区间估计-46n四关于两个正态总体的均值差的区间估计-47n五关于比率p的区间估计-48信息管理与工程学院9应用统计学目录n第四章假设检验-51第一节 假设检验的原理-42n一假

5、设检验的基本思想-42n二原假设和备选假设-43第二节 假设检验的基本概念-44n一两类错误-44n二显著性水平的确定-45n三原假设与备选假设的选择-46n四双侧检验与单侧检验-47n五假设检验的一般步骤-48信息管理与工程学院10应用统计学目录n第四章假设检验-51第三节 关于总体均值与方差的假设检验-52n一关于一个正态总体均值的假设检验-52n二关于一个正态总体方差的假设检验-53n三关于两个正态总体均值差的假设检验-54n四关于比率p的假设检验-55n五关于两个总体比率差的假设检验-56第四节 假设检验与区间估计的关系-44信息管理与工程学院11应用统计学目录n第五章回归分析-62第

6、一节 简单线性回归分析-62n一散点图-62n二简单线性回归模型及基本理论假设-63n三简单线性回归模型的基本特征-66n四回归参数的最小二乘估计-67n五方差2的估计、可判定系数R2与相关系数R-68n六回归效果的显著性检验与方差分析表-69n七回归参数的假设检验与区间估计-70n八预测-71信息管理与工程学院12应用统计学目录n第五章回归分析-61第二节 多元线性回归分析-74n一多元线性回归模型及基本理论假设-74n二回归参数的最小二乘估计-75n三方差2的估计、复可判定系数R2 -76n四多元线性回归模型的假设检验-77n五估计与预测-78n六多项式回归模型-79信息管理与工程学院13

7、应用统计学目录n第五章回归分析-61第三节 线性回归模型的适宜性评价-81n一非线性-82n二异方差性-83n三序列相关性-84n四非正态性-85n五多重共线性-86信息管理与工程学院14应用统计学目录n第六章时间序列分析-92第一节 时间序列的组成因素-92n一影响时间序列的四个因素-92n二时间序列的三个分解模型-93第二节 长期趋势的测定-96n一长期趋势的测定滑动平均法-97n二直线趋势的测定最小二乘法-98n三曲线趋势的测定-99信息管理与工程学院15应用统计学目录n第六章时间序列分析-92第三节 季节变动因素的测定-100n一按月(季)平均法-101n二滑动平均趋势剔除法-102n

8、三季节调整-103第四节 循环波动因素的测定-104n一剩余测定法-104n二循环波动相关数图-105信息管理与工程学院16应用统计学希腊字母表大写大写小写小写读音读音主要用途和用法主要用途和用法alpha显著水平;分布参数beta分布参数;第二类错误的概率gamma分布参数delta差分;误差epsilon无穷小的总体误差及样本误差eta分布参数theta待估分布参数lambda普阿松分布参数;待估分布参数mu分布均值xi待估分布参数pi圆周率rho相关系数;比率待估分布参数sigma分布标准差tau待估分布参数phi待估分布参数chi卡方分布psi待估分布参数omega样本空间及样本点信息

9、管理与工程学院17第一章 数据的整理与图形n第一节 数据的整理与图形表示1.数据整理一般来说数据整理的一项初步工作是对数据进行统计分组。2.统计分组一般按照数据的品质标志品质标志或数量标志数量标志分组。 不同的分组标志反映总体的不同特征,因此,必须从统计研究任务的需要出发,选择能够反映现象本质特征的标志。3.品质标志从事物的性质或属性特征上区分各种类型组。如性别、颜色、产品等级、生产厂家等。4.数量标志从事物的数量差异程度上来区分各种类型组。如温度、产量、年龄、销售量等。5.频数分配在某统计分组内的数据个数称为该组的频数。6.频率某组频数与全部组的频数之和的比值称为该组的频率。7.频率分布按数

10、据的某种标志分组,把全部数据在各组中的分配状况称为频率分布。8.频数频率分布表将分组标志、各组频数及频率列成表格。 反映总体的分布规律和性质,在定量统计分析中有广泛的用途。信息管理与工程学院18第一节 数据的整理与图形表示频数频率分布表标准样式:按品质标志或数量标志频数频率(%)A1X1=X1/TA2X2=X2/TAnXn=Xn/T总计T=X1+X2+Xn100.00信息管理与工程学院19一.饼形图n适用于分组数少n用于描述和表现各成分或某一成分占全部的百分比n各成分总和=100%n用圆代表全体,用扇形区域代表各成分,扇形区域面积占整个圆面积的百分比等于该成分占全部的百分比例1.1 某公司工作

11、人员的性别频数频率分布表如下:按性别分组频数(人数)频率(%)男12060.00女8040.00总计200100.00信息管理与工程学院20二.组距分组法与频率直方图n数据标志取值个数较小(单项数列)采用品质分组法。例如5分制的学生成绩。n数据标志取值个数较多或连续变量(组距数列)采用组距分组法(等距数列和异距数列)。例如百分制的学生成绩。n异距数列制作直方图时,要先计算出各组的频数密度=频数/组距,然后以组距为宽,以频数密度为高画直方图。n组距分组法(等距数列)的操作步骤如下:例1.2 从一批电阻中抽取30只,测得各只电阻的电阻值如下表。对这组数据适当分组,并建立频数频分布表和绘制频率直方图

12、。4.34.64.73.73.83.24.04.42.83.43.73.24.12.64.64.94.13.43.82.73.54.43.63.24.03.83.54.24.63.9信息管理与工程学院21二.组距分组法与频率直方图(续)n第一步:找出最大值L,最小值l,计算极差R=L-l。本例中L=4.9, l=2.6,R=4.9-2.6=2.3。n第二步:确定分组个数k,计算组距h。分组个数一般由下表确定(根据美国统计学家斯特吉斯提出的经验公式:组数=1+3.322LogN得出,其中N为数据个数)。本例选取k=5。则组距k=R/h=2.3/5=0.46,为计算方便可取h=0.5。样本容量N分

13、组各数k50以下5650100610100250712250以上1020信息管理与工程学院22二.组距分组法与频率直方图(续)n第三步:决定各组界限值,确定分点。第一组的下限值=l-h/2,上限值=l+h/2。本例中也可取第一组下限值为2.5,上限值为2.5+h=2.5+0.5=3;依此类推第五组下限值为4.5,上限值为5.0。n第四步:数出各组频数,计算频率,作出频数频率分布表如下。要特别注意:数据正好是界限值时,则该数据应被计数在以它为下限的组中。组序分组界限频数频率12.5,3.0)30.10023.0,3.5)50.16533.5,4.0)90.30044.0,4.5)80.27054

14、.5,5.0)50.165合计301.000信息管理与工程学院23二.组距分组法与频率直方图(续)n第五步:由频数频率分布表可以画出频率直方图。在平面直角坐标系的横坐标X轴上标出各组界限值在各组下限值与上限值之间画出高为该组频率的矩形n直方图的特点:简单、直观,能够反映数据是否呈对称分布,数据的平均水平及散布情况。信息管理与工程学院24三.条形图与柱状图n条形图与柱状图本质上没有太大区别,都是用来对各项信息进行比较。主要区别:数据是对事物在时间序列上的度量,一般用横坐标表示时间,这样可以直接地观察事物随时间变化的情况采用柱状图。如果数据不是按时间排列的且各项信息的标识过长时采用条形图。例1.3

15、 某电视机生产厂家2006年市场占有率及其主要竞争对手的市场占有率资料如下表所示。请分别用条形图和柱状图表示该组数据。该厂商竞争对手A竞争对手B竞争对手C竞争对手D15%10%14%12%8%信息管理与工程学院25三.条形图与柱状图(续)信息管理与工程学院26四.并列条形图或并列柱状图n并列条形图或并列柱状图有利于对两组或两组以上的并列数据进行对比。(还有一种堆积条形图)例1.4 某电视机生产厂家2005和2006年市场占有率及其主要竞争对手的市场占有率资料如下表所示。请用并列柱状图表示该组数据。该厂商竞争对手A竞争对手B竞争对手C竞争对手D200511%7%15%11%10%200615%1

16、0%14%12%8%信息管理与工程学院27三.并列条形图或并列柱状图(续)信息管理与工程学院28三.茎叶图n茎叶图也是一种条形图,它是把每个数分成茎和叶两部分,同茎的数排成一列,然后按茎和叶的大小排列成图。一般取数据的最后一位数为叶,前几位数为茎。分为一般茎叶图和有序茎叶图。n茎叶图它直观地显示了数据所在的范围以及数据的总体水平(集中或分散情况),它的优点是可以清楚地看到落在每一直方形中的具体数据,而且可以较容易地找出有用的分位数,如中位数等。例1.5 某班级(40人)应用统计学期末考试成绩如下表所示。请画出茎叶图。676585757072755869838273966985837874807

17、06584858170889086777886929385727670838875信息管理与工程学院29三.茎叶图(续)n以十位数为茎,个位数为叶,画出的茎叶图如下:586759957502538400782605853253045186653896023信息管理与工程学院30三.茎叶图(续)n还可以把各茎叶上的叶按大小排序,得到有序茎叶图如下:586557997000022345556788801233345555668890236信息管理与工程学院31第二节 数据的描述性指标n测定每个观察单位某项指标值的大小,所得的资料称为计量资料又称测量资料,这类资料一般具有计量单位。计量资料的统计指标

18、分成两大类:n数据集中趋势的度量表达计量资料集中位置的指标,用以描述观察值的平均水平,如算术均值、几何均值、调和均值、中位数、众数、百分位数。n数据离散趋势的度量表达计量资料变异的指标,又称离散指标,用以描述观察值间参差别不齐的程度,即离散度或称变异度,如全距、标准差、方差、标准误差、变异系数、四分位数间距等。n设原始观察值为 n第 组频数(有时可以是出现的频率)记为 ,组中值记为 信息管理与工程学院32一.数据集中趋势的度量n表示数据的集中点或中心点。根据不同的实际需要,可以采用下列指标之一来对数据的集中趋势进行度量:1.算术平均值简称为均值n总体均值用希腊字母表示,样本均值用 表示。算术平

19、均值的具体计算方法分为简单算术平均和加权算术平均两种:n简单算术平均加权算术平均n算术平均值有两个重要的数学性质:各个变量值与平均值离差之和等于零。各个变量值与平均值的离差平方之和为最小值。信息管理与工程学院33一.数据集中趋势的度量(续)2.中位数(或称中数)n中位数用M表示,它将总体或样本的全部观察值分成两部分,每部分各有50%个观察值,其计算方法为:先将原始观察值按由小到大顺序排列后,位次处于中间的那个观察值为中位数。观察值为奇数时,处于中间的那个数为中位数。偶数时处于中间的两个数的均值为中位数。n中位数是位置平均值,它不受极端值的影响,在具有个别极大或极小值的分布数列中,中位数比算术平

20、均值更具有代表性。信息管理与工程学院34一.数据集中趋势的度量(续)3.众数n频数最大的变量值称为众数,列为频数表的资料,频数最大的组的组中值为众数。当数据个数较少时,众数就是出现次数最多的那个数据。n对于一组数据,众数可以不止一个,也可能没有众数。n适用于粗略地表示呈单峰分布资料的集中趋势。信息管理与工程学院35一.数据集中趋势的度量(续)4.百分位数n百分位数以 表示,它将总体或样本的全部观察值分成两个部分,其中有 个观察值小于 ,(100 )%个观察值大于 。如百分之25分位数或称第25百分位数,表示有25%个观察值小于 ;75%个观察值大于 。中位数就是百分之50分位数 。常用的有上四

21、分位数 和下四分位数 信息管理与工程学院36一.数据集中趋势的度量(续)n上四分位数的计算将数据由小到大排列,记排列后的数据为令:其中 表示向上取整,如 。则上四分位数就是 ,即约有1/4的数据比 大,3/4的数据比比 小。信息管理与工程学院37一.数据集中趋势的度量(续)n下四分位数的计算将数据由小到大排列,记排列后的数据为令:其中 表示向上取整,如 。则下四分位数就是 ,即约有3/4的数据比 大,1/4的数据比比 小。信息管理与工程学院38一.数据集中趋势的度量(续)n例1.6 某班30名MBA学生的年龄按上升顺序排列如下表。请计算这组数据的众数、中数、平均数、上四分位数和下四分位数。n众

22、数为27和28;分别出现5次n中数为(27+28)/2=27.5n平均数为27.67n上四分位数为x23=30,下四分位数x8=26242425252525262626262727272727282828282829293030303031313132信息管理与工程学院39一.数据集中趋势的度量(续)5.中位数、众数、平均数的运用比较n中位数对极端值不像平均数那么敏感,因此对于有极端值的数据集来说,采用中位数描述其集中趋势一般比平均数更合适。n众数的主要缺点是可能没有众数或不惟一,而平均数和中数都是存在并且惟一的。它的优点是反映了数据集中最常见的数值,即最普遍的数值,当数据多且有明显集中趋势时

23、,计算众数既方便且有意义,并且它不仅对数量型数据有意义,对分类型数据集也有意义。n平均数的优点在于它容易理解和计算。它的一个主要缺点是它对极端值特别敏感;它的另一个缺点是它不考虑数据在数据集中的重要性,一律平等对待。n加权平均数克服了平均数不考虑数据在数据集中的重要性的缺陷,采用权重反映数据在数据集中的重要性,并且具有容易计算的优点。信息管理与工程学院40一.数据集中趋势的度量(续)6.运用中位数、众数、平均数的数量关系判别总体分布特征(*)n次数分布呈对称分布曲线时,算术平均数、众数、中位数三者完全相等。n次数分布呈右偏态时,算术平均中位数众数。n次数分布呈左偏态时,算术平均中位数中位数众数

24、,呈现右偏态分布,也说明收入分配中算术平均数偏向高端,多数居民收入低于算术平均数。信息管理与工程学院43二.数据离散趋势的度量1.全距也称极差是一种离散指标,是最大与最小观察值之差。用极差反映总体分布的离散程度虽然简便,但它只从两端数值考察,忽略了中间数据的变动情况,不能说明整体的差异程度,尤其是存在极端值情况下,使用极差往往会造成错误的结论。信息管理与工程学院44二.数据离散趋势的度量(续)2.四分位差即上四分位数与下四分位数的差数。它一般不受极端值的影响。3.方差是一种常用的离散指标,样本的方差计算公式为: ,4.标准差 ,与数据具有相同的单位。信息管理与工程学院45二.数据离散趋势的度量

25、(续)5.变异系数是一种离散指标,简记为CV,它是标准差与均值之比,用百分数表示:n由于CV无量度单位,而且消除了原始资料的平均水平的影响,因此常用于比较量度单位不相同的指标或者平均水平相差悬殊的指标的变异程度。信息管理与工程学院46二.数据离散趋势的度量(续)6.各种离散趋势度量的适用场合比较分析n极差最简单、最直观、最容易计算。但特别容易受极端值的影响。n四分布差不像极差那么容易受极端值的影响,但仍然存在没有充分利用数据所有信息的缺陷。n方差和标准差最常用的度量数据离散程度的指标,它用数据自身与平均数之差的大小加权,因而区别对待了大小不同的数据,距离平均数远的数据权重比较大,距离平均数近的

26、数据权重比较小,比较合理地反映了不同数据对离散度量的作用。缺点是计算比较繁琐,且方差的单位常常没有意义。n变异系数比较两组或两组以上数据集的离散趋势度量时,应采用无量度单位的变异系数CV。信息管理与工程学院47二.数据离散趋势的度量(续)7.数据离散趋势度量方差的作用n衡量数据的稳定性例如:产品的质量n评价事物的风险例如:投资的风险n数据的方差分析例如:数据的挖掘信息管理与工程学院48第二章随机变量以及抽样分布n第一节 随机变量概念和随机变量的数字特征随机变量是描述随机事件的数学模型。学习和掌握随机变量的概念是学习统计学的前提。随机试验的每一个可能结果称为样本点,用表示,样本点全体组成的集合称

27、为样本空间,用表示。随机事件是由若干个样本点组成的集合,或者说是样本空间的某个子集。随机变量是定义在样本空间上的函数,即对于随机试验的每一个可能结果,随机变量X取值X()也不同,并且以确定的概率取这些不同的值。随机变量一般用X,Y,Z表示。按照随机变量的取值情况,把随机变量分成两类:n离散型随机变量用概率函数描述。n连续型随机变量用概率密度函数描述。对于任意实数x,随机变量X的分布函数为:即随机变量X的取值不大于x的概率。信息管理与工程学院49第一节 随机变量概念和数字特征n一随机变量的数学期望E(X)一个随机变量的数学期望是对该随机变量分布中心的度量,它反映了随机变量的(加权)平均取值,因此

28、数学期望也称为随机变量的均值。数学期望也常常用希腊字母表示,即= E(X)。1.离散型随机变量的数学期望n设离散型随机变量X的概率函数为则根据概率函数的性质有n离散型随机变量X的数学期望为信息管理与工程学院50第一节 随机变量概念和数字特征n一随机变量的数学期望E(X)2.连续型随机变量的数学期望n设连续型随机变量X的概率密度函数为则根据概率函数的性质有n连续型随机变量X的数学期望为信息管理与工程学院51第一节 随机变量概念和数字特征n二随机变量的方差D(X)和标准差1.离散型随机变量X的方差定义为2.连续型随机变量X的方差定义为3.方差的概念我们称 为随机变量X关于它期望的离差。由方差定义,

29、方差就是离散平方的数学期望,即离散平方的平均值。因此,方差D(X)小,说明随机变量X的分布比较集中;方差D(X)大,说明随机变量X的分布比较分散。随机变量X的标准差 。标准差和原随机变量具有相同的度量单位。随机变量的方差也可以记为 ,即 。信息管理与工程学院52第一节 随机变量概念和数字特征n例2.1 已知随机变量X的分布列为试求:随机变量的均值E(X)和方差D(X)n解法1:E(X)=10.2+20.1+30.4+40.3=2.8D(X)=(12.8)20.2+(22.8)20.1 +(32.8)20.4 +(42.8)20.3=1.16X1234P0.20.10.40.3信息管理与工程学院

30、53第一节 随机变量概念和数字特征n解法2:E(X)=10.2+20.1+30.4+40.3=2.8E(X2)=10.2+40.1+90.4+160.3=9由于有证明:随机变量平方的数学期望不小于其数学期望的平方。D(X)=9-2.82=1.16信息管理与工程学院54第二节 常用随机变量以及分布n一01分布只取两个不同数值的随机变量X称为01分布。定义:设0p1,如果X的概率函数为则称X服从参数为p的01分布,记为B(1,p)。 01分布的概率函数也可以表示为X01P1pp信息管理与工程学院55第二节 常用随机变量以及分布n一01分布01分布的数学期望为01分布的方差为任何一个只有两种可能结果

31、的随机试验,都可以用一个服从01分布的随机变量来描述。有时也称01分布为两点分布或贝努利分布。信息管理与工程学院56第二节 常用随机变量以及分布n二二项分布定义:若随机变量X的所有可能取值为0,1,,n,且它的概率函数为则称X服从参数为n和p的二项分布。其中0p1。记为XB(n,p)。当n=1时,二项分布就是01分布。n无限大时,趋向正态分布。二项分布的性质二项分布的数学期望二项分布的方差信息管理与工程学院57第二节 常用随机变量以及分布n二二项分布应用:对产品有放回地做n次检验,每一次检验一个产品是否合格,n次检验中正好有k个产品合格的概率,其中每一次检验得到合格的概率为p。证明:由贝努利概

32、型(在重复独立试验中,每次试验的结果只有两个可能)知,在指定k次检验中出现合格,而在其余nk次检验中出现不合格的概率为n例如:在前k次检验中出现合格,而后面nk次检验中出现不合格个概率n由于事件合格在n次检验中的任k次出现,共有 种情况,而这么多种情况所对应的这么多个事件是不相容的。因此由概率的有限可加性得到:信息管理与工程学院58第二节 常用随机变量以及分布n三正态分布与标准正态分布设连续型随机变量X的密度函数为正态分布的分布函数为其中 是正态分布随机变量的均值, 是方差,我们称X服从均值为 方差为 的正态分布,记为信息管理与工程学院59第二节 常用随机变量以及分布n三正态分布与标准正态分布

33、正态分布的概率密度函数曲线为信息管理与工程学院60第二节 常用随机变量以及分布n三正态分布与标准正态分布正态分布的密度函数性质np(x)与x轴之间的面积都是1。n曲线关于x=对称,因此是正态分布的位置参数。n方差2的大小决定了密度曲线的高矮胖瘦:2越大,曲线越矮越胖;2越小,曲线越高越瘦。标准正态分布n期望值为0和标准差为1的正态分布N(0,1)称为标准正态分布,即=0, =1。常用U表示。信息管理与工程学院61第二节 常用随机变量以及分布n三正态分布与标准正态分布标准正态分布n概率密度函数为n分布函数为n标准正态分布关于纵轴对称,对任意实数x,有信息管理与工程学院62第二节 常用随机变量以及

34、分布n三正态分布与标准正态分布正态变量的线性变换n标准化变换把随机变量X减去自己的均值,再除以自己的标准差,所得到的新变量Z=(X )/ ,称为原变量X的标准化变换,或简称标准化。n一般正态分布与标准正态分布之间的关系是:若则 Z=(X )/ N(0,1)分布函数之间的关系:信息管理与工程学院63第二节 常用随机变量以及分布n四正态分布的计算1.设 ,则例2.1 设 ,试求: 解:信息管理与工程学院64第二节 常用随机变量以及分布n四正态分布的计算2.设 ,则信息管理与工程学院65第二节 常用随机变量以及分布n四正态分布的计算3.设 ,若知 , 求c信息管理与工程学院66第三节 总体与样本n一

35、总体总体研究对象的全体称为总体。通常我们研究对象某项数量指标,即总体就是研究对象的某项数量指标X的值的全体。一般,X的取值在客观上有一定的分布F,故X是一个随机变量。因此,对总体的研究就是对相应的随机变量X的分布F(x)的研究。X的分布函数和数字特征分别称为总体的分布函数F(x)和数字特征。p维总体在有些问题中,研究对象可能要观测两个或多个指标,则可用多维随机变量 去描述总体,也可用其联合分布函数 去描述总体。个体组成总体的每一个基本元素称为个体。有限总体和无限总体根据总体包含个体总数的多少分为有限总体和无限总体。当有限总体所包含的个体总数很大时,可以近似地将它看成是无限总体。信息管理与工程学

36、院67第三节 总体与样本n二样本样本总体中抽取若干个体所组成的集合称为一个样本。样本容量样本中所包含个体的个数称为样本容量。从总体中抽出的容量为n的样本记为 ,这里每个Xi都看成是随机变量,因为第i个被抽到个体具有随机性,在观察前是不知其值的。样本的观察值记为 。n次不重复抽样抽样时,每次从总体中抽取一个不放回去,再抽取第二个,连续抽取n次。重复抽样抽样时,每次从总体中抽取一个进行观察后放回去,再抽取第二个,连续抽取n次。重复抽样的特例:n对于无限总体,抽取有限个n后不会影响总体的分布,在这种情况下,不重复抽样等价于重复抽样。n在实际应用时,如果总体所包含的个体个数很大,而样本容量很小,可认为

37、总体是无限的,抽样时可以认为是重复抽样。信息管理与工程学院68第三节 总体与样本n二样本简单随机样本设X是具有分布函数F(x)的随机变量,若 是具有同一分布函数F(x)的相互独立的随机变量,则称 是来自总体X(或总体F(x) )的容量为n的简单随机样本,简称样本。即抽取的样本满足以下要求:n代表性每一个体都有同等机会被选入样本,这便意味着每一样品Xi与总体X有相同的分布。n独立性样本中每一样品取什么值不受其它样品取值的影响,这意味着 相互独立。信息管理与工程学院69第三节 总体与样本n三联合分布函数和联合概率密度若 是来自总体F的一个容量为n的简单随机样本(独立同分布样本),则 的联合分布函数

38、为若X具有概率密度f,则 的联合概率密度为信息管理与工程学院70第四节 抽样方法n统计调查与整理根据研究的目的和要求,有组织、有计划地搜集资料和对这些资料进行去伪存真、去粗取精的分类整理、浓缩简化的工作过程。n统计调查的方式按其组织方式可分为:统计报表制度专门组织的统计调查;专门组织的调查可分为:普查重点调查典型调查抽样调查其中抽样调查方法已经发展为现代统计科学的一个分支系列。n抽样的目的我们抽取样本的目的是为了对总体进行推断。为了能从样本正确推断总体就要求所抽取的样本能很好地反映总体的信息,所以要有一个正确的抽取样本的方法。信息管理与工程学院71第四节 抽样方法n抽样调查方法的重要特点:随机

39、原则(机会均等原则)按照随机原则从总体中抽取样本单位。调查者不带任何主观倾向,完全凭偶然性抽取样本单位,使总体的每个单位有均等机会被抽中。推断总体以样本的指标即统计量为依据推断总体的参数或检验总体的某种假设。抽样调查的目的就是要对总体的数量特征作出估计或作出某种判断,而且它是以概率论阐明的有关分布规律为依据的估计,可以计算其可靠性和精确度。误差事先控制抽样调查方法的误差可以事先计算并加以控制。用样本指标推断总体,不可避免地会产生误差,即抽样误差。抽样误差也是随机变量,其分布具有一定的规律性,可以依据这种分布规律和具体的抽样条件计算抽样误差的大小。影响抽样误差大小的因素主要有三个方面:n总体内部

40、的差异程度;n样本容量的大小;n抽样的方式方法。信息管理与工程学院72第四节 抽样方法 进行抽样调查时,必须事前根据研究对象的特点和具体条件,对抽取样本的程序和具体方法进行周密的设计,选择最合适的组织方式。基本的抽样组织方式有简单随机抽样、分层抽样、整群抽样和系统抽样。n一简单随机抽样简单随机抽样也称完全随机抽样,对总体单位不作任何分类或排队,完全按随机原则逐个地抽取样本单位。它是在无限总体中进行的无放回独立抽样或在有限总体中进行的有放回随机抽样。随机抽样特点:n理论上最易处理,但实施时较困难;n可用样本平均数来估计总体均值;n限于总体规模不大,内部差异也不很大的情况信息管理与工程学院73第四

41、节 抽样方法n二分层抽样分层抽样也称类型抽样,它将总体的成员按某种原则划分成若干个子总体(类型组),每个子总体称为一个层。在每层中独立进行简单随机抽样或其他抽样。分层抽样特点:n先对各层进行估计,然后再综合成总体参数估计;n因为子总体的差异必定小于总体差异,因此,分层抽样的抽样误差比简单随机抽样小,抽样推断的效果好。;n适用于既需要对总体进行估计,也需要对局部进行估计的情况。n当层内成员差异较小,而层间成员差异较大时,分层抽样可以提高估计的精度。信息管理与工程学院74第四节 抽样方法n三整群抽样整群抽样它将总体的成员分成若干群(或组),从这些群(或组)中抽取部分群(或组),调查对象是被抽中的这

42、些群(或组)中的所有成员。整群抽样特点:n优点是当被调查单位地理位置比较集中时,实施起来比较方便,可以节省人力和财力;n缺点是由于调查单位集中在若干群或组中,而不能均匀地分布在总体的各部分。因此,它的准确性较差;但可以通过适当地多抽取一些群来弥补。信息管理与工程学院75第四节 抽样方法n四系统抽样系统抽样又称为等距抽样或机械抽样,它将总体中的调查单位按某种次序排列,随机地选定初始单位,然后按相等的间距抽取其他样本单位。例如总体共有N个单位,从中抽取n个单位,N/n=k便是等距抽样的间隔距离,然后在第一组中先抽取一个单位,再每隔k个单位抽取一个,直到抽满n个单位。系统抽样特点:n优点是总体各部分

43、都能在一定程度上被包含到样本中,实施方便。n缺点是当初始单位决定后,样本只有一种组合,不再具有随机性。当次序排列具有周期性时,容易产生严重的偏差。因此,必须对排列次序进行细致的研究。信息管理与工程学院76第五节 样本统计量的分布n一统计量统计量定义:设 是来自总体X的一个样本, 是 的函数。若g是连续函数,且g中不含任何未知参数,则称 是一个统计量。统计量是样本的函数,它是一个随机变量。观察值定义:设 是相应于样本 的样本值,则称 是 的观察值抽样分布:统计量的分布称为抽样分布。信息管理与工程学院77第五节 样本统计量的分布n一统计量例2.5.1 设总体 ,其中 未知, 已知,设 为来自X的一

44、个样本,则 是统计量 是统计量 不是统计量(含有未知参数 ) 是统计量 不是统计量信息管理与工程学院78第五节 样本统计量的分布n二常用统计量设 是来自总体X的一个样本,是这一样本的观测值,则样本平均值:样本方差:样本标准差:样本k阶原点矩:样本k阶中心矩:样本观测值的计算将上面公式全部改写为小写即可。信息管理与工程学院79第五节 样本统计量的分布n三三大分布( 分布、t分布、F分布)1. 卡方分布 设 是来自总体N(0,1)且相互独立的样本,则随机变量 服从自由度为n的 分布,记为 。其中,自由度是指上式右端包含的独立变量的个数。信息管理与工程学院80第五节 样本统计量的分布n 卡方分布的概

45、率密度为f(y)的图形如下所示:信息管理与工程学院81第五节 样本统计量的分布n卡方分布的性质可加性:设 ,且它们相互独立,则数学期望和方差若 ,则分位点对于给定的正数,0 1,称满足条件的点 为 分布的上分位点。例如: ,信息管理与工程学院82第五节 样本统计量的分布n 卡方分布的上分位点如下图所示:信息管理与工程学院83第五节 样本统计量的分布n三三大分布( 分布、t分布、F分布)2.t分布 设 ,并且X和Y相互独立,则称随机变量 服从自由度为n的t分布,记为 。信息管理与工程学院84第五节 样本统计量的分布n t分布的概率密度为h(t)的图形如下所示:信息管理与工程学院85第五节 样本统

46、计量的分布nt分布的性质t分布与正态分布比较:nt分布类似于标准正态分布,两者都是均值为0的对称的钟形曲线,取值范围也都在负无穷大到正无穷大。n但t分布的方差大于1,与标准正态分布相比中心部分较低,两个尾部较高。自由度n越小,这些差别就越明显,随着自由度n不断增大,t分布越来越趋近于标准正态分布,并以其为极限。数学期望和方差分位点对于给定的正数,0 1,称满足条件的点 为 分布的上分位点。由对称性知:例如: ,信息管理与工程学院86第五节 样本统计量的分布n t分布的上分位点如下图所示:信息管理与工程学院87第五节 样本统计量的分布n三三大分布( 分布、t分布、F分布)3.F分布 设 ,并且U

47、和V相互独立,则称随机变量 服从自由度为 的F分布,记为 。信息管理与工程学院88第五节 样本统计量的分布n F分布的概率密度为(t)的图形如下所示:信息管理与工程学院89第五节 样本统计量的分布nF分布的性质F分布的性质:n 由定义可知,若 ,则数学期望:分位点对于给定的正数,0 3,故 ,因此 比 更有效。信息管理与工程学院102第一节 参数的点估计三点估计量的评价标准3.一致性n设 为参数 的估计量,若对于任意 ,当 时, 依概率收敛于于 ,则称 为 的一致估计量。n例如,样本的K(=1)阶矩是总体X的K阶矩的一致估计量。更进一步,若g是连续函数,总体参数估计量n则样本参数估计量n是 的

48、一致估计量。信息管理与工程学院103第一节 参数的点估计n矩估计法n例3.3 设是来自均匀分布U(a,b)的一个样本,试求a,b的矩估计法。n解:信息管理与工程学院104第一节 参数的点估计n矩估计法n解:从上面两个方程可解得a与b,由n得n用,则得a与b矩估计法为信息管理与工程学院105第二节 参数的区间估计n参数估计有两种形式:点估计和区间估计。点估计值能给出一个明确,未知参数 是多少,不能给出精度。而区间估计弥补了这种不足。所以点估计与区间估计是互为补充、各有各的用途。n一参数区间估计的一般提法设总体X的分布函数 含有一个未知参数 。对于给定的值 ,若由样本 确定的两个统计量满足则称随机

49、区间 是 的置信度为 的置信区间, 和 分别称为置信度 的双侧置信区间的置信下限和置信上限, 称为置信度。信息管理与工程学院106第二节 参数的区间估计n一参数区间估计的一般提法求解未知参数的置信区间1.寻找一个样本 的函数 它包含待估参数,但不包含其他未知参数。并且Z的分布已知且不依赖于任何未知参数(其中也包含待估参数)2.对于给定的置信度 ,定出两个常数a,b,使3.若能从 得到等价的不等式 其中 , 都是统计量,那么 就是 的一个置信度为 的置信区间。信息管理与工程学院107第二节 参数的区间估计n一参数区间估计的一般提法区间估计的含义n置信度为 的置信区间不是惟一的。n置信区间会随着样

50、本观察值的不同而不同。当对X进行多次抽样(容量为n)。设抽样N次,每一个抽样都给出一个区间一共有N个不同的区间。n根据大数定律,这N个区间中大约有 个区间包含真值 个区间不包含真值信息管理与工程学院108第二节 参数的区间估计n二单侧置信区间对于某些实际问题,例如设备、元件的寿命来说,一般只关心平均寿命的“下限”;而对于产品的废品率p来说,一般只关心p的上限。对于给定的值 ,若由样本 确定的统计量满足称随机区间 是 的置信度 的单侧置信区间, 称为置信度为 的单侧置信下限。若统计量 满足称随机区间 是 的置信度为 的单侧置信区间, 称为置信度 的单侧置信上限。信息管理与工程学院109第二节 参

51、数的区间估计n三关于一个正态总体均值和方差的区间估计n设 为来自总体 的一个样本,样本均值 ,样本方差为 。给定的置信度为 。1.均值 的置信区间 为已知时为已知时,则有 因此, 的置信度 的置信区间是信息管理与工程学院110第二节 参数的区间估计n三关于一个正态总体均值和方差的区间估计1.均值 的置信区间总体方差 为已知时如果总体不是正态分布,但样本容量n充分大时,根据中心极限定理, 渐近地服从正态分布。一般情况下,n=30时,就可以认为总体方差 未知时如果样本容量n充分大(n=30)时,可用S代替 ,对均值进行近似的区间估计。注意:掌握样本容量与置信水平及区间长度之间的关系。能够在给定置信

52、水平和区间长度下,求出所需要的最小样本容量。信息管理与工程学院111第二节 参数的区间估计n三关于一个正态总体均值和方差的区间估计1.均值 的置信区间n例3.4 设一个物体的重量 未知,为估计其重量可用天平去称量。由于称量是有误差的,因而所得称量结果是一个随机变量,通常服从正态分布,当天平称量的误差标准差为0.1克时,可认为称量结果服从n现对该物体称了五次,结果如下(单位克)n可将其看成来自该总体的一个容量n为5的样本观测值。试对 作置信水平为0.95的区间估计。5.525.485.645.515.45信息管理与工程学院112第二节 参数的区间估计n三关于一个正态总体均值和方差的区间估计1.均

53、值 的置信区间n解: =(5.52+5.48+5.64+5.51+5.45)/5=5.52n 1=0.95,=0.05, /2=0.025n z0.025=1.96n 信息管理与工程学院113第二节 参数的区间估计n三关于一个正态总体均值和方差的区间估计1.均值 的置信区间n例3.5 已知一批产品的长度指标 。问至少应抽取多大容量的样本,才能使样本均值与总体均值的绝对误差,在置信度不低于95%的条件下小于0.1?信息管理与工程学院114第二节 参数的区间估计n三关于一个正态总体均值和方差的区间估计n解:根据题意,应有n即应抽取容量至少为97的样本。信息管理与工程学院115第二节 参数的区间估计

54、n三关于一个正态总体均值和方差的区间估计n设 为来自总体 的一个样本,样本均值 ,样本方差为 。给定的置信度为 。1.均值 的置信区间 为未知时为未知时,则有 因此, 的置信度 的置信区间是信息管理与工程学院116第二节 参数的区间估计n三关于一个正态总体均值和方差的区间估计1.均值 的置信区间n例3.6 对某型号飞机的最大飞行速度进行15次试验,测得样本的平均最大飞行速度 , 样本方差 。根据长期经验可以认为最大飞行速度服从正态分布,试求平均最大飞行速度的95%的置信区间。在置信水平 条件下,飞机的平均最大飞行速度不低于多少?信息管理与工程学院117第二节 参数的区间估计n三关于一个正态总体

55、均值和方差的区间估计1.均值 的置信区间解:这是一个正态总体方差未知,求均值的置信区间的问题。根据题意有:即:有95%的把握认为飞机的平均最大飞行速度在420.3到429m/s之间。信息管理与工程学院118第二节 参数的区间估计n三关于一个正态总体均值和方差的区间估计1.均值 的置信区间解:这是一个这是一个正态总体方差未知,对均值求的单侧置信下限的问题。即:有95%的把握认为飞机的平均最大飞行速度不低于421.1m/s。信息管理与工程学院119第二节 参数的区间估计n三关于一个正态总体均值和方差的区间估计n设 为来自总体 的一个样本,样本均值 ,样本方差为 。给定的置信度为 。2.方差 的置信

56、区间 为未知时为未知时,则有 因此, 的置信度 的置信区间是信息管理与工程学院120第二节 参数的区间估计四关于两个正态总体的均值差的区间估计设 为来自总体 的样本, 为来自总体 的样本,并且这两个样本相互独立。设 分别为它们的样本均值, 分别为它们的样本方差。1. 均为已知的情况n由于 独立性,以及 n有n或等价于n因此 的置信度为 的置信区间是信息管理与工程学院121第二节 参数的区间估计四关于两个正态总体的均值差的区间估计设 为来自总体 的样本, 为来自总体 的样本,并且这两个样本相互独立。设 分别为它们的样本均值, 分别为它们的样本方差。2. 均为未知的情况n但 都很大,一般 都大于5

57、0时, 可用样本方差替代总体方差n因此 的置信度为 的近似的置信区间是信息管理与工程学院122第二节 参数的区间估计四关于两个正态总体的均值差的区间估计设 为来自总体 的样本, 为来自总体 的样本,并且这两个样本相互独立。设 分别为它们的样本均值, 分别为它们的样本方差。3. ,但 未知的情况n由于n因此 的置信度为 的近似的置信区间是信息管理与工程学院123第二节 参数的区间估计五关于比率p的区间估计1.对单个总体比率的区间估计n设X服从(0-1)分布,它的分布函数为n其中,p为未知参数。我们有n设 为来自总体X的一个样本。当 时,n说明这是一个大样本,可由中心极限定理知n近似地服从N(0,

58、1)分布。当n充分大时, 。n因此,对于充分大的n,p 置信度为 的近似的置信区间是信息管理与工程学院124第二节 参数的区间估计五关于比率p的区间估计1.对单个总体比率的区间估计n例3.7 设从一大批产品中抽取100个样品,得一级品60个,求这批产品一级品率p的置信度为0.95的置信区间。信息管理与工程学院125第二节 参数的区间估计五关于比率p的区间估计1.对单个总体比率的区间估计n解:根据题意,有。n因为n故可以认为这是一个大样本。根据比率区间估计公式得n若关心一级品率的单侧置信下限,则有p的置信度为95%的置信下限n即有95%的把握认为一级品率不低于51.9%信息管理与工程学院126第

59、二节 参数的区间估计五关于比率p的区间估计2.对两个总体比率差的区间估计n设n设 为来自总体X的一个样本,n设 为来自总体Y的一个样本,n并且两个样本相互独立。对于充分大的n和m,即n ,说明这是一个大样本,可由中心极限定理知n近似地服从N(0,1)分布。当n充分大时, 。n因此, 置信度为 的近似的置信区间是信息管理与工程学院127第二节 参数的区间估计五关于比率p的区间估计3.关于总体比率估计中样本容量的确定n在估计总体 的参数p时,若给定估计的区间长度,则样本容量就不能太小。下例说明了如何根据给定的区间长度,估计样本容量。n例3.8 某手表厂零件车间新近购置了一台制造手表零件的机器,手表

60、厂需要估计该机器生产零件的废品率,并且要求在置信度为95%估计的区间长度不超过0.04。问应当抽取容量多大的样本才能满足要求?信息管理与工程学院128第二节 参数的区间估计五关于比率p的区间估计3.关于总体比率估计中样本容量的确定解:首先应当是大样本,所以不能少于30。根据比率区间估计公式,估计的区间长度为因此得到样本容量n与区间长度之间的关系为对于任意实数。所以,由上式得到n如果能够得到p的一个粗略估计,则可以根据下面公式来计算n由于采用了总体比率p的初步估计,计算结果一般会前面公式计算结果小很多。信息管理与工程学院129第四章假设检验n第一节 假设检验的原理统计推断的两个主要内容:n参数估

61、计n假设检验统计假设任何一个关于未知分布的假设称为统计假设或简称假设。参数假设一个仅仅涉及随机变量分布中未知参数的假设称为参数假设。假设检验通过一个样本来对“假设”合理与否进行考察的过程就是假设检验。参数检验判别参数假设的检验称为参数检验。一原假设和备选假设1.原假设作为检验对象的假设称为待检假设或原假设。通常用H0表示。n例如,对总体均值是否为某一确定值0原假设为2.备择假设原假设的对立假设称为备择假设,通常用H1表示。例如,上面例子的备择假设为信息管理与工程学院130 统计分析的过程 信息管理与工程学院131第一节 假设检验的原理(续)二、假设检验的基本思想n从抽样误差的概念中我们可以理解

62、,如果我们观察到两种不同的措施对目标结果有影响,可能有两种原因造成不同的影响:一是单纯由于抽样误差所致,二是除抽样误差外,这两种不同的措施确实对目标结果有所不同。n如何判断差别是由何种原因引起的呢?可用假设检验来鉴别。假设检验的基本思路是:n首先对总体参数作出某种假设H0 ,如假设两种措施有相等的效率,在此假设前提下,对样本数据进行加工,计算出样本统计量,通常样本统计量的概率分布是数理统计理论已经研究出来的,再根据概率分布原理计算出样本统计量在这种已知分布中相应的概率p,对整个推导过程的前提假设条件进行判断,应该接受原来的假设条件还是拒绝接受原来的假设条件。信息管理与工程学院132第一节 假设

63、检验的原理(续)二、假设检验的基本思想 接受还是拒绝的主要依据为,样本统计量在这种已知分布中是以大概率出现还是小概率出现。如果是以大概率出现,说明样本统计量在正常的范围内,由抽样误差引起的可能性很大,统计上称这种差异为“无显著性意义”,对原假设也只能接受(不能拒绝它们是相等的假设)。如果是以小概率出现,说明样本统计量太大或太小,超过了抽样误差所容许的正常范围,统计上称为“相差有显著性意义”,这时才能认为这两种措施对目标的影响差别不能仅由抽样误差来解释,因此拒绝原来相等的假设,即两种措施对目标的影响是有差别的。通常人们把大小概率的分界线定在5%或者10%,把或者情况称为小概率。信息管理与工程学院

64、133第一节 假设检验的原理(续)二、假设检验的基本思想1.首先假定H0为真。2.考虑在H0成立的条件下,已经观测到的样本信息出现的概率。如何观测到这个概率:n将样本信息转换成某种已知分布的统计量n计算这个统计量出现在这种已知分布中概率。3.如果这个概率很小,说明一个小概率事件在一次试验中发生了。4.小概率原理认为概率很小的事件在一次试验中是几乎不可能发生的。5.本次抽样的样本导出了一个违背小概率原理的不合理现象。在求解概率的过程中我们都是正确的,没有任何推导和逻辑错误,唯一可能情况是事先假定H0为真是不正确的。因此拒绝原假设H0为真。6.如果这个概率不是很小,说明这个事件在一次试验中发生是一

65、件很可能的事情。因此不能拒绝原假设H0为真。信息管理与工程学院134第一节 假设检验的原理(续)二、假设检验的基本思想n例4.1 某轻型飞机厂欲购买一批铝板共10000张,铝板厂厂长称该批铝板的平均厚度为0.1cm。现随机抽取100张铝板,计算出样本的平均厚度为0.1004cm。根据历史资料该铝板厂所产铝板总体厚度的标准差是0.002cm,铝板厚度服从正态分布。问:这10000张铝板的平均厚度是否为0.01cm?信息管理与工程学院135第一节 假设检验的原理(续)二、假设检验的基本思想n解:设铝板厚度为X,则根据题意有:n我们的问题是根据样本观测值判断 还是 。因此,我们提出原假设:n以及它的

66、备择假设:n考虑统计量 ,在H0为真的情况下,这个统计n量服从N(0,1)分布。信息管理与工程学院136第一节 假设检验的原理(续)二、假设检验的基本思想n如果H0为真,那么观测值 就不能偏离原点太多。n若观测太大,说明小概率事件发生,我们就有理由怀疑假设H0为的正确性,从而拒绝相信H0。n对于给定的显著水平 ,事件 发生的概率为0.05。n如果样本观测值满足上述不等式,说明小概率事件在一次试验中发生了,因此我们应当作出拒绝 的判断;否则不能拒绝H0。事实上本题为:n故应拒绝n称区域 为拒绝域。信息管理与工程学院137第二节假设检验的基本概念n一两类错误由假设检验作出统计推断时,不论是拒绝,还

67、是不拒绝,都有可能发生错误(或称误差)。根据所犯错误的性质,可以区分为两类错误:我们也许会拒绝一个事实上是真的,这种错误称为第一类错误,把犯第一类错误的概率记为,或称拒真概率(或称以真为假);我们也许没有拒绝一个事实上是不真的,这种错误称为第二类错误,把犯第二类错误的概率记为,或称受伪概率(或称以假为真)。为明确起见,用表41表示判断结果。n表表41 统计上的两类错误统计上的两类错误n 信息管理与工程学院138第二节假设检验的基本概念n一两类错误n用假设检验作为统计推断时,第一类错误经常是已知的,第二类错误经常是未知的。我们自然期望最理想的情况:犯两类错误的概率都能最小化。但是,事实上,当样本

68、容量固定时,同时最小化两类错误是做不到的。n解决此问题的经典方法已体现于尼曼(Neyman)和皮尔逊(Pearson)的工作中,把犯第一类错误的概率控制在一个相当低水平的条件下,尽量使犯第二类错误的概率达到最小;因为人们认为犯第一类错误比犯第二类错误可能更严重。n假设检验就是把固定在诸如0.01或0.05的水平上,使得最小化。实际上要达到这个目标非常困难,这种最优法则有时候根本找不到,因此只能降低要求。n显著性检验在实践中,只是限定的值,而不过多考虑。即只考虑假设是否成立,不考虑不成立的后果(以假为真),这种检验称为显著性检验, 称为显著性水平。n要同时降低、值的唯一办法是加大样本。信息管理与

69、工程学院139第二节假设检验的基本概念n二显著性水平的确定在例4.1中,选择 ,即认为5%的概率对飞机厂来说已经足够小,并在这个基础上作出了拒绝原假设的判断。但是,选择并没有统一的规定:n如果一旦判断错误将造成巨大经济损失取值就应定得小一些。(例如,拒绝原假设便丧失了便宜购料机会,造成巨大经济损失,设定 ,那么 ,将不能拒绝H0 )n如果一旦判断错误将带来产品质量的严重问题取值就应定得大一些(例如,可设定 )。例如:一个人很容易相信别人,那么他的取值是偏大还偏小?一个人不太相信别人,那么他的取值是偏大还偏小?信息管理与工程学院140第二节假设检验的基本概念n三原假设与备选假设的选择 一般有以下

70、3个原则,应根据实际需要对它进行选用:1.原假设一般代表一种久已存在的状态,而备择假设则反映改变。n例如:某工厂生产灯泡,平均寿命为1000h,现改进了工艺,抽取用新工艺生产的灯泡10只,测得平均寿命为1050h,问新工艺下生产的灯泡平均寿命是否有提高?按本原则:2.样本观测值显示所支持的结论应作为备选假设。n例如:上例中样本观测的结果是我们希望得到的结论(平均寿命有提高),应该作为备择假设。期盼通过假设检验拒绝原假设而得到备择假设。信息管理与工程学院141第二节假设检验的基本概念n三原假设与备选假设的选择 一般有以下3个原则,应根据实际需要对它进行选用:3.应该尽量使后果严重的错误成为第一类

71、错误。n例如:某工厂生产一批产品,规定其次品率 。现从待查的产品中抽取180件,出现10件次品,问这批产品能否出厂?n把厂家损失放在第一位。如果实际上 ,而检验结果判断为 (即产品不能出厂),虽然对于生产厂家来说损失严重,但损失是在控制的概率范围里,则应选择:n把消费者的利益放在第一位。如果实际上 ,而检验结果判断为 (即产品能出厂),虽然损害了消费者的利益,但侵害消费者利益是在控制的概率范围里,则应选择:信息管理与工程学院142第二节假设检验的基本概念n四双侧检验与单侧检验双侧检验在例4.1中备择假设表示可能大于0 ,也可能小于0 ,称为双测检验。 右侧检验只关心灯泡寿命是否提高,这时考虑的

72、假设形式:左侧检验只关心次品率是否没有超过规定,这时考虑的假设形式:单侧检验右侧检验和左侧检验统称为单侧检验。信息管理与工程学院143第二节假设检验的基本概念n五假设检验的一般步骤1.根据实际问题的要求,明确提出原假设H0与备择假设H1;2.给定显著性水平以及样本容量n;3.确定检验统计量以及拒绝域的形式;4.按 求出拒绝域。5.取样,根据样本观测值确定接受还是拒绝。信息管理与工程学院144第三节 关于总体均值与方差的假设检验n设 为来自总体 的一个样本,样本均值 ,样本方差为 。设给定的显著水平为 (一般情况下,取 )。n一关于一个正态总体均值的假设检验要检验的假设包括:1.已知方差n统计量

73、为 ,当H0为真时, 。见表4-1。n如果总体不服从正态分布,当样本充分大时(n30),仍可用上述结论进行检验。(中心极限定理)n如果总体方差未知,当样本充分大时(n30),仍可用上述结论进行检验。(用样本方差 替代总体方差 )信息管理与工程学院145表4-1:正态总体均值的假设检验已知总体方差临界值拒绝域图形双侧检验右侧检验左侧检验信息管理与工程学院146第三节 关于总体均值与方差的假设检验n设 为来自总体 的一个样本,样本均值 ,样本方差为 。设给定的显著水平为 (一般情况下,取 )。n一关于一个正态总体均值的假设检验要检验的假设包括:2.未知方差n统计量为 ,当H0为真时, 。见表4-2

74、。n如果总体不服从正态分布,当样本充分大时(n30),仍可用上述结论进行检验。信息管理与工程学院147表4-2:正态总体均值的假设检验未知总体方差临界值拒绝域图形双侧检验右侧检验左侧检验信息管理与工程学院148第三节 关于总体均值与方差的假设检验一关于一个正态总体均值的假设检验n例4.2 根据调查,去年某城市的家庭月耗电量服从均值为62的正态分布,为了确定今年家庭平均每月耗电量有否提高,随机抽查100个家庭,统计得他们每月耗电量的平均值为64.25,样本方差为100,取显著性水平=0.05,你能否作出什么结论?信息管理与工程学院149第三节 关于总体均值与方差的假设检验一关于一个正态总体均值的

75、假设检验n解:这是一个正态分布、方差未知,对总体均值进行假设检验的问题。n需要检验的假设是n因为这是一个大样本,因此使用统计量n这是单侧检验中右侧检验,拒绝域为nZ的观测值为 ,故应该拒绝原假设,即认为今年每个家庭平均耗电量已经有了显著的提高。信息管理与工程学院150第三节 关于总体均值与方差的假设检验n设 为来自总体 的一个样本,样本均值 ,样本方差为 。设给定的显著水平为 (一般情况下,取 )。n二关于一个正态总体方差的假设检验要检验的假设包括:n总体均值 未知n选择统计量为 ,n当H0为真时, 。见表4-3。信息管理与工程学院151表4-3:正态总体方差的假设检验未知总体均值临界值拒绝域

76、图形双侧检验右侧检验左侧检验信息管理与工程学院152第三节 关于总体均值与方差的假设检验二关于一个正态总体方差的假设检验n例4.3自动装罐机装罐头食品,规定罐头净重标准差不能超过5g,不然的话,必须停工检验机器。现检查10罐,测量并计算得净重的标准差为5.5g,假定罐头净重服从正态分布,取显著性水平=0.05,问机器工作是否正常?信息管理与工程学院153第三节 关于总体均值与方差的假设检验二关于一个正态总体方差的假设检验n解:这是一个正态分布、均值 未知,对方差 进行假设检验的问题。要检验的假设为n使用统计量n这个检验的拒绝域为n卡方观察值为n因为 ,故不能拒绝原假设,即认为机器工作正常。信息

77、管理与工程学院154第三节 关于总体均值与方差的假设检验n设 为来自总体 的一个样本,n设 为来自总体 的一个样本,n并且这两个样本相互独立。n设 分别为它们的样本均值, 分别为它们样本方差。设给定的显著水平为 。n三关于两个正态总体均值差的假设检验要检验的假设包括: 信息管理与工程学院155第三节 关于总体均值与方差的假设检验n三关于两个正态总体均值差的假设检验1.已知方差由于 ,且相互独立,因此有:即选择统计量为 ,当H0为真时,如果总体不服从正态分布,当样本充分大时(n1,n230),仍可用上述结论进行检验。信息管理与工程学院156表4-4:正态总体均值差的假设检验已知方差临界值拒绝域图

78、形双侧检验右侧检验左侧检验信息管理与工程学院157第三节 关于总体均值与方差的假设检验n三关于两个正态总体均值差的假设检验2.未知方差 ,但 都很大(30)此时,我们可用样本方差 ,替代未知总体方差 。 采用统计量为 ,当H0为真时,Z近似服从标准正态分布,即检验规则仍然可用表4.4。信息管理与工程学院158第三节 关于总体均值与方差的假设检验n三关于两个正态总体均值差的假设检验3.方差相等,但未知 方差相等时,样本方差采用合并样本方差采用统计量为 ,当H0为真时,其中,检验规则如用表4.5所示。信息管理与工程学院159表4-4:正态总体均值差的假设检验已知方差临界值拒绝域图形双侧检验右侧检验

79、左侧检验信息管理与工程学院160第三节 关于总体均值与方差的假设检验n四关于比率p的假设检验n设 ,其中p为未知参数。因此n设 为来自总体X的一个大样本。n要检验的假设包括:n当 时,我们采用统计量n在当H0为真时,z近似地服从N(0,1)分布。检验的规则如表4-6所示。信息管理与工程学院161表4-6:0-1分布的比率假设检验比率未知临界值拒绝域图形双侧检验右侧检验左侧检验信息管理与工程学院162第三节 关于总体均值与方差的假设检验四关于比率p的假设检验n例4.4 现抽验一批自行车零件,根据以往的资料得知,其不合格率为5%,在抽验的200个零件中,发现有7个不合格。取显著性水平=0.05,问

80、不合格率是否有所下降?信息管理与工程学院163第三节 关于总体均值与方差的假设检验四关于比率p的假设检验n解:要检验的假设为n依题意, ;因此n故为大样本。n统计量n拒绝域为nz的观测值为n应拒绝 H0 ,即认为不合格率有所下降。信息管理与工程学院164第三节 关于总体均值与方差的假设检验n五关于两个总体比率差的假设检验n设 ,其中 为两个未知参数。因此n设 为来自总体X的一个大样本。n设 为来自总体Y的一个大样本。n要检验的假设包括:n当 时,n我们采用统计量n在当H0为真时,z近似地服从N(0,1)分布。检验的规则如表4-7所示。信息管理与工程学院165表4-7:两个总体比率差的假设检验比

81、率未知临界值拒绝域图形双侧检验右侧检验左侧检验信息管理与工程学院166第四节 假设检验与区间估计的关系n对于给定的显著水平:假设检验的接受域=置信度为1的区间。例如:对于一个正态总体,方差 已知,对总体均值 进行假设检验和区间估计来说明这个问题。在一个正态总体、方差 已知的情况下,检验假设其否定域是 ,即该检验的接受域为这个不等式的一个等价形式是而未知参数 的置信度为1 的双侧置信区间也正好是这个区间。因此,若H 属于这个区间,则不能拒绝 原假设;否则应拒绝H1 。信息管理与工程学院172第一节 简单线性回归分析3.相关分析n从观测得到的数据中探索变量之间的关系是统计分析的重要内容。相关分析就

82、是计算反映各个变量之间相关密切程度和性质的统计分析方法。n要了解数值变量间的联系形式或程度,制作变量的散点图是一个最常用和直观的方法。散点图就是将每个记录的某两个变量的数值作为x,y坐标在平面上用一个点表示,多条记录就形成许多点。常见的是一些连续变量间的散点图,n若图中数据点分布在一条直线附近,表明可用直线近似地描述变量间的关系;若图中数据集中在一条曲线附近,描述变量间的关系就要用一个合适的曲线;也可能图中y随x 的变化有周期性,这在受季节影响的经济指标中是常会遇到的;也可能图中变量间并无明显的关系。n若有多个变量,常制作多幅两两变量间的散点图来考察变量间的关系。信息管理与工程学院173第一节

83、 简单线性回归分析n变量间的直线关系是变量间联系中最简单的一种,相关系数就是描述变量间线性联系程度的一个量。统计中有多个描述相关的指标,最常用的是Pearson相关系数,简称为相关系数。若观测到样本中两个变量的记录为(X1,Y1),(X2,Y2),,(Xn,Yn),则这两个变量间的相关系数的计算公式为:n样本的这个相关系数常作为总体相关系数的估计量。为了计算样本的相关系数,必须有两个变量的联合观测数据,即(Xi,Yi)。而且样本相关系数r的绝对值不超过1;绝对值接近于1表示两个变量的数据间有很强的线性关系;r 接近于0表示两个变量的数据间几乎没有线性关系;r0(0)称为正(负)相关,表示随X值

84、的递增(减),的值大体上会递增(减)。信息管理与工程学院174第一节 简单线性回归分析n在使用相关系数说明问题时要注意的是:相关系数很强不表示变量间有因果关系。也可能两个变量同时受第三个变量的的影响而使它们有很强的相关。相关系数是说明线性联系程度的。相关系数接近于0的变量间可能存在非线性联系。有时出现的个别例外数据可能使相关系数反常地变得很高。这是要十分小心的。信息管理与工程学院193第二节 多元线性回归分析n多元线性回归分析是研究一个因变量y与多个自变量 之间相关关系的统计分析方法。n设我们对于 的取定的n组不完全相同的值,作独立试验得到n组观察结果n其中 是在 处对随机变量y观察结果。这组

85、结果就是一个容量为n的样本。n一多元线性回归模型及基本理论假设多元线性回归模型:其中 是因变量的第i 个观察值, 是第j个自变量的第i个取值, 是回归参数, 是随机变量。信息管理与工程学院194第二节 多元线性回归分析n一多元线性回归模型及基本理论假设多元线性回归模型的基本理论假设1.随机误差项 具有零均值和同方差,即:2.随机误差项在不同样本点之间是相互独立的,不存在序列关系,即3.随机误差项 应服从正态分布,即4.自变量 是确定性变量,且它们之间是不相关的。5.因变量与自变量 之间存在着显著的线性相关关系,即模型是线性的。由上面的这些假设知:信息管理与工程学院195第二节 多元线性回归分析

86、n二回归参数的最小二乘估计n与简单线性回归参数的最小二乘估计类似,多元线性回归参数的最小二乘估计 是使n到达最小的 ,即n对上述函数求偏导数,并令它们等于零,得到由p+1个方程组成的方程组,由此解得多元线性回归模型的最小二乘估计 。n与简单线性回归参数的最小二乘估计类似,多元线性回归参数与具有线性性线性性、无偏性无偏性以及最小方差最小方差等统计特性。信息管理与工程学院198第二节 多元线性回归分析n四多元线性回归模型的假设检验1.全检验n需要检验的假设是:n若拒绝H0,即认为 中至少有一个不为零,说明线性回归模型有意义;n若接受H0,即认为 全都与零没有显著性的差异,即y与 之间不存在显著性相

87、关关系,说明线性回归模型无意义。n以上这个检验称为全检验。n检验统计量为n当H0为真时, 。n对于给定的显著水平,n若 ,则拒绝H0 ,即认为线性回归效果显著;n若 ,则接受H0 ,即认为线性回归效果不显著。信息管理与工程学院201第二节 多元线性回归分析n五估计与预测1.对于给定的 , 的点预测为2.回归系数 置信度1的置信区间为信息管理与工程学院202第二节 多元线性回归分析n六多项式回归模型n多项式回归模型是:n其中 是因变量 的第i个观察值, 是自变量 的第i个取值, 是回归参数, 是服从 正态 分布的相互独立的随机变量。n令n则多项式回归模型可以写成如下的多元线性回归模型:n 信息管

88、理与工程学院203第三节 线性回归模型的适宜性评价n线性回归模型的适宜性评价对于线性回归模型理论理论假设的检验假设的检验,称为线性回归模型的适宜性评价。n一非线性如果总体是非线性的(违反前面假设5,全检验F),而我们仍旧采用线性回归模型来分析,就会有以下的问题:1.回归参数b 的估计量 不是有效估计量;2.无法准确地估计 ;3.有关回归模型的推断、检验和应用都会失去准确性。n检验非线性的一个简单方法就是散点图 在直角坐标系上绘制ny与 的散点图;n或y与残差 的散点图。通过观察判断此线性模型是否适宜。信息管理与工程学院204第三节 线性回归模型的适宜性评价n一非线性信息管理与工程学院205第三

89、节 线性回归模型的适宜性评价n二异方差性n如果样本数据存在异方差现象(违反假设1),对它应用线性回归模型拟合的话,会有以下问题:1.回归系数的最小二乘估计不具有有效性;2.无法准确地确定回归参数的置信区间;3.假设检验的结论无效。n检验异方差的一个简单方法就是散点图 在直角坐标系上绘制n与残差 的散点图;n或 与残差 的散点图。通过观察 是否随 的变化而变化,来判断是否存在异方差。信息管理与工程学院206第三节 线性回归模型的适宜性评价n二异方差性信息管理与工程学院207第三节 线性回归模型的适宜性评价n三序列相关性n如果随机误差项之间存在着序列相关(违反假设2),则回产生下列问题:1.回归参

90、数的最小二乘估计虽然是无偏的,但不是有效的;2.回归效果的显著性检验不再有效;3.预测失去准确性。n检验序列相关性的一个简单方法就是散点图 在直角坐标系上n以时间t为横坐标,残差 为纵坐标,画散点图,进行观察。信息管理与工程学院208第三节 线性回归模型的适宜性评价n三序列相关性信息管理与工程学院209第三节 线性回归模型的适宜性评价n四非正态性n一般情况下,随机误差项稍微偏差正态分布,不会产生严重问题,但是,如果严重偏差正态分布的话,那么正态假设条件下的统计推断、估计和预测就失去了意义。n可以建立残差 的直方图,观察图形是否正态或接近正态分布。信息管理与工程学院210第三节 线性回归模型的适

91、宜性评价n五多重共线性n在多元线性回归模型中,我们假设模型所包含的自变量之间线性独立或线性无关,既如果存在常数使得则必有n 否则,称自变量之间线性相关或不独立。n模型的自变量之间如出现线性相关,则称该模型存在多重共线性性,最小二乘估计失效。信息管理与工程学院211第三节 线性回归模型的适宜性评价n五多重共线性n多重共线性带来的问题:1.方差很大,估计的精度很低方差很大,估计的精度很低n一般情况下,严格的共线性性不多见,经常存在的是近似共线性,即 这时 。由此,得到模型的最小二乘估计虽然是无偏的,但方差很大,估计的精度很低。2.导致错误的假设检验结论导致错误的假设检验结论n因变量与全体或部分自变

92、量之间本来十分显著的相关关系,可能会由于自变量之间的相关关系而检验不出来。3.很难解释回归系数的意义很难解释回归系数的意义增加或减少一个自变量将会导致回归参数的估计值发生大的变化,甚至发生符号变化。这种现象使我们很难解释回归系数的意义。信息管理与工程学院212第三节 线性回归模型的适宜性评价n五多重共线性n常用的检查多重共线性的方法有:1.散点图法散点图法n由自变量之间的散点图观察它们之间是否存在显著的相关性。2.计算自变量之间的相关系数计算自变量之间的相关系数n自变量之间的相关系数 , 越接近1时,说明自变量 之间高度相关。信息管理与工程学院213第六章时间序列分析第一节 时间序列的组成因素

93、一影响时间序列的四个因素影响时间序列的因素一般分为四种:n长期趋势Tn季节变动Sn循环波动Cn不规则波动I二时间序列的二个分解模型常用的时间序列的分解模型为:n乘法模型n加法模型1.乘法模型的形式 即认为四个因素之间是相互影响的。2.加法模型的形式 即认为时间序列的变动是四个因素的总和。信息管理与工程学院214第二节 长期趋势的测定一长期趋势的测定滑动平均法n利用滑动平均法测定时间序列的长期趋势的做法如下:设滑动平均的间隔长度为m,则滑动平均数序列为:滑动平均的目的:n消除原时间序列数据中的短期(季节性和不规则)波动,因此滑动的间隔长度应适中。n若时间序列是月份资料,m=12;n若时间序列是季

94、度资料,m=4。n若时间序列具有周期性,则m应为周期长度。信息管理与工程学院215第二节 长期趋势的测定一长期趋势的测定滑动平均法中心化滑动平均n滑动平均后的趋势值应放在各滑动项的中间位置。n若m是偶数:第一个滑动平均值应放在m/2+0.5;第二个滑动平均值应放在m/2+0.5+1;将这两个值再平均后放在m/2+1处;其他都如此处理。这种做法称为中心化滑动平均。信息管理与工程学院216第二节 长期趋势的测定二直线趋势的测定最小二乘法n如果长期趋势是一条直线,则可以根据线性回归分析中的最小二乘法对时间序列数据拟合一条趋势直线:n 信息管理与工程学院217第二节 长期趋势的测定三曲线趋势的测定1.

95、指数曲线指数曲线的一般形式为对上式两端取对数,将其线性化,得到并用最小二乘法求 ,由此可以计出:信息管理与工程学院218第二节 长期趋势的测定三曲线趋势的测定2.二次曲线二次曲线的一般形式:令 ,代入上式得:这是一个二元线性方程,可以根据最小二乘法计算出 的值,从而得到二次趋势曲线。将t的值代入,便得到二次曲线的趋势值。信息管理与工程学院219第三节 季节变动因素的测定n季节变动是一种非常普遍的现象,也是比较有规律的一种变动。对季节变动因素进行测定,能够帮助我们判断一个事物的变动是季节因素影响的结果,还是其他因素影响的结果;能够对我们制定短期据决策提供科学依据;能够使我们在剔除了季节因素的影响

96、之后,更清楚地了解引起事物变动的其他因素。一按月(季)平均法按月(季)平均法对时间序列数据,通过简单平均来计算季节指数。具体步骤:1.用原始数据计算出同月(或同季)的平均数;2.将各同月(或同季)平均数除以数列的总平均数;得到的变是季节指数S。1.季节指数计算公式:2.按月(季)平均法的基本假定:1.原时间序列没有明显的长期趋势和循环波动;2.当数据包含明显的长期趋势和循环波动时,该方法计算的季节指数不准确。信息管理与工程学院220第三节 季节变动因素的测定二滑动平均趋势剔除法滑动平均趋势剔除法,又称趋势剔除法基本假定时间序列为乘法模型,且各时点的不规则波动I相互独立。因此,在对数据进行间隔长

97、度m=12或m=4的滑动平均后,就能够消除季节波动和不规则波动的影响,从而得到滑动平均趋势值: 将原时间序列除以滑动平均趋势值 ,得到的百分比称为滑动平均百分比,即然后对其进行同月(或同季)平均,以便消除不规则波动因素I的影响,从而得到季节变动S。最后,将其调整为以100为基准的季节指数。信息管理与工程学院221第三节 季节变动因素的测定二滑动平均趋势剔除法n滑动平均趋势剔除法测定季节变动的步骤:1.对原数据进行12个月或4个季度的滑动平均,求出滑动平均趋势值;2.将各实际值除以相应的趋势值,得到滑动平均百分比;3.将滑动平均百分比重新按月(或季)排列,求出同月(同季)平均值;4.将同月(同季

98、)平均值除以总平均数,得到季节指数S。信息管理与工程学院222第三节 季节变动因素的测定三季节调整测定了季节变动之后,可以将它从时间序列中剔除,从而使我们能够观察和分析时间序列的其他特征。用乘法模型,将原序列除以相应的季节指数,便得到调整的时间序列:它反映的是没有季节因素影响情况下,时间序列之变化趋势。信息管理与工程学院223第四节 循环波动因素的测定n循环波动由于经常与不规则波动混在一起,因此它的循环周期与波动大小常呈现非常数情形,故很难被单独测定。n一般的做法是从原时间序列中消除长期趋势、季节变动和不规则波动,从而得到循环波动。这种方法称为剩余测定法。一用剩余测定法测定循环波动 具体做法如下:1.求出季节变动指数S;2.在原时间序列中消除季节因素之影响,计算公式为3.计算长期趋势值T,并在无季节影响之时间序列中消除长期趋势的影响,计算公式为4.用滑动平均法对时序 进行滑动平均,消除不规则波动的影响,得到循环波动值,通常用百分数表示。二循环波动相关数图循环波动相关数图是循环波动相对数C对时间t的散点图。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号