概率论与数理统计第九章方差分析与回归分析

上传人:pu****.1 文档编号:591247622 上传时间:2024-09-17 格式:PPT 页数:76 大小:2.57MB
返回 下载 相关 举报
概率论与数理统计第九章方差分析与回归分析_第1页
第1页 / 共76页
概率论与数理统计第九章方差分析与回归分析_第2页
第2页 / 共76页
概率论与数理统计第九章方差分析与回归分析_第3页
第3页 / 共76页
概率论与数理统计第九章方差分析与回归分析_第4页
第4页 / 共76页
概率论与数理统计第九章方差分析与回归分析_第5页
第5页 / 共76页
点击查看更多>>
资源描述

《概率论与数理统计第九章方差分析与回归分析》由会员分享,可在线阅读,更多相关《概率论与数理统计第九章方差分析与回归分析(76页珍藏版)》请在金锄头文库上搜索。

1、2024/9/17版权所有版权所有 BY 张学毅张学毅1第第九九章章第一节第一节单因素试验的方差分析单因素试验的方差分析2024/9/17版权所有版权所有 BY 张学毅张学毅2一、一、方差分析的有关概念方差分析的有关概念1.方差分析方差分析(Analysis of VarianceAnalysis of Variance,ANOVAANOVA)是一种检验多)是一种检验多 个个正态正态总体均值是否相等总体均值是否相等总体均值是否相等总体均值是否相等的统计方法。的统计方法。2.因素的水平因素的水平因素的水平因素的水平:指试验因素的某种特定状态或:指试验因素的某种特定状态或数量等级,简数量等级,简称

2、水平。称水平。3.试验指标试验指标试验指标试验指标:衡量实验结果好坏程度的试验数据:衡量实验结果好坏程度的试验数据。n在单因素方差分析中,将因素的任何一个水平看作是在单因素方差分析中,将因素的任何一个水平看作是一个总体,该水平下试验得到的数据可看成是从总体中抽一个总体,该水平下试验得到的数据可看成是从总体中抽出的一个样本。出的一个样本。n n 若方差分析中考察的因素只有一个时,称为若方差分析中考察的因素只有一个时,称为若方差分析中考察的因素只有一个时,称为若方差分析中考察的因素只有一个时,称为单因素方单因素方单因素方单因素方差分析差分析差分析差分析;若同时研究两个因素对试验指标的影响时,则称;

3、若同时研究两个因素对试验指标的影响时,则称;若同时研究两个因素对试验指标的影响时,则称;若同时研究两个因素对试验指标的影响时,则称为两因素试验。同时针对两个因素进行,则称为为两因素试验。同时针对两个因素进行,则称为为两因素试验。同时针对两个因素进行,则称为为两因素试验。同时针对两个因素进行,则称为双因素方双因素方双因素方双因素方差分析差分析差分析差分析。 2024/9/17版权所有版权所有 BY 统计学课程组统计学课程组3二、单因素方差分析二、单因素方差分析的数据结构的数据结构n2024/9/17版权所有版权所有 BY 张学毅张学毅4因素A水平A1 水平A2水平As12:2024/9/17版权

4、所有版权所有 BY 张学毅张学毅5n n表中:表中:表中:表中:为第为第为第为第 i i个水平的第个水平的第个水平的第个水平的第j j个观测值。个观测值。个观测值。个观测值。n n记第记第记第记第j j个水平观测值的均值为个水平观测值的均值为个水平观测值的均值为个水平观测值的均值为, ,则有则有则有则有n n记所有观测值的均值为记所有观测值的均值为记所有观测值的均值为记所有观测值的均值为,则有,则有,则有,则有2024/9/17版权所有版权所有 BY 张学毅张学毅6三、方差分析中的三个基本假设三、方差分析中的三个基本假设n(1)各个总体都服从正态分布;)各个总体都服从正态分布;n(2)各个总体

5、的方差都相等;)各个总体的方差都相等;n(3)各个观测值之间是相互独立的。)各个观测值之间是相互独立的。2024/9/17版权所有版权所有 BY 张学毅张学毅7四、四、单因素方差分析单因素方差分析的数学模型的数学模型由于由于n n则则则则有单因素方差分析的有单因素方差分析的有单因素方差分析的有单因素方差分析的数学模型数学模型数学模型数学模型1 1:2024/9/17版权所有版权所有 BY 张学毅张学毅8四、四、单因素方差分析单因素方差分析的数学模型的数学模型记记,n为为Aj 的的效应。效应。n n则则则则有单因素方差分析的有单因素方差分析的有单因素方差分析的有单因素方差分析的数学模型数学模型数

6、学模型数学模型2 2:2024/9/17版权所有版权所有 BY 张学毅张学毅91.从从散散点点图图上上可可以以看看出出:不不同同的的水水平平的的数数据据是是有有明明显显差异的;同一个差异的;同一个水平水平的的数据数据也明显不同;也明显不同;2.不不同同水水平平的的观观察察值值与与试试验验指指标标值值之之间间可可能能有有一一定定的关系。的关系。3. 仅仅从从散散点点图图上上观观察察还还不不能能提提供供充充分分的的证证据据证证明明不不同同水水平平与与试试验验指指标标值值之之间间有有显显著著差差异异。这这种种差差异异可可能能是是由由于于抽抽样样的的随随机机性性所所造造成成的的,也也有有可可能能是是系

7、统性系统性影响因素造成的。影响因素造成的。五、五、方差分析的基本思想方差分析的基本思想2024/9/17版权所有版权所有 BY 张学毅张学毅104.需需要要有有更更准准确确的的方方法法来来检检验验这这种种差差异异是是否否显显著著,也也就是进行方差分析。就是进行方差分析。5.5.随机误差随机误差随机误差随机误差 因素的同一水平因素的同一水平(总体总体)下,样本各观察值之间的下,样本各观察值之间的差异,可以看成是随机因素的影响,称为随机误差差异,可以看成是随机因素的影响,称为随机误差 ;6.系统误差系统误差 因素的不同水平因素的不同水平(不同总体不同总体)下,各观察值之间的差下,各观察值之间的差异

8、可能是由于异可能是由于抽样的抽样的随机性随机性所造成的,所造成的,也可能是由于也可能是由于水平水平本身所造成的,后者所形成的误差是由系统性因本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差。素造成的,称为系统误差。2024/9/17版权所有版权所有 BY 张学毅张学毅11方差分析的基本思想方差分析的基本思想7.若若不不同同水水平平对对试试验验指指标标值值没没有有影影响响,则则组组间间误误差差中中只只包包含含随随机机误误差差,没没有有系系统统误误差差。这这时时,组组间间误误差差与与组组内内误误差差经经过过平平均均后后的的数数值值就就应应该该很很接接近近,它它们们的的比值就会接近比

9、值就会接近1;8.若若不不同同水水平平对对试试验验指指标标值值有有影影响响,则则在在组组间间误误差差中中除除了了包包含含随随机机误误差差外外,还还会会包包含含有有系系统统误误差差,这这时时组组间间误误差差平平均均后后的的数数值值就就会会大大于于组组内内误误差差平平均均后后的的数数值,它们之间的比值就会大于值,它们之间的比值就会大于1;9.当当这这个个比比值值大大到到某某种种程程度度时时,就就可可以以说说不不同同水水平平之之间间存在着显著差异,也就是自变量对因变量有影响。存在着显著差异,也就是自变量对因变量有影响。 总总离差离差平方和平方和( sum of squares for total)1

10、)全全部观察值部观察值与与总均值总均值的离差平方和;的离差平方和;2)反映全部观察值的离散反映全部观察值的离散状况。状况。其计算公式为其计算公式为:六、六、离差平方和与自由度的分解离差平方和与自由度的分解效应平方和(组间平方和)效应平方和(组间平方和):Sum of squares for factor ASum of squares for factor A1)1)各各各各组组组组平平平平均均均均值值值值 与与与与总总总总平平平平均均均均值值值值 的的的的离差平方和;离差平方和;离差平方和;离差平方和;2)2)反反反反映映映映各各各各总总总总体体体体的的的的样样样样本本本本均均均均值值值值之

11、之之之间间间间的的的的差差差差异异异异程程程程度度度度,又又又又称称称称组组组组间平方和;间平方和;间平方和;间平方和;3)3)该平方和既包括随机误差,也包括该平方和既包括随机误差,也包括该平方和既包括随机误差,也包括该平方和既包括随机误差,也包括系统误差。系统误差。系统误差。系统误差。计算计算计算计算公式公式公式公式为:为:为:为: 误差平方和(组内平方和)误差平方和(组内平方和) :Sum of squares for error1)1)每每每每个个个个水水水水平平平平或或或或组组组组的的的的各各各各样样样样本本本本数数数数据据据据与与与与其其其其组组组组平平平平均均均均值值值值的的的的离

12、离离离差差差差平方和;平方和;平方和;平方和;2)2)反反反反映映映映每每每每个个个个样样样样本本本本各各各各观观观观察察察察值值值值的的的的离离离离散散散散状状状状况况况况,又又又又称称称称组组内内离离差平方和;差平方和;差平方和;差平方和;3)3)该平方和反映的是随机误差的该平方和反映的是随机误差的该平方和反映的是随机误差的该平方和反映的是随机误差的大小。大小。大小。大小。计算公式为计算公式为计算公式为计算公式为 : :三个离差平方和的关系三个离差平方和的关系总总离差平方和离差平方和=组间平方和组间平方和+组内平方和组内平方和 n n三个离差平方和的自由度之间的关系:三个离差平方和的自由度

13、之间的关系:三个离差平方和的自由度之间的关系:三个离差平方和的自由度之间的关系:n n均方均方均方均方2024/9/17版权所有版权所有 BY 张学毅张学毅17七、七、的统计特征的统计特征P228n根据概率论与数理统计学知识根据概率论与数理统计学知识:1)是总体方差是总体方差的无偏估计量,且与原假设成的无偏估计量,且与原假设成立与否无关。立与否无关。即即2)是否是总体方差是否是总体方差的无偏估计量,与原假设的无偏估计量,与原假设成立与否有关成立与否有关。当且仅当原假设成立时,。当且仅当原假设成立时,才是才是总体方差总体方差的无偏估计量。的无偏估计量。八、方差分析表八、方差分析表通常将上述计算过

14、程列成一张表格,称为方差分析表通常将上述计算过程列成一张表格,称为方差分析表。变差源变差源平方和平方和自由度自由度均方均方F比比因素因素A(组间)(组间)s-1误差(组内)误差(组内)n-s-总和总和n-1-2024/9/17版权所有版权所有 BY 张学毅张学毅19例例9.1热带雨林热带雨林一份研究伐木业对热带雨林影响的统计研究报告指出,“环保主义者对于林木采伐、开垦和焚烧导致的热带雨林的破坏几近绝望”。这项研究比较了类似地块上树木的数量,这些地块有的从未采伐过,有的1年前采伐过,有的8年前采伐过。根据数据,采伐对树木数量有显著影响吗?显著性水平=0.05。 2024/9/1720n2、提出零

15、假设和备择假设、提出零假设和备择假设nH0:u1=u2=u3nH1:u1,u2,u3不全相等。不全相等。从未采从未采伐过伐过1年前采年前采伐过伐过8年前采年前采伐过伐过2712182212429152221915192018331819161722201412241412272281719192024/9/17版权所有版权所有 BY 张学毅张学毅21n方差分析表方差分析表n结论结论:nF值值=11.433.32,p-值值=0.00020.05,因此检验,因此检验的结论是采伐对林木数量有显著影响。的结论是采伐对林木数量有显著影响。变差源变差源SSdfMSFP-valueFcrit组间组间625.

16、162312.5811.430.00023.32组内组内820.723027.36总计总计1445.88322024/9/17版权所有版权所有 BY 张学毅张学毅22n【例例9.2】某市消费者协会为了评价该地旅游业、居民服务业、某市消费者协会为了评价该地旅游业、居民服务业、公路客运业和保险业的服务质量,从这公路客运业和保险业的服务质量,从这4 4个行业中分别抽取了不个行业中分别抽取了不同数量的企业。经统计,最近一年消费者对这同数量的企业。经统计,最近一年消费者对这2323家企业投诉的家企业投诉的次数资料如下表所示。这次数资料如下表所示。这4 4个行业之间服务质量是否有显著差异个行业之间服务质量

17、是否有显著差异?如果有,究竟是在哪些行业之间?如果有,究竟是在哪些行业之间?解解(1)建立假设建立假设nn(2)列方差分析表列方差分析表n(3)统计决策)统计决策n因为因为,所以拒绝,所以拒绝。即有。即有99%的把握的把握n认为不同行业之间的服务质量有高度显著的差异。认为不同行业之间的服务质量有高度显著的差异。2024/9/17版权所有版权所有 BY 张学毅张学毅24第二节第二节两因素试验数据的方差分析两因素试验数据的方差分析n一、无交互作用的双因素方差分析一、无交互作用的双因素方差分析 若记一因素为因素若记一因素为因素若记一因素为因素若记一因素为因素A A,另一因素为因素,另一因素为因素,另

18、一因素为因素,另一因素为因素B B,对,对,对,对A A与与与与B B同时进行分析,就属于双因素方差分,即同时进行分析,就属于双因素方差分,即同时进行分析,就属于双因素方差分,即同时进行分析,就属于双因素方差分,即判断是否有某一个或两个因素对试验指标有显判断是否有某一个或两个因素对试验指标有显判断是否有某一个或两个因素对试验指标有显判断是否有某一个或两个因素对试验指标有显著影响,两个因素结合后是否有新效应。在统著影响,两个因素结合后是否有新效应。在统著影响,两个因素结合后是否有新效应。在统著影响,两个因素结合后是否有新效应。在统计学中将各个因素的不同水平的搭配所产生的计学中将各个因素的不同水平

19、的搭配所产生的计学中将各个因素的不同水平的搭配所产生的计学中将各个因素的不同水平的搭配所产生的新的影响称为交互作用。我们先讨论无交互作新的影响称为交互作用。我们先讨论无交互作新的影响称为交互作用。我们先讨论无交互作新的影响称为交互作用。我们先讨论无交互作用的双因素方差分析问题,对于有交互作用的用的双因素方差分析问题,对于有交互作用的用的双因素方差分析问题,对于有交互作用的用的双因素方差分析问题,对于有交互作用的双因素方差分析问题稍后再讨论。双因素方差分析问题稍后再讨论。双因素方差分析问题稍后再讨论。双因素方差分析问题稍后再讨论。2024/9/17版权所有版权所有 BY 张学毅张学毅25无交互作

20、用的无交互作用的双因素方差分析数据结构双因素方差分析数据结构2024/9/17版权所有版权所有 BY 张学毅张学毅26双因素双因素无无交互作用交互作用的方差分析,又称为的方差分析,又称为双因素双因素无无重复试验的方差分析;重复试验的方差分析;双双因素有交互作用因素有交互作用的方差的方差分析,又称为双分析,又称为双因素等重复试验因素等重复试验的方差分析;的方差分析;n判断因素判断因素A的影响是否显著等价于检验假设:的影响是否显著等价于检验假设:n判断因素判断因素B的影响是否显著等价于检验假设:的影响是否显著等价于检验假设:n其中,其中,表示表示A的第的第i个水平所构成的总体均值,个水平所构成的总

21、体均值,表示的表示的B第第j个水平所构成的总体均值。个水平所构成的总体均值。n对离差总平方和进行分解对离差总平方和进行分解。与单因素情况类似,。与单因素情况类似,能够证明下列公式成立:能够证明下列公式成立:n总离差平方和的自由度分解为:总离差平方和的自由度分解为:n nF F统计量:统计量:统计量:统计量:2024/9/17版权所有版权所有 BY 张学毅张学毅28n例例9.3为提高某种产品的合格率,考察为提高某种产品的合格率,考察原料来源原料来源地地和和用量对其是否有影响。原料来源地有三个:甲、用量对其是否有影响。原料来源地有三个:甲、乙、丙;原料用量有三种:现有量、增加乙、丙;原料用量有三种

22、:现有量、增加5%、增加、增加8%。每个水平组合各作一次试验,得到的数据如下。每个水平组合各作一次试验,得到的数据如下表所示。试分析表所示。试分析原料来源原料来源地地和和用量对产品合格率的影用量对产品合格率的影响是否显著?响是否显著?2024/9/17版权所有版权所有 BY 张学毅张学毅30【例题例题】n解解:(1)建立假设建立假设n n(2)(2)列列列列方差分析表方差分析表方差分析表方差分析表2024/9/17版权所有版权所有 BY 张学毅张学毅31(3)统计决策统计决策n对于显著性水平对于显著性水平0.05,查表得临界值,查表得临界值n因为因为,故不拒绝,故不拒绝,n拒绝拒绝。即根据现有

23、数据,有。即根据现有数据,有95%的把握可以推断的把握可以推断原料来源地对产品合格率的影响不大,而原料用量对合原料来源地对产品合格率的影响不大,而原料用量对合格率有显著影响。格率有显著影响。n由于由于为最优水平。既然原料来源地对产为最优水平。既然原料来源地对产品合格率的影响不显著,在保证质量的前提下,可以选品合格率的影响不显著,在保证质量的前提下,可以选择运费最省的地方作为原料来源地选择时的首选。如果择运费最省的地方作为原料来源地选择时的首选。如果丙地的运费最省,则最优方案为丙地的运费最省,则最优方案为。n2024/9/17版权所有版权所有 BY 张学毅张学毅32n【例例9.4】某种火箭使用了

24、四种燃料,三种推进某种火箭使用了四种燃料,三种推进器做试验。每种燃料和每种推进器的组合各做一器做试验。每种燃料和每种推进器的组合各做一次试验,得火箭射程数据如下表所示。试问不同次试验,得火箭射程数据如下表所示。试问不同的燃料、不同的推进器分别对火箭射程有无显著的燃料、不同的推进器分别对火箭射程有无显著影响?影响?2024/9/17版权所有版权所有 BY 张学毅张学毅33n列方差分析表:列方差分析表:2024/9/17版权所有版权所有 BY 张学毅张学毅342024/9/17版权所有版权所有 BY 张学毅张学毅352024/9/17版权所有版权所有 BY 张学毅张学毅36二、有交互作用的双因素方

25、差分析二、有交互作用的双因素方差分析n所谓交互作用,简单来说就是不同因素对所谓交互作用,简单来说就是不同因素对试验指标的复合作用,因素试验指标的复合作用,因素A和和B的综合效应不的综合效应不是二因素效应的简单相加。为了能分辨出两个是二因素效应的简单相加。为了能分辨出两个因素的交互作用,一般每组试验至少作两次。因素的交互作用,一般每组试验至少作两次。2024/9/17版权所有版权所有 BY 张学毅张学毅37有交互作用的双因素方差分析数据结构有交互作用的双因素方差分析数据结构2024/9/17版权所有版权所有 BY 张学毅张学毅382建立假设建立假设2024/9/17版权所有版权所有 BY 张学毅

26、张学毅39n这就是这就是有交互作用的双因素有交互作用的双因素方差分析的数学模方差分析的数学模型。型。2024/9/17版权所有版权所有 BY 张学毅张学毅40n对这一模型可设如下三个假设:对这一模型可设如下三个假设:2024/9/17版权所有版权所有 BY 张学毅张学毅413方差分析方差分析n与单因素方差分析的平方和分解类似,有与单因素方差分析的平方和分解类似,有2024/9/17版权所有版权所有 BY 张学毅张学毅422024/9/17版权所有版权所有 BY 张学毅张学毅43双因素(有交互作用)方差分析表双因素(有交互作用)方差分析表2024/9/17版权所有版权所有 BY 张学毅张学毅44

27、n例例9.5某公司想将橡胶、塑料和软木的板某公司想将橡胶、塑料和软木的板材冲压成密封垫片出售。市场上有两种不同材冲压成密封垫片出售。市场上有两种不同型号的冲压机可供选择。为了能对冲压机每型号的冲压机可供选择。为了能对冲压机每小时所生产的垫片数进行比较,并确定哪种小时所生产的垫片数进行比较,并确定哪种机器使用何种材料生产垫片的能力更强,该机器使用何种材料生产垫片的能力更强,该公司使用每台机器对每一种材料分别运行三公司使用每台机器对每一种材料分别运行三段时间,得到的试验数据(每小时生产的垫段时间,得到的试验数据(每小时生产的垫片数)如下表所示,试运用方差分析确定最片数)如下表所示,试运用方差分析确

28、定最优方案。优方案。2024/9/17版权所有版权所有 BY 张学毅张学毅452024/9/17版权所有版权所有 BY 张学毅张学毅46n解解n(1)建立假设:建立假设:n(2)计算相应的均值和平方和:计算相应的均值和平方和:2024/9/17版权所有版权所有 BY 张学毅张学毅472024/9/17版权所有版权所有 BY 张学毅张学毅48(3)列方差分析表列方差分析表2024/9/17版权所有版权所有 BY 张学毅张学毅49n(4)统计决策统计决策n由于由于n,n说明不仅冲压机的型号和垫片材料对垫片数量说明不仅冲压机的型号和垫片材料对垫片数量有显著影响,而且其交互作用也是显著的。由有显著影响

29、,而且其交互作用也是显著的。由结构均值表可知,在冲压机中结构均值表可知,在冲压机中,第一种的均值较第一种的均值较大;垫片材料中大;垫片材料中,软木的均值较大,故最优方案软木的均值较大,故最优方案是是。2024/9/1750第三节第三节一元线性回归一元线性回归n n一、一元线性回归一、一元线性回归n n二、二、a,b的估计的估计n n三、总体方差的估计三、总体方差的估计n n四、线性假设的显著性检验四、线性假设的显著性检验n n五、系数五、系数b的置信区间的置信区间n n六、回归预测六、回归预测n n七、可化为一元线性回归的例子七、可化为一元线性回归的例子(自学)自学)回归模型的类型回归模型的类

30、型一、一一、一元元线性回归线性回归1.只涉及一个自变量的只涉及一个自变量的回归;回归;2.因因变量变量y与自变量与自变量x之间为之间为线性关系。线性关系。n被被预预测测或或被被解解释释的的变变量量称称为为因因变变量量(dependent variable),用,用y表示;表示;n用用来来预预测测或或用用来来解解释释因因变变量量的的一一个个或或多多个个变变量量称称为自变量为自变量(independent variable),用,用x表示。表示。3.因变量与自变量之间的关系用因变量与自变量之间的关系用一个线性方程来一个线性方程来表示。表示。一一元线性回归模型的基本形式元线性回归模型的基本形式 描描

31、述述因因变变量量 y 如如何何依依赖赖于于自自变变量量x 和和误误差差项项 的的方方程程称为称为理论回归模型理论回归模型一元线性一元线性回归模型可表示为回归模型可表示为ny 是是x 的线性函数的线性函数(部分部分)加上随机误差项加上随机误差项n线线性性部部分分反反映映了了由由于于x 的的变变化化而而引引起起的的y 的的变变化化;误误差差项项 是是随随机机变变量量(未未纳纳入入模模型型但但对对y有有影影响响的的诸诸多多因因素素的的综综合合影影响响),反反映映了了除除x 和和y 之之间间的的线线性性关关系系之之外外的的随随机机因因素素对对y 的的影影响响,是是不不能能由由x 和和y 之间的线性关系

32、所解释的之间的线性关系所解释的变异性变异性。na和和b称为称为模型的参数模型的参数理论回归理论回归理论回归理论回归模型模型模型模型在在在在抽抽抽抽样样样样中中中中,自自自自变变变变量量量量x x的的的的取取取取值值值值是是是是固固固固定定定定的的的的,即即即即x x是是是是非非非非随随随随机机机机的的的的;因因因因变变变变量量量量y y是随机的。是随机的。是随机的。是随机的。即即即即当当当当解解解解释释释释变变变变量量量量X X取取取取某某某某固固固固定定定定值值值值时时时时,Y Y的的的的值值值值不不不不确确确确定定定定,Y Y的的的的不不不不同同同同取取取取值值值值形形形形成成成成一一一一

33、定定定定的的的的分布,这是分布,这是分布,这是分布,这是Y Y的条件分布的条件分布的条件分布的条件分布。回回回回归归归归线线线线,描描描描述述述述的的的的是是是是Y的的条条件件期期望望E(Y/xi)与与之之对对应应xi,代代表表这这些些Y的条件期望的点的轨迹所形成的直线或曲线。的条件期望的点的轨迹所形成的直线或曲线。如如如如注意注意注意注意: 由于单个数据点是从由于单个数据点是从由于单个数据点是从由于单个数据点是从y y的的的的分布中抽出来的,可能不在分布中抽出来的,可能不在分布中抽出来的,可能不在分布中抽出来的,可能不在这条回归线上,因此必须包含这条回归线上,因此必须包含这条回归线上,因此必

34、须包含这条回归线上,因此必须包含随机误差项随机误差项 来描述模型数据点来描述模型数据点. .xy回回归归线线回归模型的基本假设回归模型的基本假设假设假设1:误差项的期望值为:误差项的期望值为0,即对所有的,即对所有的i有有假设假设2:误差项的方差为常数,即对所有的:误差项的方差为常数,即对所有的i有有假设假设3:误差项之间不存在自相关关系,其协方差为:误差项之间不存在自相关关系,其协方差为0,即当即当时,有时,有;假设假设4:自变量是给定的变量,与随机误差项线性无关;:自变量是给定的变量,与随机误差项线性无关;假设假设5:随机误差项服从正态分布。:随机误差项服从正态分布。即即N(0,2)以上这

35、些基本假设是德国数学家高斯最早提出的,故也以上这些基本假设是德国数学家高斯最早提出的,故也称为称为高斯假定或标准假定。高斯假定或标准假定。回归方程回归方程(regression equation)(regression equation) 1.描描述述y 的的平平平平均均均均值值值值或或或或期期期期望望望望值值值值如如何何依依赖赖于于x 的的方方程程称称为回归方程为回归方程2.一元一元线性回归方程的形式线性回归方程的形式如下如下:方程的图示是一条直线,也方程的图示是一条直线,也称为直线回归方程。称为直线回归方程。a是是回回归归直直线线在在y 轴轴上上的的截截距距,是是当当x=0时时y 的的期望

36、值;期望值;b是是直直线线的的斜斜率率,称称为为回回归归系系数数,表表示示当当x 每每变变动一个单位时,动一个单位时,y 的平均变动的平均变动值。值。.估计的回归方程估计的回归方程(estimated regression equation)(estimated regression equation)3.一元线性回归中一元线性回归中一元线性回归中一元线性回归中估计的回归方程为估计的回归方程为估计的回归方程为估计的回归方程为2.用用样样本本统统计计量量,代代替替回回归归方方程程中中的的未未知知参参数数和和,就得到了估计的,就得到了估计的回归方程回归方程.1.总总体体回回归归参参数数和和 是是未

37、未知知的的,必必须须利利用用样样本本数据去数据去估计估计;其其中中:是是估估计计的的回回归归直直线线在在y轴轴上上的的截截距距,是是直直线线的的斜斜率率,它它表表示示对对于于一一个个给给定定的的x的的值值,是是y的的估估计计值,也表示值,也表示x每变动一个单位时,每变动一个单位时,y 的平均变动值的平均变动值 。.二、二、a,b的的估计(估计(普通最小二乘估计法普通最小二乘估计法)(ordinaryleastsquaresestimators)1.使因变量的观察值与估计值之间的离差平方和使因变量的观察值与估计值之间的离差平方和达到最小来求得达到最小来求得 和和 的方法。即的方法。即2.用用最最

38、小小平平方方法法拟拟合合的的直直线线来来代代表表x与与y之之间间的的关关系系与与实实际际数数据据的的误误差差比比其其他他任任何何直直线线的的误误差都差都小。小。2024/9/1759参数的最小二乘估计参数的最小二乘估计P246-2472024/9/1760例例9.6【例10.7】一一家家大大型型商商业业银银行行在在多多个个地地区区设设有有分分行行,其其业业务务主主要要是是进进行行基基础础设设施施建建设设、国国家家重重点点项项目目建建设设、固固定定资资产产投投资资等等项项目目的的贷贷款款。近近年年来来,该该银银行行的的贷贷款款额额平平稳稳增增长长,但但不不良良贷贷款款额额也也有有较较大大比比例例

39、的的增增长长,这这给给银银行行业业务务的的发发展展带带来来较较大大压压力力。为为弄弄清清不不良良贷贷款款形形成成的的原原因因,管管理理者者希希望望利利用用银银行行业业务务的的有有关关数数据据进进行行定定量量分分析析,以以便便找找出出控控制制不不良良贷贷款款的的办办法法。下下面面是是该该银银行行所所属属的的25家家分分行行2002年年的的有有关关业务数据业务数据2024/9/17612024/9/1762不良贷款对其他变量的散点图不良贷款对其他变量的散点图2024/9/1763n用Excel计算相关系数SUMMARY OUTPUT回归统计Multiple R0.849736R Square0.7

40、22051Adjusted R Square0.709966标准误差4.45116观测值25方差分析dfSSMSFSignificance F回归分析11183.7951183.79559.748967.69E-08残差23455.694919.81282总计241639.49Coefficients标准误差t StatP-valueLower 95%Upper 95%下限 95.0%上限 95.0%Intercept-1.384731.625488-0.851890.40306-4.747311.977845-4.747311.977845X Variable 10.0874110.0113

41、087.7297457.69E-080.0640180.1108040.0640180.1108042024/9/17642024/9/1765经验经验回归方程的求法回归方程的求法回归方程为:回归方程为:y = -1.38473+ 0.087411x回回归归系系数数 =0.087411 =0.087411 表表示示,贷贷款款余余额额每每增增加加1 1亿元,不良贷款平均增加亿元,不良贷款平均增加0.0874110.087411亿元亿元 2024/9/1766估计回归方程的求法估计回归方程的求法不良贷款对贷款余额回归方程的图示不良贷款对贷款余额回归方程的图示2024/9/1767用用Excel进行

42、回归分析进行回归分析第第1步:步:选择“工具工具”下拉菜单第第2步:步:选择“数据分析数据分析”选项第第3步步:在分析工具中选择“回回归归”,然后选择“确定确定”第第4步:步:当对话框出现时 在“Y值值输输入入区区域域”设置框内键入Y的数据区域 在“X值值输输入入区区域域”设置框内键入X的数据区域 在“置信度置信度”选项中给出所需的数值 在“输出选项输出选项”中选择输出区域 在“残差残差”分析选项中选择所需的选项2024/9/1768三、三、的估计的估计P249-250称称为残差平方和,则为残差平方和,则2024/9/1769四、线性假设的显著性检验四、线性假设的显著性检验P2512024/9

43、/1770五、系数五、系数b的置信区间的置信区间P2522024/9/1771六、回归函数六、回归函数函数值函数值的点估计和置信区间的点估计和置信区间n回归函数的点估计值为回归函数的点估计值为n的置信水平为的置信水平为n的置信区间为的置信区间为2024/9/1772七、七、Y的观测值的点预测和预测区间的观测值的点预测和预测区间2024/9/1773八、可化为一元线性回归的例子八、可化为一元线性回归的例子P255n自学。自学。2024/9/1774第四节第四节多元线性回归多元线性回归P257n因为客观现象非常复杂,现象之间的联因为客观现象非常复杂,现象之间的联系方式和性质各不相同,影响因变量变系

44、方式和性质各不相同,影响因变量变化的自变量往往是多个而不只是一个,化的自变量往往是多个而不只是一个,其中既有主要因素也有次要因素。如果其中既有主要因素也有次要因素。如果仅仅进行一元回归分析,不一定能得到仅仅进行一元回归分析,不一定能得到满意的结果。因此,有必要将一个因变满意的结果。因此,有必要将一个因变量与多个自变量联系起来进行分析量与多个自变量联系起来进行分析。 2024/9/1775多元线性回归多元线性回归n 在线性相关条件下,研究两个和两个以上在线性相关条件下,研究两个和两个以上自变量对一个因变量的数量变化关系,称为多自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学表元线性回归分析,表现这一数量关系的数学表达式则称为多元线性回归方程或多元线性回归达式则称为多元线性回归方程或多元线性回归模型。模型。 2024/9/1776多元线性回归多元线性回归

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号