建筑数学-概率4-参数估计与回归分析

上传人:san****019 文档编号:83640521 上传时间:2019-02-28 格式:PPT 页数:35 大小:1.65MB
返回 下载 相关 举报
建筑数学-概率4-参数估计与回归分析_第1页
第1页 / 共35页
建筑数学-概率4-参数估计与回归分析_第2页
第2页 / 共35页
建筑数学-概率4-参数估计与回归分析_第3页
第3页 / 共35页
建筑数学-概率4-参数估计与回归分析_第4页
第4页 / 共35页
建筑数学-概率4-参数估计与回归分析_第5页
第5页 / 共35页
点击查看更多>>
资源描述

《建筑数学-概率4-参数估计与回归分析》由会员分享,可在线阅读,更多相关《建筑数学-概率4-参数估计与回归分析(35页珍藏版)》请在金锄头文库上搜索。

1、,清华大学建筑学院,参 数 估 计 与 回 归 分 析,参数估计 对于许多要研究的对象(总体)不可能“穷尽”地一一调查测量,只能随机地抽取一部分“样本”,根据样本的数据来估计总体的“真值”。 有的情况是知道(分析出)随机变量的分布形态:泊松分布,正态分布等,如何根据样本数据,“估计”出该分布的参数,如泊松分布的,正态分布的和,例:设某炸药厂一天中发生着火现象的次数X服从,对于泊松分布,只有一个参数要估计。的估计值就是样本平均数:,验证一下: k=0 样本计算 p=75/250=0.3;公式计算:0.295 k=1 样本计算 p=90/250=0.36;公式计算:0.360 k=2 样本计算 p

2、=54/250=0.216;公式计算:0.220 k=3 样本计算 p=22/250=0.088;公式计算:0.089,e = e1.22 = 0.29523,对于正态分布,有两个参数和要估计。的估计值就是样本平均数,的估计值就是样本方差的平方根:,这在讲概率分布时已经提到。,对于二项分布有一个参数 p 要估计:,p 的估计值就是样本平均数:,“十年一遇”,就是根据历史记录,发生该现象的统计平均是 p = 0.1,区间估计 上面讨论的参数估计,是用样本的数值来估计总体的参数。但是,每一次样本试验得到的参数估计值是不同的。例如我们可以认定某个年龄段(10岁)儿童(男童或女童)的身高(作为总体)满

3、足正态分布,参数均值的估计值可以通过100名儿童身高的测量值的平均数得到。但再测量100名儿童,可能得到不同的值。多次做100名儿童身高的测量得到的值尽管各不相同,但都处于某个区间范围之内,把这些值加以平均的到的值(例如6次测量,共600名儿童平均)是否更“可信”一些?比做3次测量是否更可信一些,即“置信度”更高? 还有一个问题:对不同的总体(或不同的组分,如男童和女童分开),抽样得到样本值离散性可能不同,即计算出的方差不同,有的组分(男童)样本值之间差异小(小),有的组分(女童)样本值之间差异大(大)。那么试验次数相同下,得到均值的估计值的“可信度”一样吗?方差大(离散性大)的组分试验的次数

4、(样本的数量)是否应当多一些呢? 这就要引入统计数据处理的“区间估计”。,通常,采用95%的置信度,有时也取99%或90%,均值的区间估计,已知方差,估计均值,推得,随机区间:,在正态分布表中, 置信度90%,即=0.10 , = 1.65 置信度95%,即 =0.05 ,= 1.96 置信度99%,即 =0.01 ,= 2.58,可以看出区间的大小 2,与成正比,即与置信度有关; 与成正比,即与样本离散性有关,离散度越小,样本平均数越接近真值。 与样本数 成反比。置信度要求确定,样本离散度一定,样本数越多,区间越小,样本平均数越接近真值。或者说,样本离散性()大,需要更多的样本数(n),才能

5、保持相同的区间范围。,已知幼儿身高服从正态分布,现从56岁的幼儿中随机地抽查了9人,其高度分别为: 115,120,131,115,109,115,115,105,110cm,1、在总体服从正态分布的情况下,从某校学生中随机抽选100人,调查到平均每天锻炼时间为30分钟,样本方差为36。 试以95%的置信度来估计该校学生平均每天锻炼的时间。解得:28.81, 31.19,练习:,2.某医院欲估计一名医生花在每个病人身上的平均时间。设要求置信度为95%,允许的误差范围在2分钟。依以前的经验看病时间的标准差为6分钟。 试问需要多大的样本量(n=35)?,解:,上一届同学在建筑数学课堂上,每人当场测

6、量自己心律的统计(次/分钟),共192人。那么,总体分布的,平均数 标准差,在正态分布表中, 置信度90%,即=0.10 , = 1.65 置信度95%,即 =0.05 ,= 1.96 置信度99%,即 =0.01 ,= 2.58,回归分析 英国著名人类学家Franics Galton 高尔顿 (18221911)于1885年发表论文身高遗传向平均数方向的回归,分析儿童身高与父母身高之间的关系,发现父母的身高可以预测子女的身高,当父母越高或越矮时,子女的身高会比一般儿童高或矮,他将儿子与父母身高的这种现象拟合出一种线形关系。但他还发现,当父母非常高(或非常矮),其子女的身高不会象父母那样非常高

7、(或非常矮),而是比其父母更接近平均身高。高尔顿选用“回归”(regression)一词。 高尔顿和他的学生K.Pearson观察了1078对夫妇,分析出儿子的身高 y 与父亲的身高 x大致可归结为以下关系: y = 0.516 x + 33.73 (单位为英寸),回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。 在调查观察中,会得到各种变量的样本值,会发现某种变量与另一种变量之间有“相关”性。例如,住宅面积与经济指数,经济状况好(指数高),住宅建设面积就大。,能否用定量化的函数来表示两者间的依赖关系?,首先观察到样本散点图近似

8、于一条直线,可以用一个线性函数来拟合: y = abx 称为线性回归。需要确定 a和 b 两个参数。 如果按图中红线来拟合,所有样本点 xi 的拟合值 都大于样本值 yi,如果按图中蓝线来拟合,所有样本点 xi 的拟合值 都小于样本值 yi ,两者都不合适。,显然,拟合的直线应“贯穿”于散点之中,如图中黑线所示,以做到各样本点的样本值 yi与拟合值 的差值: 的平方和最小。即构建一个以回归系数 a和 b为变量的误差函数:,按函数的微分极值原理,求其在取极小值时的 a和 b的取值,就可得到线性回归方程 y = a+bx。此为最小二乘法。,相关系数0.95,表示住宅建设面积与经济指数确实相关。,具

9、体计算方法见下表:计算x的平均数、y的平均数,x2、y2和xy,即可计算回归系数 a 和 b 。,相关系数 r:0| r |1,r为正值即正相关,x增,y也增;r为负值即负相关,x增,y减。| r |接近1,表示y与x有很强的相关性,样本值散点分布接近直线;| r |接近0,表示y与x相关性弱,样本值散点分布很分散。,高斯最小二乘法计算谷神星轨道,1801年,高斯用数学方预测出一颗小行星的轨道。天文学家在高斯指出的位置发现了小行星,后来被命名为谷神星(Ceres)。高斯8年后系统地完善了相关的数学理论,才将他的方法公布于众,即“最小二乘法”。,一元非线性回归,当因变量Y与自变量x之间没有线性关

10、系时,一般用回归曲线y= f (x)来描述它们之间的关系。但是通常可以采用简单的变量变换,把非线性回归的问题转化为线性回归来处理。,几种常见的曲线方程,化为线性问题的变换公式:,(1) 列表,数据计算。,多元回归分析,1. 二元线性回归方程,实际中,会需研究一个变量与多个变量之间的定量关系,就是多元分析问题。,上式称为回归平面,0是常数, 1 ,2为回归系数。,设随机变量Y,自变量 x1和 x2,有:,有 n 组观测值:,由多元函数极值原理,有:,即,整理得到:,由第3式,得:,代入第1,2式,消去0得:,其中:,解得:,例1:某公司的商品在15地区销量y和人口数x1、户均总收入x2资料见表。

11、试求销量对人口数、户均总收入的回归方程。,按计算公式,所求回归方程:,西安机场航空客运量与国民生产的总值和旅游游客量二元回归。 根据1980-1994年陕西省的GNP(X1)和旅游游客量(X2)的数据,与西 安机场年旅客吞吐量(y),作二元回归,得到回归方程。再了解了陕西省 人大制定的十年经济发展计划和旅游事业规划的数据,预测未来10年的航空 客运量。,年旅客吞吐量 y 与GNP指数x1和旅游游客量指数x2的二元回归方程:,根据19801993年的实际数据(样本数据),求算回归系数:0 1 2,上述二元相关分析的航空客运量的实际值与计算值和预测值如下表所列:,得到二元的回归方程,其中X1是GNP指数,X2是旅客量指数。 复相关系数 r = 0.981,1994年做10年预测,用四种方法预测后取整:2005年西安机场旅客年吞吐量预测值是800万。 现在2005年已经过去,西安机场2005年实际的旅客年吞吐量是:794万。,谢谢,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号