数理统计模型课件

上传人:F****n 文档编号:88502844 上传时间:2019-04-29 格式:PPT 页数:101 大小:1.26MB
返回 下载 相关 举报
数理统计模型课件_第1页
第1页 / 共101页
数理统计模型课件_第2页
第2页 / 共101页
数理统计模型课件_第3页
第3页 / 共101页
数理统计模型课件_第4页
第4页 / 共101页
数理统计模型课件_第5页
第5页 / 共101页
点击查看更多>>
资源描述

《数理统计模型课件》由会员分享,可在线阅读,更多相关《数理统计模型课件(101页珍藏版)》请在金锄头文库上搜索。

1、数理统计模型,齐小刚 西安电子科技大学,主要内容,数理统计模型概述 描述性统计 推论性统计模型 统计模型中常见的错误 统计模型建立程式 举例,第一节 数理统计模型概述,一、统计分析概述 统计分析通过计算研究对象的特征的样本平均值、方差,或者所占百分比,研究样本特征值与母体特征值的关系,研究变量之间的关系,特别是因果关系,从而发现被研究对象的发展规律,或者验证有关假想、结论是否成立,验证有关理论在新的时空中是否成立。进而可以针对深层原因,引出改变客观世界的策略。,二、统计的两种功能,描述与推理 描述性统计(descriptive statistics) 描述性统计是概括所取得数据的共有性质。 推

2、论性统计(inferential statistics)。 推论性统计帮助研究人员对数据做出判断。,三、管理研究中统计分析的功能,统计分析的方法可以为管理研究提供一种清晰精确的形式化语言; 统计分析是进行科学预测、探索未来的重要方法; 统计分析技术是处理调查研究资料的必要工具。,第二节 描述性统计模型,一、集中趋势分析 (一)含义: 集中量数也称集中趋势量数,是用一个数值去代表一组数据的一般水平。常用的集中量数有平均数、中位数和众数。平均数是所有测量数据的算术平均值,中位数是将测量数据按大小顺序一分为二的变量属性值,即位于排列顺序中间位置的数值,众数是测量数据中出现频率最高的数值。,例,有一组

3、数据是9位工人本月的产量:96、96、97、99、100、101、102、104、155。 则:平均数为1055,中位数为100,众数为96。,(二)集中趋势分析的作用,集中量数说明某一管理现象在一定条件下,其数量的一般水平。 集中量数可以对于在不同空间的同类现象进行比较。 集中量数可以对一定管理现象在不同时间中的变化进行比较,以说明这些现象的发展趋势和规律。 集中量数可以用来分析某些管理现象之间的依存关系。,二、离散趋势分析,(一)含义 离散趋势分析是反映测量数据的分散程度,其常用指标有:极差(range)与标准差(standard deviation)。极差是测量数据中的最大值与最小值之间

4、的差异,由两个极端值来决定,只适用于定距与定比数据。标准差综合反映所有数据的分散程度,与平均数配套使用,适用于定距于定比数据, 其计算式为: 其中,为标准差 ,x为样本值,X为平均数,N为样本总数。,三、 频数与频率分析,为直观地反映一组测量数据的分布状况,经常用频数与频率分析。频数分布描述测量值中各属性值出现的次数,频率分布则是用比率的形式来表示,各属性值除以样本总数即可得到该属性值的频率。,频数分布也可转化为可视化的表达方式,如长条图、直方图、饼图。 在SPSS统计软件中,具体操作是:在统计菜单(statiatics)中单击摘要(summarize)、频数(frequencies),并在频

5、数对话框中选择所要的图表(charts),即可获得这些图表。,第三节 推论性统计模型,统计推断的功能 从随机样本中推断总体参数特征、以统计为基础验证假设。,一、双变量的回归分析与相关分析,回归分析模型,收入X 居民储蓄量Y,(一)回归模型,X,Y,1、回归模型的概念,强的正相关,弱的正相关,中间程度的正相关,| r | = 0.936,| r | = 0.560,| r | = 0.3390,强的负相关,弱的负相关,中间程度的负相关,确立X与Y的关联性,回归寻找“Y”与“X”关系的方法 什么是回归? 描述“ Y”与“X”关系的数学方法 创建过程的“模型”。,回归分析,相关是告诉关系的程度,回归

6、分析是找出Y=F(X)的函数关系式,单纯线性回归,回归分析的阶段,此章的因子为一个,因子和输出值(Y)的关系为直线关系的单纯线性回归(Simple Linear Regression),Data 收集,用散点图确认关系,用最小二乘法 推断总体,进行方差分析,画直线 (Line Fitting),分析残差,通过样本推测的直线,未知的真实直线,Yi = + xi + i (i = 1,., n),i 是相互独立的,遵守N(0, 2) 的概率变量,单纯线性回归模型,i,ei,(xi, yi),x,y,在这里, i iid N(0,2),Model,定义 一个独立变量(x)与 一个从属变量(Y)间的关

7、系 方程式化后显示的方法,将误差平方和最小化的推断方法,找出将残差平方最小化的直线.,420 410 400 390 380 370 360 350 340 330 320,350 400 450,独立变量,从属变量,最小平方和的单纯回归,单纯回归直线,与回归直线的 差异,直线是以“最小平方和推断法 (least square estimation)”的 原则画出的.从资料的点到直线 的距离的平方和最小化.,e,b,Scatter Plot Y vs.X with Fitted Line Y = a + bX,直线的方程式是 Y = a +bX a是 常数, b是斜率. “拟合线”是包括实际点

8、和直线的平 方差的和最小化后形成的直线. 实际资料的点和直线的差异称为 残差(residuals(e).,拟合线,回归方程式构造,1.回归模型 的参数确定,y=a+bx 由历史数据得一组x、y值,可求出参数a、b 由最小二乘法得:,例,某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:,例,计算结果,某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:,2、用软件进行回归分析的运算,(1)一元回归模型的软件运算 a.图象分析 b.回归运算,二、二元回归模型的软件运算,运算步骤,1、统计值说明,各统计值在计算机参数输出中的位置:,1、统计值说明,(1)解释变量、被解释变量:

9、 y=m1x1+m2x2+b (2)系数 m1,m2,.,mn 系数是解释变量对预测值的贡献,解释变量,被解释变量,1、统计值说明,(3)系数的标准误差值 Se1,Se2,.,Sen 系数 m1,m2,.,mn 的标准误差值。 sqrt()/()/sqrt(x)2) 其中,为自变量,为因变量观测值,为线形拟合值,平均值计为x 真值在系数估值正负1倍的标准差区间概率是2/3 Seb 常数项 b 的标准误差值,1、统计值说明,(4)判定系数r2 Y 的估计值与实际值之比 范围在 0 到 1 之间。如果为 1,则样本有很好的相关性,Y 的估计值与实际值之间没有差别。而在另一方面,如果判定系数为 0,

10、则回归方程不能用来预测 Y 值。,1、统计值说明,(5)Y 估计值的标准误差Sey 真值在Y估值正负1的标准差区间概率是2/3 (6) F 统计值或 F 观察值F 使用 F 统计可以判断因变量和自变量之间是否偶尔发生过观察到的关系。 (7)置信度df 用于在统计表上查找 F 临界值。所查得的值和函数 LINEST 返回的F统计值的比值可用来判断模型的置信度。,1、统计值说明,(8)回归平方和SSreg (9)残差平方和SSresid,作业4,某企业的资金投入X与销售收入Y如下表:试用一元回归方法求出回归线,说明两者的相关关系并对X=57万元企业销售额进行预测。,例2,某市国内生产总值y与固定资

11、产投入X1、劳动力投入X2的历史数据如下表,试用线性回归方法确定其参数值。,例2,-2.08797 2.651822 48.34758 Y=2.65X1-2.09X2+48.35 预测:x1=82, X2=35 y=? Y=192.71,作业,2000年某企业产品销售量Y与企业销售投入量X1、销售点增加量X2历史数据如下表,试用回归方法求其参数值。说明两者的相关关系并对(X1=140,X2=41)的Y值进行预测。,作业,三、参数估计,(一)含义 参数估计是从样本的统计值来估计总体的参数值,其逻辑程序是先有样本分布,再推测总体。当样本对总体参数进行估计时,有两种估计方法:点估计(poim est

12、imation)与区间估计(interval estimation)。 1、点估计 点估计是将样本中某统计量的值作为相应总体参数值的单一估计。,例:,想了解某种新产品在各省会城市的销售量,我们可抽去一些省会城市调查其销售量,然后求其平均值,即为平均销售量估计。当然,如果另外抽取几个城市,就会发现其平均销售量不完全一致,这说明点估计值本身就是一个随机变量。,2、区间估计,区间估计不是采用通常度量准确性的方法,如允许估计值与真实值有百分之几的误差,而要判断真实值有多大可能落在样本统计值分布的某一范围、(置馈区间)之内。这一范围越大,估计值的准确性就越低。统计值落在允许偏差的范围的概率越大,故计值的

13、可靠性就越高。一般来说,在管理研究中,置信水平选择95或99,即O95或099的概率,真实值落在偏差范围之内,允许不超过005或O01的概率超出此范围。,四、假设检验,(一)含义 假设检验是先对总体参数作出假设,然后从样本统计值去检验它是否与假设参数值一致。,(二)假设检验中两类错误,在假设检验中存在两类错误:样本是随机抽取的,但也有意外,例如样本没有反映典型特征。当我们错误地将偶然发生的事件当作非偶然发生的,进而错误地将虚无假设否定,则就犯了第一类错误; 如果将原本错误的事件认为是正确的,没有否定本该否定的虚无假设,则就犯了第二类错误。,(三)t检验,(t-test)是检验定距或定类变量的相

14、关性,即在定距或定类尺度上,两群体之间是否存在差异。 T检验是未知正态总体 X 的方差 ,对数学期望作假设检验; 检验是未知正态总体X的数学期望,对方差 作假设检验。,例:,有MBA资格的人员是否比企业管理专业的本科毕业生表现要好?男性与女性对激励的反映是否相同?此类问题可通过t检验来分析研究变量中不同群体的平均数是否有显著差异,亦即针对具有两个子类别的定类变量(男性与女性、MBA与本科生)进行检验,看这两个群体在定距或定比尺度上(反映程度、表现程度等)的平均数是否存在显著差异。,T检验方法,选择分析,平均值比较,独立样本t检验,选择分组变量,选择置信水平,选择置信水平,输出结果,(四)方差分

15、析,1、含义: 方差分析(ANOVA)是检验因变量是定距或定比尺度时,两个以上群体之间的平均的显著差异。,例:,4组促销人员之间是否存在显著差异:一组被送到学校系统学习营销课程;一组通过实地考察在职训练,一组由经验丰富的销售经理进行指导,一组没有接受上述训练。利用方差分析来确定不同群体之间是否存在显著差异可通过F统计量获得。,2、具体方法,选择分析,平均值比较,单因素方差分析,选择两变量,输出结果,(五)2检验,1、含义 2检验(chi:square test)是用于检验两个定类变量发生频次之间是否存在差异 。,例:,在超市随机选择90位顾客征求他们对三种饮料的偏好,如果40位选择甲,30位选择乙,20位选择丙,即观测频次为(40,30,20),如果虚无假设(三种饮料的顾客偏好不存在差异)成立,其期望频次应为(30,30,30),x检验就是要判断观测频次(40,30,20)与期望频次(30,30,30)之间的差异是否显著。,2、方法,选择分析,描述统计,建立交叉表,统计,选择2,输出结果,第四节 统计分析中的常见错误,一、样本平均值当作母体平均值对待 样本平均值当作母体平均值对待,不做显著性检验,是常见错误之一,例:,在营销研究中针对某产品设计了两种邮购广告,分别用随机抽样的方法对居民邮寄广告,甲广告寄出200份,有44

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号