文档详情

数学建模之统计学基本概念与方法

宝路
实名认证
店铺
PPT
413.64KB
约67页
文档ID:47888332
数学建模之统计学基本概念与方法_第1页
1/67

《统计学基本概念与方法》孙 平 东北大学数学系plsun@2.参数 估计1.预备知识3.假设 检验4.方差 分析5.回归 分析统计学 ( Statistics ) 是一门收集与分析数据,并且根据数据进行推断的艺术与科学———— 《大英百科全书》(数理) 统计学中的数据都是随机数据统计学的任务就是在随机性中去寻找规律统计学理论主要包含三个部分:1.数据收集,2.数据分析,3.由数据做出决策一). 统计学的基本概念统计学中把所研究的对象全体称为总体, 总体中的每一个元素称为一个个体总体与个体都用数量指标来表示1. 总体与个体 (population)即使面临的是一个定性的实际问题, 也必须把有关的资料定量化 一. 预备知识但同时在直观上又认为、或者希望做到: 抽取出的每个个体 (样本) 都充分蕴涵总体信息从总体中取出一个个体,称为从 总体中得到一个样本2. 样本 (sample)统计学的目的就是从样本去得出总体的信息 由于各种原因与实际条件的限制, 不可能得到一个总体中所有个体的数据 即样本总是总体的一小部分被研究的对象全体具有代表性的部分个体总体样本……..独立同分布的样本称为简单随机样本。

总体被认为是一个服从某种概率 分布 F 的随机变量样本是和总体随机变量有相同分布 F 的随 机变量,样本的个数称为样本容量, n 总体分布 F 可以是未知的, 非参数统计学总体分布 F 的类型已知,但是含有 一些未知的参数 参数估计 (二). 数理统计学的主要内容 1. 抽样理论:介绍如何收集数据主要抽样方法,样本容量的确定,抽样误差,敏感问题等2. 参数估计:如何根据数据得到总体参数信息点估计、区间估计,Bayes 估计等3. 假设检验: 如何对关于总体的一些假设做出决策正态总体参数的检验,分布拟合检验,秩检验,列联表,统计决策等理论4. 方差分析与回归分析:变量之间的效应关系方差分析 — 分类变量与数值变量的效应关系回归分析 — 研究数值变量之间的效应关系5. 多元分析: 研究若干个变量之间的关系聚类分析、判别分析、主成分分析、因子分析、典型相关分析等等例1.1 希望了解某所高校学生月消费情况解决方法:从这所大学里随机地调查有代表性的 一些学生,根据收集到的数据去得出这所大学学 生每个月支出费用的有关信息1. 如何得到样本 ?不同家庭背景学生的比例应该各占多少? 样本容量应该取多少才合适?被调查者拒绝调 查怎么办?抽样调查2. 如何确定总体的分布 ?这里的总体是这所大学的学生月支出费用 ,我们不妨认为学生月支出费用是一个服从正 态分布的随机变量。

根据经验或者是所讨论的问题的实际背景 ,总体的分布类型一般可以事先确定下来 不同学校对应的这两个参数也就不相同 )即,总体随机变量 X ~ N (,2 ) ,而这 个学校相应的两个参数  与  2 是未知的Remark 当不知道或者难以确定总体的分布类型时,在 统计学中常常采用下面两种办法来近似得到总体 分布的有关信息1). 直方图的方法只适用连续总体,得到的是总体密度函数近似把收集到的 n 个数据 x1,x2 ,…,xn 从小 到大排列: x(1) ≤ x(2) ≤ … ≤ x(n) ;其次取区间 (a,b),包含全部数据 a < x(1) ,x(n) < b ;把 (a,b) 等分成 若干小区间,计算 每个小区间中包含 的数据的频率x(1) x(n)根据这些频率做出相应的小区间上的矩形, 则当 n 充分大时,这些小区间上矩形的面积将近 似于总体的概率密度函数下曲边梯形的面积2). 经验分布函数的方法构造一个分布函数,得到的是总体 分布函数 F (x) 的近似Fn (x) = 0, x ≤ x(1)— , x(k) < x ≤ x(k+1)1, x > x(n)这个函数实际上是观察值 x1,…,xn中 小于 x 的频率,即Fn (x) = { x1,…,xn中小于 x 的个数} / nknOxy○○x(1)x(2)x(3)1/n2/n可以证明,经验分布函数 Fn (x) 将依概率、 甚至是几乎处处收敛到 F (x) 。

…3. 如何从样本得出总体的信息 ?样本是一组与总体独立、同分布的随机变量, 我们得到的数据是样本观察值,而不是样本调查一个学生得到了一个数据,相当于 对总体分布做了一次随机试验而观察到了这 个随机变量的具体取值一共有 n 个数据,相当于对总体分布做 了 n 次独立重复试验,而得到了这个总体随 机变量在这些试验中的具体取值利用样本观察值去估计出总体的未知参数直观上可以利用调查到的 n 个学生的月支出x1 ,x2 ,…,xn 的算术平均 : 去估计这所学校学生的平均月支出费用  它的合理性在哪? 还有没有其它的办法?这些不同的方法各有什么样的优缺点?数理统计学最重要的内容之一参数估计事先提出一个假设,利用样本观察值去 检验这个假设是否可以被接受假设检验假定学校要制定相关一些政策,如奖学金 、贷款、勤工俭学等;或者后勤服务、商业经 营的价格等等共同关心的一些问题,比如说: > 0 ?这里 0 是一个已知的常数数理统计学最重要的内容之一应该如何去做这个检验?一种想法是:既然已经通过参数估计得到了这 个学校学生月平均支出 ( 即总体的参数  ) 的估计 值,自然就可以用它代替假设里的  去做检验:当估计值比 0 大就接受这个假设,否则就拒绝但是这样的风险很大:样本总是随机得到的 ,因此估计值与真实值之间不可避免地存在着 随机误差。

传统的方法是:给出一个区域 (拒绝域),如 果估计值落在这个区域内,就拒绝原来的假设 ,否则就接受除了对总体参数的检验外,还有一些 重要的假设检验问题,例如:关于总体分布的检验检验得到的样本数据是不是来自于 某个事先给出的总体独立性的检验检验一些分类变量之间是否是独立的, 例如:抽烟与肺癌,睡觉打鼾与心脏病…分布拟合检验关于数据差异的检验主要希望了解两组或多组数据间的差异究竟 是来自于随机性,还是总体间的确存在差异?例如:小儿麻痹症、SARS疫苗的研制,越战期间美国的征兵计划,…以及我们在科学研究、工程实践、 社会调查等等得到的数据讨论数值变量之间的效应关系问题比如说,想了解儿子身高与父亲身高之间的关系 在每个被调查的家庭中同时获得这两个变量的 观察值,分析它们是否有某种(函数)关系,…一元线性回归多元线性回归例如,钢的去碳量与不同矿石、融化时间、 炼钢炉体积等等是否有关?关系如何?…数理统计学重要应用之一回归与相关分析讨论分类变量与数值变量之间的关系比如说产品质量与不同操作人员之间的关系是否某些人生产出的产品质量偏高?如果偏高, 这种差异是否是纯属偶然原因,…单因素方差分析数理统计学重要应用之一方差分析双因素方差分析希望了解操作人员和设备这两个因素联合对质量 的关系。

各自单独是否有影响?交互效应如何?… 简单的说,从概率论的角度出发,可以把上述数理统计学的过程理解成: 有一个含有未知信息的概率分布 F针对 F 做了 n 次独立重复的试验与观察, 得到 n 个独立同分布于 F 的随机变量的取值根据样本的具体观察值,去推断出总体 F 所包含的未知信息,或作出进一步的决策等例1.2. 如何分析与处理变量的关系?分类变量:如性别、信仰、职业等等,顺序变量:如名次(第一、第二,…),数值变量:如收入、比例、产量等等简单 复杂Remark可以把复杂的变量简化为简单变量,反之不行数值变量  顺序变量  分类变量变量组合与相应的统计分析方法因 变 量 y自变量 x分类变量 顺序变量 数值变量分类变量 卡方分析  回归与相关顺序变量  秩方法 数值变量 方差分析  回归与相关把两个变量分别作为横轴和纵轴描出散点散点图(Scatterplot)散点图在简化数据的同时,能够保留原始数据的信息三). 变量的统计图表示 例1.3.下面是 24 对夫妻的数据,有两个变量: 结婚时间和一年内的吵架次数。

结婚年数 5 2 4 1 3 6 5 8 3 7 3 9 争吵次数 10 20 16 15 9 6 8 5 10 7 8 6 结婚年数 10 15 13 20 16 25 22 14 15 19 17 20 争吵次数 5 3 4 2 4 1 3 3 4 3 3 2结婚时间与吵架次数的散点图(2). 时间序列图特殊散点图,以时间作为横轴的变量时间序列图能够反映出一个变量随着 时间而变化的趋势苏格兰羊总体 X 的分布函数 F 含有未知的参数  ,  所有可能的取值范围称为“参数空间”,记为 从这个总体中抽取了一组样本 X1,…,Xn , 相应的样本观察值是 x1,…,xn 应该如何估计出  的具体数值? 点估计就是利用样本构造一个合理的统计量:g (X1,…,Xn ) ;用它的观察值 g(x1,…,xn ) 去作为作为  的估计值 二. 参数估计你可以用这组数据中的任何一个,或者样本 均值,或者是样本中位数等,作为  的估计值。

例2.1 甲同学在一个体重仪上称她的体重,假定这个体重仪没有系统误差,每次称量的结果是真实重量 加上一个随机误差 k 一般认为k ~ N (0,2 ) ,因此 n 次称量的结果Xk =  + k ~ N (,2 ) 矩估计: 用样本的有关矩去作为总体有关矩的估计即样本均值作为总体期望的估计;样本方差作为总体方差的估计;样本中位数(或众数) 作为总体中位数( 或众数 ) 的估计等 极大似然估计:所有情况中 “看起来最象” 的那个估计常用的点估计方法例2.2. 假定盒子里黑、白球共 5 个,但是不知道黑球具体数目现在随机有放回抽取3 个小球,发现是两个黑球和一个白球问盒子里最可能有几个黑球?解:盒子里黑白球所有的可能有六种:5白,4白1黑、3白2黑,2白3黑,1白4黑,5黑以 p 记盒子里黑球所占的比例, 则 p 全部可能的值是:{ 0,—, —, —,—,1 }1 2 3 45 5 5 5定义三个统计量 X1,X2,X3 表示抽样结果: 取到黑球记为 1 ,否则记为 0 因此 X1,X2,X3独立同分布于参数 p 的两点分布。

例题中的三个样本观察值 x1,x2 ,x3 有两个 取值是 1,一个取值为 0而样本的联合分布律显然是L(x, p) = px1+x2+x3 (1 - p )3 - x1 - x2 - x3= p2 (1 - p )它的含义是:当盒中黑球比例为 p 时, 随机事件“有放回取出的三个小球中有两个 黑球、一个白球”的概率对应于参数空间中不同的 p ,样本分布 L(x, p) = p2 (1 - p ) 所对应的这些概率是:□p 0,— , — , — ,— ,1 L(x, p) 0,— , — , — ,— ,0 1 2 3 45 5 5 54 12 18 16125 125 125 125既然“ 三个小球中包含两个黑球 ” 是。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档