统计方法建模.pdf

上传人:豆浆 文档编号:47220962 上传时间:2018-07-01 格式:PDF 页数:42 大小:470.57KB
返回 下载 相关 举报
统计方法建模.pdf_第1页
第1页 / 共42页
统计方法建模.pdf_第2页
第2页 / 共42页
统计方法建模.pdf_第3页
第3页 / 共42页
统计方法建模.pdf_第4页
第4页 / 共42页
统计方法建模.pdf_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《统计方法建模.pdf》由会员分享,可在线阅读,更多相关《统计方法建模.pdf(42页珍藏版)》请在金锄头文库上搜索。

1、第八章 统计方法建模第八章 统计方法建模数理统计研究的对象是受随机因素影响的数据,以下数理统计就简称统计,统计 是以概率论为基础的一门应用学科。 数据样本少则几个,多则成千上万,人们希望能用少数几个包含其最多相关信息 的数值来体现数据样本总体的规律。 描述性统计就是搜集、 整理、 加工和分析统计数据, 使之系统化、 条理化,以显示出数据资料的趋势、 特征和数量关系。 它是统计推断的基础, 实用性较强,在统计工作中经常使用。 面对一批数据如何进行描述与分析,需要掌握参数估计和假设检验这两个数理统 计的最基本方法。 我们将用 Matlab 的统计工具箱(Statistics Toolbox)来实现

2、数据的统计描述和分析。1 统计的基本概念统计的基本概念 1.1 总体和样本 总体总体是人们研究对象的全体,又称母体,如工厂一天生产的全部产品(按合格品 及废品分类),学校全体学生的身高。 总体中的每一个基本单位称为个体,个体的特征用一个变量(如x)来表示,如 一件产品是合格品记0=x,是废品记1=x;一个身高 170(cm)的学生记170=x。 从总体中随机产生的若干个个体的集合称为样本,或子样,如n件产品,100 名 学生的身高,或者一根轴直径的 10 次测量。实际上这就是从总体中随机取得的一批数据,不妨记作nxxx21,,n称为样本容量。简单地说,统计的任务是由样本推断总体。 1.2 频数

3、表和直方图 一组数据(样本)往往是杂乱无章的,作出它的频数表和直方图,可以看作是对 这组数据的一个初步整理和直观描述。 将数据的取值范围划分为若干个区间,然后统计这组数据在每个区间中出现的次 数,称为频数,由此得到一个频数表。 以数据的取值为横坐标,频数为纵坐标,画出一 个阶梯形的图,称为直方图,或频数分布图。 若样本容量不大,能够手工作出频数表和直方图,当样本容量较大时则可以借助 Matlab 这样的软件了。让我们以下面的例子为例,介绍频数表和直方图的作法。例1 学生的身高和体重 学校随机抽取 100 名学生,测量他们的身高和体重,所得数据如表 身高 体重身高 体重身高 体重身高 体重身高

4、体重 172 75 171 62 166 62 160 55 155 57 173 58 166 55 170 63 167 53 173 60 169 55 168 67 168 65 175 67 176 64 168 50 161 49 169 63 171 61 178 64 169 64 165 52 164 59 173 74 172 69 169 52 173 57 173 61 166 70 163 57 171 65 169 62 170 58 172 64 169 58 167 72 175 76 164 59 166 63 169 54 167 47 168 65 165

5、 64 168 57 176 57 170 57 158 51 165 62 172 53 169 66 .-112-178 60 173 73 163 47 165 66 170 60 163 50 172 57 182 63 171 59 177 64 177 66 170 58 173 67 172 59 170 62 172 59 177 58 176 68 175 68 184 70 170 56 160 65 165 58 177 66 169 63 176 60 177 67 172 56 165 56 166 49 167 54 179 62 176 63 182 69 186

6、 77 166 76 169 72 173 59 169 65 171 71 169 58 172 50 162 52 175 75 174 66 167 63 166 50 174 64 168 62 170 59 (i) 数据输入 数据输入通常有两种方法,一种是在交互环境中直接输入,如果在统计中数据量 比较大,这样作不太方便;另一种办法是先把数据写入一个纯文本数据文件 data.txt中, 格式如例1 的表格,有 20 行、10列,数据列之间用空格键或Tab 键分割,该数据文件 data.txt存放在 matlabwork 子目录下,在 Matlab中用 load命令读入数据,具体作法是:

7、 load data.txt 这样在内存中建立了一个变量 data,它是一个包含有1020个数据的矩阵。 为了得到我们需要的 100 个身高和体重各为一列的矩阵,应做如下的改变: high=data(:,1:2:9);high=high(:) weight=data(:,2:2:10);weight=weight(:) (ii)作频数表及直方图 用hist命令实现,其用法是: N,X = hist(Y,M) 数组(行、 列均可)Y 的频数表。 它将区间min(Y),max(Y)等分为 M 份(缺省时 M设定 为10),N 返回 M 个小区间的频数,X 返回 M个小区间的中点。 hist(Y,M

8、) 数组Y 的直方图。 对于例1 的数据,编写程序如下: load data.txt; high=data(:,1:2:9);high=high(:); weight=data(:,2:2:10);weight=weight(:); n1,x1=hist(high) %下面语句与hist命令等价 %n1=length(find(high=158.1 i=1; while (feof(fid1) data=fgetl(fid1); a=length(find(data=97); b=length(find(data=99); c=length(find(data=103); d=length(f

9、ind(data=116); e=length(find(data=97y=normpdf(x);z=normpdf(x,0,2); plot(x,y,x,z),gtext(N(0,1),gtext(N(0,22) 分布函数的反函数的意义从下例看出: x=chi2inv(0.9,10) x = 15.9872 如果反过来计算,则P=chi2cdf(15.9872,10) P = 0.9000.-117-1.5 正态总体统计量的分布 用样本来推断总体,需要知道样本统计量的分布,而样本又是一组与总体同分布 的随机变量,所以样本统计量的分布依赖于总体的分布。 当总体服从一般的分布时,求 某个样本统计

10、量的分布是很困难的,只有在总体服从正态分布时,一些重要的样本统 计量(均值、 标准差)的分布才有便于使用的结果。 另一方面,现实生活中需要进行统 计推断的总体,多数可以认为服从(或近似服从)正态分布,所以统计中人们在正态 总体的假定下研究统计量的分布,是必要的与合理的。设总体) ,( 2 N X,nxxx,21为一容量n的样本,其均值x和标准差s由式(1)、 (2)确定,则用x和s构造的下面几个分布在统计中是非常有用的。),(2nNx 或 ) 1 , 0(/Nnx(3)) 1(/ntnsx(4)).1() 1(2 22 nsn (5)设有两个总体) ,( 22 1 N X和) ,( 22 2

11、N Y,及由容量分别为1n,2n的两个样本确定的均值yx,和标准差21,ss,则) 1 , 0(/)()(22 212 121N nnyx+(6))2( /)()(2122 1221+ +nnt nsnsyx(7)其中2) 1() 1(212 222 112+=nnsnsns,) 1, 1(/212 22 22 12 1nnFss(8)对于(7)式,假定21=,但它们未知,于是用s代替。在下面的统计推断中我们 要反复用到这些分布。2 2 参数估计参数估计 利用样本对总体进行统计推断的一类问题是参数估计,即假定已知总体的分布,通常是) ,( 2 N X,估计参数的分布,如2,。参数估计分点估计和

12、区间估计两种。2.1 点估计 点估计是用样本统计量确定总体参数的一个数值。 评价估计优劣的标准有无偏性、 最小方差性、有效性等,估计的方法有矩法、极大似然法等。 最常用的是对总体均值和2方差(或标准差)作点估计。 让我们暂时抛开评 价标准,当从一个样本按照式(1)、(2)算出样本均值x和方差2s后,对和2 (或)一个自然、合理的点估计显然是(在字母上加表示它的估计值)-118-x=,22s= s= (9) 2.2 区间估计 点估计虽然给出了待估参数的一个数值,却没有告诉我们这个估计值的精度和可信程度。 一般地,总体的待估参数记作(如2,),由样本算出的的估计量记作,人们常希望给出一个区间,21

13、,使以一定的概率落在此区间内。若有 = H;01:时用 tail=1;1H为0=HH,取05. 0=。Matlab实现如下: x=159 280 101 212 224 379 179 264 .222 362 168 250 149 260 485 170; h,p,ci=ttest(x,225,0.05,1)求得 h=0,p=0.2570,说明在显著水平为 0.05 的情况下,不能拒绝原假设,认为 元件的平均寿命不大于 225 小时。 3.2 两个正态总体均值差的检验(t检验) 还可以用t检验法检验具有相同方差的 2个正态总体均值差的假设。 在Matlab 中由 函数ttest2实现,命令

14、为: h,p,ci=ttest2(x,y,alpha,tail) 与上面的 ttest 相比,不同处只在于输入的是两个样本 x,y(长度不一定相同), 而不是一个样本和它的总体均值;tail 的用法与 ttest 相似,可参看帮助系统。例 5 在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试 验是在同一平炉上进行的。 每炼一炉钢时除操作方法外,其它条件都可能做到相同。 先用 标准方法炼一炉,然后用建议的新方法炼一炉,以后交换进行,各炼了10 炉,其得率分别 为-120-1标准方法 78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.6 76.7 77.3 2新方法 79.1 81.0 77.3 79.1 80.0 79.1 79.1 77.3 80.2 82.1设这两个样本相互独立且分别来自正态总体),(2 1N和),(2 2N,2 21,均未知,问建议的新方法能否提高得率?(取05. 0=。) 解 (i)需要检验假设0 :2 1 0= H,0 :2 1 1=135 b=5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3; p,h=ranksum(a,b) 求得p=0.8041,h=0,表明两样本总体均值相等的概率为0

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号