随机性模型及MATLAB统计工具箱在建模中应用

上传人:夏** 文档编号:567538460 上传时间:2024-07-21 格式:PPT 页数:44 大小:946KB
返回 下载 相关 举报
随机性模型及MATLAB统计工具箱在建模中应用_第1页
第1页 / 共44页
随机性模型及MATLAB统计工具箱在建模中应用_第2页
第2页 / 共44页
随机性模型及MATLAB统计工具箱在建模中应用_第3页
第3页 / 共44页
随机性模型及MATLAB统计工具箱在建模中应用_第4页
第4页 / 共44页
随机性模型及MATLAB统计工具箱在建模中应用_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《随机性模型及MATLAB统计工具箱在建模中应用》由会员分享,可在线阅读,更多相关《随机性模型及MATLAB统计工具箱在建模中应用(44页珍藏版)》请在金锄头文库上搜索。

1、确定性模型和随机性模型确定性模型和随机性模型随机因素可以忽略随机因素可以忽略随机因素影响可以简单随机因素影响可以简单地以平均值的作用出现地以平均值的作用出现随机因素影响必须考虑随机因素影响必须考虑概率模型概率模型统计回归模型统计回归模型马氏链模型马氏链模型确定性模型确定性模型随机性模型随机性模型概概 率率 模模 型型例例: 报童的利润报童的利润为了获得最大的利润,报童每天应购进多少份报纸?为了获得最大的利润,报童每天应购进多少份报纸? 162天报纸需求量的调查天报纸需求量的调查 报童早上购进报纸零售,晚上将未卖掉的报纸退回。报童早上购进报纸零售,晚上将未卖掉的报纸退回。 购进价购进价b(=0.

2、8元元)零售价零售价a (=1元元)退回价退回价c(=0.75元元)售出一份赚售出一份赚 a-b退回一份赔退回一份赔 b-c199 136 214 195 219 224 197 213 187 187 230 172 227 157 114 156 问题分析问题分析购进太多购进太多卖不完退回卖不完退回赔钱赔钱购进太少购进太少不够销售不够销售赚钱少赚钱少应根据需求确定购进量应根据需求确定购进量每天需求量是随机的每天需求量是随机的目标函数应是长期的日平均利润目标函数应是长期的日平均利润每天收入是随机的每天收入是随机的存在一个合存在一个合适的购进量适的购进量= 每天收入的期望值每天收入的期望值随机

3、性优化模型随机性优化模型需求量的随机规律由需求量的随机规律由162天报纸需求量的调查得到天报纸需求量的调查得到 每天需求量为每天需求量为 r 的概率的概率 f(r), r=0,1,2模型建立模型建立 设每天购进设每天购进 n 份,份,日平均收入为日平均收入为 G(n)求求 n 使使 G(n) 最大最大 已知售出一份赚已知售出一份赚 a-b;退回一份赔;退回一份赔 b-cr视为连续变量视为连续变量模型建立模型建立模型建立模型建立由(由(1)或()或(2)得到的)得到的n是每天是每天平均利润最大的最佳购进量。平均利润最大的最佳购进量。结果解释结果解释nP1P2取取n使使 a-b 售出一份赚的钱售出

4、一份赚的钱 b-c 退回一份赔的钱退回一份赔的钱0rpMATLAB 统计工具箱常用命令统计工具箱常用命令( (一一) )命令命令名称名称输入入输出出n,y=hist(x,k)频数表数表x: 原始数据行向原始数据行向量量k:等分区:等分区间数数n: 频数行向量数行向量y: 区区间中点行向中点行向量量hist(x,k)直方直方图同上同上直方直方图m=mean(x)均均值x: 原始数据行向原始数据行向量量均均值ms=std(x)标准差准差同上同上标准差准差s功能功能概率概率密度密度分布分布函数函数逆概率逆概率分布分布均均值与与方差方差随机数随机数生成生成字符字符pdfcdfinvstatrnd分布分

5、布均匀均匀分布分布指数指数分布分布正正态分布分布 2 2分布分布t t分布分布F F分布分布二二项分布分布泊松泊松分布分布字符字符 unifexpnormchi2 t fbinopoissMATLAB 统计工具箱常用命令统计工具箱常用命令( (一一) )y=normpdf(1.5,1,2) 正态分布x=1.5的概率密度 (=1, =2) y=fcdf(1,10, 50) F分布x= 1的分布函数 (自由度n1=10, n2=50)y =tinv(0.9,10) 概率=0.9的逆t分布 (分位数, 自由度n=10) 由由 计算计算 n用用MATLAB 统计工具箱求解报童模型统计工具箱求解报童模型

6、 根据数据确定需求量的概率分布根据数据确定需求量的概率分布 p(x)baotongdata.mbaotong1.m回回 归归 模模 型型拟合问题实例拟合问题实例 给药方案给药方案 1. 在快速静脉注射的给药方式下,研究血药浓在快速静脉注射的给药方式下,研究血药浓度(单位体积血液中的药物含量)的变化规律。度(单位体积血液中的药物含量)的变化规律。问问题题2. 给定药物的最小有效浓度和最大治疗浓度,给定药物的最小有效浓度和最大治疗浓度,设计给药方案设计给药方案 (每次注射剂量每次注射剂量, 间隔时间间隔时间) 。分析分析 t (h) 0.25 0.5 1 1.5 2 3 4 6 8c ( g/ml

7、) 19.21 18.15 15.36 14.10 12.89 9.32 7.45 5.24 3.01实验:血药浓度数据实验:血药浓度数据 c(t) (t=0注射注射300mg)半对数坐标系半对数坐标系(semilogy)下下c(t)的图形的图形 理论:用一室模型研理论:用一室模型研究血药浓度变化规律究血药浓度变化规律负指数规律拟合问题实例拟合问题实例 给药方案给药方案 实实验验数数据据tcc00xueyao1.m实验数据作图3.3.血液容积血液容积v, , t t=0=0注射剂量注射剂量d, , 血药浓度立即为血药浓度立即为d/v2.2.药物排除速率与血药浓度成正比,比例系数药物排除速率与血

8、药浓度成正比,比例系数k(0)(0)模型假设模型假设1.1.机体看作一个房室,室内血药浓度均匀机体看作一个房室,室内血药浓度均匀一室模型一室模型模型建立模型建立由假设由假设2 2由假设由假设3 3给药方案给药方案 设计设计 设每次注射剂量D, 间隔时间 血药浓度c(t) 应c1 c(t) c2 初次剂量D0 应加大给药方案记作给药方案记作给定给定c1=10, c2=25, ,为确定为确定 只需确定参数只需确定参数 k,vcc2c10t参数估计由实验数据拟合曲线由实验数据拟合曲线c(t)以估计以估计k,v参数线性化用实验数据作线性最小二乘拟合xueyao2.m思考思考:取对数化为线性最小二乘:取

9、对数化为线性最小二乘, 对结果有影响吗?对结果有影响吗?c1=10, c2=25给药方案给药方案 设计设计直线拟合:直线拟合:a=polyfit(x,y,1),b=polyfit(x,z,1),同一条直线 y=0.33x+0.96(z=0.33x+0.96)从拟合到回归从拟合到回归x= 0 1 2 3 4 , y= 1.0 1.3 1.5 2.0 2.3 ( + x= 0 1 2 3 4 , y= 1.0 1.3 1.5 2.0 2.3 ( + 号号) )x= 0 1 2 3 4 , z= 0.6 1.95 0.9 2.85 1.8 x= 0 1 2 3 4 , z= 0.6 1.95 0.9

10、 2.85 1.8 (* *号)号)问题:你相信哪个拟合结果?怎样给以定量评价问题:你相信哪个拟合结果?怎样给以定量评价?得到得到a= 0.33 0.96b= 0.33 0.96收集一组包含因变量和自变量的数据;收集一组包含因变量和自变量的数据;选定因变量与自变量之间的模型,利用数据选定因变量与自变量之间的模型,利用数据按照最小二乘准则计算模型中的系数;按照最小二乘准则计算模型中的系数;利用统计分析方法对不同的模型进行比较,利用统计分析方法对不同的模型进行比较,找出与数据拟合得最好的模型;找出与数据拟合得最好的模型;判断得到的模型是否适合于这组数据判断得到的模型是否适合于这组数据, 诊断诊断有

11、无不适合回归模型的异常数据;有无不适合回归模型的异常数据;利用模型对因变量作出预测或解释。利用模型对因变量作出预测或解释。回归分析的主要步骤回归分析的主要步骤2004 B题题 电力市场的输电阻塞管理电力市场的输电阻塞管理确定各线路上潮流关于各发电机组出力的近似表达式确定各线路上潮流关于各发电机组出力的近似表达式 当前时段各发电机组出力当前时段各发电机组出力 p1(0), , pn(0), 线路潮流线路潮流 uj(0)a0 答卷中的问题:没有常数项答卷中的问题:没有常数项 a0;没有统计检验;没有统计检验p(0)+p0ua0=0 例例1: 血压与年龄、体重指数、吸烟习惯血压与年龄、体重指数、吸烟

12、习惯 序序号号 血血压年年龄体重体重指数指数吸烟吸烟习惯 序序号号 血血压年年龄体重体重指数指数吸烟吸烟习惯11443924.20211363625.0022154731.11221425026.2131384522.60231203923.50101545619.30301756927.41体重指数体重指数 = 体重体重(kg) / 身高身高(m) 的平方的平方 吸烟习惯吸烟习惯: 0表示不吸烟,表示不吸烟,1表示吸烟表示吸烟 建立血压与年龄、体重指数、吸烟习惯之间的建立血压与年龄、体重指数、吸烟习惯之间的回归模型回归模型模型建立模型建立血压血压y,年龄,年龄x1,体重指数,体重指数x2,吸

13、烟习惯,吸烟习惯x3 y与与x1的散点图的散点图y与与x2的散点图的散点图线性回归模型线性回归模型回归系数回归系数 0, 1, 2, 3 由数据估计由数据估计, 是随机误差是随机误差 MATLAB 统计工具箱常用命令统计工具箱常用命令( (二二) ) b=regress(y,X) b,bint,r,rint,s=regress(y,X,alpha)输入输入: y因变量因变量(列向量列向量), X1与自变量组成的矩阵,与自变量组成的矩阵,Alpha显著性水平显著性水平 (缺省时设定为(缺省时设定为0.05)s: 3个个统计统计量:量:决定系数决定系数R2,F值, F(1,n-2)分布大于分布大于

14、F值的概率的概率p,p 时时回回归模型有效模型有效. 输输出出:b=(),),bint: b的的置信区间置信区间,r:残差残差(列向量列向量),rint: r的的置信区间置信区间rcoplot(r,rint)残差残差及其及其置信区间作图置信区间作图MATLAB7.0版本版本 s增加一个统计量增加一个统计量: 剩余方差剩余方差s2.回归系数回归系数估计值回归系数置信区间045.36363.5537 87.173610.3604-0.0758 0.7965 23.09061.0530 5.1281311.8246-0.1482 23.7973R2= 0.6855 F= 18.8906 p0.000

15、1 s2 =169.7917模型模型求解求解回归系数回归系数估计值 回归系数置信区间058.510129.9064 87.113810.43030.1273 0.733222.34490.8509 3.8389310.30653.3878 17.2253R2= 0.8462 F= 44.0087 p0.0001 s2 =53.6604剔除异常点剔除异常点(第第2点和第点和第10点点)后后xueya01.m例例2 软件开发人员的薪金软件开发人员的薪金资历资历 从事专业工作的年数;管理从事专业工作的年数;管理 1= =管理人员,管理人员,0= =非管理人员;教育非管理人员;教育 1= =中学,中学

16、,2= =大学,大学,3= =更高程度更高程度建立模型研究薪金与资历、管理责任、教育程度的关系建立模型研究薪金与资历、管理责任、教育程度的关系分析人事策略的合理性,作为新聘用人员薪金的参考分析人事策略的合理性,作为新聘用人员薪金的参考 编编号号薪金薪金资资历历管管理理教教育育01138761110211608103031870111304112831020511767103编编号号薪金薪金资资历历管管理理教教育育422783716124318838160244174831601451920717024619346200146名软件开发人员的档案资料名软件开发人员的档案资料 分析与假设分析与假设

17、 y 薪金,薪金,x1 资历(年)资历(年)x2 = = 1 管理人员,管理人员,x2 = = 0 非管理人员非管理人员1= =中学中学2= =大学大学3= =更高更高资历每加一年薪金的增长是常数;资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用管理、教育、资历之间无交互作用 教教育育线性回归模型线性回归模型 a0, a1, , a4是待估计的回归系数,是待估计的回归系数, 是随机误差是随机误差 中学:中学:x3=1, x4=0 ;大学:大学:x3=0, x4=1; 更高:更高:x3=0, x4=0 模型求解模型求解参数参数参数估计值参数估计值置信区间置信区间a011032 102

18、58 11807 a1546 484 608 a26883 6248 7517 a3-2994 -3826 -2162 a4148 -636 931 R2=0.957 F=226 p=0.000R2,F, p 模型整体上可用模型整体上可用资历增加资历增加1年年薪金增长薪金增长546 管理人员薪金管理人员薪金多多6883 中学程度薪金比中学程度薪金比更高的少更高的少2994 大学程度薪金比大学程度薪金比更高的多更高的多148 a4置信区间包含零置信区间包含零点,解释不可靠点,解释不可靠! !中学:中学:x3=1, x4=0;大学:大学:x3=0, x4=1; 更高:更高:x3=0, x4=0.

19、x2 = = 1 管理,管理,x2 = = 0 非管理非管理x1资历资历( (年年) )xinjindata.m xinjin.m 残差分析方法残差分析方法 结果分析结果分析残差残差e 与资历与资历x1的关系的关系 e与管理与管理教育组合的关系教育组合的关系 残差全为正,或全为负,残差全为正,或全为负,管理管理教育组合处理不当教育组合处理不当 残差大概分成残差大概分成3个水平,个水平, 6种管理种管理教育组合混在教育组合混在一起,未正确反映一起,未正确反映 应在模型中增加管理应在模型中增加管理x2与与教育教育x3, x4的交互项的交互项 组合组合123456管理管理010101教育教育1122

20、33管理与教育的组合管理与教育的组合进一步的模型进一步的模型增加管理增加管理x2与教育与教育x3, x4的交互项的交互项参数参数参数估计值参数估计值置信区间置信区间a01120411044 11363a1497486 508a270486841 7255a3-1727-1939 -1514a4-348-545 152a5-3071-3372 -2769a618361571 2101R2=0.999 F=554 p=0.000R2, ,F有改进,所有回归系数置信有改进,所有回归系数置信区间都不含零点,模型完全可用区间都不含零点,模型完全可用 消除了不正常现象消除了不正常现象 异常数据异常数据(

21、(33号号) )应去掉应去掉 e x1 e 组合组合去掉异常数据后去掉异常数据后的结果的结果参数参数参数估计值参数估计值置信区间置信区间a01120011139 11261a1498494 503a270416962 7120a3-1737-1818 -1656a4-356-431 281a5-3056-3171 2942a619971894 2100R2= 0.9998 F=36701 p=0.0000e x1 e 组合组合R2: 0.957 0.999 0.9998F: 226 554 36701 置信区间长度更短置信区间长度更短残差残差图十分正常图十分正常最终模型的结果可以应用最终模型的

22、结果可以应用xinjindata2.m xinjin1.m 模型应用模型应用 制订制订6种管理种管理教育组合人员的教育组合人员的“基础基础”薪金薪金( (资历为资历为0)组合组合管理管理教育教育系数系数“基础基础”薪金薪金101a0+a39463211a0+a2+a3+a513448302a0+a410844412a0+a2+a4+a619882503a011200613a0+a218241中学:中学:x3=1, x4=0 ;大学:;大学:x3=0, x4=1; 更高:更高:x3=0, x4=0 x1= = 0; x2 = = 1 管理,管理,x2 = = 0 非管理非管理大学程度管理人员比更

23、高程度管理人员的薪金高大学程度管理人员比更高程度管理人员的薪金高 大学程度非管理人员比更高程度非管理人员的薪金略低大学程度非管理人员比更高程度非管理人员的薪金略低 例例3 3 商品销售量与价格商品销售量与价格 x1 (元)120 140 190 130 155 175 125 145 180 150x2 (元)100 11090150 210 150 250 270 300 250y (个)102 100 12077469326696585某厂生产的一种电器的销售量某厂生产的一种电器的销售量y与竞争与竞争对手的价格对手的价格x1及本厂的价格及本厂的价格x2有关有关, 该商品在该商品在10个城市

24、的销售记录如下个城市的销售记录如下 根据数据建立根据数据建立y与与x1和和x2的模型的模型, 对得到的模型和系数对得到的模型和系数进行检验。进行检验。 若某市本厂产品售价若某市本厂产品售价160(元元),竞争对手售价,竞争对手售价170(元元),预测该市的销售量预测该市的销售量. 将将(x1,y),(),(x2,y) )各各1010个点分别画图个点分别画图y与与x2 2有较明显的线有较明显的线性关系,性关系,y与与x1 1之间之间的关系难以确定的关系难以确定需要对模型需要对模型y=f( (x1,x2) )作几种作几种尝试,用统计分析尝试,用统计分析决定优劣。决定优劣。例例3 3 商品销售量与价

25、格商品销售量与价格 b,bint,r,rint,stats=regress(Y,X,alpha)例例3 3 商品销售量与价格商品销售量与价格 一次函数的回归模型一次函数的回归模型 回归系数回归系数估计值回归系数置信区间066.5176-32.5060 165.5411 10.4139-0.2018 1.0296 2-0.2698-0.4611 -0.0785 R2= 0.6527 F=6.5786 p= 0.0247 s2= 307.1639结果不是太好果不是太好: =0.05时模型有效,但时模型有效,但 =0.01时时模型不能用;模型不能用; R2 较小;较小; 1的置信区间包含零点。的置信

26、区间包含零点。 shangpin.mMATLAB 统计工具箱常用命令统计工具箱常用命令( (三三) )rstool (x,y, model,alpha)xnm矩阵矩阵, n是数据容量是数据容量, yn维列向量,维列向量,alpha显著性水平显著性水平多元二项式回归多元二项式回归model从以下从以下4个模型中选取个模型中选取: ( (设设m=2) )例例3 3 商品销售量与价格商品销售量与价格 x1=; x2=; x=x1 x2; y=;rstool(x,y, quadratic)Export向工作区传送参数:向工作区传送参数:beta-回归系数,回归系数,rmse-剩余标准差剩余标准差s,r

27、esiduals-残差残差(向量向量);以剩余标准差以剩余标准差 rmse 最小为标准,比较最小为标准,比较4种模型种模型Model: linear purequadratic interaction quadratic rmse: 18.7362 16.6436 19.1626 18.6064 =(-312.5871 7.2701 -1.7337 -0.0228 0.0037)例例3 3 商品销售量与价格商品销售量与价格 变量选择变量选择影响因变量的因素:影响因变量的因素: 自自变量量x1, x2, xm及其及其简单函数函数, 如如 将所有影响显著的因素都纳入回归模型;将所有影响显著的因素都

28、纳入回归模型; 最终的模型尽量简单最终的模型尽量简单, 即包含尽量少的因素。即包含尽量少的因素。 变量选择的标准变量选择的标准 从候选集合从候选集合S=x1,xk中选出一子集中选出一子集S1 (含含p k个个自变量自变量)与因变量与因变量y构造回归模型构造回归模型, 其优劣由其优劣由s2度量度量. 影响显著的自变量进入模型时,影响显著的自变量进入模型时,Q明显下降,明显下降,s减小;减小; 影响很小的自变量进入模型时,影响很小的自变量进入模型时,Q下降不大,下降不大,p的增加的增加 会使会使s变大变大.变量选择与逐步回归变量选择与逐步回归 逐步回归逐步回归 从候选集合中确定一初始子集;从候选集

29、合中确定一初始子集; 从子集外(候选集合内)中引入一个对从子集外(候选集合内)中引入一个对y影响显著的;影响显著的; 对集合中的变量进行检验,剔除影响变得不显著的;对集合中的变量进行检验,剔除影响变得不显著的; 迭代式地进行引入和剔除,直到不能进行为止。迭代式地进行引入和剔除,直到不能进行为止。 选择衡量影响衡量影响显著程度的著程度的统计量,通常用偏量,通常用偏F统计量;量; 适当选取引入变量的显著性水平适当选取引入变量的显著性水平 in和剔除变量的和剔除变量的 out。 引入新的引入新的变量后原来模型内影响量后原来模型内影响显著的著的变量量变得不得不显著,从而被剔除著,从而被剔除 自自变量之

30、量之间存在存在较强强相关性的相关性的结果果.某些自变量之间的相关性很强某些自变量之间的相关性很强回归系数的置信区间较大回归系数的置信区间较大 多重共线性多重共线性 矩阵矩阵XTX病态病态MATLAB 统计工具箱常用命令统计工具箱常用命令( (四四) )逐步回逐步回归 stepwise (x,y,inmodel,penter,premove) x候选变量集合的候选变量集合的nk 数据矩阵(数据矩阵(n是数据容量是数据容量, k是变量数目)是变量数目); y因变量数据向量(因变量数据向量(n维)维); Inmodel初始模型中包括的候选变量集合的指标初始模型中包括的候选变量集合的指标(矩阵(矩阵x

31、的列序数,缺省时设定为全部候选变量)的列序数,缺省时设定为全部候选变量); penter引入变量的显著性水平(缺省时设定为引入变量的显著性水平(缺省时设定为0.05); premove剔除变量的显著性水平(缺省时剔除变量的显著性水平(缺省时设定为设定为0.10)。)。输出交互式画面输出交互式画面 例例 儿童的体重与身高和年龄儿童的体重与身高和年龄序号体重(kg)身高(m)年龄 序号体重(kg)身高(m)年龄127.11.348730.91.3910230.21.4910827.81.219324.01.146929.41.2610433.41.57111024.81.066524.91.1981136.51.6412624.31.1771229.11.449可能存在二次函数关系可能存在二次函数关系 体重体重y身高身高x1体重体重y年龄年龄x2例例 儿童的体重与身高和年龄儿童的体重与身高和年龄ertong.m初初始始结结果果 最最终终结结果果 谢谢大家!谢谢大家!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号