系统模拟第3章数据的采集与统计分析

资源描述

《系统模拟第3章数据的采集与统计分析》由会员分享，可在线阅读，更多相关《系统模拟第3章数据的采集与统计分析（40页珍藏版）》请在金锄头文库上搜索。

1、第3章数据的采集与统计分析,主要内容,3.1 数据的采集 3.2 分布的识别 3.3 参数估计 3.4 拟合度检验 3.5 随机变量的生成,输入数据是模拟实验的动力,系统的模拟依靠这些原型系统的运行数据，缺乏这些数据的实验和实验值的提取，模拟也就毫无意义。,引言,收集原始数据,基本统计分布的辨识,参数估计,拟合度检验,否,是,是输入数据分析的基础，需要分析的经验，对收集的方法、数据需要做预先的设计和估算。因此这是一个关键的、细致的工作。,通过统计的数学手段（计数统计、频率分析、直方图制作等），得出统计分布的假设函数（如：正态分布、负指数分布、Erlang分布等）,根据统计特征，计算确定

2、系统的假设分布参数。,运用统计分布的检验方法，对假设的分布函数进行可信度检验。通常采用的是2检验。,输入数据模型确定的基本方法,正确输入数据,引言,常用随机分布离散两点分布二项式分布泊松分布,产品合格/不合格,批量产品中合格品数量与次品的数量,单位时间内道路上通过的车辆数、顾客到达数、交换机单位时间内呼叫数,引言,常用随机分布连续均匀分布指数分布正态分布韦伯分布,可用于随机变量的生成,电话系统中用户的通话时间；机器设备发生故障的时间间隔,测量误差；某个地区劳动者的收入,零部件或设备的寿命；完成某项任务所需要的时间,引言,3.1 数据的采集,数据采集是针对实际问题，经过系统分

3、析或经验的总结，以系统的特征为目标，收集与此有关的资料、数据、信息等反映特征的相关数据。,数据的采集是一项工作量很大的工作，也是在模拟中最重要、最困难的问题。即使一个模型结构是正确的，但若收集的输入数据数据不正确，或数据分析不对，或这些数据不能代表实际情况，那么利用这样的数据作为决策的依据必将导致错误，造成损失和浪费。,数据采集工作应该具有科学的态度、忠于现实的工作作风。应该将数据收集工作、模拟工作的意义让参与者明确，得到参与者的支持和理解。,什么是数据采集？数据采集的意义？数据采集的基本态度？,做好模拟计划，详细规划模拟所需要收集的数据确定应该收集些什么样的数据、何时进行采集以及以什么

4、样的方式进行采集。数据采集的类型应该尽量广泛，而不应该仅仅局限于实际建模时要用到的数据类型。例如，在采集工人使用机床加工零件的时间时，如果除了采集工人加工一个零件所使用的时间外，同时再采集一些诸如工人的性别、年龄、身体状况等辅助数据，这样在以后的数据分析中如发现某些数据与其它数据有明显差异，就可利用辅助数据，判别数据是否具有合理性与代表性，或者指导我们对所采集数据进行合理的修正。数据采集的时间应有一定的跨度，以免所采集的样本数据带有某种片面性。为了对某个交通道口的堵车情况进行模拟，采集车流数据的时间不能只是在一天中的某一段时间，如早晨，也不能只是在一个星期中的某一天,3.1 数据的采集

5、-技巧,3.1 数据的采集-过程监控,由于数据的采集工作可能并不是进行一次就能完成的，而是可能历时几天、几个星期甚至几个月。一般讲，系统在不同时间所处的环境不同，而在不同环境下采集的数据会有一定的统计差异性。我们要知道在数据采集过程中，所采集的数据是否具有统计上的一致性，或者说在采集过程中系统的特征是否发生了变化。可以运用控制图对数据的采集过程进行监控。,主要对数据样本的均值与极差进行监控先确定一个数据采集的初始阶段，在这阶段中采集到的数据用于建立控制图，为以后的采集过程的监控提供依据。假设在初始阶段我们已采集到了N个数据，将这N个数据按采集的顺序分成k批，每批n(一般取n =5或6

6、为好)个数据。记第i批第j个数据为xij，则我们可以计算出每批的均值极差,3.1 数据的采集-过程监控,3.1 数据的采集-过程监控,批均值的平均值和极差的平均值的控制限为 R的控制限为,3.2 分布的识别-数据特征分析,数据特征分析的目的是帮助我们用一些简单的统计特征指标来描述大样本数据，从而揭示样本数据的一些基本特征。样本均值、中位数、方差、偏差系数、莱克塞斯比率、偏斜系数,3.2 分布的识别-直方图,直方图构筑方法,对于离散系统的统计分析中，一般用频率统计的分析方法来计算分布函数。其图形描述用的就是直方图。,分组区间的组数依赖于观察次数以及数据的分散或散布的程度。一般分组区间

7、组数近似等于样本量的平方根。即：,如果区间太宽（m太小），则直方图太粗或呈短粗状，这样，它的形状不能良好地显示出来。,如果区间太窄，则直方图显得凹凸不平不好平滑,合适的区间选择（m值）是直方图制作，分布函数分析的基础。,3.2 分布的识别- 直方图分组区间数量的选取,合适的区间选择（m值）是直方图制作，分布函数分析的基础。,对直方图进行曲线拟合，拟合所得到的曲线应该就是该随机变量的概率或密度函数。密度函数是一个一般概率函数。通常，我们通过标准函数的假设，将概率分布假设成标准分布函数形式。如：负指数分布、泊桑分布等。,3.2 分布的识别- 直方图分组区间数量的选取,通过对随机过程的样本值的直方图

8、分析，我们已经得到了随机过程的分布假设，即假设随机过程的概率分布符合某一种标准随机分布。这是一种定性分析的结果。在给定了一种随机分布函数后，需要进一步获取这一分布函数的特征参数在收集到的实际系统随机变量的实际数据基础上，对分布类型重点未知总体参数进行估计的过程称为参数估计,3.3 参数估计-作用,位置参数确定分布函数取值的范围当变化时，分布函数仅仅在坐标系上的位置发生变化比例参数用于确定在分布范围内取值的大小比例的改变只压缩或扩张分布函数，不改变其基本形状形状参数是决定分布函数基本形状，从而改变分布函数性质的参数,3.3 参数估计-分布参数的类型,矩估计法、极大似然法、最小二

9、乘拟合估计模拟中常用的一些分布参数建议值,3.3 参数估计-方法,3.4 拟合度检验,为了测试随机样本量为n的随机变量X服从某一特定分布形式的假设，常用2拟合度检验。这种检验方法首先是把n个观察值分成k个分组区间或单元。检验的统计量由下式给出（k为分布的阶数）式中，Ni是在第i个分组区间的观察频数。 Ni = ni /n,这里的pi是理论值，是对应第i个分组区间的假设概率。,可以证明：02近似服从具有自由度 f = k-s-1的2分布。这里 s 表示由采样统计量所估计的假设分布的参数个数。假设检验作零假设： H0 ：观察值Xi是一组属于分组分布函数F的独立相同分布的随机变量。若2太

10、大则拒绝H0 ，若拟合是好的，则期望值2很小。,3.4拟合度检验-拟合程度的判定,我们可以根据拟合度检验的要求，设定一个拟合度的显著性指数，根据设定的显著性指数以及2分布的自由度数f = k-s-1，可以查2表得到，f2 。如果则检验未通过，H0不成立。如果则检验通过， H0成立。,3.4 拟合度检验-指定拟合度的检验,概述随机数的生成随机数的检验随机变量的生成,3.5 随机变量的生成,在大量的模拟模型中，特别是在离散事件模拟模型中，都需要进行随机抽样，或者说产生服从一定分布的随机变量，以使模拟模型能够模拟实际系统中所具有的一些随机现象随机变量：设某一次试验产生的样本空间为，X

11、是定义在上的实函数，即对于任一样本点，X()为一实数，则称X为一个随机变量随机数就是指服从0,1均匀分布的随机变量。其他类型的分布，都可以用某种方法通过对0,1均匀分布进行转换来实现,3.5.1 概述-随机变量,随机性具有独立性、均匀性，并且与真实随机数具有相同的数字特征，如期望、方差长周期发生器都是基于准确无误、决定性的公式而设计的，产生的随机数最终会回到它的起点，并重复以前出现过的序列；无重复随机数序列的长度称为周期可再现性调试、校正仿真系统的参数即要能生成同样的随机数序列；又要能生成不同以往的随机序列计算效率要高,3.5.1 概述-随机数发生器,随机数的生成方法一般可以

12、分作两类，即物理方法与数值方法。物理方法是通过一些物理设备，如电子噪声发生器、放射源计数器获得随机数。现在使用的比较广泛而又有效的方法是数值方法，即按照一定的算法利用计算机程序来产生随机数。一般称由这样的方法产生的随机数为伪随机数。伪随机数满足一定的随机性准则，但它们的产生总是以某个称之为种子的确定的初始值开始，并且是一个完全确定的、重复的过程。,3.5.1 概述-随机数的生成,线性同余法在1951年由菜默尔(Lehmer)首先提出。目前大多数随机数发生器都采用这种方法。在这个算法中,随机序列中的数由如下的递推关系产生初始值x0称为种子，常数a称为乘子，常数c称为增量，而常数m称为模数。

13、,当a=1时，加同余法；当c=0时，乘同余法；当a1、c0时，混合同余法。,3.5.2 随机数的生成-线性同余法,取m=2b，b为计算机系统的位数。一般为32位，去掉一位符号位，b=31 一方面，满足了模数取值尽可能大的要求另一方面，可以利用整型溢出的特性，避免直接进行除法运算对于b位的计算机系统，整型数据最多可保留(2b-1)，对于一个位数大于b的整数W，实际保存的是数据的低b位数值，高于b位的数据丢失，即Wmod2b 利用计算机系统本身位数限制，自动避免取余运算，以减少运算量混合同余法,3.5.2 随机数的生成-混合同余法,大多数模拟语言都提供了随机数发生器。如果用户需要自己

14、编制随机数发生器的话，则需要注意以下几点： (1) 所产生的伪随机数应具有良好的统计特性，包括：a. 独立性，即随机数之间不应该存在相关性；b. 均匀性，即产生的数列应尽可能接近0, 1区间上的均匀分布； (2) 所产生的伪随机数应具有尽可能长的周期； (3) 可重复性，即只要给以相同的初始值，就能得到相同的随机数序列，这样可以使我们在相同的条件下模拟不同的相同方案,3.5.2 随机数的生成,由于伪随机数发生器并不是真正的随机变量，因此所产生的序列是否具有随机数序列的特征，有时很难得到保证。因此，对于由随机数发生器产生的伪随机数序列，必须对其进行统计检验，以确定是否具有随机数应该有的统计特征

15、。数字特征检验、随机性检验、均匀性检验,3.5.3 随机数的检验,检验随机数列的一些基本数字特征，如均值和方差的估计值与理论值是否有显著差异。如果由随机数发生器产生的随机数序列为：u1, u2, , un 如果ui是(0, 1)上的均匀分布随机变量，则均值和方差分别为,3.5.3 随机数的检验-数字特征检验,取统计量则当N充分大时，V1和V2近似服从N(0,1)正态分布。若取显著水平=0.05，则当|V1|1.96时，我们应该拒绝以及的假设，否则接受这一假设；当|V2|1.96时，我们应该拒绝以及的假设，否则接受这一假设。,3.5.3 随机数的检验-数字特征检验,3.5.3随机

16、数的检验-分布均匀性检验,分布均匀性检验又称频率检验，是对检验随机数落在各个子区间内的频率与理论频率之间的差异是否显著进行检验。把0,1区间划分成等长度的k个子区间，那么对于均匀分布而言，落入每一个子区间的理论样本数应该为n/k(n为用于检验的样本数量)。若记oi(i=1,2,k)为落入第i个区间的实际样本数，则统计量服从自由度为k-1的分布。,的值处在多大范围内可以认为的随机数抽样值是符合均匀性要求呢?,首先确定一个显著性水平，从表中查出自由度为k-1的如果：则拒绝接受均匀分布的假设,3.5.3随机数的检验-分布均匀性检验,3.5.3 随机数的检验- 独立性/随机性检验,一个随机数序列可以是均匀分布，但却不一定是独立的，也就是说有可能是互相关联的。两个随机变量的相关系数反映了它们之间的线性

展开阅读全文

系统模拟第3章 数据的采集与统计分析

系统模拟第3章数据的采集与统计分析