出租车数量估计赵朋飞修改版b题

资源描述

《出租车数量估计赵朋飞修改版b题》由会员分享，可在线阅读，更多相关《出租车数量估计赵朋飞修改版b题（13页珍藏版）》请在金锄头文库上搜索。

1、 WORD 文理学院2014年数学建模培训第二次模拟 B题系别学号朋飞数学系7王文鹏计科系3叶鹏物理系811 / 12出租车数量的估计问题摘要本文运用概率统计的思想，解决了出租车数量的估计问题。依据题目要求，我们建立了两种估计模型，估算出了该小镇出租车的数量，并且对模型的可靠性进行了检验。对于模型一：首先，题目所给样本数据是随机的，通过MATLAB软件作图，发现区间间隔为时，落在每个区间车牌号数量是均匀分布的，即车牌号服从于均匀分布。而车牌号又是按顺序排列的，所以样本中的最小车牌号与最大车牌号趋近于该市机动车出租车车牌号的起始号与终止号，试假设该机动车出租车车牌号区间为，进而求出该市机动车出租

2、车的总数量为辆；然后，对于样本中所给的出租车牌号，经过后减运算，得到每两个相邻的车牌号之间间隔的车牌号数量，用EXCEL软件排序并作图，剔除了极端差值，其余求其平均数,即每辆出租车车牌号之间间隔平均是；最后计算出该小镇出租车的数量辆。对于模型二：由于模型一中确定该市机动车出租车车牌号区间不甚精确，我们考虑对其进行优化。首先，我们运用了两种方法估计了该市机动车的总数量：方法一，引用盟军估计德军坦克数量的模型估计出该市机动车的总数为；方法二，运用极大似然估计函数确定该市机动车出租车的车牌号区间为，经端点值作差得出该市机动车出租车的总数为；（这两种方法貌似得去掉一个）将两种方法（去掉）所求的该市机动

3、车总数均值作为该市机动车最终数量。然后，把样本的车牌号每隔进行统计，得到每个车牌号中的出租车车牌数量,对得到的数据用SPSS软件进行检验，显示呈正态分布并得其均值，采用极大似然估计法求得正态分布总体中参数，即该市每辆机动车出租车中有辆出租车属于分配在该小镇。最后计算出该小镇有出租车辆。综合两种模型，模型一对机动车车牌号围的区间估计不够精确，而模型二在估算机动车牌号围的区间时，恰当运用盟军估计德军坦克数量模型与极大似然估计法，比较精确地求得该市机动车的数量。另外，模型二对车牌号分区间考虑使得估算更为合理。模型检验中偏态系数与峰度系数对统计数据的分析使得模型更为完善。（改为）最后我们对两种模型的优

4、缺点进行了讨论。关键字：极大似然估计正态分布 SPSS软件偏态系数峰度系数一、问题重述小寒假回到他的家乡某小镇，在出门探亲访友过程中，他发现小镇的出租车，存在诸多问题。他打算从小镇的出租车数量入手，解决这些问题。在接下来的几天时间里，他随机的记录了133辆出租车车牌号的后5位见（附录1）。他只知道车牌号是按顺序排列的，但他不知道车牌的起始号，也不知道车牌的终止号，他希望通过上述数据估计出小镇的出租车数量。要求帮助小设计一种或多种数学模型，来估计小镇出租车的数量，并分析方法的可靠性。二、模型假设1、样本统计过程中没有考虑外来车辆。2、该市机动车的车牌号连续。3、该市机动车与车牌号一一

5、对应。4、该市机动车车牌号的后五位均由数字组成。三、符号说明符号含义该市机动车数量原始车牌号序列样本相邻车牌号的差值序列差值的平均值俩车牌号的间隔小镇出租车数量样本均值样本方差方差样本中最小的车牌号样本中最大的车牌号样本中车牌号的数量该市机动车下限的最大似然估计值该市机动车上限的最大似然估计值总体均值组中值对应比重偏态系数峰度系数四、问题分析本题属于概率统计问题。要估算出该小镇出租车的数量，首先需要估算出该市机动车出租车的数量。考虑到题目所给样本数据是随机的，通过MATLAB软件作图，发现区间间隔为时，落在每个区间车牌号数量是均匀分布的，即车牌号服从于均匀分布。我们可以采用点估计，即以实际样

6、本指标数值作为总体参数的估计值，估算出该市机动车的数量，进而估计出小镇出租车数量。我们可以从以下两种思路来求解：思路一：由于样本中的车牌号均匀分布，考虑到所在地为小镇且车牌号是按顺序排列的，所给车牌的最小值与最大值就非常趋近于起初号和终止号，所以假设车牌号区间为24000，31999。经过后减运算，剔除坏数据，得出每两辆车牌号之间相差的个数，从而得出小镇出租车的数量。思路二：对思路一中确定总体车牌号区间存在的不精确性，我们将其进行优化，可以用点估计1与极大似然函数（和摘要对应，去掉一种方法）确定总体的车牌号区间。参照点估计中最小无偏估计，采用较为准确的计算公式确定车牌号区间，即为该市机动车总数

7、，当然，我们还可以利用极大似然函数确定车牌号区间。（与上对应，去掉一种方法）其次，将样本的车牌号每隔进行统计，得到的统计数据求其平均值，把所得平均值与机动车总数的千分之一的乘积作为该小镇出租车数量的估计值。五、模型建立与求解5.1模型一：对于随机分布的样本数据，若其服从于均匀分布，可取接近样本最大值与最小值的数据作为总体区间的上下限，即区间，进而可得总体的数量为。据问题分析知样本中的车牌号均匀分布，且已设车牌号区间为，故得总的车牌号数量，即该市机动车的数量。由题目已给条件知原始车牌号序列：即：由后减运算计算，即求出后前两个数据之差：，其中；可得一个新的序列：利用EXCEL软件，以此新序列排序作

8、为纵坐标并作图1：图1观察图1，发现中间部分有很多均匀的差值，两端出现较大的波动，忽略两端极端差值，即剔除40以下和90100以上的差值，其余求平均值，经EXCEL软件计算得平均值约为，即两车牌号之间间隔。由此估计出出租车数量为：结合以上数据，估计出该小镇共有出租车辆。5.2模型二：（去掉一种方法，建议去掉盟军模型）1.估计样本对应总体的取值空间(该市机动车数量)：方法一：在统计学理论的估计中，用不放回抽样来估计离散型均匀分布最大值问题是著名的德国坦克问题1。针对该问题，建立盟军估计德军坦克数量模型。对于点估计（实际样本指标数值作为总体参数的估计值），最小方差无偏估计由下式给出并以此确定总体取

9、值区间：是样本最小值，是样本最大值，是样本大小。题目中所给车牌号为随机抽取的一组数据，其为离散均匀分布,结合题目已知，样本中出租车车牌号的最小值，出租车车牌号的最大值，出租车数量，代入以上公式求得。即在车牌号连续的情况下，可估计该市机动车数量。方法二：再者，我们可以以极大似然估计来确定总体取值区间：设总体在上服从于均匀分布，是一个样本值，我们来确的最大似然估计量：记，的概率密度是由于，等价于，。似然函数为即在时取到最大值。故的最大似然估计值为：即：该市机动车出租车车牌号在上服从均匀分布，为样本出租车车牌号，样本最小值，样本最大值，可求得的最大似然估计量为，的最大似然估计量为。即该市机动车出租车

10、车牌号区间为，在车牌号连续的情况下，可估计该市机动车数量。综合考虑方法一与方法二所得该市机动车数量，我们将其平均值()作为估计该小镇出租车数量的基数。2.将样本数据分成若干区间考虑(估计该小镇出租车数量)：把样本的车牌号每隔进行统计，得到每个车牌号中的出租车车牌数量并作表1：区间出租车车牌数量（个）表1：出租车车牌数量统计表观察表1，对于指定区间的出租车车牌数量我们加以分析，通过SPSS软件2，使用K-S对其进行正态性检验(附录2)，检验结果如图2：图2：正态性检验根据检验结果，指定区间的出租车车牌数量符合正态分布。接下来求正态分布中的极大似然估计量：是正态分布总体的随机样本，需要求正态分布参

11、数的极大似然估计量。似然函数为：取对数，得：那么似然方程组为：解得：因此，正态分布总体平均数的极大似然估计量为：方差估计量为：对于出租车车牌数量统计数据，是正态分布总体的随机样本，所以因为，所以得出总体均值，即以上八个车牌号区间中出租车车牌数量的平均值约为,即可近似认为该市每1000辆机动车中有17辆出租车属于分布在该小镇，进而求出该小镇出租车的数量为：综合以上，代入上式，可估算出该小镇共有出租车辆。六、模型检验为了推断模型二(2)中统计数据的未知特性,我们提出统计数据服从于正态分布的假设，并采用极大似然估计法对其参数进行了估计。作出出租车车牌数量统计图如图3。了解到集中趋势和离散程度是数据分

12、布的两个重要特征，要全面了解数据分布的特点，还需要知道数据偏斜的程度与分布的扁平程度等，我们可以从偏态和峰度的角度对这些分布特征进一步描述。图31.偏态与其测度：偏态是对数据分布偏斜方向与程度的测度，偏态系数(分布偏斜程度的测度)计算公式：将对应区间出租车车牌数量进一步分组，是组中值，是组中值标准差的三次方，为对应比重。在模型二(2)统计数据中为对应区间出租车车牌数量，利用EXCEL软件可求得偏态系数(求解过程见附录3)。由于偏态系数,因此指定区间出租车车牌数量为左偏分布，即在总体区间确定的情况下，推理说明机动车车牌号大多分布于前半区间。2.峰度与其测度：峰度是分布集中于高峰的形态。它通常是与

13、正态分布相比较来说的，在归化到同一方差时，若分布的形状比正态分布更瘦更高（太口语化），则称为尖峰，若比正态分布更矮更胖（太口语化），则称为平峰分布。峰度系数是离差四次方的平均数，再除以标准差的四次方，其计算公式为：式中：表示峰度系数，是标准差的四次方。已知正态分布的峰度系数为3，当时为尖峰分布，当时为扁平分布。在模型二(2)统计数据中为对应区间出租车车牌数量，利用EXCEL软件可求得峰度系数(求解过程见附录3)。由于偏态系数,因此指定区间出租车车牌数量为扁平分布，且扁平程度相当大，推理说明机动车车牌号趋于均匀分布，与题目所给数据随机性相符。七、模型评价优点：1、模型二在计算机动车牌号围的区间时

14、，分别用了点估计和极大似然估计法，较为精确。2、对样本数据处理时，观测发现区间为1000时的出租车牌号大致呈正态分布，但模型二将数据通过SPSS软件验证，结果确为正态分布，这样就增加了模型的精确程度。3、模型一简单易懂，计算简洁，具有直观性。缺点：1、模型一对机动车牌号围的区间估计不甚精确。 2、模型没有考虑非本地的出租车的混入，从而对结果造成了误差。八、模型应用与推广基于以上模型的建立，我们得到了一个以给定一组样本数据为基准，来估计出总体数量的模型，并且还可以分析模型的可靠性，增加了模型的实用性。不难想象，可以将此模型应用于交通流量的测量、电器可靠性的分析、气象预报、质量检测等。九、参考文献【1】盛骤.概率论与数理统计，大学，2001年12月第3版。【2】阮晓青.周义仓数学建模引论，高等教育，2005年7月第一版。【3】 zh.wikipedia.org/wiki/%E5%BE%B7%E5%9B%BD%E5%9D%A6%E5%85%8B%E9%97%AE%E9%A2%98

展开阅读全文