数学建模专题汇总-离散模型.doc

资源描述

《数学建模专题汇总-离散模型.doc》由会员分享，可在线阅读，更多相关《数学建模专题汇总-离散模型.doc（89页珍藏版）》请在金锄头文库上搜索。

1、离散模型 1 离散回归模型一、离散变量如果我们用0，1，2，3，4，说明企业每年的专利申请数，申请数是一个离散的变量,但是它是间隔尺度变量，该变量类型不在本章的讨论的被解释变量中。但离散变量0和1可以用来说明企业每年是否申请专利的事项，类似表示状态的变量才在本章的讨论中。在专利申请数的问题中，离散变量0，1，2，3和4等数字具有具体的经济含义，不能随意更改；而在是否申请专利的两个选择对象的选择问题中，数字0和1只是用于区别两种不同的选择，是表示一种状态。本专题讨论有序尺度变量和名义尺度变量的被解释变量。二、离散因变量在讨论家庭是否购房的问题中，可将家庭购买住房的决策用数字1 表示，而将家庭不购

2、买住房的决策用数字0表示。如果x作为说明某种具体经济问题的自变量，则应用以前介绍虚拟变量知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房问题时，则表示状态的虚拟变量就不再是自变量，而是作为一个被说明对象的因变量出现在经济模型中。因此，需要对以前讨论虚拟变量的分析方法进行扩展，以便使其能够适应分析类似家庭是否购房的问题。因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态，所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。三、线性概率模型现在约定备择对象的0和1两项选择模型中，下标i表示各不同的经济主体，取值0或l的因变量表示经济主体的具体选择结果，而影

3、响经济主体进行选择的自变量。如果选择响应YES的概率为，则经济主体选择响应NO的概率为，则。根据经典线性回归，我们知道其总体回归方程是条件期望建立的，这使我们想象可以构造线性概率模型描述两个响应水平的线性概率回归模型可推知，根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于0，1。如果通过回归模型式得到的因变量拟合值完全偏离0或l两个数值，则描述两项选择的回归模型的实际用途就受到很大的限制。为避免出现回归模型的因变量预测值偏离0或1的情形，需要限制因变量的取值范围并对回归模型式进行必要的修正。由于要对其进行修正，那么其模型就会改变，模型改变会导致似然函数改变，这就是我们下面

4、要讨论的。现在我们讨论的模型与判别分析的目的是一样的，但有区别。 2 二元离散选择模型一、效用函数为了使得二元选择问题的有进一步研究可能，首先建立一个效用函数。在讨论家庭是否购房的问题中，可将家庭购买住房的决策用数字1 表示，而将家庭不购买住房的决策用数字0表示。用表示第个人选择买房的效用，表示第个人选择不买房的效用。其效用均为随机变量，于是有（1）将(1)-(2),得记：则有，格林称该模型为潜回归。这是二元选择模型的切入点。称为过渡变量（潜在的），这个变量是不可观测的。当效用差大于零，则应该选“1”，即购房；当效用差小于零，则应该选“0”，即不购房。故此处已经通过，将自变量与事件发生的

5、概率联系起来了。为概率提供了一个潜在的结构模型。现在的问题是服从何种分布？既然是分布函数，则必须满足分布函数的条件.二、两类常用的模型根据以上的分析，我们的问题已经转化为作为有什么形状，即密度函数具有什么样的函数形式。采用累积标准正态概率分布函数的模型称作Probit模型，或概率单位模型，用正态分布的累积概率作为Probit模型的预测概率。另外logistic函数也能满足这样的要求，采用logistic函数的模型称作logit模型，或对数单位模型。注：分布在此时是以y轴为对称。（一）Logit模型因为如果我们取F（.）为逻辑函数（LOGIT）,即（满足分布函数的条件），有为了更简化模型，我们

6、令，，则有（非线性）（广义非线性）（2）称（2）式为逻辑斯蒂回归模型。（二）PROBIT模型更为一般的情形，如果选择F（.）是标准正态分布，则产生PROBIT回归模型。（3）称（3）式为PROBIT回归模型。注 Probit曲线和logit曲线很相似。标准正态概率分布曲线 logistic分布曲线使用哪个分布是一个很自然的问题，logit曲线除了在尾部比正态分布厚得多以外，两条曲线都是在pi = 0.5处有拐点，logit曲线更接近一个自由度为7的t分布（格林书认为自由度是4的t分布）。所以，对于的中间值（比如-1.2到1.2之间）来说，两种分布会给出类似的概率，但是当非常小时，

7、逻辑斯蒂回归模型比PROBIT回归模型倾向于给出（）较大的概率值，而在非常大时，倾向于给出（）较小的概率值。利用函数式可以得到的概率值见表一。表一 Probit模型和logit模型概率值yi正态分布函数pi = 逻辑概率分布pi =-3.00.00130.0474-2.00.02280.1192-1.50.06680.1824-1.00.15870.2689-0.50.30850.37750.00.50000.50000.50.69150.62251.00.84130.73111.50.93320.81762.00.97720.88083.00.99870.9526特点尾薄尾厚 3 二元离散选

8、择模型最大似然估计下面我们来构造二元离散选择模型的似然函数。这是二元离散选择模型最关键的问题。因为我们假设有以Y轴为对称的概率密度函数f(.)，则于是模型的似然函数为两边同时取自然对数，则对数似然函数最大化的条件是（4）一、对数单位模型的似然函数将和代入（4），则似然方程为。若包含常数项，则一阶条件意味着预测概率的平均值一定等于样本中“1”的比率。对数单位模型对数似然函数的二阶导数为二、概率单位模型的似然函数如果是正态分布，则对数似然函数为概率单位模型的对数似然函数的二阶导数为：。例一在一次住房展销会上，与房地产商签订初步购房意向书的共有325名顾客，在随后的3个月的时间内，只有一

9、部分顾客确实购买了房屋。购买了房屋的顾客记为“1”，没有购买的人记为“0”。以顾客的年家庭收入为自变量X，根据表二资料，分析收入9.5万元的家庭买房的可能性。程序如下。data a;input x n r;cards;1.5025.008.002.5032.0013.003.5058.0026.004.5052.0022.005.5043.0020.006.5039.0022.007.5028.0016.008.5021.0021.009.5015.0010.00;proc logistic data=a;output out=ll p=phat ;model r/n=x /link=norm

10、it;proc print data=ll;run;表二例一的分组数据资料年家庭收入（万元）签订意向书人数（人）实际购房人数（人）1.52582.532133.558264.552225.543206.539227.528168.521219.51510分别用LOGIT和PROBIT模型讨论这个问题。表三 LOGIT模型名称参数估计值标准差Wald统计量自由度显著性水平Exp(B)常数项-1.19920.302415.72061.0001X0.24300.056018.84431.0001 1.275表四 probit模型名称参数估计值标准差Wald统计量自由度显著性水平常数项-0.74

11、450.184816.22421.0001X 0.15100.0340 19.7145 1.0001 4 多元离散选择模型多种选择的情形存在着几种决策，这是在三个或三个以上的备择中选择一个决策。有两种决策集，有序的和无序的。例如，对某个候选人的态度：赞成，反对和弃权中的选择是无序的。客户的信用等级1，2，3，4，5级中的选择是有序的。有序和无序的情形使用相当不同的技术。由于目前许多有序离散回归模型的应用，故先讨论有序情形。一、有序Logistic模型及其估计排序多元离散选择模型问题普遍存在于经济生活中。其模型的构建为：设，是不可观测的，人们观测到的是（5）是门槛（threshole）值。根

12、据两水平的Logit模型的思路，有（6）将（6）变形，有（）则有其中1，表示第个个体选择了第个水平； 0，表示第个个体没有选择第个水平；。解方程，得的极大似然估计。二. 有序Probit模型及其估计若假定服从正态分布，且有零均值，方差为1，则则其似然函数为：两边取自然对数，有再对求导数并令其为零，解出方程组中的，得到模型参数的极大似然解。例二下表是某金融机构客户的个人资料，这些资料对一个金融机构来说，对于客户信用度的了解至关重要，因为利用这些资料，可以挖掘出许多的信息，建立客户的信用度评价体系。所选变量为： x1: 月收入 x2：月生活费支出 x3：虚拟变量，住房的所有权，自己的为“

13、1”，租用的“0” x4：目前工作的年限 x5：前一个工作的年限 x6：目前住所的年限 x7：前一个住所的年限x8: 家庭赡养的人口数type：信用程度，“5”的信用度最高，“1”的信用度最低。data a;input x1-x8 type;cards;300015000286253 850425 1332525131000300000.10.30.10.3419000225018453254000100013532143500250000.50.50.521122001200163141345003500082101521200100000.50.510.531800 80000.1151317500

展开阅读全文