定性数据的建模分析讲义教材

资源描述

《定性数据的建模分析讲义教材》由会员分享，可在线阅读，更多相关《定性数据的建模分析讲义教材（66页珍藏版）》请在金锄头文库上搜索。

1、2020/8/27,ncutstat,1,第八章定性数据的建模分析,目录上页下页返回结束,8.1 对数线性模型基本理论和方法,8.2 对数线性模型分析的上机实验,8.3 Logistic回归基本理论和方法,8.4 Logistic回归的方法与步骤,2020/8/27,ncutstat,2,第八章定型数据的建模分析,目录上页下页返回结束,第三章我们曾讨论过定性数据的列联表分析，对数线性模型是进一步用于离散型数据或整理成列联表格式的数据的统计分析工具。它可以把方差分析和线性模型的一些方法应用到对交叉列联表的分析中，从而对定性变量间的关系作更进一步的描述和分析。,2020/8/

2、27,ncutstat,3,列联表分析无法系统地评价变量间的联系，也无法估计变量间交互作用的大小，而对数线性模型是处理这些问题的最佳方法。当被解释变量是非度量变量时，可以用判别分析。然而当被解释变量只有两组时，Logistic回归由于多种原因更受欢迎。首先，判别分析依赖于严格的多元正态性和相等协差阵的假设，这在很多情况下是达不到的。 Logistic回归没有类似的假设，而且这些假设不满足时，结果非常稳定。,2020/8/27,ncutstat,5,8 .1 对数线性模型基本理论和方法,目录上页下页返回结束,本节将利用22维的交叉列联表来说明对数线性模型的基本理论和方法，同时利用S

3、PSS软件对真实的经济定性数据作分析。从22维的交叉列联表的概率表，介绍对数线性模型的基本理论和方法。,2020/8/27,ncutstat,6,8 .1 对数线性模型基本理论和方法,目录上页下页返回结束,2020/8/27,ncutstat,7,8 .1 对数线性模型基本理论和方法,目录上页下页返回结束,对上面三式各取其平均数为：,该式的结构与有交互效应，且各水平均为二的双因素方差分析模型的结构相似，因此模仿方差分析，可以有如下关系式：,2020/8/27,ncutstat,8,8 .1 对数线性模型基本理论和方法,目录上页下页返回结束,若记,2020/8/27,n

4、cutstat,9,8 .1 对数线性模型基本理论和方法,目录上页下页返回结束,(8.2),2020/8/27,ncutstat,10,8 .1 对数线性模型基本理论和方法,目录上页下页返回结束,2020/8/27,ncutstat,11,8 .1 对数线性模型基本理论和方法,目录上页下页返回结束,在实际分析中，概率表中各项值，以交叉列联表计算得的频率表的对应项为无偏估计值。公式表示为：,2020/8/27,ncutstat,12,8 .1 对数线性模型基本理论和方法,目录上页下页返回结束,即可得的估计值。实际分析中，二维数据表并不是每个因素都是双水平的，在

5、分析中，把公式的的取值上限调整即可。,2020/8/27,ncutstat,13,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,可以使用SPSS软件来实现对数线性模型分析。这里举一个例子是32维的交叉列联表的分析。我们用SPSS软件中的Loglinear模块实现分析。【例8.1】某企业想了解顾客对其产品是否满意，同时还想了解不同收入的人群对其产品的满意程度是否相同。在随机发放的1000份问卷中收回有效问卷792份，根据收入高低和满意回答的交叉分组数据如表8-1：,2020/8/27,ncutstat,14,8 .2 对数线性模型分析的上机实践,目录上页下页返回

6、结束,表8.1.,2020/8/27,ncutstat,15,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,首先要准备数据，上面的交叉列连表的数据要输入到spss的表格里去，具体应当是入下：,2020/8/27,ncutstat,16,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,2020/8/27,ncutstat,17,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,按上面的形势输入数据后，还不能马上进行对数线性模型分析，必须先激活频数，即让频数有效。具体步骤是：使用SPSS软件，从主菜单中，以DataWeight Case

7、s.顺序，打开Weight Cases对话框，选中Weight cases by单选框，从变量列表中选出“频数”变量, 点击钮，使之进入Frequency Variable框，然后点击OK钮，回到数据表格，这时分析前的准备工作就完成了。这一步很重要，如果频数没有被激活，对数线性模型的模块仍会执行命令，但是得出的结果是错误的，所以使用时一定要小心。,2020/8/27,ncutstat,18,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,数据准备工作完成后，就可以进行下一步的分析了。从主菜单中，按AnalyzeLoglinearModel Selection.的流程可打开

8、Model Selection Loglinear Analysis对话框，从左侧变量栏里选中“收入情况”，点击钮使之进入Factor(s)框，这时该框下面的Define Range.钮就会从灰色变为黑色，点击弹出Loglinear Analysis: Define Range对话框，可以定义变量的范围，即该变量的水平范围，本例中“收入情况”共有三种类型，代号分别是1、2、3，所以在Minimum处键入1，在Maximum处键入3，,2020/8/27,ncutstat,19,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,点击Continue钮，返回Model Selec

9、tion Loglinear Analysis对话框；按同样方法，把“满意情况”变量选入，并定以其范围为1、2；然后选中“频数”变量，点击钮使之进入Cell Weight框；最后，点击Options.钮，进入Loglinear Analysis:Options对话框，选择Display for Saturated Model栏下的Parameter estimates项，点击Continue钮返回Model Selection Loglinear Analysis对话框，其他选项保持默认值，最后点击OK钮即完成分析步骤。,2020/8/27,ncutstat,20,8 .2 对数线性模型分析的

10、上机实践,目录上页下页返回结束,2020/8/27,ncutstat,21,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,首先显示系统对792例资料进行分析，这792例资料可分为6类（32）。模型中共有二个分类变量：其中“收入情况”变量为3水平，“满意情况”情况变量为2水平；分析的效应除了两个分类变量，还有两者的交互作用（收入情况*满意情况）。系统经1次叠代后，即达到相邻二次估计之差不大于规定的0.001。,2020/8/27,ncutstat,22,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,2020/8/27,ncutstat,23,8

11、 .2 对数线性模型分析的上机实践,目录上页下页返回结束,2020/8/27,ncutstat,24,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,这是对模型是否有交互效应和高阶效应进行检验，原假设是高阶效应为0，即没有高阶效应。检验结果认为拒绝原假设，存在交互效应和高阶效应。在Note里，表示对饱和模型的观测单元进行了变换。,2020/8/27,ncutstat,25,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,2020/8/27,ncutstat,26,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,为了唯一地估计参

12、数，系统强行限定同一分类变量的各水平参数之和为0，故根据上表结果可推得各参数为：,2020/8/27,ncutstat,27,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,2020/8/27,ncutstat,28,8 .2 对数线性模型分析的上机实践,目录上页下页返回结束,参数值为正，表示正效应；反之为负效应；零为无效应。分析提供的信息是：（1）为正值，说明接受调查了的多数顾客对其产品还是满意的；（2），说明各收入阶层的顾客对其产品的满意程度是不同的，其中，高收入的顾客满意程度最低，而中层收入的顾客满意程度最高；（3）通过对企业顾客的收入情况和满意情况

13、交互效应的研究，为负值表示高收入与对产品的满意程度是负效应的，为正表示中等收入者与对其产品的满意程度是正效应的，同理，低收入人群对其产品的满意程度也是负效应的。该企业的产品主要的消费阶层是中等收入者，同时中等收入者对其产品的满意程度也最好。,2020/8/27,ncutstat,29,8 .3 Logistic回归基本理论和方法,目录上页下页返回结束,2020/8/27,ncutstat,30,8 .3 Logistic回归基本理论和方法,目录上页下页返回结束,2020/8/27,ncutstat,31,8 .3 Logistic回归基本理论和方法,目录上页下页返回

14、结束,2020/8/27,ncutstat,32,8 .3 Logistic回归基本理论和方法,目录上页下页返回结束,Logistic回归不同于一般回归分析的地方在于它直接预测出了事件发生的概率。尽管这个概率值是个度量尺度，Logistic回归与多元回归还是有着很大的差异。概率值可以是01之间的任何值，但是预测值必须落入01的区间。这样，Logistic回归假定解释变量与被解释变量之间的关系类似于S形曲线。而且，不能从普通回归的角度来分析Logistic回归，因为这样做会违反几个假定。,2020/8/27,ncutstat,33,首先，离散变量的误差形式服从贝努里分布，而不是正

15、态分布，这样使得基于正态性假设的统计检验无效。其次，二值变量的方差不是常数，会造成异方差性。 Logistic回归是专门处理这些问题的。它的解释变量与被解释变量之间独特的关系使得在估计、评价拟合度和解释系数方面有不同的方法。,2020/8/27,ncutstat,34,8 .3 Logistic回归基本理论和方法,目录上页下页返回结束,估计Logistic回归模型与估计多元回归模型的方法是不同的。多元回归采用最小二乘估计，将解释变量的真实值与预测值差异的平方和最小化。而Logistic变换的非线性特征使得在估计模型的时候采用极大似然估计的叠代方法，找到系数的“最可能”的估计。

16、这样在计算整个模型拟合度的时候，就采用似然值而不是离差平方和。,2020/8/27,ncutstat,35,8 .3 Logistic回归基本理论和方法,目录上页下页返回结束,2020/8/27,ncutstat,36,8 .3 Logistic回归基本理论和方法,目录上页下页返回结束,前面已提到Logistic回归在估计系数时，是用的极大似然估计法。就象多元回归中的残差平方和，Logistic回归对模型拟合好坏通过似然值来测量。（实际上是用2乘以似然值的自然对数即2 Log似然值，简记为2LL）。一个好的模型应该有较小的2LL。如果一个模型完全拟合，则似然值为，这时2LL达到最小，为0。Logistic回归对于系数的

展开阅读全文