简介定性资料的统计分析.doc

资源描述

《简介定性资料的统计分析.doc》由会员分享，可在线阅读，更多相关《简介定性资料的统计分析.doc（18页珍藏版）》请在金锄头文库上搜索。

1、第十二章简介定性资料的统计分析本章不是全面的介绍这方面的理论、方法和应用，而是初步反映一下这方面的主要内容，目的是展示进一步可学的知识，以便更好地解决实际问题。12.1 定性变量数量化前面几章所介绍的各种统计方法，主要是研究与定量变量（或称间隔尺度变量）有关的问题，但在实际应用中，往往不可避免地要涉及到定性变量（或称名义尺度变量），例如人的性别、职业、天气状态，经济工作中选择的政策以及地层的构成类型等等，这些变量都只有各种状态的区别，而没有数量之区别。若定性变量不进入数学关系式，则会丢失信息，若要进入，又难于直接参加运算，于是从20世纪五十年代起开始发展了数量化理论，首先应用于“计量社会学”

2、，六十年代后，逐步应用于各种学科，随着电子计算机的普及和发展，数量化理论将会在自然科学和社会科学的许多方面发挥出更大的作用。如何对定性变量给以相应的数值描述，从而进行有关的统计分析，这就是数量化理论所研究的主要内容。数量化理论已有专著出版，本节为了应用上的需要，仅介绍常用的0-1赋值法。例如定性变量是性别，记为X，如此赋值：如此赋值的理由是简单，并没有任何数量大小的意义，它仅仅用来说明观察单位的特征或属性，因此不同特性或属性的观察单位应取不同的值。例如：天气可取晴、阴、雨三类，则用两个变量（X1，X2）表示天气，如此赋值：例如：有多种有害物污染了大气，由于有害物的结构不同，将污染物分为五类地区

3、；甲、乙、丙、丁、成戊将地区用4个变量（X1, X2, X3, X4）来表示，如此赋值：综上所述，推广为一般的赋值法如下：若某定性变量可取K类，则用K-1个变量表示，如此赋值：以上K个类的次序可以交换。对于取K个类的定性变量，为什么用K-1个变量而不用K个变量表现？例如某定性变量可取甲、乙、丙、西四个类，可否如下赋值：易知，如此赋值将使X1+X2+X3+X4=1，不论是第几次观测，也不论定性变量取哪一类，皆使上式成立，即4个变量之和有稳定的线性关系式，知道其中任意三个就可推知另一个。定性变量数量化后，就可以全部作为定量变量来统一处理进行预测或分类等研究。12.2 列联表主要介绍二维列联表，对于

4、三维以上的列联表只要在形式上稍加改变就能适用于高维表，原则上是一样的，只不过高维列联表符号更复杂一些，也增加些分析的难度。1 列联表的概念列联表讨论的主要是定性资料，此处介绍二维列联表的目的，不是将其数量化，而是直接进行分析并给出两个定性变量之间是否独立性检验。先看一个简单例子：研讨吸烟与患肺癌的关系，这里用A表示一个人是否患肺癌，用B表示一个人是否吸烟，从一批被调查的对象中得到的统计表如下： BA吸烟不吸烟患肺癌603未患肺癌3211研讨患肺癌是否与吸烟有关？这张统计表称为22列联表，表中考察两个定性变量A和B，每个变量有两类，即A分为患肺癌与未患肺癌两类，B分为吸烟与不吸烟两类，表中间的数

5、值是频数，每一个被抽到的人，都可确定他的（）取值，比如表中数值60，表示被抽人群中吸烟又患肺癌的人数，数值32表示吸烟示患肺癌的人数。一般22列联表形式如下：BAB1B2A1n11n12n1.A2n21n22n2.n.1n.2n其中表示第i行Ai和第j列Bj的样品出现的频数，一般可取任意非负整数。这是一个最简单的列联表，如果两个定性变量分别考察r和c类，则相应的列联表为表（r和c可以不等）有如下形式： BAB1B2BcA1n11n12n1cn1.A2n21n22n2cn2.Arnr1nr2nrcnr.n.1n.2n.c如果一个问题涉及到很多的定性变量，相应的频数表就是一个高维列联表。在概率统计

6、中描述两个随机变量的相关程度是用线性相关系数，为了避免术语上的混淆，描述两个一性随机变量之间的相关性是指广义的相关性，称为关联性，两个定性随机变量之间的关联程度在某种意义上就是指的“不独立性”，它与独立的情形差距越大，就表明彼此的关系越密切，这种关系不一定是线性关系，然而在实际问题中，重要的是判断变量之间是否独立，因为不独立就意味着是关联的。如何判断是否独立有很多方法，这里仅介绍一种常用的皮尔逊拟合优度x2检验。22列联表，对应一个多项分布，检验A与B是否独立，等价于检验：其中表示A为i、B为j的样品概率，和是相应的边缘概率，当独立性成立时，理论频数为：实际频数为：nij运用x2检验作判定，需

7、要知道列联表中实际频数与相应的理论频数。用估计量代替。基实际频数与理论频数有差异，这时可用其差值的大小来度量两个变量相关程度。相差愈大，表明为真的可能性愈小，即A与B无关的可能性愈小。相反差值愈小，即二愈接近，为真的可能性愈大，A与B之间相关的可能性愈小。为避免实际频数与理论频数的差值出现正负抵消，可采用差值的加权平方和来检验，于是给出皮尔逊的拟合优度x2统计量为：它的极限分布是自由度为1的分布，根据给定的显著性水平a，查x2分布表得到临界值。若则拒绝H0，表示A与B之间不独立，存在相关，若则不能拒绝H0，表明A与B之间独立，不存在相关。将前面的例子作x2检验： BA吸烟不吸烟患肺癌60363

8、未患肺癌3211439214106计算取显著性水平a=0.05，自由度为1，查x2分布表，临界值。显然，表明在5%的显著性水平上，拒绝H0即说明吸烟与肺癌不独立，而是存在相关的。如果列联表中变量间存在相关，那么如何度量变量间的相关程度？又如何从一个变量去预测另一变量呢？解决这类总是还有很多方法，已超出本书范围，不再详述，有兴趣的读者可查阅这方面的参考书。12.3 对数线性模型如前所述，列联表能够反映定性变量之间的关系，但能否像定量变量那样建立起数学模型如方差分析模型、回归分析模型等以便进一步描述定性变量之间的复杂关系呢？对数线性模型和Logistic回归模型就是解决这一问题的极为有效的方法，它

9、们从不同角度出发导出不同的处理方法。对数线性模型，近十年来是国外实际工作者常用的方法，它的主要优点是可以把方差分析和线性模型的一些方法系数地移植过来，在概念和理解上均可进行对比，对数线性模型能够估计模型中各个参数，而这些参数值使各个变量的效应和变量间的交互作用效应得以数量化。下面即将看到这些结论。1 模型对数线性模型又分为很多种类型，常用的模型有：饱和模型（当变量间相互不独立时），非饱和型（变量间相互独立），谱系模型（包含高阶效应）等。下面从22的频数表与概率表出发，推导对数线性模型：（频数表）（概率表） BA有B 无B BA有B 无B有A无An11 n12n21 n22n1.n2.有A无Ap

10、11 p12p21 p22p1.p2.n.1 n.2np.1 p.21将概率取对数后进行分解处理，使处理后的变量有较好的数学、统计的性质。记由上式可写成显然上式的结构类似于两因子有交互作用，各因子均为二水平的方差分析模型，于是令然后再进行平均，对i, j=1,2记则有关系式：可见通过上边分解处理，可以完全化成与方差分析模型有同样的结构，因此借助于方差分析的术语，上式中表示“总平均效益”，表示A属性的“主效应”，表示B属性的“主效应”，表示，A, B的 “交互作用效应”，直观可以理解当交互作用效应为0，即等价于A、B独立。上式模型称为对数线性模型的饱和模型，当=0时，称为非饱和模型。在实际应用时

11、概率可用其估计量代替，即，这时就可以看到对数线性模型是将列联表上每个单元的频数作为因变量，表上所有变量作为自变量，建立各个自变量的效应与每个单元频数的对应之间的函数关系。因而可以用它分析列联表上的各个变量的关系。主效应或若大于0，表明效应为正；若小于0，表明效应为负。是第一个变量的第i个水平对总平均效应的增减量；是第二个变量的第j个水平对总平均效应的增减量，代表变量1和变量2在各自的第i个水平和第j个水平之间交互作用效应，是其交互作用对总平均效应的增减量。若，表明效应为负。实际计算时，第i行频数对数的平均第j列频数对数的平均各个观测值对数的总平均即总平均效应对本章前面的例子，按上述模型估

12、计各效应参数。各单元的频数表：吸烟不吸烟患肺癌60363未患肺癌3211439214106各单元的频数对数表：吸烟不吸烟均值患肺癌4.09431.09862.5964未患肺癌2.46572.39792.4318均值3.28001.74822.5141计算： 9主效应估计值：变量水平变量1（是否患肺癌）变量2（是否吸烟）12计算：+2.5141=3.6127-4.3426=-0.7319+2.5141=4.9798-5.7188=-0.7320+2.5141=6.6083-0.8319=0.8319变量间交互作用效应估计值：主效应大于0，表明效应为正，如是因为患肺癌比未患肺癌的人多；主效应小于

13、0，表明效应为负，如，是因为不吸烟的比吸烟的人少。交互作用大于0，表明交互作用效应为正，如，表明患肺癌与吸烟之间存在着相关；并互作用小于0，表明交互作用效应为负，如，表明患肺癌与不吸烟之间存在负相关。12.4 Logistic回归对数线性模型是将列联表中每格的概率（或理论频数）取对数后分解参数获得的，Logistic回归模型是将概率比取对数后，再时行参数化而获得的。研究概率比这样的量在不少问题中是常常遇到的，当列联表中因变量是一个多级分类的变量时，就需要考虑两两比较的情况。Logistic回归要解决的问题，类似于普通回归所要解决的很大一类问题。比如在医药行业中，因变量y取0, 1, , g这g

14、+1个不同的值，y=0表示正常情况类型，y=1.,g表示不同用药后的反应，显然它与药的剂量x1 ，性别x2，年龄x3，体重x4，血压x5，等等自然变量有关，这里因变量是定性的，自变量有定性的也有定量的，问这些自变量对一个定性变量的关系是否独立？不独立又会具有什么形式的联系？是线性的还是非线性的等等。1 Logit变换为了给出Logistic回归模型，先介绍Logit变换。在现实问题中，人们常常要研究某一事件A发生的概率p以及p值的大小与某些因素的关系，但由于p对x的变化在p=0或p=1的的附近是很敏感的，或说是缓慢的比如像可靠系统，可靠度p已经是0.988了，即使再改善条件和系统结构，它的可靠度增长只能在小数点后面的第三位或第四位，于是自然希望寻找一个p的函数，使它在p=0或p=1附近变化幅度较大，而且函数的形式也不要太复杂，根据数学上导数的意义，提出用来反映在p附近的变化是很合适的，同时希望p=0或p=1，有较大的值，因此取即称上式为Logit变换。由于，因此p也可用表示：如果是某

展开阅读全文

简介定性资料的统计分析.doc

最新文档