文档详情

【最新word论文】BoxCox变换及其在STATA软件中的实现【医学专业论文】

飞***
实名认证
店铺
DOC
32KB
约4页
文档ID:8836507
【最新word论文】BoxCox变换及其在STATA软件中的实现【医学专业论文】_第1页
1/4

1BoxCox 变换及其在 STATA 软件中的实现【摘要】目的:向医疗卫生领域的一线工作者介绍 BoxCox 变换方法:利用 STATA 软件包拟合 BoxCox 回归模型结果:通过使用示例数据库进行拟合,成功的进行了 BoxCox 变换,并进行了回归分析结论:使用 BoxCox 变换是解决应变量不符合正态分布的重要方法,而 STATA 软件提供了进行BoxCox 变换的可行之道关键词】BoxCox 变换 STATA 软件 boxcox 命令1BoxCox 变换简介在统计工作中,特别是在一般线性模型的运用中,经常出现连续型应变量不符合正态分布的情况(性模型中对自变量没有类似的要求[1]),此时如直接使用线性模型,显然是不合适的,而通常的解决办法有两种:一是对应变量 y进行变量变换;二是使用广义线性模型本研究讨论前者对应变量 y 进行变量变换有许多方法,如倒数变换、指数变换等,而这些变换都可以通过一个公式而统一起来,这就是 Box 和 Cox 在 1964 年提出的BoxCox 变换,其形式为[2]:y(λ)=yλ-1λ,ifλ≠0logy,ifλ=0 显然,该变换在 λ=0 时为对数变换,λ=-1 时为倒数变换,而在 λ=0.5 时为平方根变换[3] 。

BoxCox 变换还有一个扩展公式:y(λ)=(y+a)λ-1λ,ifλ≠0log(y+a),ifλ=0此时的 a 是为了使 y+a>0无论是基本式还是扩展式,真正需要估计的只有一个参数 λ(因为 a 的取值非常明显),而对 λ 的估计,在 Box 和 Cox 论文中采用了两种方法,其一是最大似然估计,其二是 Bayes 方法但对于一般的用户而言,两种方法的理论和推证过程都可以不管,最重要的是如何在实践中运用,这也是本研究所要重点关注的如何在实践中完成 BoxCox 变换呢?最直接的当然是使用公式,但最简单的还是使用相关的统计软件现在我们就用较流行的统计软件 STATA 来实现BoxCox 变换过程,由于 STATA7.0 以后的版本和以前的版本在变换命令的使用上有很大的不同,故本研究分别进行表述2 示例一:STATA6.0 软件的实现过程为了说明问题,我们使用一个叫 auto 的数据库进行示例,这个数据库来自1974 年 4 月美国的消费报告和美国 EPA 的燃料消耗统计[4] ,我们的任务是研究汽车时速(mpg)与车重(weight)和价格(price)之间的关系作为应变量的 mpg经检验不符合正态分布。

2在 STATA6.0 软件中有直接的命令可供调用,其命令的基本格式为[5]:Boxcoxyx1x2x3,g(y1)这里,y 为应变量,xi 表示的是自变量,y1 为进行转换后生成的新变量,其命令名称 boxcox,此处 STATA 只认为最靠近命令的变量为应变量,而其它的变量则被认为是自变量如果要继续进行 BoxCox 回归,则在运行 boxcox 命令后紧接着运行 regress 命令从而得到回归的结果下面我们来看实例2.1 命令Boxcoxmpgweightprice,g(y1)Regress2.2 结果2.2.1BoxCox 变换结果经过迭代,程序计算出 λ 值(即 L)为-0.7618,并对 L 进行了检验2.2.2BoxCox 回归结果2.2.3 不进行变量变换而直接进行回归分析结果2.2.4 变量在 BoxCox 变换前后正态性的检验结果从表 4 可见原来不符合正态分布的 mpg 现在符合了(见 y1 的检验),且对比结果表 2 和表 3 就会发现,两者的结果是有差异的,进行了应变量变换后的BoxCox 回归的决定系数要高于普通的回归过程,且变量 price 也变得有意义了。

表 1BoxCox 变换结果(略)表 2BoxCox 回归结果(略)表 3 直接进行回归分析结果(略)表 4 变量在 BoxCox 变换前后正态性的检验结果(略)3 示例二:STATA7.0 软件的实现过程实例同示例一在 STAT7.0 软件中也有直接的命令可供调用,其命令的基本格式为[6]:Boxcoxyx1x2x3,lrtest注意,此处不能再如 6.0 版那样生成新变量,另外,此时命令运行的结果已经包含了 BoxCox 回归,所以在 6.0 中的 regress 命令也被取消了而 lrtest的意义是对回归系数进行检验下面我们来看实例3.1 命令Boxcoxmpgweightprice,lrtest33.2 结果3.2.1BoxCox 变换结果表 5BoxCox 变换结果经过迭代,程序计算出 λ 值(注意:这里是 theta 值)为-0.7569,并给出了其可信区间3.2.2BoxCox 回归结果这里的检验结果与 6.0 版的结果基本相同3.2.3 对 λ 值检验这部分的内容与表 1 中的内容类似,只不过这里是对 theta 进行的检验表6BoxCox 回归结果(略)表 7 对 λ 值检验结果(略)综合两个版本,虽然在命令格式和最后的结果输出上都有很大的差异,但是其进行 BoxCox 变换并进行回归的本质是一样的。

4 小结使用 BoxCox 变换一般都可以保证将连续型数据进行成功的正态变换,只是在二分变量或较少水平的等级变量的情况下,才不能成功进行[2] ,如果出现这样的情况,应该考虑直接使用广义线性模型,如 Logistics 回归来解决而STATA 软件是解决 BoxCox 变换的一个可行之道,但在应用中要注意版本的不同参考文献】1 王济川,郭志刚.Logistic 回归模型方法与应用.北京:高等教育出版社,2001,3.2PengfeiLi.BoxCoxTransformation:AnOverview.DepartmentofStatistics.UniversityofConnecticut,2005.3 陈峰.医用多元统计分析方法.北京:中国统计出版社,2000,131.4 王建民,编译.Stata2.05 版软件使用手册.中国预防医学科学院(内部资料),1993,21.45stataco.stata7.0uesrmanual,2000.6stataco.stata7.0uesrmanual,1999.。

下载提示
相似文档
正为您匹配相似的精品文档