部分协变量缺失下的线性回归分析及其应用.

资源描述

《部分协变量缺失下的线性回归分析及其应用.》由会员分享，可在线阅读，更多相关《部分协变量缺失下的线性回归分析及其应用.（34页珍藏版）》请在金锄头文库上搜索。

1、毕业论文题目部分协变量缺失下的线性回归分析及其应用学院基础科学学院专业班级110802学号20112994姓名吴佳桐指导教师袁晓惠二一五年六月四日中文摘要在目前的各个领域的研究调查中，由于受到各种已知或者未知因素的影响，经常会导致缺失数据出现的情况。而由于缺失数据的存在，不但会增加研究者分析数据的难度，而且会造成分析结果的偏差，从而降低研究者统计计算工作的效率。因此考虑如何消除或者尽可能的减少这些缺失数据的影响就变的越来越重要了。文章首先介绍了回归模型及其基本概念并介绍了使用方法；然后介绍了国内外对缺失数据的研究现状，并简单介绍了数据缺失机制的三种形式，指出解决数据缺失的一般性方

2、法。并在接下来的文章中介绍了在协变量缺失下的线性回归模型，最后是利用R程序对数据进行实证分析。为了有效地解决缺失数据带来的问题，本文使用了其中三种方法对缺失数据集做了相应的处理。首先使用的是剔除法即将含有缺失数据列直接删除；第二种方法是对数据集做逆概率加权；第三种方法是使用回归补值法，对缺失数据集进行填补，从而形成一个完整的数据集，然后对填补后的数据集进行相应的统计分析。本文研究的重点是部分析变量缺失下的回归分析，对不同的样本量做数值模拟，研究在两种缺失程度的数据（15%、30%的随机缺失）通过对比，针对本文的数据研究发现逆概率加权法更好。关键词线性回归缺失值缺失机制填补方法IIITi

3、tle Linear regression analysis with missing covariates and its applicationAbstractIn the present investigation of various fields, because of the influence of various known or unknown factors, it often leads to the missing data. Because of the existence of missing data, it not only increases the diff

4、iculty of the researchers to analyze the data, but also can lead to the deviation of the results of the analysis, which can reduce the efficiency of the study. So it becomes more and more important to consider how to eliminate or minimize the impact of these missing data. At first, the paper introdu

5、ces the regression model and the basic concept and describes the methodology used; then introduces the research status at home and abroad for the missing data, and introduces three forms of the missing data mechanism, it is pointed out that to solve the general methods of missing data. In the next a

6、rticle, the linear regression model is introduced, and the data is analyzed by R program. In order to solve the problem caused by the missing data, three methods are used to deal with the missing data sets. The first use of elimination will contain missing data directly to a column removed; the seco

7、nd method is to data sets to do the inverse probability weighted; the third method is using regression imputation method, to fill the missing data set, so as to form a complete data set, and then the corresponding statistical analysis to fill the data set.The focus of this paper is analysis of missi

8、ng variables regression analysis, to the different amount of sample numerical simulation study in two levels of missing data (15%, 30% of the missing at random) by contrast, according to the data of the study found inverse probability weighting method is better.Key words Linear regression Missing va

9、lue Missing mechanism Imputation method目录1 绪论11.1 回归分析的发展历程11.2 多元线性回归模型的一般形式11.3 多元线性回归模型的基本假定21.4 回归参数的估计的主要方法31.5 回归分析研究的主要内容42 缺失数据的介绍52.1 研究缺失数据的背景和意义52.2 国内外研究情况52.2.1 国外研究情况52.2.2 国内研究背景概况62.3 缺失的原因62.4 缺失机制72.4.1 完全随机缺失72.4.2 随机缺失82.4.3 完全非随机缺失82.5 缺失数据的处理方法92.5.1剔除数据法92.5.2回归填补法92.5.3 IPW逆

10、概率加权法93 协变量缺失下的回归分析113.1 协变量缺失下的回归分析的介绍113.2 协变量缺失下的估计方程113.2.1 估计方程的介绍113.2.2 完整案例分析和相关偏差123.2.3 加权估计方程133.3 方法介绍143.3.1 建立模型143.3.2 全数据下的参数模型143.3.3 直接剔除法153.3.4 逆概率加权法153.3.5 回归填补法153.4 模拟比较164 实例分析184.1 数据来源184.2 数据描述184.3 方法应用及分析195 结论22参考文献23致谢24附录251 绪论1.1 回归分析的发展历程回归分析是处理变量与之间的关系的一种统计方法和技术

11、。回归分析的基本思想和方法以及“回归”名称的由来归功于英国统计学家F.高尔顿。高尔顿和他的学生K.皮尔逊在研究父母身高与其子女身高的遗传问题时，观察了1078对夫妇，以每对夫妇的平均身高作为,而取他们的一个成年儿子的身高作为，将结果在平面直角坐标系上绘成散点图，发现趋势近乎一条直线。计算出的回归直线方程为这种趋势及回归方程总的表明父母平均身高每增加一个单位，其儿子的成年儿子的身高也平均增加0.516个单位。这个结果表明，虽然高个子父辈确有生高个子儿子的趋势，但父辈身高增加一个单位，儿子身高仅增加半个单位左右。这个例子生动地说明了生物学中“种”的概念的稳定性。正是为了描述这种有趣的现象，高尔顿引

12、进了“回归”这个名词来描述父辈的身高与子辈身高的关系。尽管“回归”这个名词的由来具有其特定的含义，人们在研究大量的问题中，其变量与之间的关系并不总是具有这种“回归”的含义，但借用这个名词把研究变量与间统计关系的量化方法称为“回归”分析也算是对高尔顿这个伟大的统计学家的纪念1。1.2 多元线性回归模型的一般形式设随机变量与一般变量,的线性回归模型为 (1.1)其中，,.,是个未知参数，称为回归常数,.,称为回归系数。称为被解释变量（因变量），,是个可以精确测量并控制的一般变量，称为解释变量（自变量）。是随机误差，对随机误差项我们常假定 (1.2)称 (1.3)为理论回归方程。对一个实际问题，如果

13、我们获得组观测数据（,;）（=1，2，），则线性回归模型（1.1）式可表示为 (1.4)写成矩阵形式为 (1.5)其中 (1.6) 是一个阶矩阵，称为回归设计矩阵或者资料矩阵。在实验设计中的元素是预先设定并可以控制的，人的主观因素可作用其中，因而称为设计矩阵。1.3 多元线性回归模型的基本假定为了方便地进行模型的参数估计，对回归方程（1.4）式有如下一些基本假定：(1)解释变量,是确定性变量，不是随机变量，且要求。这里的，表明设计矩阵中的自变量列之间不相关，样本量的个数应大于解释变量的个数，是一满秩矩阵。(2)随机误差项具有零均值和等方差，即 (1.7)这个假定常称为高斯马尔柯夫条件。，即假设

14、观测值没有系统误差，随机误差项的平均值为零。随机误差项的协方差为零，表明随机误差项在不同样本之间是不相关的（在正态假定下即为独立的），不存在序列相关，并且有相同的精度。(3)正态分布的假定条件为 (1.8)对于多元线性回归的矩阵模型（1.5）式，这个条件便可表示为 (1.9)由上述假定和多元正态分布的性质可知，随机向量服从维正态分布，回归模型（1.5）式的期望向量 (1.10) (1.11)因此 (1.12)1.4 回归参数的估计的主要方法 1、回归参数的普通最小二乘估计多元线性回归方程未知参数的估计与一元线性回归方程的参数估计原理一样，仍然可以采用最小二乘估计。对于（1.5）式表示的回归模型，所谓最小二乘法，就是寻找参数的估计值，使离差平方和达到极小，即寻找满足 (1.13)依照（1.13）式求出就成为回归参数的最小二乘估计。得出用矩阵形式表示的正规方程组移项得，当存在时，即得到回归参数的最小二乘估计为

展开阅读全文