《广义线性回归在研究学生成绩相关性的应用》-公开DOC·毕业论文

上传人:zhuma****mei2 文档编号:136344411 上传时间:2020-06-27 格式:DOC 页数:43 大小:2.43MB
返回 下载 相关 举报
《广义线性回归在研究学生成绩相关性的应用》-公开DOC·毕业论文_第1页
第1页 / 共43页
《广义线性回归在研究学生成绩相关性的应用》-公开DOC·毕业论文_第2页
第2页 / 共43页
《广义线性回归在研究学生成绩相关性的应用》-公开DOC·毕业论文_第3页
第3页 / 共43页
《广义线性回归在研究学生成绩相关性的应用》-公开DOC·毕业论文_第4页
第4页 / 共43页
《广义线性回归在研究学生成绩相关性的应用》-公开DOC·毕业论文_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《《广义线性回归在研究学生成绩相关性的应用》-公开DOC·毕业论文》由会员分享,可在线阅读,更多相关《《广义线性回归在研究学生成绩相关性的应用》-公开DOC·毕业论文(43页珍藏版)》请在金锄头文库上搜索。

1、精品毕业论文引言 回归分析是一种应用极为广泛的数量分析方法,它用于分析事物之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,帮助人们准确的把握变量受其他一个或多个变量影响的程度,进而为事物的控制和预测提供科学依据。作为标准的统计分析工具,多元线性回归分析在诸多行业和领域的数据分析应用中发挥着极为重要的作用。利用多元回归方法分析变量之间的关系或进行预测时的一个基本要求是:被解释变量应是连续数值型变量。然而,实际应用中这种要求未必都能得到较好的满足。例如,在对小轿车消费群体特点的分析和预测中,可以根据历史数据,建立关于小轿车的多元回归模型。可能将诸如职业,年收

2、入,年龄等因素纳入模型,并希望通过模型预测具有某特定特征的客户是否会购买小轿车。这个多元回归模型的被解释变量设为是否购买(l表示购买,0表示不购买),是个纯粹的二值型品质变量,显然不满足变量为数值型数据的要求。在数据分析中,尤其在社会科学、医学的研究中,像这样的情况是很普遍的。当出现这种情况的时候,建立的一般多元回归模型就会出现以下问题:残差不再服从零均值的正态分布;被解释变量的取值区间受限制等。基于这种情况,提出了广义线性模型。形式上,广义线性模型是常见的正态线性模型的直接推广。它可适用于连续数据和离散数据,特别是后者,如属性数据,计数数据。这在实际中,尤其是生物、医学、经济和社会数据的统计

3、分析上,具有重要的意义。广义线性模型要求响应变量通过线性形式依赖于自变量,这一特点保持了线性自变量的思想,而且广义线性模型允许许多用于线性模型的方法能用于更一般的实际问题。广义线性模型的响应变量Y都属于指数分布族,而指数分布族不仅包含了许多常见的重要分布,如正态分布,二项分布,Poisson分布等,而且它有良好的分析性质,在数据处理上有很多方便。总之,广义线性模型为今后回归模型提供了一个重要的统一的研究方法。广义线性模型的个别特例起源很早。Fisher在1919年曾用过它。最重要的Logistic21模型,在20世纪四五十年代曾由Berkson,Dyke Patterson等人使用过。1972

4、年Nelder和Weddethum在一篇论文中引进广义线性模型一词,提供了一个新的估计理论和计算框架,对传统线性回归模型作了进一步推广,建立了统一理论和计算框架,对回归模型在统计学中的应用产生了重要影响。这种新的统计模称作广义线性模型(generalized linear models,简称GLM)。近年来,广义线性模在理论上和应用上得到了快速的发展,在模型的拓展、参数估计方法以及模型的验和诊断等方面不断趋于成熟。张尧庭11(1995)在与传统线性模型对比的基础上,对广义线性模型本质特征进行了描述。陈希孺17,19院士于20022004年在数理统计与管理杂志上,分十次讲解对多元广义线性模型进行

5、了系统的介绍。另外,我国学者在广义线性模型参数估计的相合性、收敛速度、模型的诊断等方面得到了不少优秀成果。用于GLM的计算软件也相继问世,目前,除了由NAG(Numerical Algorithms Group)研发的专用程序GLIM(Generalized Linear Interaetive Modeling)外,SAS和SPASS2,3统计软件中的Genmod模块也被广泛使用,在统计软件R和X-plore中,也有相应的计算模块。得益于应用软件的推广,广义线性模型在医学、农业、交通运输、产品试验以及经济、金融等方面得到了广泛的应用。近年来,广义线性混合模型、半参数广义线性模型22、广义非线

6、性模型等扩展模型在理论研究和实际应用上得到了快速的发展。广义线性模型理论的建立,极大地推动了以统计方法为基石的精算学的发展。传统的线性回归模型,都是建立在对称分布的基础上,以常值方差为假设。但在精算实践中,所采集的数据往往显示出非常值方差的趋势;用于描述索赔额等变量分布通常具有厚重的右尾;反应变量不再局限于对解释变量的线性依赖。在许多情况下,传统线性回归模型不适宜作为精算统计模型。广义线性模型的出现,为精算学的发展提供了有力的工具。广义线性模型在精算中的应用起始于上世纪八十年代,九十年代经历了快速的发展,并被广泛地应用于精算学的各个领域,如生命表的修匀、损失分布、信度理论、风险分类、准备金和费

7、率的估计等方面。大学学习不同于高中或者初中,以往的教学方式长期有老师的监督和教导,而大学学习更注重培养学生的自主学习的能力,而在这种缺乏约束的学习氛围下,学生的学习成绩可能会出现不同程度的畸形。大学生步入大学之后,由于学习目标不明确而导致学习动力不足,放松要求,出现了考试不及格、降级、退学等学籍异动情况,对学校和个人都造成了损失。那么出现这种事故有无规律?有无征兆?本文仅从学生各门课程考试成绩的变化角度对该问题进行分析与研究,以安徽工程大学统计学专业07级81个学生前三学年的学习成绩为样本通过广义线性回归分析来研究学生学年间成绩的相关性。在这三学年中,有些学生出现了退学降级等学籍异动,对他们的

8、相应数据做了如下处理:对于退学学生后期成绩不存在的用“0”补;对于降级学生后期成绩用下一学年甚至以后几学年的相应学习成绩补缺。出于公正的角度,均用他们的第一次考试成绩为观察值进行数据处理和分析。第1章 绪论1.1广义线性回归基本思想先看下面几个例子。例1 抛物线的拟合某零件上有一条曲线,可以近似看作是一条抛物线,为了在数控机床上加工这一零件,在曲线上测得个点的坐标,要求从这个点的坐标出发,求出曲线的函数表达式。 显然,这是一个回归分析问题,由于曲线可以近似看作是一条抛物线,因此,回归方程(即曲线的函数表达式)是一个二次多项式 ,像这种回归方程是一个多项式的回归,称为多项式回归(Polynomi

9、al Regression)。虽然多项式回归方程不是线性的,但可以通过变量代换,化成线性形式。令,原来的回归方程化成了下列形式: , 这是一个线性回归方程,可以用前面介绍过的线性回归的方法求出它的解。具体作回归时,所需要的观测数据, 用, 的数值代入,求得的线性回归方程中常系数的估计,也就是原来的二次多项式回归方程中常系数的估计。例2 科布-道格拉斯(Cobb-Douglas)生产函数 在经济学中,有一个著名的科布-道格拉斯生产函数,这个函数指出,生产产出 与劳动投入 、资本投入 之间,近似有下列关系: ,其中, 都是常系数。现测得一组劳动投入、资本投入和生产产出的数据,要求从这批数据出发,估

10、计常系数 的值。这是一个回归分析问题,回归方程为 ,显然,它不是线性回归方程,但是,如果我们对方程两边同时取对数,得到 ,(原来有,误差项为,取对数后有,也有一个误差项,我们把这个误差项记为。)再令,它就化成了一个线性回归方程 。用线性回归的方法可以求出它的解。具体作回归时,所需要的观测数据 , 用, 的数值代入,计算得到的线性回归方程中常系数的估计,就是原来回归方程中 的估计,原来回归方程中 的估计,可以通过 求得。例3施肥效果分析对2种作物土豆、生菜,分别施以3种不同数量的肥料氮、磷、钾,得到一批产量的数据,求施肥量与产量之间的关系。设分别是氮、磷、钾肥的施肥量,是产量。与之间,可能有各种

11、各样的关系,但这种关系显然不会是线性的。比如说,可以考虑下列关系: ,这是一个的2次多项式。令,它就化成了一个线性回归方程 ,可以用线性回归的方法求出它的解。例4 混合异辛烯催化反应 在混合异辛烯催化反应中,反应速度与氢的分压 ,异辛烯的分压 ,异辛烷的分压 之间,近似有下列关系: ,其中, 是常系数。现对 作观测,得到观测值,要求常系数 的估计值。对回归方程两边开3次方,再取倒数,得到 ,再令 , , , , , , , , ,原方程就化成了下列形式: ,这是一个不带常数项 的线性回归方程。对于这种回归方程,可以用求线性回归方程的解法,求得它的最小二乘解。作回归计算时,所需要的观测数据,用

12、的数值代入,按线性回归方法求得常系数的估计 后,从下列各式就可以求出原方程中各系数的估计值:,。 上面举了几个把非线性回归化为线性回归的例子。一个非线性回归问题,如果能够象上面例子中所介绍的那样,通过适当的变量代换,化为线性回归,则称这种回归为广义线性回归(Generalized Linear Regression)。1.2广义线性回归分析在方差分析中分析效应因子A对反应变量Y的影响,即,分析效应因子A的不同水平对反应变量Y的作用差异。方差分析的原理是分解总体变量:回归分析中分析自变量X对因变量Y的依存关系,即,分析自变量X改变一个单位时,因变量Y的改变量大小。回归分析原理是分解总体变异:方差

13、分析和回归分析的相同点方差分析和回归分析的不同点主要在于自变量的类型不同前者是分类型的,后者是连续型的广义线性模型分析是将方差分析和回归分析的基本原理结合起来,用来分析连续型因变量与任意型自变量之间各种关系的一种统计分析方法。其意义是使得方差分析和回归分析的实用性和准确性得到进一步提高。两个典型的广义线性模型分析方法协方差分析是将方差分析原理和线性回归分析原理结合起来的一种方差分析方法。它消除了混杂变量(协变量)对因变量的影响,使得方差分析结果更加准确。广义线性回归分析是将线性回归分析原理和方差分析原理相结合起来的一种线性回归分析方法,它和线性回归分析的区别是模型的自变量可以是任意类型的变量。

14、其主要目的是扩大线性回归分析的应用范围,使得它的应用价值得到进一步提高。广义线性回归分析的假设条件:1. 因变量是连续随机变量;2. 自变量相互独立;3. 每一个数值型自变量与因变量呈线性关系;4. 每一个数值型自变量与随机误差相互独立;5. 观察个体的随机误差之间相互独立;6. 随机误差广义线性回归分析和线性回归分析相比,广义线性回归分析的优点有:1,自变量可以是任意类型的变量;2,利用SAS的GLM过程可以分析每一个分类型变量对因变量的影响的显著性。1.3广义线性回归模型广义线性模型是非线性模型的一些特例,它们具有一些共性,是其它非线性模型所不具备的。它与典型线性模型的区别是其随机误差的分

15、布不是正态分布,与非线性模型的最大区则在于非线性模型没有明确的随机误差分布假定而广义线性模型的随机误差的分布是可以确定的。例如, 即是一个广义线性模型。1.3.1广义线性模型的三项构成要素(1)随机成分:用以明确响应变量的概率分布。随机成分包含自然指数分布族里的某一个分布的若干独立观察值。自然指数分布族概率分布的每个观察值具有如下的密度函数: 。任何一个可以写成这种形式的分布都是自然指数分布族的一员。对于,参数可以是不同的,随自变量的变化而变化。称为该分布的自然参数。例如,二项分布即是(单参数)自然指数分布族的一员。因为它的概率密度函数可作如下变换:,其中, ,。(2)系统成分:用以确定用作预测变量的解释变量的线性函数。广义线性模型的系统成分通过一个线性模型将向量与一组解释变量联系起来,这里是模型矩阵,有时也称作设计矩阵,它包括解释变量的个观测值;是模型的参数向量; 被称为线性预测(向)量。(3)连接函数:用以描述系统成分与随即成分的期望值之间的函数关系。设,与通过来联结,其中是任意单调可导函数。模型通过公式将响应变量观测值的期望值与解释变量连接起来。在上面关于二项分布的例子中,连接函数是Logit,或者更具体一点说是。通常,将与自然参数一致的连接函数称为典型连接函数,当然,也可以采用与自然参

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号