多元分析ppt课件－金锄头文库

资源描述

《多元分析ppt课件》由会员分享，可在线阅读，更多相关《多元分析ppt课件（174页珍藏版）》请在金锄头文库上搜索。

1、多元分析ppt课件Stillwatersrundeep.流静水深流静水深,人静心深人静心深Wherethereislife,thereishope。有生命必有希望。有生命必有希望多因素分析多因素分析(multivariate analysis)是多变量资料的统计分析，与单因素分析相比，它可以在错综复杂的多因素中寻求事物内部的规律性及相互之间的联系。第一节多元线性回归与相关相关分析相关分析相关分析是研究多个变量之间线性关系的一种方法，各个变量之间地位相同、相互依赖。例15.1 现有20个家庭调查资料的部分变量，见表15.1，试对父母身高与儿子身高进行相关分析。表15.1 父母身高与儿子

2、身高（一）协方差阵与相关系数阵1. 样本协方差样本协方差两个随机变量X与Y的协方差(covariance)度量的是X与Y的共同变异，它反映了二者之间的线性依存关系，对于n对观察值的样本，， ,来说，其协方差的公式为由上述公式可以看出，两随机变量间的协方差协方差可正可负。若一个随机变量的取值与另一随机变量的取值增加的方向一一致致(相反相反)，则协方差为正正(负负)。 2. 样样本本方方差差与与协协方方差差阵阵随机变量两两之间的协方差通常以矩矩阵阵的形式表示，例15.1中，、、及之间的方差与协方差阵为矩阵中，对角元素或为相应变量的方差方差，同时，。从矩阵中各元素的取值可看

3、出，各变量间存在着正的线性协同关系。如果要考察各变量间协同程度的大小，必须消除量纲的影响，因此需要进一步分析各随机变量间的相关系数相关系数。3. 样样本本相相关关系系数数矩矩阵阵通常各变量间的样本相关系数以矩阵的形式表示，例15.1中各变量间的相关系数矩阵为4. 统计推断统计推断通过例15.1的相关系数矩阵可以看出：各变量间的相关系数都比较大。那么，能否断定各变量之间必有相关性呢？答案是“未必”。由于样本相关系数只是对总体相关系数的估计，因此必须对总体相关系数是否为零进行假设检验。（二）偏相关两个随机变量之间的相关系相关系数数，有时虽然经过假设检验具有统计学意义，但也不能轻易地断定它

4、们具有相关关系。要想得出较确切的结论，还需要排除其他因素的干扰，而偏偏相关系数相关系数(partial correlation coefficient)就具有这样的功能。三重数据的偏相关系数的计算方法：设X、Y、Z为随机变量，记为X与Y去掉Z的线性效应后二者之间的偏相关系数偏相关系数例15.2 20名糖尿病人的血糖(Y，mmol/L)、胰岛素(X1，mU/L)及生长素(X2，g/L)的测定值列于表15.2中，试分析血糖与胰岛素及生长素之间的线性关系。表15.2 糖尿病人的血糖(Y，mmol/L)、胰岛素(X1，mU/L)及生长素(X2，g/L)的含量血糖与胰岛素及生长素之间的简单相

5、关系数分别为，虽经检验两个相关系数均有统计学意义，但如果扣除掉另外一个自变量的影响，则X1及X2与Y的偏相关系数分别为，经检验，胰岛素与血糖之间存在的负相关具有统计学意义，而生长素与血糖之间的相关性无统计学意义。此例说明在解释变量间的相关关系上，偏相关系数比简单相关系数更可靠些。确定型回归与概率型回归线性回归与非线性回归多重线性回归回归分析回归分析是定量研究应变量对自变量的依赖程度、分析变量之间的关联性并进行预测、预报的基本方法。它是多元统计方法中的一个重要分支，随着计算机统计软件的普及，在医疗卫生领域的应用日益广泛。多重线性回归研究的是一个应变量Y和S个自变量，，

6、，之间的线性依存关系。构造多重线性回归模型需要有四个基本假定：线性、独立、正态、等方差线性、独立、正态、等方差。建立回归方程后，还需考虑：第一第一，这一方程是否符合资料特点？第二第二，各个自变量对应变量的影响是否具有统计学意义？第三第三，每一观察点是否都能用这一方程得到很好的预报。仍利用例15.1中的数据，以儿子身高为因变量，其它变量为自变量进行多重回归分析，所得回归模型为模型中，前边的系数0.303表示：在父亲那一代人中，如果父亲比同一代人的平均身高多出一厘米，则他的儿子将比儿子那一代人的平均身高多出0.303厘米；前边的系数解释仿此；前边的系数表明：参加体育活动的次数和身

7、高之间存在正相关；常数项一般来说没有与其相对应的实际意义上的解释。在比较各自变量对应变量相对贡献的大小时，由于各自变量的单位不同，不能直接用偏回归系数的大小作比较，须用所谓的标准化偏回归系数标准化偏回归系数(standardized partial regression coefficient)来作比较。对例15.1中的各变量标准化后所得的回归方程为上式中，对儿子身高的贡献从大到小依次为：母亲身高，父亲身高，参加体育活动的次数。回归方程的配合适度检验建立回归方程后，必须分析这一回归方程是否符合资料的特点，以及能否恰当地反映出应变量与这p个自变量的数量依存关系。此处介绍方差分析方

8、法与确定系数分析方法。方差分析法确定系数分析法 F= 确定系数 R2 复相关系数 R 0R1 自变量的检验在多元线性回归分析中，可能有的自变量对应变量的影响很强，而有的影响很弱，甚至完全没有作用。这样就有必要对自变量进行选择，使回归方程中只包含对应变量有统计学意义的自变量，所谓的“最最优优”方程。 t检验法偏回归平方和法筛选自变量的方法向后法 backward向前法 forward逐步法 stepwise(1)向向后后剔剔除除法法(backward selection)：先建立一个包含全部自变量的回归方程，然后每次剔除一个偏回归平方和最小且无统计学意义的自变量，直到不能剔除时为

9、止，此法的计算量大。(2)向前引入法向前引入法(forward selection)：回归方程由一个自变量开始，每次引入一个偏回归平方和最大，且具有统计学意义的自变量，由少到多，直到无具有统计学意义的自变量可以引入为止。用此法建立的方程有时不够精炼。(3)逐步筛选法逐步筛选法(stepwise selection)：取上述两种方法的优点，在向前引入每一个新自变量之后，都应重新对前面已选入的自变量进行检查，以评价其有无继续保留在方程中的价值。为此，引入和剔除交替进行，直到无具有统计学意义的新变量可以引入,同时，方程中也无失去其统计学意义的自变量可以剔除为止。在自变量的筛选中，选择自变量的

10、标准很多，如可用校正确定系数(adjusted determinant) 作为判断标准，选择校正确定系数大者为“最优”方程。其计算公式为： (11.12)式中n为样本含量，p为方程中包含的自变量个数。三、协方差分析协协方方差差分分析析(covariance analysis)是利用线性回归方法消除混杂因素的影响后所进行的方差分析。例如，考虑药物对患者某个生化指标的影响时，欲比较实验组和对照组中该指标的变化均值是否有差异，就应消除一些难以控制的混杂因素的影响，如患者的病程长短、年龄大小等。假设有三组变量X，Y，Z，其中Y是因变量，Z是分类变量(Z=1，2，k )，欲比较k 类中Y 的均值是

11、否有差异，如果Y和X存在线性关系，则可通过协方差分析协方差分析消除X的影响。因此，在作协方差分析前首先要检验这种线性关系。其基本步骤是：(1)检验各类中Y和X是否存在线性关系；(2)(2) 检验各类中回归系数是否相同；(3)(3) 检验各类回归模型中截距是否相同；(4)(4) 检验以组内均值为新变量的线性回归模型 (5) 是否成立，并比较回归系数是否和前面第 (6) 二步中得到的相同；(7)(5) 检验总回归系数是否为0。理论上讲，以 (8) 上步骤中只要有一项被拒绝，就不宜作协(9) 方差分析。例15.3某医生欲了解成年人体重正常者与超重者的血清胆固醇是否不同。而胆固醇含量与年龄有关，资

12、料见表15.3。表15.3体重正常者与超重者的血清胆固醇(mmol/L)及年龄(岁)1本例研究目的是要了解正常人和超重者的胆固醇含量是否相同，即比较两组均数5.0923和6.7846之差1.6923有无统计学意义。如按两样本均数比较的 t检验， t=-3.14， v=24， 0.01P0.005，按=0.05水准拒绝H0，接受H1，认为两组胆固醇差别有统计学意义。由专业知识得知年龄与胆固醇含量有关，通常年龄较大者胆固醇含量较高。本例中，两组的、分别为46.0000、56.4615，大于，即超重组的平均年龄大于正常组。若控制了年龄因素的干扰，则两组胆固醇含量的均数之差应小于1.

13、6923，所以应把年龄作为一个协变量进行协方差分析。2若胆固醇含量与年龄的线性关系在正常组和超重组均成立且总体回归系数相等，即，且，则两条回归线平行。此时就可以估计两组胆固醇的修正均值，此两条回归线具有公共斜率。 (15.9)本例组内，组内，3为扣除年龄对胆固醇比较的影响，令，求得修正的平均胆固醇值。两条回归方程之差为 (15.10)需注意的是：协方差分析还要求比较组间的协变量X的观察值相差不宜太大，否则修正均数的差值可能落位于回归直线的延长线上。由于不知道回归线外推后是否仍然满足平行性和线性关系的条件，因此，由协方差分析所得的结论可能不正确

14、。 logistic回归 logistic回归回归属于概率型回归，可用来分析某类事件发生的概率与自变量之间的关系。适用于应变量为分类值的资料，特别适用于应变量为二项分类的情形。模型中的自变量可以是定性离散值，也可以是计量观测值。在医学研究中经常需探讨疾病的发生与否和暴露因素之间的关系，此类问题可用logistic回归来进行分析。 Y分类变量（0，1）X连续或分类变量筛选自变量和多元线性回归分析一样，在logistic回归分析中也须对自变量进行筛选，只保留对回归方程具有统计学意义的自变量。筛选自变量的方法也和多元线性回归中采用的方法一样，有向后剔除法、向前引入法及逐步筛选法三种。在l

15、ogistic回归中，筛选自变量的方法有似然比检验(likelihood ratio test)、计分检验(score test)、Wald检验(Wald test)三种。其中似然比检验较为常用。似然比检验计分检验Wald检验表15.4 视力状况及相关因素调查表采用强制自变量进入回归模型的方法，筛选出以下6个专业上认为有意义的因素，结果见表15.5。由于上述模型中绝大部分变量无统计学意义，为了较准确地找出危险因素，可采取逐步回归法进一步对变量进行筛选。下面分别列出了两种逐步回归方法得到的结果，见表15.6和表15.7。Cox回归分析回归分析第十四章介绍的生存时间资料几种非参数分析方

16、法，一般仅用于单因素分析。但在医学研究中，观察对象生存时间的长短往往与多种因素有关系，如宫颈癌患者术后的生存期、白血病患者化疗后的缓解期等，除了与治疗方案有关外，还可能与患者年龄、体质、病情轻重及营养状况等因素有关。医学上将这些因素统称为预后因素预后因素，统计学上将它们称为协变量协变量或伴随变量伴随变量。由于生存时间资料常存在截尾值，生存时间 t 往往不满足正态分布和方差齐性的要求，不适宜用第一节介绍的多元线性回归来分析生存时间与预后因素之间的关系；如果不考虑生存时间仅考虑事件结局(“发生”和“未发生”)，或将生存时间离散化为二项分类变量，显然会损失部分信息。此外，有时生存时间的分布

17、完全不明确，采用其他生存分析模型来拟合也会感到困难。英国生物统计学家 D.R. Cox于1972年提出，采用比例风险回归模型(proportional hazard regression model)来分析带有协变量的生存时间资料。由于这一模型以时间顺序统计量为基础，对生存时间的分布形式无具体要求，因而适用范围广泛。医学上主要用于探讨恶性肿瘤和其他慢性病的预后因素，也可用于临床疗效评价和病因探索。式中h0(t)为基准风险函数(baseline hazard function)，表示当所有预后因素处于0状态下的风险函数，是与生存时间有关的任意函数，函数形式无任何限定。模型参数j ( j

18、 = 1，2， p)称为回归系数。 Cox回归适用范围很广，类似于非参数方法；但其检验效率高于非参数模型，接近于参数模型。回归系数的估计与检验：由于模型未定义h0(t)，故不能用一般的方法估计回归系数。英国Cox. DR.提出用风险函数的条件概率，建立偏似然函数(partial likelihood)，并证明了在多数情况下，可借用似然法估计和检验参数。回归系数常用的检验方法有如下三种，这三种统计量均服从2分布，自由度等于被检验变量的个数。 Score检验：稳健性较差，但用于选变量的检验十分方便。Wald检验：稳健性较好，用于模型内变量的检验很方便。似然比检验(

19、maximum likelihood ratio test)：稳健性最好,计算量较大,检验模型内变量(剔出)或模型外变量(选入)同样方便。例15.5 为了探讨乳腺癌术后的主要预后因素，某研究者随访观察了39例乳腺癌切除患者，随访内容包括病人的复发时间、结局及预后因素。原始资料见表15.8。复发时间、结局及预后因素的定义及量化方法见表15.9。试对该资料进行Cox回归分析。表15.8 39例乳腺癌切除患者的复发时间资料表15.9 患者复发时间、结局及预后因素的定义及量化方法表15.10 Cox比例风险回归模型的拟合结果另外，一名低分化组织、有淋巴结转移且癌细胞浸润程度突破浆膜层的病人(X2、

20、 X3 和X4均等于1)与一名高分化组织、无淋巴结转移且癌细胞浸润程度未突破浆膜层的病人(X2、X3 和X4均等于0)相比，其相对危险度为：RR=hi (t)/h0 (t) = exp2.679017 (10)+ 1.719584 (10)+ 1.966889(10) =581其他多因素分析方法Hotelling T2 检验用于两组均向量的比较，即两组多个变量间的整体比较。应用条件：多元正态分布多元方差分析（MANOVA）用于多组均向量的比较，即多组多个变量间的整体比较。判别分析 Fisher判别（二类）Bayes判别（二类或多类）训练样本聚类分析样品聚类Q 指标聚类R

21、聚类图主成分分析主成分分析主成分分析是从一组地位相同的众多变量中抽象出几个互不相关的主成分，每一主成分代表一个侧面，少数几个主成分就可包含原变量的大部分信息。如果用相关性较强的一组自变量与因变量进行多重线性回归，则得出的模型很不稳定，因而难以对结果做出令人满意的解释。但是，如果用少数几个主成分与因变量进行多重线性回归就可以避免上述情形，而且由于主成分间互不相关，所以得出的模型也易于解释。利用主成分还可以发现原数据的极端值和检验原数据是否服从正态分布：如果某些个体的主成分值特别大或特别小，则该个体的数据中可能有极端值；如果主成分不服从正态分布，则可以认为原始变量也不服从正态分布。(

22、一) 主成分分析的基本概念一组变量所包含的信息主要体现在各变量的变异和相互关系上，而这些变异和相互关系可以用方差、协方差或相关系数来描述。主成分分析就是要找到一些变量，通过某种方式把这些变量和原变量联系起来，使这些新变量的方差能够表达原变量所包含的信息。统计上如果加上某些限制，甚至可以使新变量的方差之和等于原始变量的方差之和。按此方法，可找到p组新变量，满足以下条件(1) ，(2) 之间互不相关，(3) 。特征根（方差）贡献率 2. 主成分的意义由于主成分的方差之和等于原变量的方差之和，而主成分的方差是由大到小依次排列的，因此前几个主成分的方差之和会在总方差中占较大的比例，包含了原

23、变量的绝大部分信息。主成分的方差占总方差的百分比称为贡献率。4. 原变量标准化后的主成分分析将原变量标准化后再作主成分分析有以下两点方便之处：(1) 所有变量的总方差等于变量的个数，这有利于计算主成分占总方差的百分比。(2) 通过比较各标准化变量前边的系数可比较各变量对主成分的贡献。需要注意的是：标准化后所得到的主成分和标准化前所得到的主成分，其方差值是不同的，所以与标准化后的主成分有关的解释必须针对标准化变量。 5. 主成分的保留数目究竟保留几个主成分取决于研究者对主成分所解释信息的满意程度。一般来讲，经过变量标准化后，通常保留其特征值大于1的主成分。例15.6 某研究组对北方某

24、小学480名56年级学生的日常行为进行调查，共调查了以下15项内容：调查结果见表15.11，表中每个变量按积极意义由高到低分为5级，分别用15表示。表15.11某小学480名56年级学生的日常行为调查资料以原变量为基础进行的主成分分析，称为在方差、协方差基础上的主成分分析。以表15.11中的数据进行主成分分析，各主成分的方差及贡献率、累计贡献率见表15.12。表15.12 各主成分的方差、贡献率及累积贡献率表15.13 主成分分析结果如计算第一个主成分的表达式为：如果把一个个体的原变量的取值代入各主成分的表达式中，则可得该个体的各主成分值，以这些主成分值作为新变量，结合其他方法，如前

25、面介绍的多重线性回归、logistic回归和Cox回归，可进一步对资料进行分析。为了分析各主成分和原变量之间线性关系，需要计算各主成分和原变量之间的相关系数。计算方法较简单，只要把每一学生的各主成分值和原变量值进行简单相关分析即可。上述4个主成分与15个变量的相关系数见表15.14。表15.14 主成分与原变量间的相关系数第一主成分和原始变量的相关系数都比较大，且都为正，说明各变量的测量值大，第一主成分的值就大，因此可以认为第一主成分反映的是个体的积极态度。第一主成分值小的学生表明各方面都积极向上。第二主成分与S1呈负相关，而且和其他变量相比，相关系数绝对值较大，说明第二主成分越大，该

26、学生越勇于发言，说明第二主成分与性格特点有关；同时与第二主成分之间的相关系数大于或等于0.2 的变量还有S4、S5、S6、S9、S10、S12、S13，这些值越大表明学生性格越随便、越缺乏仔细思考能力，因而第二主成分值较大的学生性格外向，思考问题的能力差。因此可认为第二主成分代表学生的性格特点和思考能力。第三主成分与S9呈负相关，相关系数为-0.819，远远大于与其他变量的相关系数，表明若第三主成分值较大，学生的学习兴趣也较大；与第三主成分呈负相关的变量还有S1、S3、S11、S12、S13，这些值越小，第三主成分的值就越大，第三主成分值大的学生，说明他是一个积极发言、遵守课堂纪律、理想远

27、大、爱钻研、日常起居正常的学生；与第三主成分相关系数大于0.2 的变量还有S5、S7、S8、S14，这些变量与第三主成分之间呈现正相关，表明第三主成分值大的学生，较少关心他人、不爱学习、体育锻炼少、交友少。以上分析表明第三主成分代表学生德、智、体三方面的综合素质。第四主成分与S8呈负相关，相关系数较大，为-0.645，说明第四主成分较大的学生喜爱体育锻炼；同时与第四主成分呈负相关的还有S7、S9、S11、S14，与其相关系数大于0.2的有S2、S4、S5、S14，表明第四主成分值大的学生集体观念差、交友少、不爱做家庭作业、关心他人少、偏科，但有一定理想、喜欢科技、饮食习惯好。由此可认为第

28、四主成分主要表示学生身体素质。因子分析因子分析因子分析是在主成分分析的基础上，找出能够代表众多变量的公共因子(common factor)，将原变量反过来用公共因子来表达，以此来分析原变量之间的区别和联系。通过因子分析方法可以对初始主成分进行适当的处理，使各个因子的意义更加明确。以每个个体的因子得分作为新变量，结合其他统计方法，可对资料作进一步的分析。假设有S个观测变量X1、X2、XS ，将S个变量标准化令，。如果在主成分分析中保留m个意义较为明确的主成分，则可称m为共性因子数，式(15.25)中第m项后面的和记为，得到如下新的表达式式中，称为第个主因子，称为第个标准化

29、变量在第个主因子上的负荷，即第个标准化变量与第个主因子的相关系数。有时主因子的意义不甚明确，需要作因子旋转。常用的因子旋转方法有两种：一种是变异最大旋转(varimax rotation)，另一种是斜交旋转(oblique rotation)。变异最大旋转是指各变量在各主因子上的负荷最大程度地分散，各负荷通过除以所对变量的共性方差来进行校正，此种方法仍可保持各主因子间的互不相关的特性。斜交旋转放弃了主因子间相关性的限制，使各因子尽量通过各簇变量的中心，因而可使各主因子的意义更易于解释。例15.7 以下数据来源于例15.6中研究小组所调查同一小学相同个体的另一部分资料，每个变量按由

30、好到差依次分为5个等级，分别以1、2、3、4、5表示。其中，T1：教师与学生的关系；T2：对学生在学习上的评价；T3：对学生品行的评价；T4：对学生身体状况的评价。试根据表15.11中的数据对学生变量进行因子分析，并以表15.15中的教师变量T2、T3和T4分别作因变量，以各主因子得分为自变量进行多重线性回归。表15.15 教师对学生评价表首先，在上例主成分分析的基础上作因子分析，通过变异最大旋转法，得到4个主因子。4个主因子关于标准化变量的分解系数见表15.16。表15.16 由旋转后因子表示标准化变量系数为方便起见，仍用Si表示原变量的标准化变量。由表15.16中的标准化变量与各主因

31、子之间的关系可知：与第一主因子相关系数大于0.4的标准化变量有S2、S3、S4、S5、S6、S13、S15，说明这些变量值较大的学生，往往没有责任感、无爱心、不爱完成作业、不爱劳动、较任性。因此第一主因子可看作责任因子。与第二主因子相关系数大于0.4的标准化变量有S7、S9、S10、S11、S12，说明这些变量值较大的学生，有贪玩儿、难以自我控制、马虎、胸无大志、怕吃苦等缺点。因此第二主因子可认为是控制力因子。与第三主因子相关系数大于 0.4的标准化变量有S1、S8、S14、S15，说明这些变量值较大的学生，有不喜爱发言、不爱锻炼、不爱交友、偏食等倾向，因此第三主因子可看作性格因子与

32、身体素质因子；与第四主因子相关系数大于0.4的有S2、S5、S14，说明这些变量值较大的学生，有不听教师话、不关心同学、不爱交友的倾向。因此第四主因子可作为品行因子。与主成分分析相似，可以通过表15.17计算得到每个学生的主因子得分。表15.17 因子分析结果表15.17中，对应于主因子下面那一列的15个系数乘以所在行的标准化变量值，然后相加即得该主因子得分。以每个学生的4个主因子作为自变量，分别以T2、T3和T4为因变量进行逐步线性回归分析，结果见表15.18、表15.19和表15.20。表15.18 以T2为因变量的逐步回归分析结果表15.19 以T3为因变量的逐步回归分析结果表15.20 以T4为因变量的逐步回归分析结果由于T2、T3和T4是教师变量，分别对应学生的学习、品行和身体素质，因此可作为评判学生优劣的客观标准。由表15.18、表15.19和表15.20可知，第一主因子、第二主因子、第三主因子分别进入了以T3、T2和T4为因变量的3个逐步线性回归模型中，第一主因子作为责任因子恰好与T3所解释的品行相对应；第二主因子作为控制力因子恰好与T2所解释的学习方面相对应；第三主因子作为性格因子与身体素质因子恰好与T4所解释的身体状况相对应。典型相关分析

展开阅读全文

多元分析ppt课件

最新文档