生物统计学必备之—对多元的统计分析

资源描述

《生物统计学必备之—对多元的统计分析》由会员分享，可在线阅读，更多相关《生物统计学必备之—对多元的统计分析（55页珍藏版）》请在金锄头文库上搜索。

1、第三章多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中，常常需要同时观测多个指标。例如，要了解一个国家经济发展的类型也需观测很多指标，如：人均国民收入、人均工农业产值、人均消费水平等等。在医学诊断中，要判断某人是有病还是无病、也需要做多项指标的体检，如：血压、心脏脉博跳动的次数、白血球、体温等等。总之，在科研、生产和日常生活中，受多种指标共同作用和影响的现象是大量存在的，举不胜举。上述指标, 在数学上通常称为变量，由于每次观测的指标值是不能预先确定的。因此每个指标可用随机变量来表示。多元分析也是一种处理大量数据的方法，与统计分析所不同的是

2、：多元分析所处理的不是统计意义下的样本，一般并不要求用它们去推断总体的特征，因而不需要随机取样，不必了解数据的分布性质，也不涉及显著性检验。从应用的角度看，多元统计分析就是要研究多个变量之间的关系，但哪些问题才是多元统计的内容，并无严格的界限。一般认为，典型的多元统计分析主要可归结为两类问题：第一类是决定某一样品的归属问题，即称之为分类，判别分析和聚类分析就属于此内容。第二类问题是设法降低变量维数，同时将变量变为独立变量，以便更好地说明多变量之间的关系，常称之为排序。主成分分析和因子分析属于此内容。多元统计分析有很多的方法，我们只介绍几种在生物学中较常用的方法

3、。第一节数据的类型可以把研究的对象叫做实体，描述实体数量特征的各个信息项目称为属性（变量）。如在植物生态学研究中，实体可以是样方、标地、地段(林分)或群落等等。实体中观测的各个种的数据项目(如种的存在不存在、种的频度、盖度或重量等等)，以及环境因素的数据项目(如样地坡度、雨量、日照、土壤深度、各种养分元素的含量等等) 都是属性。由于属性多种多样，反映它们的数据类型就有所不同。比如，种的频度、雨量、日照时数等是数值；种的存在和不存在只有两种状态：土壤颜色可分为红、黑、黄等多种状态等等。所以需要考虑数据的类型，以及不同类型间的转化，最后将具有同一类型的数据排列成要

4、求的格式。具体来讲，属性的类型分为三种：一、名称属性（nominal attributes）有的属性只能描述为若干种不同的状态，每个实体具有其中一种状态。比如土壤的颜色(属性)可分为红、黑、黄等等：岩石可分为页岩、砂岩、玄武岩、花岗岩等等；植被可分为森林、草原、灌丛、苔原等等。这种属性的基本特点是，在作为数据处理时各个状态的地位是等同的，状态之间没有一定的顺序。由于它的各种状态可用不同名称表示，所以称这种属性为名称属性。 1二元属性名称属性的一种重要特别情况，是只具有两个状态。如物种的存在不存在，某昆虫的有翼无翼，某植物的有刺无刺，动物是雌是雄，等等。这种属性叫

5、做二元属性，因为它往往是确定某种性质的有无，所以也称为定性属性。对二元属性的两个状态常用两个数字0和1 来表示。当属性是指某种性质的有无时，一般用0表示不具有该性质，1表示具有该性质，比如用0表示种不存在，1表示存在。当属性是指两个对立的状态时，0和l各表哪个状态可以随便指定，比如可用0表雄、 1表雌，或者反之。 2无序多状态属性具有三个以上状态的名称属性，又称为无序多状态属性，以强调它的状态间无一定顺序。假设某属性有n个状态，我们可分别用数字1、2、3、n代表各个状态。比如岩石类型，可用1代表页岩，2代表砂岩，3代表玄武岩，4代表花岗岩。二、顺序属性(ordi

6、nal attributes) 它与无序多状态属性一样，也只能分成多个状态。所不同的是，现在的状态有确定的顺序，所以也称为有序多状态属性。例如某植物种的多度分为大量、常见、普遍、罕见和不出现五种状态；土壤酸碱度分为强酸性、弱酸性、中性、弱碱性、强碱性等状态；植物种子分成大、中、小三级，等等。显然各状态之间的顺序是有意义。与无序多状态属性样，对顺序属性也没有理想的数据表示方法。用1、2、3、 n依次表示各个状态，虽然数字间的大小差别反映了属性状态间的顺序关系，但是不能恰当地表示各状态间的差距。三、数量属性(quantitative attributes) 有许多属性是

7、用数值数据来表示的，比如某植物种的频度、盖度和重量，土壤的深度、含水量，各养分元素的含量等等都是这种属性，我们称之为数量属性，或定量属性。描述这种属性的数值可以直接用于通常数学上的各种运算和大多数的相似系数计算。第二节数据的处理一、数据的简缩去除极大或极小的数据二、数据的转换将原始数据通过运算转化为新值，有多种方法，最常用的有：对数转换、平方根转换、立方根转换、倒数转换、角度转换、概率转换等。三、数据的标准化用数量数据时，由于不同属性的量纲不同，可能有的属性数值很大，有的又很小。这样在计算两实体间的相似系数时，往往突出了大数值属性的作用而压低了小数值属

8、性的作用。数据标准化是为克服这种困难的一类方法，标准化方法的选择与相似系数的类型有密切的关系。数据标准化(包括中心化与正规化)引起的数值变换依赖于原始数据整体的取值，随着所用的整体值不一样而有各种不同的标准化，标准化的方法常有：用总和标准化、用最大值标准化、用极差标准化、用模标准化、数据的中心化、用离差标准化、用标准差标准化。例1. 假定有如下4个样方4个种的原始数据样样方1234 种1200010005001500 220010050150 320105050 4020001550500 用总和标准化用样方总和的标准化，是对每列数据求出总和，有 M1：(列)2000

9、十200十20十02220， M2：(列1000十100十10十20003110， M3：(列)500十50十50十15502150， M4：(列)1500十150十50十5002200 然后将每列的各个数据分别除以本列的总和，就得到了标准化后的数据。这实际上是将每样方中各个种的数值都变成它占全样方总和数值的比例，显然这样所有数据都变为0与1之间的小数值，并且每列之和必为1 对样方标准化引起的数据变化是：最后结果为：第三节相似系数相似系数是衡量两个实体，或一个实体与一个实体组之间或两个实体组之间相似程度的数量指标。这是进行分类的基础。实际上有两类指标：一类是真正的相似

10、性指标，它的数值大小直接反映两成员间的相似程度；而另一类应该叫相异性指标，其数值大小反映两成员的差异程度。但是，从数学上讲，相似和相异是互补的概念，两种指标都同样衡量相似性，区别仅在于前者数值愈大表示越相似，而后者数值愈小表示越相似。所以我们无须严格区分这两类指标，而统称为相似。相似系数的种类繁多，比较常用的相似系数按其计算的方法及适用的数据类型可以分为五类：关联系数，距离系数，内积系数，信息系数，概率系数。（见教材）第四节判别分析判别分析是根据所研究的个体的观测指标来推断该个体所属类型的一种统计方法，在自然科学和社会科学的研究中经常会碰到这种统计问题例如医

11、生要根据某人的各项化验指标的结果来判断该人属于什么病症；在考古学中需要根据人的身长、坐长、鼻骨的高度、深度等特征判别人的种族。第五节聚类分析聚类分析起源于分类学，分类学是一门古老的学科，从前人们进行分类主要是依靠经验和专业知识，很少利用数学工具。随着科学技术的发展，特别是近代计算机的发展和普及，数学这个有力的工具逐渐被引进到分类学中，形成了数值分类学。后来随着多元分析的引进，聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。聚类分析的目的是建立一定的准则，将“相似”的东西聚合成类，其基本思想是，从一批样品的多个观测指标中，确定能度量样品之间或指标

12、之间相似程度(亲疏关系)的统计量，构成一个对称的相似性矩阵。在此基础上进一步计算出各样品(或变量)之间或样品组合之间的相似程度，按相似程度的大小，把样品(或变量)逐一归并成类，将关系密切的归并聚集到一个小的分类单位，关系疏远的则聚集到一个大的分类单位，直到所有样品(或变量)都聚集完毕、形成一个亲疏关系谱系图(聚类图)为止。 1)系统聚类法（等级聚合分类）其基本作法已在上述聚类基本思想中叙述了。 2)分解法（等级分划分类）它的程序恰好和系统聚类相反，首先将所有的样品并在一类，然后用某种最优准则把它分成两类再用同样的准则将这两类各自试图分成两类，从中选一个使目标函数较

13、好者。这样由两类变成三类，如此下去，一直分类到每类只有一个样品为止(或用其它停止规则) ，将上述分裂过程画成图。由图便可求得各个类。 3)动态聚类法开始将n个样品粗糙地分成若干类，然后用某种最优准则进行调整，一次又一次地调整、直至不能调整时为止此法非常类似于计算方法的迭代法 4)有序样品的聚类 n个样品按某种原因( 时间、地层深度)排成次序。聚成的类要求必须是次序相邻的样品才能在一类 5）预报聚类分析常可与回归分析和判别分析结合使用，如当变量很多时，在进行回归分析之前，可以先对变量(指标)进行分类，再从每类中挑选一个最有代表性的变量，参与回归分析；也可在做判别分析之

14、前先进行聚类再从个选出有代表性的变量进行判别，以弥补它们在预报中的不足 6)模糊聚类将模糊数学用在聚类分析中产生的方法就是模糊聚类第六节主成分分析（主分量分析）主成分概念首先由K a r1parson在1901 年引进，不过当时只对非随机变量来讨论的。1933年Hotelling将这个概念推广到随机向量。主成分分析是将研究对象的多个相关变量(指标)化为少数几个不相关的变量的一种多元统计方法。这种将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或称主分量分析。在多变量的分析中，为了尽可能完整地搜集信息，对每个样品往往要测量许多项指标，当然这可以避免重要

15、情报的遗漏，然而从统计的角度来看，这些变量可能存在着很强的相关性，使得分析问题增加了复杂性因此自然想到用少数几个不相关的综合变量来代替原来较多的相关变量的研究。而且要求这些不相关的综合变量能够反映原变量提供的大部分信息，从数学的角度来看，这就是降维的思想。例如，某人要做一件上衣要测量很多尺寸，如身长、袖长、胸围、腰围、肩宽、肩厚等十几项指标，但某服装厂要生产一批新型服装绝不可能把尺寸的型号分得过多、而是从多种指标中综合成几个少数的综合指标，做为分类的型号，利用主成分分析将十几项指标综合成3项指标一项是反映长度的指标，一项是反映胖瘦的指标一项是反映特体的指标。例为研究山楂园昆虫群落演替，分16个时期对园中16种主要昆虫进行了调查，试进行主成分分析。从以上结果看出，引起山楂园昆虫演替的主要昆虫群落对第一主成分贡献最大的是梨网蝽，它的特征向量为-0.304，其次是草履蚧，特征向量为0.295，再次是桃蚜，特征向量为0.290，这三种昆虫是第一主成分的基本代表、它们均为刺吸法液类害虫。对第二主成分，贡献较大的有顶梢卷叶蛾、苹毛金龟子，特征向

展开阅读全文