生物统计学必备之—对多元的统计分析

上传人:ap****ve 文档编号:118758905 上传时间:2019-12-25 格式:PPT 页数:55 大小:596KB
返回 下载 相关 举报
生物统计学必备之—对多元的统计分析_第1页
第1页 / 共55页
生物统计学必备之—对多元的统计分析_第2页
第2页 / 共55页
生物统计学必备之—对多元的统计分析_第3页
第3页 / 共55页
生物统计学必备之—对多元的统计分析_第4页
第4页 / 共55页
生物统计学必备之—对多元的统计分析_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《生物统计学必备之—对多元的统计分析》由会员分享,可在线阅读,更多相关《生物统计学必备之—对多元的统计分析(55页珍藏版)》请在金锄头文库上搜索。

1、第三章 多元统计分析 在工业、农业、医学、气象、环境以及经济 、管理等诸多领域中,常常需要同时观测多 个指标。例如,要了解一个国家经济发展的 类型也需观测很多指标,如:人均国民收入 、人均工农业产值、人均消费水平等等。 在 医学诊断中,要判断某人是有病还是无病、 也需要做多项指标的体检,如:血压、心脏 脉博跳动的次数、白血球、体温等等。 总之,在科研、生产和日常生活中,受多 种指标共同作用和影响的现象是大量存在 的,举不胜举。上述指标, 在数学上通常称 为变量,由于每次观测的指标值是不能预 先确定的。因此每个指标可用随机变量来 表示。 多元分析也是一种处理大量数据的方法,与 统计分析所不同的是

2、:多元分析所处理的不 是统计意义下的样本,一般并不要求用它们 去推断总体的特征,因而不需要随机取样, 不必了解数据的分布性质,也不涉及显著性 检验。 从应用的角度看,多元统计分析就是要研 究多个变量之间的关系,但哪些问题才是 多元统计的内容,并无严格的界限。 一般认为,典型的多元统计分析主要可归 结为两类问题:第一类是决定某一样品的 归属问题,即称之为分类,判别分析和聚 类分析就属于此内容。第二类问题是设法 降低变量维数,同时将变量变为独立变量 ,以便更好地说明多变量之间的关系,常 称之为排序。主成分分析和因子分析属于 此内容。 多元统计分析有很多的方法,我们只介绍 几种在生物学中较常用的方法

3、。 第一节 数据的类型 可以把研究的对象叫做实体,描述实体数 量特征的各个信息项目称为属性(变量) 。如在植物生态学研究中,实体可以是样 方、标地、地段(林分)或群落等等。实体中 观测的各个种的数据项目(如种的存在不存 在、种的频度、盖度或重量等等),以及环 境因素的数据项目(如样地坡度、雨量、日 照、土壤深度、各种养分元素的含量等等) 都是属性。 由于属性多种多样,反映它们的数据类型 就有所不同。比如,种的频度、雨量、日 照时数等是数值;种的存在和不存在只有 两种状态:土壤颜色可分为红、黑、黄等 多种状态等等。所以需要考虑数据的类型 ,以及不同类型间的转化,最后将具有同 一类型的数据排列成要

4、求的格式。 具体来讲,属性的类型分为三种: 一、名称属性(nominal attributes) 有的属性只能描述为若干种不同的状态 ,每个实体具有其中一种状态。 比如土壤的颜色(属性)可分为红、黑、 黄等等:岩石可分为页岩、砂岩、玄武岩 、花岗岩等等;植被可分为森林、草原、 灌丛、苔原等等。这种属性的基本特点是 ,在作为数据处理时各个状态的地位是等 同的,状态之间没有一定的顺序。由于它 的各种状态可用不同名称表示,所以称这 种属性为名称属性。 1二元属性 名称属性的一种重要特别情况,是只具有两 个状态。如物种的存在不存在,某昆虫的 有翼无翼,某植物的有刺无刺,动物是雌 是雄,等等。这种属性叫

5、做二元属性,因 为它往往是确定某种性质的有无,所以也 称为定性属性。 对二元属性的两个状态常用两个数字0和1 来表示。当属性是指某种性质的有无时, 一般用0表示不具有该性质,1表示具有该 性质,比如用0表示种不存在,1表示存在 。当属性是指两个对立的状态时,0和l各表 哪个状态可以随便指定,比如可用0表雄、 1表雌,或者反之。 2无序多状态属性 具有三个以上状态的名称属性,又称 为无序多状态属性,以强调它的状态间无 一定顺序。 假设某属性有n个状态,我们可分别 用数字1、2、3、n代表各个状态。 比如岩石类型,可用1代表页岩,2代表砂 岩,3代表玄武岩,4代表花岗岩。 二、 顺序属性(ordi

6、nal attributes) 它与无序多状态属性一样,也只能分成 多个状态。所不同的是,现在的状态有确 定的顺序,所以也称为有序多状态属性。 例如某植物种的多度分为大量、常见、 普遍、罕见和不出现五种状态;土壤酸碱 度分为强酸性、弱酸性、中性、弱碱性、 强碱性等状态;植物种子分成大、中、小 三级,等等。显然各状态之间的顺序是有 意义。 与无序多状态属性样,对顺序属性也没 有理想的数据表示方法。用1、2、3、 n依次表示各个状态,虽然数字间的大小差 别反映了属性状态间的顺序关系,但是不 能恰当地表示各状态间的差距。 三、 数量属性(quantitative attributes) 有许多属性是

7、用数值数据来表示的,比如 某植物种的频度、盖度和重量,土壤的深 度、含水量,各养分元素的含量等等都是 这种属性,我们称之为数量属性,或定量 属性。描述这种属性的数值可以直接用于 通常数学上的各种运算和大多数的相似系 数计算。 第二节 数据的处理 一、数据的简缩 去除极大或极小的数据 二、数据的转换 将原始数据通过运算转化为新值,有多种 方法,最常用的有:对数转换、平方根转 换、立方根转换、倒数转换、角度转换、 概率转换等。 三、数据的标准化 用数量数据时,由于不同属性的量纲 不同,可能有的属性数值很大,有的又很 小。这样在计算两实体间的相似系数时, 往往突出了大数值属性的作用而压低了小 数值属

8、性的作用。数据标准化是为克服这 种困难的一类方法,标准化方法的选择与 相似系数的类型有密切的关系。 数据标准化(包括中心化与正规化)引起的数 值变换依赖于原始数据整体的取值,随着 所用的整体值不一样而有各种不同的标准 化,标准化的方法常有:用总和标准化、 用最大值标准化、用极差标准化、用模标 准化、数据的中心化、用离差标准化、用 标准差标准化。 例1. 假定有如下4个样方4个种的原始数据 样样方1234 种1200010005001500 220010050150 320105050 4020001550500 用总和标准化 用样方总和的标准化,是对每列数据求出总 和,有 M1:(列)2000

9、十200十20十02220, M2:(列1000十100十10十20003110, M3:(列)500十50十50十15502150, M4:(列)1500十150十50十5002200 然后将每列的各个数据分别除以本列的总 和,就得到了标准化后的数据。这实际上 是将每样方中各个种的数值都变成它占全 样方总和数值的比例,显然这样所有数据 都变为0与1之间的小数值,并且每列之和 必为1 对样方标准化引起的数据变化是: 最后结果为: 第三节 相似系数 相似系数是衡量两个实体,或一个实体 与一个实体组之间或两个实体组之间相似程 度的数量指标。这是进行分类的基础。 实际上有两类指标:一类是真正的相似

10、性指标,它的数值大小直接反映两成员间 的相似程度;而另一类应该叫相异性指标 ,其数值大小反映两成员的差异程度。但 是,从数学上讲,相似和相异是互补的概 念,两种指标都同样衡量相似性,区别仅 在于前者数值愈大表示越相似,而后者数 值愈小表示越相似。所以我们无须严格区 分这两类指标,而统称为相似。 相似系数的种类繁多,比较常用的相似系 数按其计算的方法及适用的数据类型可以 分为五类:关联系数,距离系数,内积系 数,信息系数,概率系数。(见教材) 第四节 判别分析 判别分析是根据所研究的个体的观测指标来 推断该个体所属类型的一种统计方法,在自 然科学和社会科学的研究中经常会碰到这种 统计问题 例如医

11、生要根据某人的各项化验指标的结 果来判断该人属于什么病症;在考古学中 需要根据人的身长、坐长、鼻骨的高度、 深度等特征判别人的种族。 第五节 聚类分析 聚类分析起源于分类学,分类学是一门古 老的学科,从前人们进行分类主要是依靠 经验和专业知识,很少利用数学工具。随 着科学技术的发展,特别是近代计算机的 发展和普及,数学这个有力的工具逐渐被 引进到分类学中,形成了数值分类学。后 来随着多元分析的引进,聚类分析又逐渐 从数值分类学中分离出来而形成一个相对 独立的分支。 聚类分析的目的是建立一定的准则, 将“相似”的东西聚合成类,其基本思想是 ,从一批样品的多个观测指标中,确定能 度量样品之间或指标

12、之间相似程度(亲疏关 系)的统计量,构成一个对称的相似性矩阵 。 在此基础上进一步计算出各样品(或变量)之 间或样品组合之间的相似程度,按相似程 度的大小,把样品(或变量)逐一归并成类, 将关系密切的归并聚集到一个小的分类单 位,关系疏远的则聚集到一个大的分类单 位,直到所有样品(或变量)都聚集完毕、形 成一个亲疏关系谱系图(聚类图)为止。 1)系统聚类法(等级聚合分类) 其基本作 法已在上述聚类基本思想中叙述了。 2)分解法(等级分划分类)它的程序恰好和 系统聚类相反,首先将所有的样品并在一 类,然后用某种最优准则把它分成两类 再用同样的准则将这两类各自试图分成两 类,从中选一个使目标函数较

13、好者。这样 由两类变成三类,如此下去,一直分类到 每类只有一个样品为止(或用其它停止规则) ,将上述分裂过程画成图。由图便可求得 各个类。 3)动态聚类法 开始将n个样品粗糙地分成 若干类,然后用某种最优准则进行调整, 一次又一次地调整、直至不能调整时为止 此法非常类似于计算方法的迭代法 4)有序样品的聚类 n个样品按某种原因( 时间、地层深度)排成次序。聚成的类要求 必须是次序相邻的样品才能在一类 5)预报 聚类分析常可与回归分析和判 别分析结合使用,如当变量很多时,在进 行回归分析之前,可以先对变量(指标)进行 分类,再从每类中挑选一个最有代表性的 变量,参与回归分析;也可在做判别分析 之

14、前先进行聚类再从个选出有代表性的 变量进行判别,以弥补它们在预报中的不 足 6)模糊聚类 将模糊数学用在聚类分析中 产生的方法就是模糊聚类 第六节 主成分分析(主分量分析) 主成分概念首先由K a r1parson在1901 年引进,不过当时只对非随机变量来讨论 的。1933年Hotelling将这个概念推广到随机 向量。主成分分析是将研究对象的多个相 关变量(指标)化为少数几个不相关的变量的 一种多元统计方法。这种将多个指标化为 少数互相无关的综合指标的统计方法叫做 主成分分析或称主分量分析。 在多变量的分析中,为了尽可能完整地搜 集信息,对每个样品往往要测量许多项指 标,当然这可以避免重要

15、情报的遗漏,然 而从统计的角度来看,这些变量可能存在 着很强的相关性,使得分析问题增加了复 杂性因此自然想到用少数几个不相关 的综合变量来代替原来较多的相关变量的 研究。而且要求这些不相关的综合变量能 够反映原变量提供的大部分信息,从数学 的角度来看,这就是降维的思想。 例如,某人要做一件上衣要测量很多尺寸 ,如身长、袖长、胸围、腰围、肩宽、肩 厚等十几项指标,但某服装厂要生产一批 新型服装绝不可能把尺寸的型号分得过多 、而是从多种指标中综合成几个少数的综 合指标,做为分类的型号,利用主成分分 析将十几项指标综合成3项指标一项是反 映长度的指标,一项是反映胖瘦的指标 一项是反映特体的指标。 例 为研究山楂园昆虫群落演替,分16个时 期对园中16种主要昆虫进行了调查,试进 行主成分分析。 从以上结果看出,引起山楂园昆虫演替的 主要昆虫群落对第一主成分贡献最大的是 梨网蝽,它的特征向量为-0.304,其次是草 履蚧,特征向量为0.295,再次是桃蚜,特 征向量为0.290,这三种昆虫是第一主成分 的基本代表、它们均为刺吸法液类害虫。 对第二主成分,贡献较大的有顶梢卷叶蛾 、苹毛金龟子,特征向

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号