对应分析第九章 对应分析• 对应分析(correspondence analysis)是用于寻求列 联表的行和列之间联系的一种低维图形表示法, 它可以从直觉上揭示出同一分类变量的各个类别 之间的差异,以及不同分类变量各个类别之间的 对应关系 • 对应分析是由法国人Benzecri于1970年提出的, 起初在法国和日本最为流行,然后引入美国 • 在对应分析中,列联表的每一行对应(通常是二 维)图中的一点,每一列也对应同一图中的一点 本质上,这些点都是列联表的各行各列向一个 二维欧式空间的投影,这种投影最大限度地保持 了各行(或各列)之间的关系第九章 对应分析• §9.1 行轮廓和列轮廓 • §9.2 独立性的检验和总惯性 • §9.3 行、列轮廓的坐标 • §9.4 对应分析图§9.1 行轮廓和列轮廓• 一、列联表 • 二、对应矩阵 • 三、行、列轮廓一、列联表• 其中, 是第 行、第 列类别组合的频数,; 为第 行的频数之和, ; 为第 列的频数之和,; 为所有类别 组合的频数总和。
二、对应矩阵• 这里, • 显然有 • 称 为对应矩阵将对应矩阵表中的 最后一列用 表示,即其中 是元素均为1的 维向量,最后一 行用 表示,即• 其中 是元素均为1的 维向量,向量 和 的元素有时称为行和列密度(masses)三、行、列轮廓• 第 行轮廓:其各元素之和等于1 ,即 • 第 列轮廓:其各元素之和等于1 ,即 行轮廓矩阵 • 其中 列轮廓矩阵 • 其中 可见, 可以表示成各列轮廓的加权平均类似地 ,即 可以表示成各行轮廓的加权平均。
例9.1.1• 将由个人组成的样本按心理健康状况与社会经 济状况进行交叉分类,分类结果见表9.1.3 • 将表9.1.3中的数据除以,得到对应矩阵,列于表 9.1.4中表9.1.4给出的行密度和列密度向量为行轮廓矩阵为列轮廓矩阵为两个马赛克图 对心理健康的每一种状况,A、B、C、D、E五 个小方块的宽度显示了行轮廓,0、1、2、3四 种心理健康状况的小方块高度显示了行密度 对社会经济的每一种状况,0、1、2、3四个小 方块的高度显示了列轮廓,A、B、C、D、E五 种社会经济状况的小方块宽度显示了列密度§9.2 独立性的检验和总惯量• 一、行、列独立的检验 • 二、总惯量一、行、列独立的检验• 在列联表中,检验行变量和列变量相互独立假 设的统计量为当独立性的原假设为真,且样本容量 充分大, 期望频数 时 , 近似服从自由度为 的卡方分布 拒绝规则为若 ,则拒绝独立性的原假 设其中 是 的上分位点。
二、总惯量总惯量还可以行轮廓和列轮廓的形式表达如下:其中称为第 行轮廓 到行轮廓中心 的卡方( )距离 ,它可看作是一个加权的平方欧氏距离同样,是第 列轮廓 到列轮廓中心 的卡方距离故总 惯量可看成是行轮廓到其中心的卡方距离的加权 平均,也可看成是列轮廓到其中心的卡方距离的 加权平均它既度量了行轮廓之间的总变差,也 度量了列轮廓之间的总变差总惯量为零的等价情形 • 总惯量为零与以下三种情形的任一种等价:(1) ,或表示 为 ;(2)所有的行轮廓相等,即 ;(3)所有的列轮廓相等,即 • 所以,如果行变量与列变量相互独立,则我们 可以期望(由样本数据构成的)列联表中所有 的行有相近的轮廓,所有的列亦有相近的轮廓 §9.3 行、列轮廓的坐标§9.4 对应分析图• 一、行、列轮廓的逼近 • 二、行(列)点之间的距离 • 三、行点和列点相近的意涵一、行、列轮廓的逼近二、行(列)点之间的距离• 如果两个行(列)点接近,则表明相应的两个 行(列)轮廓是类似的;反之,如果两个行( 列)点远离,则表明相应的两个行(列)轮廓 是非常不同的。
需要指出的是,行点与列点之 间并没有直接的距离关系三、行点和列点相近的意涵• 如果一个行点和一个列点相近,则表明行、列 两个变量的相应类别组合发生的频数会高于这 两个变量相互独立情形下的期望值例9.4.1 • 在例9.1.1中,经计算,奇异值、主惯性以及贡献 率等的计算结果列于表9.4.1中总惯量的94.75% 可由第一维来解释,前二维解释了高达99.76%的 总惯量,几乎解释了列联表数据的所有变差例9.4.1行点和列点的前二维坐标矩阵为将各行点和列点置于同一坐标系中,构成对应分 析图,如图9.4.1所示 一. 对应分析在因子分析中,或者只对变量(列中的变量)进 行分析,或者只对样品(观测值或行中的变量)进 行分析;而且利用载荷图来描述各个变量之间的接 近程度典型相关分析也只研究列中两组变量之间的关 系然而,在很多情况下,所关心的不仅仅是行或 列本身变量之间的关系,而是行变量和列变量各水 平间的相互关系;这就是因子分析等方法所没有说 明的了• 该数据关于汉字读写能力的变量有三个水平: • “纯汉字”意味着可以完全自由使用纯汉字读 写, • “半汉字”意味着读写中只有部分汉字(比如 日文), • 而“纯英文”意味着只能够读写英文而不会汉 字。
而数学成绩有4个水平(A、B、C、D) 对应分析引入例:中文水平与数学学习优劣的关系可以对这个列联表进行前面所说的c2检验来考察行变 量和列变量是否独立结果在下面表中(通过Analyze -Descriptive Statistics-Crosstabs) 所有的检验都很显著,看来两个变量的确不独立一. 对应分析• 但是如何用象因子分析的载荷图那样的直 观方法来展示这两个变量各个水平之间的 关系呢?这就是对应分析( correspondence analysis)方法 • 对应分析方法被普遍认为是探索性数据分 析的内容,因此,读者只要能够会用数据 画出描述性的点图,并能够理解图中包含 的信息即可 一. 对应分析•处理列联表的问题仅仅是对应 分析的一个特例一般地, •对应分析常规地处理连续变量 的数据矩阵;这些数据具有如 在主成分分析、因子分析、聚 类分析等时所处理的数据形式 一. 对应分析• 在对应分析中,根据各行变量的因子载荷和各列变量 的因子载荷之间的关系,行因子载荷和列因子载荷之 间可以两两配对 • 如果对每组变量选择前两列因子载荷,则两组变量就 可画出两因子载荷的散点图 • 由于这两个图所表示的载荷可以配对,于是就可以把 这两个因子载荷的两个散点图画到同一张图中,并以 此来直观地显示各行变量和各列变量之间的关系。
• 由于列联表数据形式和一般的连续变量的数据 形式类似,所以也可以用对应分析的数学方法 来研究行变量各个水平和列变量各个水平之间 的关系; • 虽然对不同数据类型所产生结果的解释有所不 同,数学的原理是一样的一. 对应分析对应分析结果的展示 运用纯汉字的点和最好的数学成绩A最接近,而不会汉字 只会英文的点与最差的数学成绩F(或者D,虽然在纵坐 标稍有差距)最接近,而用部分汉字的和数学成绩B接近 结果解释• 根据SAS计算 • 其中第一个就是下面的各维的汇总表这里所涉及的是行 与列因子载荷之间的关系;选择行和列变量的显著的因子 载荷的标准是一样的选择多少就涉及几维为了画出散 点图,就至少要选择两维了 The CORRESP ProcedureInertia and Chi-Square Decomposition奇异值 惯量(特征值) 惯量比例Singular Principal Chi- CumulativeValue Inertia Square Percent Percent 17 34 50 70 90----+----+----+----+----+---0.552 0.305 93.9 93.9 ****************************0.141 0.020 6.16 99.63 ** Total 0.693 0.325 75.12 100.00Degrees of Freedom =6表中的术语 • Inertia-惯量, 为每一维到其重心的加权距离的平 方。
它度量行列关系的强度 • Singular Value-奇异值(是惯量的平方根), 反映了是行与列各水平在二维图中分量的相关程 度,是对行与列进行因子分析产生的新的综合变 量的典型相关系数 • Chi Square-就是关于列联表行列独立性c2检验 的c2统计量的值,和前面表中的相同其后面的 Sig为在行列独立的零假设下的p-值,注释表明自 由度为(4-1)×(3-1)=6,Sig.值很小说明列联表的 行与列之间有较强的相关性 • Proportion of Inertia-惯量比例,是各维度(公 因子)分别解释总惯量的比例及累计百分比,类 似于因子分析中公因子解释能力的说明 解释 • 从该表可以看出,由于第一维的惯量比例 占了总比例的93.9%,因此,其他维的重 要性可以忽略(虽然画图时需要两维,但 主要看第一维-横坐标) • 在输出中还有另外两个表分别给出了画图 中两套散点图所需要的两套坐标一. 对应分析行变量(中文)的纵,横坐标每个变量对公因子的贡献率,各列之和等于1 行点余弦 平方,表 示公因子 对行变量 的贡献率 ,每行之 和等于1 Mass –原始数据中各列数据之和占总合计的百分比列变量(数学成绩中文)的纵,横坐标• 该表给出了图中三个汉字使用点的坐标: 纯汉字(-.897,-.240),半汉字 (.102,.491),纯英文(.970,-.338),以 及四个数学成绩点的坐标:数学A(-.693,- .345),数学B(-.340,.438),数学 C(.928,.203),数学C(1.140,-.479)。
• 两表中的概念不必记;其中Mass为行与 列的边缘概率;Score in Dimension是 各维度的分值 (二维图中的坐标); Inertia:就是前面所提到的惯量,为每一 行/列到其重心的加权距离的平方 一. 对应分析解释对应分析结果的展示 运用纯汉字的点和最好的数学成绩A最接近,。