文档详情

多元统计中的对应分析

mg****85
实名认证
店铺
PDF
396.35KB
约105页
文档ID:42292503
多元统计中的对应分析_第1页
1/105

对应分析对应分析对应分析对应分析 correspondence analysiscorrespondence analysis§§1 1对应分析原理对应分析原理§§1 1 对应分析原理对应分析原理§2 §2 对应分析的等价数学模型对应分析的等价数学模型对应分析的等价数学模型对应分析的等价数学模型§3 SAS中的实现及应用案例§3 SAS中的实现及应用案例1 1对应分析的思想对应分析的思想::同时对变量和样品降维同时对变量和样品降维对应分析的思想对应分析的思想::同时对变量和样品降维同时对变量和样品降维, 将变量降维后,计算每个样品在新变量, 将变量降维后,计算每个样品在新变量 (因子因子)上的得分,将样品降维后,计算每上的得分,将样品降维后,计算每 个变量在新样品个变量在新样品(因子因子)上的得分上的得分通过散通过散个变量在新样品个变量在新样品(因子因子)上的得分上的得分,,通过散通过散 点图将变量和样品建立联系点图将变量和样品建立联系.2 2案例案例1 在研究读写汉字能力与数学成绩的关系的在研究读写汉字能力与数学成绩的关系的案例案例1 在研究读写汉字能力与数学成绩的关系的在研究读写汉字能力与数学成绩的关系的 研究中,取得了研究中,取得了232个美国亚裔学生的数学成绩个美国亚裔学生的数学成绩 和汉字读写能力的数据和汉字读写能力的数据和汉字读写能力的数据和汉字读写能力的数据. 汉字读写能力的变量有三个水平:汉字读写能力的变量有三个水平: 纯汉字纯汉字(FULL):意味着可以完全自由使用纯汉字意味着可以完全自由使用纯汉字纯汉字纯汉字(FULL):意味着可以完全自由使用纯汉字意味着可以完全自由使用纯汉字 读写读写. 半汉字半汉字(HALF):意味着读写中只有部分汉字意味着读写中只有部分汉字(比如比如半汉字半汉字(HALF):意味着读写中只有部分汉字意味着读写中只有部分汉字(比如比如 日文日文). 纯英文纯英文(NULL):意味着只能够读写英文而不会汉意味着只能够读写英文而不会汉纯英文纯英文(NULL):意味着只能够读写英文而不会汉意味着只能够读写英文而不会汉 字字. 数学成绩有数学成绩有4个水平个水平(A、、B、、C、、D)数学成绩有数学成绩有4个水平个水平(A、、B、、C、、D)3 3研究目的:研究目的: 考察汉字具有的抽象图形符号的特征能否促进儿 童空间和抽象思维能力考察汉字具有的抽象图形符号的特征能否促进儿 童空间和抽象思维能力.数学成绩总和绩ABCD汉 字FULL47312181 字 使 用HALF2232211085NULL1011252066用NULL1011252066TOTAL797448312324 4独立性检验的输出结果独立性检验的输出结果表的统计量独立性检验的输出结果独立性检验的输出结果统计量统计量自由度自由度 值值概率概率chinese * math 表的统计量统计量统计量自由度自由度 值值概率概率 卡方卡方675.3122 ;;p by variable-list;; t blt li ttables request-list;; exact statistic-keywords ;;yp;; test statistic-keywords ;; i hti blweight variable;; output outputout SAS data set ;;19我们常用的选项:我们常用的选项:PROC FREQ data=ex541 order=data;; bi blli tby variable-list;; tables request-list/ measures chisq expected exact nopercent norow l li tnocol list ;; exact pchi ;;p;; weight variable;; output ;;20;;§§1 1 对应分析原理对应分析原理§§1 1 对应分析原理对应分析原理案例案例2 6支足球队的比赛结果支足球队的比赛结果案例案例2 6支足球队的比赛结果支足球队的比赛结果球队胜(3) 平(1) 负(0)得分球队胜(3) 平(1) 负(0) 得分13 0 2 9 2 32 0 3 6 14073 4 51 4 0 7 0 2 3 2 23095 62 3 0 9 2 1 2 72122另外一种记分方式的结果,哪种方式更另外种记分方式的结果,哪种方式更 好?球队胜(1) 平(0) 负(-1) 得分1 23 0 2 1 20312 32 0 3 -1 1 4 0 1 4 50 2 3 -3 2 3 0 2 62 1 2 02323球 队胜平负总得分平均得分 a1a2a3队a1 a2 a3 13 0 2 3a1+2a3 (3a1+2a3)1 5 2 32 0 3 2a1+3a3 (2a1+3a3) 140a1+4a2(a1+4a2)1 5 1 53 4 51 4 0 a1 4a2 (a1 4a2) 0 2 3 2a2+3a3 (2a2+3a3) 2302a1+3a2(2a1+3a2)5 1 5 15 62 3 0 2a1+3a2 (2a1+3a2) 2 1 2 2a1+a3+2a3 (2a1+a3+2a3)5 1 52424111211?xxxf111211 ?mxxxfxxxf212222 ?????mxxxf ?????xxxf12?nnnmnxxxfgggt12?mgggt0ijx ≥ ≥假设假设2525ij01 2m fi∑ ∑ 101 2,, ,,?iij jfxin= == =>=>=∑ ∑01 2, ,,?njijgxjm=>==>=∑ ∑ 1jj i= =∑ ∑()()??ffffffff′ ′′ ′====1 21212(,,,),(,,,)nnffffffff====()()′′′′1 21212(,,,),(,,,)??mmgg gggggg′′′′= == =nm∑∑∑∑ 1111injm ijtffgg====′ ′′ ′= =======∑∑∑∑262612( )(,,,),?nFdiag fdiag fff====1 2 1 212()(,,,)?nFdiag fdiagfff====( )()?Gdiag gdiag g gg====1 2 11212( )(,,,),()(,,,)?mGdiag gdiag g ggGdiag gdiagggg===== == =1 212()(,,,)mGdiag gdiagggg2727设设是待求的是待求的个个()′ ′设设是待求的是待求的m个个 变量的权系数,诸样品的平均得分为变量的权系数,诸样品的平均得分为12(,,,)?maaaa′ ′= =1 12( ,,,)?vv vvFXa− −′ ′====12( ,,,)nvv vvFXa111m11111jjn jvg ag aXattt′′===′′===∑ ∑总总1 111jnttt= =∑ ∑总总 均均 值值11111iin if vf vFvttt= =′′===′′===∑ ∑值值28281i= =组内离差平方和组内离差平方和21()()nm SSxava GX FX a− −′′′′====∑∑∑∑组内离差平方和组内离差平方和11()()wijji ijSSxava GX FX a===== =− −= =− −∑∑∑∑211n∑ ∑组间离差平方和组间离差平方和2111()()bii iSSf vva X FXgg at− −= =′ ′′′′′= =−=−−=−∑ ∑总离差平方和总离差平方和2111()()nmtijj ijSSx ava Ggg at′′=−=−′′=−=−∑∑∑∑292911ijt====2()nm SS∑∑∑∑211()wijji ijSSxav=====−=−∑∑∑∑22nmnmijjijix ax v=−=−∑∑∑∑∑∑∑∑ 1111ijjiji ijijx ax v========∑∑∑∑∑∑∑∑22mnjjiig af va Gav Fv′ ′′=−=− ′=−=−∑∑∑∑ 1111jj jia Gaa X F FFXa====− −− −′ ′′ ′′ ′= =∑∑∑∑1()a Gaa X F FFXaa GX FX a− −= =− −′ ′′ ′=−=−30()a GX FX a=−=−SSSSSS+ +tbwSSSSSS=+=+相关比相关比11()a X FXgg aSS− −′ ′′′−′′−相关比相关比2 1()()bta X FXgg aSSt SSa Ggg aη η==== ′ ′′ ′()ta Ggg at− −说明说明说明说明:: (1)当时,相关比的表达式的分子当时,相关比的表达式的分子ma =1 分母都是分母都是0,该表达式没有意义,在考虑,该表达式没有意义,在考虑 相关相关比比极大化中排除这种情况极大化中排除这种情况.3131相关极大化中排除这种情况相关极大化中排除这种情况说明说明::说明说明:: (2)为了简化问题,加限制为了简化问题,加限制(诸样品得分的总诸样品得分的总 均值为均值为0)0′均值为均值为0)0g a ′ =在上面的限制下,在上面的限制下,1 bSSa X FXa− −′ ′ ′ ′= =tSSa Ga′ ′= =1′ ′′ ′1 2btSSa X FXa SSa Gaη η− −′ ′′ ′====′ ′3232t由于由于a的不唯的不唯一一,,加约束加约束,,求求1a Ga′=由于由于a的不唯的不唯,,加约束加约束,,求求1a X FXa− −′ ′ ′ ′1a Ga的最大值的最大值.用用Lagrange乘子法,目标函数为乘子法,目标函数为11( , )()Q aa X FXaa Gaλ λλ λ− −′ ′ ′′=−−′′=−−Q∂ ∂⎧ ⎧1220QX FXaGaaλ λ− −∂ ∂⎧ ⎧′ ′= =−=⎪⎪ ∂−=⎪⎪ ∂⎨ ⎨ 10Qa Gaλ λ⎨ ⎨∂⎪′=− =∂⎪′=− =⎪ ⎪∂ ∂⎩ ⎩3333λ λ⎪ ⎪∂ ∂⎩ ⎩1Q∂ ∂⎧ ⎧′ ′1220QX FXaGaa Qλ λ− −∂ ∂⎧ ⎧′ ′= =−=⎪⎪ ∂−=⎪⎪ ∂⎨ ⎨∂ ∂⎪ ⎪10Qa Gaλ λ⎨ ⎨∂ ∂⎪ ⎪′=− =⎪∂⎩′=− =⎪∂⎩1a X FXaλ λ− −′ ′= ′ ′=最大最大1X FXaGaλ λ− −′⎧′⎧= = ⎨ ⎨1a Ga⎨ ⎨′=⎩′=⎩应求最大特征根对应的特征向量应求最大特征根对应的特征向量.3434说明说明::说明说明::(1) 0 ≤ λ ≤≤ λ ≤ 1( )(2) λ。

下载提示
相似文档
正为您匹配相似的精品文档