主成分分析原始数据的预处理问题

上传人:飞****9 文档编号:143929102 上传时间:2020-09-03 格式:PDF 页数:3 大小:157.31KB
返回 下载 相关 举报
主成分分析原始数据的预处理问题_第1页
第1页 / 共3页
主成分分析原始数据的预处理问题_第2页
第2页 / 共3页
主成分分析原始数据的预处理问题_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《主成分分析原始数据的预处理问题》由会员分享,可在线阅读,更多相关《主成分分析原始数据的预处理问题(3页珍藏版)》请在金锄头文库上搜索。

1、主成分分析原始数据的预处理问题 河北理工大学理学院(063009)万星火 檀亦丽 目前,系统评估方法的研究焦点,依然是如何科 学、 客观地将一个多目标问题综合成一个单指数的形 式。事实上只有在一维空间中,才能使评价排序成为 可能。而产生综合指数的主要方法是对各指标进行加 权,然后再将其综合。多元统计分析中的主成分分析 以其理论的简洁性,赋权的客观性等特点,被广泛地应 用于社会、 经济、 科教、 卫生等领域中众多对象的评价 和排序。利用主成分分析进行综合评价的基本思路是 降维,即保证数据损失尽可能最小的前提下,经过线性 变换和舍弃一小部分信息,以少数新的综合变量(称为 主成分)取代原始采用的多维

2、变量。再将所取到的主 成分用适当的形式进行综合,得到综合评价值,依据它 对被评价对象进行比较排序。主成分综合评价法的关 键是利用样本的协方差矩阵求主成分,但由于协方差 矩阵易受指标的量纲和数量级的影响。因此,对原始 数据进行预处理就变的至关重要了。 原理和方法 设有p个指标X1, X2, Xp,对其进行n次观 测得到np个观测值xij,为了方便,用一个矩阵表示 X= ( x 1, xp)= ( x ij)np 寻找X1, X2,Xp的综合指标(主成分)可归纳 为如下步骤: 11 求X的协方差矩阵的特征根,记为 1 2 k 0,k+ 1=p= 0; 21求 i对应的单位特征向量i= ( a i1

3、, ai2, aip) i= 1, k ,且要求正交; 31 得到第i个主成分yi=iX ,i= 1, k。 取前k个主成分的如下线性组合 F = i k i =1 i yi 作为综合评价的函数。 其中y1具有最大的方差 1, y2次之且有方差2, yk具有最小方差k。 这样 y1, yk依次集中了X的各分量变化的主要部分, yi 的方差i的大小刻画了yi反映X的能力大小, i越大, 则yi反映X的能力越强,称 i tr( V ) =i/ k j =1 j为第i 个主成分的贡献率, m i =1 i/ k j =1 j为前m个 ( m k) 主 成分的累积贡献率。 在实际应用中常略去那些贡献率

4、小的主成分,经 验指出,一般只要取前k个主成分的累计贡献率超过 85%就足够了。 原始数据的预处理 主成分综合评价法的关键是利用样本的协方差矩 阵求主成分,但由于协方差矩阵易受指标的量纲和数 量级的影响,因此经常要对原始数据进行预处理。 11 逆向指标的处理:由于当xi为逆向指标时,特 征根对应的特征向量的分量aij可能出现负值。这时 令-xi作为指标参评,代替xi, aij就是正值。但有时 当xi为正向指标时,特征根对应的特征向量的分量 aij可能也出现负值。这主要是由于评价指标内存在 相关性很大的指标,它们在参与评价时过于重复地产 生影响,所以这时应从评价指标中删去一些指标重新 综合考虑。

5、有时特征向量的分量aij中有很多负值时 注意将所有aij的符号同时反向,就会剩下少数负号, 用后者来评价就可以了。这是由于当 i= ( a i1, ai2, , aip) 是i的特征向量时,-i= - ( a i1, ai2, ain) 也是特征向量。 21 无量纲化处理 (1)数据的标准化 数据的无量纲化处理的必要 性:由统计学理论,要对不同量纲的数据进行比较,可 以先将它们分别标准化,转化为无量纲的标准化数据。 而进行主成分综合评价时,所选样本的指标往往具有 不同量纲不具有可加性。即使有些指标具有可加性, 也不能直接相加,因为结果不切实际,如在对某班级同 学的学习效果进行分析时,各门功课的

6、成绩是一种分 数,本身没有单位,而且都是百分制的,因此不必要无 量纲化,直接相加,求总分即可。事实上,这种看法是 有误解的。由于不同科目试题的难易程度、 份量不一 定相同,成绩是不同质的,因而成绩不能直接相加。必 须先计算绝对分数。然后再进行综合。 即x ij= xij-?xj sj , i =1,2,n , j =1,2, p 其中 ?xj= 1 n n i =1 xij, s2j= 1 n -1 n i =1 ( x ij- ?xj) 2 在主成分分析中一般要先对原始数据进行标准化处 理,然后求解标准化数据的协方差矩阵的特征根及对 723中国卫生统计2005年10月第22卷第5期 应的特征

7、向量从而求出主成分。 (2)均值法 在主成分分析中原始数据标准化是 为了避免各指标变量的量纲和数量级对协方差矩阵的 影响,但同时它也消除了各指标在变异程度上的差异 信息。一般的,原始数据中包含两部分信息:一是各指 标变异程度的差异信息,由各指标的方差大小反映;二 是各指标间相互影响程度上的相关信息,由相关矩阵 体现。传统的标准化方法使各指标的方差变成1,即 协方差矩阵的对角元素均为1,消除了各指标在变异 程度上的差异。从中提取的主成分,只包含了各指标 间相互影响这一部分信息,不能准确反映原始数据所 包含的全部信息,所以必须改进这种方法。均值化方 法是一种较好的改进方法。对原始数据样本矩阵, X

8、 = ( x 1, xp)= ( x ij)np,均值化就是用各指标的均 值除以它们相应的原始数据,即xij/?xj。可以推导出 在均值化后,协方差矩阵的对角元素为 ( s j/?xj) 2。它 反映了各指标变异程度上的差异;同时,均值化后的相 关系数变为r ij=rij 2,这说明均值化处理不改变指 标间的相关系数,相关矩阵的全部信息都在相应的协 方差矩阵中得到反映。可见均值化处理后的协方差矩 阵不仅消除了指标量纲与数量级的影响,还能包含原 始数据的全部信息,因此在进行主成分分析前,可以用 均值化方法进行无量纲化处理。 31 非线性主成分分析 主成分分析法是一种线性降维法,表现为各主成 分是

9、原始变量的线性组合。因此,当原始数据不具备 线性的基本特点时,若简单地进行线性处理,必然会导 致结果的偏差,因此有必要对传统主成分分析中的 “线 性化” 进行改进。 此时,就要对原始数据作变换,一般可直接对它们 进行函数处理:描绘原始数据列xij的散点图,若散点 图呈现出某种曲线特征,如呈现出对数曲线特征时,则 可令yij= lnxij,再经过中心化变换利用主成分分析 法,可提高降维效果。具体做法如下: a1 对原始数据xij进行对数变换yij=lnxij b1 行向量中心化,令zij= yij- p j =1 yij/ p c1计算矩阵Z = ( zij)np的协方差阵及其特征根 和特征向量

10、,根据累计贡献率选择m ( m 0, p i =1 xi=1)分析。 参 考 文 献 11 任若恩,王惠文.多元统计分析 理论、 方法、 实例.北京:国防工业 出版社,1997 , 922109. 21 叶双峰.关于主成分分析做综合评价的改进.数理统计与管理, 2001 ,20(2) :52. 31 黄宁.关于主成分分析应用的思考.数理统计与管理,1999 ,18(5) : 44. . 41 钱道翠.成分数据的主成分分析方法的改进.统计与决策,2002 ,14 (7) :67. . 51 胡永宏.贺思辉.综合评价方法.北京:科学出版社,2000 ,57263. 门诊人次与出院人数的相关分析 广

11、东省佛山市第一人民医院信息科(528000)廖 珊 刘冬生 医院的门诊人次与住院人次是衡量医院业务状况的重要 指标,门诊人次与住院人次的增加是医院发展所追求的目标。 随着医疗市场竞争的加剧,各级医院纷纷推出各项改革举措, 以期增加门诊和住院病人。通常门诊人次与住院人次之间,存 在相应的比例关系,门诊量增加了,住院病人也相应地增加。 出院人次与门诊量的哪部份最密切相关,关联程度如何?本文 拟对此作一探讨。 资料与方法 资料取自我院20002004年上半年各季度全院医院门 诊、 住院工作报表,选取各季度出院人数、 普通门诊量、 专科门 诊量、 专家门诊量、 急诊人次数据,输入EXCEL ,采用SP

12、SS1110 软件包进行相关与回归分析。 结 果 11 相关分析 对出院人数与普通门诊量、 专科门诊量、 专家门诊量、 急诊 人次作相关分析,结果见表1。 表1 出院人数与各门诊量相关系数表 普通门诊专科专家急诊 出院人数相关系数01343019250195601586 P01163010000100001011 由表1可见,专家、 专科门诊量与出院人数高度相关,而普 通门诊和急诊的相关性小。其中专家门诊量相关系数最大。 可见专家门诊量与出院人数密切相关。对它的关联程度进一 步作多元线性回归分析。 21 多元线性回归分析 对出院人数的影响因素普通门诊量、 专科门诊量、 专家门 诊量、 急诊人次

13、作多元线性回归分析,结果见表2。只有专家门 诊量进入回归方程,P 0105。回归方程为:y= 010875 专家 门诊+ 98017 ,说明每增加1个专家门诊就对应有010875个出 院病人,也就是说每增加100个专家门诊量可对应有9个病人 出院。 表2 回归系数表 回归系数tP 常数项980171164401124 普通门诊- 010093- 1197101070 专科门诊0101201130901213 专家门诊0108757102001000 急诊- 010188- 0181501430 讨 论 111993年专家门诊人次占全院门急诊人次的比例为 517 %,2003年上升为2619 %

14、,专家门诊比例在逐年上升,2003 年比1993年上升了21个百分点,说明了人们已经不满足一般 的医疗服务,期望高质量、 高水平、 多方位的医疗服务越来越明 显,专家门诊的设立正是为人们提供了更理想医疗服务的选择 空间。专家门诊一般看的是疑难重症疾病,门诊解决不了就住 院治疗,专家门诊量增加了,住院病人也相应增加。 21 专家门诊人次与出院人数呈直线相关,每增加100个专 家门诊量可对应有9个病人出院。 31专家门诊量直接影响到出院人数,增加专家出门诊次 数,不仅可使专家门诊量大幅增加,也促进了住院业务的发展。 各科室多派专家出门诊,不仅可增加专家门诊人次,还可拉动 住院业务,形成良好的经济效益和社会效益。 41 眼科的改革给了我们一些启示,我院专家技术好、 服务 好,专家门诊深受患者欢迎,而以前是供不应求,现在挖掘专家 门诊的潜力,主动提供更充分的医疗服务,可以争取更多的病 人。其他科室也可效仿眼科,多派专家出门诊,满足广大患者 的需要,同时也拓展科室的业务量。相信我院在不断改革中会 取得更大的成绩。 923中国卫生统计2005年10月第22卷第5期

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号