公务员考试-第一章 主成份分析

上传人:woxinch****an2018 文档编号:57402535 上传时间:2018-10-21 格式:PPT 页数:114 大小:882.50KB
返回 下载 相关 举报
公务员考试-第一章 主成份分析_第1页
第1页 / 共114页
公务员考试-第一章 主成份分析_第2页
第2页 / 共114页
公务员考试-第一章 主成份分析_第3页
第3页 / 共114页
公务员考试-第一章 主成份分析_第4页
第4页 / 共114页
公务员考试-第一章 主成份分析_第5页
第5页 / 共114页
点击查看更多>>
资源描述

《公务员考试-第一章 主成份分析》由会员分享,可在线阅读,更多相关《公务员考试-第一章 主成份分析(114页珍藏版)》请在金锄头文库上搜索。

1、1,第一章 主成份分析,陳順宇 教授 成功大學統計系,2,主成份分析(Principal Component Analysis, PCA),主要目的是訂定指標 它是對多個變數決定各變數權重而成加權平均,依此訂出總指標,3,經由線性組合而得的主成份能保有原來變數最多的資訊 即主成份有最大的變異數也就是使受測者在這些主成份上會顯出最大的個別差異,4,主成份分析3個重要目標,代表性 獨立性 精簡性,5,xi的線性組合,研究者常會找到很多項目(指示變數), 然後做加權平均,但問題就在於如何給定權重,,6,一種是主觀的人為訂定(它是在資料收集前訂定),一種是客觀的透過資料本身所傳達的訊息而訂定權重(它是

2、資料收集分析後再訂定),7,權重,主成份分析就是要將重要變數適當的給予較大的權重不重要的變數給予較小的權重,8,矩陣的應用及特徵值、特徵向量,9,特徵值的定義,10,例:求矩陣A的特徵值、 特徵向量,11,12,特徵值為的 根,13,解之得特徵值分別為,14,A為正定(positive definite p.d.)矩陣,15,定理,16,17,例1.1身高、體重的 主成份分析,18,如何將身高與體重做一線性組合使y1更能代表一個人的體型呢?,身高(x1)、體重(x2)的資料,都是用來代表一個人體型的一部份 只用身高或只用體重都不足以說明體型,19,算出各種線性組合轉換後資料及平均數、變異數、標

3、準差,20,以上各種組合以W4的變異數最大 下面討論如何找到此最佳解W4,21,有分辨能力表示變異數大,要先討論什麼樣的單一變數y1才能代表原來的變數x1, x2? 所謂有代表性,就是最能分辨“人”的體型, 而什麼樣的情形分辨能力才強呢?,22,變異數小表示內部有一致性,表示品質均勻對品管而言是好現象 但是在評分或分辨能力等問題,如果變異數小,就表示分辨能力差。,23,線性組合 的 變異數愈大愈好,在 的限制下,找a1 , a2使Var(y1)最大,24,25,特徵向量,在 下,使aa最大, 解a是矩陣的最大特徵值所對應的單位特徵向量,26,但在實務上,通常是未知的, 由抽樣資料可以求出樣本共

4、變異矩陣S,然後以S代替,27,樣本共變異矩陣S,28,特徵值1, 2,29,特徵值,30,求最大特徵值98.9511 特徵向量a,31,第一主成份,32,求第二大特徵值3.0489 特徵向量b,33,第二主成份,34,第一主成份的係數向量與第二主成份的係數向量有直交的現象,即,ab = 0,35,主成份分析的特點,(1)第一主成份的係數向量a1與第二主成份的係數向量a2直交 (2)第一主成份y1與第二主成份y2也是直交(即相關係數為0),36,(3)主成份的幾何意義,37,(a)照相角度的選取,對一群人照團體照就要選一角度,它能將每個人都照的很清楚, 也就是要找一個角度,它能分辨出每個人 這

5、種想法與主成份分析找主成份很類似,,38,圖1.2 身高體重資料主成份分析,39,(b)橢圓長軸的想法,從散佈圖上找最佳的方向,通常是利用畫橢圓(儘可能的扁)能將所有資料點包含 橢圓長軸的方向即為第一主成份的方向。而短軸的方向即為第二主成份方向。,40,圖1.3 身高體重資料橢圖長軸,41,迴歸線比第一主成份線平坦,42,(4)各個主成份的變異數等於其對應的特徵值,Var(yi) = i,43,(5)所有主成份的變異數的和與所有變數之變異數的和相等,44,(6)第一主成份y1解釋變異比例,45,第一第二主成份解釋變異比例,46,身高、體重的例題,47,(7)主成份負荷 第j主成份yj與第i個變

6、數xi的 相關係數(主成份負荷),48,如第一主成份y1與身高(x1)的 相關係數為,49,第一主成份y1與體重(x2)的 相關係數,50,(8)共通性,主成份解釋變數(xi)的變異數比例稱為的共通性(Communality),寫成,51,第1主成份解釋身高第1主成份解釋體重,52,(9)以共變異數矩陣S做 分析主成份得點,53,如第一位學生的 第一主成份得點,54,(10)以相關矩陣做分析,如果由於變數的單位不同, 因此考慮將資料先標準化後再做主成份分析 可以相關矩陣R取代共變異數矩陣S再求特徵值、特徵向量,55,以相關矩陣做主成份分析則 第一主成份為,56,(11) STATISTICA進

7、行 主成份分析,Statistics Multivariate Exploratory Techniques Principal Components & Classification Analysis,57,58,特徵值與解釋變異比例,59,特徵向量(主成份權重),60,主成份與身高體重相關係數,61,共通性,62,主成份得點,63,主成份得點散佈圖,64,(13)主成份分析的SAS程式,65,66,67,68,(14)先標準化再做主成份分析,如果由於變數的單位不同,將資料先標準化後再做主成份分析,可以相關矩陣R取代共變異數矩陣S,再求特徵值、特徵向量。,69,如以相關矩陣做主成份分析則第一

8、主成份,70,例1.3英文、國文、統計、 會計、經濟5科成績總指標,71,算出五個變數的平均數、 標準差及相關矩陣R,72,五個特徵值,73,陡坡圖,74,75,表1.1 例1.3主成份負荷,76,主成份負荷(或相關係數),77,表1.2 例1.3特徵值,78,第一主成份解釋變數的 變異數比例(亦稱共通性),79,第一、第二主成份 解釋變異數比例,80,表1.3 例1.3取兩個主成份 各變數共通性,81,主成份得點,82,表1.4 例1.3主成份得點,83,圖1.8 例1.3主成份得點散佈圖,84,每位學生對每個 主成份貢獻百分比,85,註,86,主成份選取原則如下,87,(d)統計上正式的分

9、析,88,甲.巴雷(Bartlett)提出統計量,89,乙.安德生(Anderson)統計量,90,4.注意事項:,(1)以S與R做主成份結果可能會有很大的差別。 (2)以S做主成份分析,亦即用原始資料分析,因其會受使用變量單位影響,所以除非各種變量間單位相同,否則不要貿然使用。,91,(3)各個主成份之間不相關, (4)若各變數間都不相關時就不需要再做主成份分析。 (5)變數間的相關係數皆相等時,第一主成份即為各變數的等加權平均,92,93,R的特徵值分別,94,特徵向量,95,第一主成份是各變數的 等加權平均,96,例1.4 憂鬱問題的研究 (資料檔名為:EX1-4),問卷有20個題目,

10、每題有15五種選答1:很少2:少3:有時候4:經常5:幾乎每天,97,20個問題陳列在表1.5項目中。 收集成功大學174位學生資料, 試以標準化憂鬱資料做主成份分析,98,特徵值,99,5個主成份權重(即特徵向量),100,第一主成份:每一問題的平均,y1值愈大表示有憂鬱程度高,命名:憂鬱指標。,101,第二主成份:17, 18, 19, 20等4項權重較大(超過0.4),y2大表示對未來充滿希望,命名:樂觀。,102,第三主成份:在第8,15等2項權重大,y3大表示提心吊膽,命名:恐懼。第四、第五主成份不易命名,103,共通性,104,第2主成份對第1主成份 得點散佈圖,105,例1.8

11、烏龜體型指標(EX1-8),106,以相關矩陣做主成份分析 特徵值與解釋比例,107,由於3項相乘而主成份是線性組合為相加 上面直接以長、寬、高做分析較不合適。 先將資料做對數轉換再做主成份較適當。而且由於各項單位測量單位相同 下面以其變異數矩陣做分析。,108,共變異數矩陣做主成份分析,109,表1.9 例1.8烏龜體型 主成份權重,110,結果:第一主成份為,111,資料輸入可為原始資料,相關矩陣或共變異數矩陣,其輸出是特徵值、特徵向量、及主成份得點。,112,進行主成份分析時, 應注意事項如下,1.主成份分析,可使用共變異數矩陣亦可使用相關矩陣進行分析, 一般當單位不同時以使用相關矩陣較佳。 2.為使變異數達到最大,通常主成份分析後不再轉軸。,113,3.成份的保留:凱莎主張將特徵值大於1的成份保留。 4.實證研究,如不超過五或六個主成份,就能解釋原有變數變異達70%以上,已令人滿意。,114,5.使用主成份分析後,會使各主成份之變異數為最大,而且各成份之間會彼此獨立(即正交),

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号