《相关分析CorrelationAnaly》由会员分享,可在线阅读,更多相关《相关分析CorrelationAnaly(46页珍藏版)》请在金锄头文库上搜索。
1、相關分析相關分析CorrelationAnalysis量化研究與統計分析量化研究與統計分析自變數自變數依變數依變數統計分析方法統計分析方法類別類別交叉表交叉表類別連續變異數分析變異數分析連續連續連續連續連續連續連續連續相關分析相關分析相關分析相關分析連續類別迴歸分析迴歸分析一個例子一個例子p很多時候,我們想要知道一件事物與另一很多時候,我們想要知道一件事物與另一件事物之間的關係(件事物之間的關係(relationship)n而且希望能有個關係指標而且希望能有個關係指標(indexofrelationship)來說明關係強度,指標小關係強度低,指標大來說明關係強度,指標小關係強度低,指標大關係強
2、度高;換句話說,需要有個相關係數關係強度高;換句話說,需要有個相關係數(coefficientofcorrelation)n例如:有一盒玩具兵,我們對玩具兵的身高、例如:有一盒玩具兵,我們對玩具兵的身高、體重有興趣,想像所有的玩具兵都是同樣的身體重有興趣,想像所有的玩具兵都是同樣的身形形(shape),那麼身高不同體重也就不同,那麼身高不同體重也就不同p看看這五個玩具兵,您會怎麼描述他們的看看這五個玩具兵,您會怎麼描述他們的身高和體重的關係?身高和體重的關係?p我們可以給個我們可以給個.00到之間的數值來描述其關到之間的數值來描述其關係強度係強度(strength),同時說明關係的方向,同時說
3、明關係的方向(direction)coefficientofcorrelation的種類的種類pTherank-differencecoefficient( )n等級相關等級相關n易理解易理解n排序資料排序資料nSpearmanrank-differencecoefficientofcorrelationpTheproduct-momentcoefficient(r)n常用常用n連續資料連續資料nPearsonproduct-momentcoefficientTherank-differencecoefficientp將將5個玩具兵的身高和體重加以排序個玩具兵的身高和體重加以排序n將相同序位以
4、線段相連,線段形成階梯狀將相同序位以線段相連,線段形成階梯狀n計算每個玩具兵的身高和體重的排序差異(計算每個玩具兵的身高和體重的排序差異(rankdifference),請注意,所有的),請注意,所有的rankdifference都是零都是零n計算計算rank-differencecoefficient,以,以 (rho)表示表示 是是1減掉分子為排序差異分母為比較的樣本,所以數值為減掉分子為排序差異分母為比較的樣本,所以數值為介於介於0與與1之間,而且排序排異愈大時,可能會產生負的之間,而且排序排異愈大時,可能會產生負的相關係數相關係數p負相關負相關n如果換成真人的話,可能就不一定能和玩具兵
5、如果換成真人的話,可能就不一定能和玩具兵一樣都有相同的身形,可能矮胖、高瘦一樣都有相同的身形,可能矮胖、高瘦Theproduct-momentcoefficient(r)pproduct-moment的意思的意思n其實通常我們不會計算排序差異,而是計算真其實通常我們不會計算排序差異,而是計算真實的身高和體重,如下表實的身高和體重,如下表ConcordantDisconcordant相關分析相關分析p當變項為一個連續變數時,可以次數分配當變項為一個連續變數時,可以次數分配和圖示來呈現資料的內容與特性,或者以和圖示來呈現資料的內容與特性,或者以平均數和標準差來描繪資料的集中和離散平均數和標準差來描
6、繪資料的集中和離散情形。情形。p當當兩個變數皆為連續變數兩個變數皆為連續變數時,則需利用相時,則需利用相關(關(correlation)或迴歸()或迴歸(regression)來分析兩變數的關聯程度,又稱為共變來分析兩變數的關聯程度,又稱為共變(covariance)關係。)關係。線性關性線性關性p兩個連續變數的共變關係,可能有很多兩個連續變數的共變關係,可能有很多種形式,其中最簡單也是最常見的關聯種形式,其中最簡單也是最常見的關聯型態是線性關係型態是線性關係(linearrelationship)。n兩個變項的關聯關係可以以一條最具有代表兩個變項的關聯關係可以以一條最具有代表性的直線來表示性
7、的直線來表示p例如:身高與體重,身高越高,體重也越重例如:身高與體重,身高越高,體重也越重pY=bx+ax為身高,為身高,y為體重為體重pb為斜率,為斜率,x每變動一個單位,每變動一個單位,y的變動量的變動量身高每增加一公分,體重增加量身高每增加一公分,體重增加量p當當b斜率為正值時,表示兩個變項是正相關斜率為正值時,表示兩個變項是正相關p當當b斜率為負值時,表示兩個變項是負相關斜率為負值時,表示兩個變項是負相關相關係數相關係數p兩個連續變項的關聯情形可以散布圖來呈現兩個連續變項的關聯情形可以散布圖來呈現p精確的相關分析所產生的是一個相關係數精確的相關分析所產生的是一個相關係數(correla
8、tioncoefficient),相關係數是介於,相關係數是介於1與與1之間的數。之間的數。n若為若為1,則表示兩變數具有完全的正線性相關,則表示兩變數具有完全的正線性相關n若為若為1,則表示兩變數具有完全的負線性相關,則表示兩變數具有完全的負線性相關n若相關係數趨近於若相關係數趨近於0,則表示兩變數沒有線性相關,則表示兩變數沒有線性相關n此一係數最早由此一係數最早由Pearson所提出,又稱為皮氏積差相關所提出,又稱為皮氏積差相關係數。係數。相關係數(相關係數( )相關程度相關程度1.00完全相關完全相關.70.99高度相關高度相關.40.69中度相關中度相關.10.39低度相關低度相關.1
9、0以下以下微弱或無相關微弱或無相關Pearson相關係數相關係數p相關係數值的大小,可以反應兩個變項關聯性相關係數值的大小,可以反應兩個變項關聯性的強弱,但是相關係數是否具有統計上的意義,的強弱,但是相關係數是否具有統計上的意義,必須透過統計檢定來判斷。必須透過統計檢定來判斷。n由樣本計算兩變項之相關係數由樣本計算兩變項之相關係數Pearsonsr,若要推,若要推論到母群論到母群 ,必須經由統計檢定由考驗其統計意義,必須經由統計檢定由考驗其統計意義虛無假設虛無假設H0:兩變項:兩變項X與與Y不相關不相關(相關係數為相關係數為0, 0)對立假設對立假設H1:兩變項:兩變項X與與Y相關相關(相關係
10、數不為相關係數不為0, 0)當雙尾的機率當雙尾的機率p小於設定的顯著水準小於設定的顯著水準 (如或)時,則(如或)時,則否定虛無假設,即相關係數不為零(兩變項相關)否定虛無假設,即相關係數不為零(兩變項相關)p以籃球得分為例。一個籃球隊獲勝場次與以籃球得分為例。一個籃球隊獲勝場次與每場的平均得分有關連嗎?每場的平均得分有關連嗎?n從散佈圖中可看出,它們具有線性關聯。我們從散佈圖中可看出,它們具有線性關聯。我們再從再從1994、1995NBA球季分析資料得知,球季分析資料得知,Pearson的相關係數的相關係數(0.581)在在0.01水準時是有水準時是有意義的。於是可能猜想,每季所贏得的場次愈
11、意義的。於是可能猜想,每季所贏得的場次愈多,則對手的得分愈少。這些變數為負相關多,則對手的得分愈少。這些變數為負相關(0.401),而相關在,而相關在0.05水準時最顯著。水準時最顯著。相關分析相關分析p程序程序1n統計圖統計圖散佈圖散佈圖nX軸放自變項;軸放自變項;Y軸放依變項軸放依變項n例:例:X軸為教育程度,軸為教育程度,Y軸為目前薪資軸為目前薪資(dataset:employee)n由散佈圖可以很明顯地看出兩變數之相關程度。由散佈圖可以很明顯地看出兩變數之相關程度。再由相關程序求出兩變數之相關係數再由相關程序求出兩變數之相關係數p程序程序2n分析分析相關相關雙變數雙變數由散佈圖可以很明
12、顯地看出教育程度與目前薪資有正線性相關。為測量兩變數之線性相關程度,以相關程序求出兩變數間之相關係數。依依Pearson相關係數可知,教育程度和目前薪資的相相關係數可知,教育程度和目前薪資的相關係數為為,關係數為為,P值為。當顯著水準為時,可以得到教值為。當顯著水準為時,可以得到教育程度與目前薪資有顯著相關的結論。育程度與目前薪資有顯著相關的結論。p相關係數相關係數n對於定量、常態分配的變數而言,請選擇對於定量、常態分配的變數而言,請選擇Pearson相關係數。相關係數。n如果資料不是常態分配,或已依類別排列,請選擇如果資料不是常態分配,或已依類別排列,請選擇Kendallstau-b或或Sp
13、earman,以便測量等級排,以便測量等級排列之間的關聯。列之間的關聯。pSpearmansRho( )等級相關係數(順序變項)等級相關係數(順序變項)pKendallstau-b( )等級相關係數()等級相關係數(concordant和諧)和諧)n相關係數範圍的值在相關係數範圍的值在1(一百分比負關聯一百分比負關聯)到到+1(一百分一百分比正關聯比正關聯)之間。其中,數值之間。其中,數值0表示沒有任何線性關係。表示沒有任何線性關係。n在解析結果時,請不要因為顯著的相關,而逕下任何在解析結果時,請不要因為顯著的相關,而逕下任何跟因果相關的結論。跟因果相關的結論。pConcordant:若某一觀
14、察值的兩個變項值:若某一觀察值的兩個變項值皆大於皆大於(或皆小於另一觀察值時或皆小於另一觀察值時),則稱此對,則稱此對觀察值為一致觀察值為一致(Concordant)。pDiscordant:若一觀察值的第一變項值大於:若一觀察值的第一變項值大於另一觀察值,而第二變項值小於另一觀察另一觀察值,而第二變項值小於另一觀察值時,則稱此對觀察值為不一致值時,則稱此對觀察值為不一致(discordant)。pTied:若兩觀察值的一個變項或兩個變項值:若兩觀察值的一個變項或兩個變項值相等時,則稱此對觀察值相等相等時,則稱此對觀察值相等(tied)。相關係數相關係數p皮爾森相關(皮爾森相關(Pearson
15、)n由於由於Pearson樣本相關係數(樣本相關係數( )之機率分配會)之機率分配會依配對隨機變數(依配對隨機變數(X,Y)之機率分配而變,所)之機率分配而變,所以沒有固定的分配,因此在做假設檢定時,一以沒有固定的分配,因此在做假設檢定時,一般是假設(般是假設(X,Y)具有二元的常態分配。)具有二元的常態分配。nPearson相關係數之大小,可看出兩變項關係的相關係數之大小,可看出兩變項關係的密切程度。相關係數愈高,兩變項之關係愈密密切程度。相關係數愈高,兩變項之關係愈密切,愈低表示愈不相關。切,愈低表示愈不相關。pSpearmansRho( )等級相關係數)等級相關係數p相關顯著性訊號相關顯
16、著性訊號n相關係數在相關係數在.05水準顯著時,會以一個星號標水準顯著時,會以一個星號標示,而在示,而在.01水準顯著時,會以兩個星號標示。水準顯著時,會以兩個星號標示。等級觀察值等級觀察值p轉換等級觀察值轉換等級觀察值等級變項之相關係數為Spearman相關係數多個雙變量相關分析多個雙變量相關分析負相關負相關沒有相關沒有相關淨相關與部份相關淨相關與部份相關p如果兩個連續變項之間的關係,可能受到第三個變項干擾如果兩個連續變項之間的關係,可能受到第三個變項干擾時,也可以以共變分析的做法,將第三個變項進行統計上時,也可以以共變分析的做法,將第三個變項進行統計上的控制。的控制。p淨相關淨相關n在計算
17、兩個連續變項在計算兩個連續變項X1和和X2的相關時,將第三變項(的相關時,將第三變項(X3)與兩)與兩個相關變項的相關個相關變項的相關X13和和X23,加以排除之後的單純相關,以來表,加以排除之後的單純相關,以來表示。示。p部份相關部份相關n淨相關是將第三個變項與兩個連續變項淨相關是將第三個變項與兩個連續變項X1和和X2的相關完全排除之的相關完全排除之後,計算的單純相關。如果在計算排除效果時,只處理第三變項後,計算的單純相關。如果在計算排除效果時,只處理第三變項與與X1和和X2當中的一個變項的相關時,所計算出來的相關係數,稱當中的一個變項的相關時,所計算出來的相關係數,稱之為部份相關之為部份相
18、關(partialcorrelation),或稱半淨相關,或稱半淨相關(semipartialcorrelation)。p同時測得學生的期中考、期末考成績,以同時測得學生的期中考、期末考成績,以及統計焦慮分數,請問期中考與期末考成及統計焦慮分數,請問期中考與期末考成績的淨相關如何?兩個部份相關又如何?績的淨相關如何?兩個部份相關又如何?p程序:程序:n分析相關偏相關分析相關偏相關n選項勾選零階相關選項勾選零階相關成對排除遺漏值成對排除遺漏值零階相關係數零階相關係數期中考與期末考的期中考與期末考的Pearson相關相關為為.8219,p=.004達到顯著水準。達到顯著水準。顯示期中考與期末考成績
19、具有顯示期中考與期末考成績具有高度相關。高度相關。焦慮與期中考的相關為,且達焦慮與期中考的相關為,且達到顯著到顯著(p=.004);焦慮與期末考;焦慮與期末考的相關為,但未達到顯著的相關為,但未達到顯著(p=.063)。淨相關係數淨相關係數期中考與期末考的期中考與期末考的Pearson相關係數由原來零階相關相關係數由原來零階相關的的.8219降為降為.7113,p=.032,仍達到顯著水準。,仍達到顯著水準。但是因為期末考與統計焦慮之相關沒有達到顯著,所以不用控制統計焦慮求期末考的淨相關,所以應採用部分相關分析。部份相關係以迴歸分析方式執行,下週分曉。論文之表格製作論文之表格製作1:平均數與標準差:平均數與標準差論文之表格製作論文之表格製作2:相關矩陣:相關矩陣