多变量分析期中报告课件

上传人:壹****1 文档编号:570271774 上传时间:2024-08-03 格式:PPT 页数:112 大小:987KB
返回 下载 相关 举报
多变量分析期中报告课件_第1页
第1页 / 共112页
多变量分析期中报告课件_第2页
第2页 / 共112页
多变量分析期中报告课件_第3页
第3页 / 共112页
多变量分析期中报告课件_第4页
第4页 / 共112页
多变量分析期中报告课件_第5页
第5页 / 共112页
点击查看更多>>
资源描述

《多变量分析期中报告课件》由会员分享,可在线阅读,更多相关《多变量分析期中报告课件(112页珍藏版)》请在金锄头文库上搜索。

1、 多變量分析多變量分析區別分析區別分析Discriminant Analysis1多变量分析期中报告區別分析區別分析12.1前言前言n是典型相關的特例,應變數是二元分類變數,若是典型相關的特例,應變數是二元分類變數,若只有兩群,則需一個二元分類變數,若有只有兩群,則需一個二元分類變數,若有G G群,則群,則需需G-1G-1個二元分類變數。個二元分類變數。n目的:目的:使用自變數的資訊去最清楚地區分兩個或使用自變數的資訊去最清楚地區分兩個或兩個以上的群體兩個以上的群體。n本章介紹兩群及多群區別分析方法本章介紹兩群及多群區別分析方法n兩群區別分析中兩群區別分析中,將介紹,將介紹費雪法費雪法(Fis

2、her)及馬氏距及馬氏距離法離法(Mahalanobis) ,及及說明兩種方法本質上是明兩種方法本質上是與回歸分析相同的。與回歸分析相同的。2多变量分析期中报告12.1.1潛在應用潛在應用n在第三章,我們提到複廻歸分析的目的是在第三章,我們提到複廻歸分析的目的是描述描述自變數自變數X X如何影響應變數如何影響應變數Y Y、推論推論X X與與Y Y的關係是否顯著、及使用的關係是否顯著、及使用X X預測預測Y Y。n在本章區別分析中,目的是相同的,但是在本章區別分析中,目的是相同的,但是用的名詞不一樣用的名詞不一樣,即:即:ProfilingProfilingDifferentiationDiff

3、erentiationCategorizationCategorization3多变量分析期中报告1.Profilingn當研究的目的俱探索性的本質時,區別分當研究的目的俱探索性的本質時,區別分析的第一個目的通常是描述性的:析的第一個目的通常是描述性的:n各群體在自變數上是如何區別開來的各群體在自變數上是如何區別開來的? ?例例: :某某產品使用量大的與使用量小的品使用量大的與使用量小的群體在家庭規模、收入、教育、種族等變群體在家庭規模、收入、教育、種族等變數有何不同數有何不同? ? 4多变量分析期中报告2.Differentiationn不同群在自變數上是否有顯著差異?不同群在自變數上是否有

4、顯著差異?區別區別分析可以讓我們檢定不同群間的平均向量分析可以讓我們檢定不同群間的平均向量是否有顯著差異。是否有顯著差異。n例:例:在製造業,瞭解與控制製程變異是很重要的。製在製造業,瞭解與控制製程變異是很重要的。製造者可以抽樣各台機器製造的造者可以抽樣各台機器製造的產品品產品品(Y)(Y)與測量與測量產品的相關規格品的相關規格(X)(X),並利用區別分析檢定各台機,並利用區別分析檢定各台機器製造的器製造的產品的平均規格向量是否有顯著差異。品的平均規格向量是否有顯著差異。5多变量分析期中报告3.Categorizationn預測觀察預測觀察值的群體歸屬的群體歸屬( (即歸類即歸類) )。即使用

5、。即使用區別函數去歸類新觀察區別函數去歸類新觀察值。n例:例:銀行使用區別分析來決定是否應放款給貸銀行使用區別分析來決定是否應放款給貸款申請者,稱為信用評等。區別顧客款申請者,稱為信用評等。區別顧客為高風險與低風險群,建立區別函數,用為高風險與低風險群,建立區別函數,用以歸類新申請者為高風險或低風險。以歸類新申請者為高風險或低風險。6多变量分析期中报告12.2.112.2.1兩群區別分析兩群區別分析: :原理原理使用以下兩種方法來做區別分析:使用以下兩種方法來做區別分析:費雪法費雪法(Fisher)馬氏距離法馬氏距離法(Mahalanobis)7多变量分析期中报告費雪法費雪法(Fisher)(

6、Fisher)n費雪法是基於區別分數費雪法是基於區別分數( discriminant score)的概念的概念。找出自變數的線性組合,找出自變數的線性組合,產生使組間最大差異的區別分數生使組間最大差異的區別分數。n圖圖12.1,兩群組觀察兩群組觀察值的聯合分配。的聯合分配。Group1Group28多变量分析期中报告費雪法費雪法(Fisher)(Fisher)表表12.212.2的區別分數顯示組間差異相對於組的區別分數顯示組間差異相對於組內差異差異較小。較小。表表12.312.3的區別分數顯示組間差異相對於組的區別分數顯示組間差異相對於組內差異差異較大,可以更清楚區分兩群組之較大,可以更清楚區

7、分兩群組之觀察觀察值。9多变量分析期中报告費雪法費雪法(Fisher)(Fisher)為了找出線性組合來為了找出線性組合來產生最佳區別分數,我生最佳區別分數,我們需要一個目標函數將們需要一個目標函數將FishFish的的”maximallymaximallydifferent”different”的概念量化:的概念量化:令令 線性組合線性組合=k=k則則 區別分數區別分數=t=Xk=t=Xk費雪法是找出適當的費雪法是找出適當的k k,使,使區別分數的組間區別分數的組間差異相對於組差異相對於組內差異最大化差異最大化。10多变量分析期中报告費雪法(Fisher)區別分數的群間平方和相對於群區別分數

8、的群間平方和相對於群內平方合的比為平方合的比為 為為X X的聯合的聯合(pooled)(pooled)組組內共變異數矩陣。共變異數矩陣。選擇選擇k k使目標函數使目標函數最大化,則:最大化,則:因為因為k k向量的尺度未定,我們通常選擇標準化的向量的尺度未定,我們通常選擇標準化的k k,即即K K的長度為的長度為1 111多变量分析期中报告費雪法費雪法(Fisher)(Fisher)1.假如假如X1與與X2之間沒有組之間沒有組內共變異,這表示區別函數共變異,這表示區別函數軸與連接兩群組平均的線相同。軸與連接兩群組平均的線相同。 表示頃斜該軸將減少兩群平均區別表示頃斜該軸將減少兩群平均區別函數分

9、數的距離,且增加組函數分數的距離,且增加組內區別函數分數的變異。區別函數分數的變異。Cw=10Cw=10020212多变量分析期中报告費雪法費雪法(Fisher)(Fisher)2.2.假如假如X X1 1與與X X2 2是相關的呢是相關的呢? ?組間平均不變,但組組間平均不變,但組內共變異數矩陣共變異數矩陣改變為改變為 Cw=21Cw=211212最好的區別函數不再是最好的區別函數不再是X X1 1-axis-axis,而為,而為=0.894=0.894而非而非1.01.013多变量分析期中报告費雪法費雪法(Fisher)(Fisher)小結:小結: 描先求得兩群體平均向量差的軸,再根據自變

10、描先求得兩群體平均向量差的軸,再根據自變數間共變異的型態調整此軸,以求得能最佳區數間共變異的型態調整此軸,以求得能最佳區別兩群體的線性組合函數別兩群體的線性組合函數。14多变量分析期中报告馬氏距離法馬氏距離法(Mahalanobis)主要找出與兩群群平均向量等距離點的軌跡主要找出與兩群群平均向量等距離點的軌跡。MahalanobisMahalanobis不建議採歐氏距離衡量不建議採歐氏距離衡量,而建議採共變而建議採共變異數來調整衡量。異數來調整衡量。使使15多变量分析期中报告馬氏距離法馬氏距離法(Mahalanobis)採共變異數調整距離取代歐氏距離的理採共變異數調整距離取代歐氏距離的理由:由

11、:假設資料為常態分配,馬氏距離比歐氏距離更能反假設資料為常態分配,馬氏距離比歐氏距離更能反映出群組歸屬的可能性映出群組歸屬的可能性(likelihood)(likelihood)。16多变量分析期中报告馬氏距離法馬氏距離法(Mahalanobis)圖圖12.612.6為獨立變數為獨立變數x x1 1與與x x2 2無相關性,與兩群心等距點的無相關性,與兩群心等距點的軌跡為軌跡為X X1 1=1/2,=1/2,垂直於垂直於x x1 1軸軸( (費雪法的線性區別函數費雪法的線性區別函數) )。12.617多变量分析期中报告馬氏距離法馬氏距離法(Mahalanobis)圖圖12.712.7為獨立變數

12、為獨立變數x x1 1與與x x2 2為為正相關正相關,與兩群心等,與兩群心等距的直線為正斜率距的直線為正斜率,此此直線與費雪法的線性區直線與費雪法的線性區別函數垂直。別函數垂直。12.718多变量分析期中报告馬氏距離法馬氏距離法(Mahalanobis)n費雪法與馬氏距離法在處理問題時為互補費雪法與馬氏距離法在處理問題時為互補的方法的方法。n費雪法將資料投射到單一構面費雪法將資料投射到單一構面( (線性區別函線性區別函數數) ),使群組分隔最大化;而馬氏法決定能,使群組分隔最大化;而馬氏法決定能最佳地分開兩群的分隔線最佳地分開兩群的分隔線( (或超平面或超平面) ),此,此分隔線分隔線( (

13、或超平面或超平面) )與線性區別函數相互垂與線性區別函數相互垂直。直。19多变量分析期中报告12.2.2 MechanicsFishers Method 假設假設group1有有n1個觀察值,個觀察值,group2=有有n2個觀察值個觀察值 n1+ n2=n(樣本量樣本量) SSw為區別函數分數的組內平方和為區別函數分數的組內平方和 (12.5)將將(12.5)的區別的區別函數函數分數分數t當為原來資料的線性組合當為原來資料的線性組合 得出得出 (12.6)20多变量分析期中报告 整理整理(12.6)(12.6)得出得出: :或或將將 C Cw w代入代入(12.8),(12.8),可得可得:

14、 :(12.9)(12.9)21多变量分析期中报告組間平方和:組間平方和:(12.10)(12.10) 將區別函數分數將區別函數分數代入代入(12.10),(12.10),得得: : 因為因為 所以所以22多变量分析期中报告 所以所以: 此式隱含:此式隱含: 總整理後:總整理後:因為因為 與向量與向量 都為都為scalar value 所以我所以我們可以寫成:們可以寫成:23多变量分析期中报告12.2.2 MechanicsRelationship to regression費雪區別函數係數與複迴歸係數是相同的費雪區別函數係數與複迴歸係數是相同的( (或或成比率成比率) )。 整理過程:整理過

15、程:24多变量分析期中报告 依據上述推導,我們可以有下列區別函數係數:依據上述推導,我們可以有下列區別函數係數:為共變異數矩陣為共變異數矩陣 多元回歸係數為多元回歸係數為 令令 根據此,我們得出根據此,我們得出=d,=d,因為因為為為與與 C CTT成比例,因此得出:成比例,因此得出:25多变量分析期中报告12.2.2 MechanicsMahalanobiss Method 與費雪法不同,馬氏距離法要找出兩群心等距的點與費雪法不同,馬氏距離法要找出兩群心等距的點的軌跡的軌跡。推導過程:。推導過程: 26多变量分析期中报告 因為因為 代表兩群心差異代表兩群心差異 得得: (12.29) 將將

16、代入代入(12.29)(12.29)得出得出: 因為因為與費雪區別函數係數與費雪區別函數係數k k成比例,成比例,故得故得出:出:27多变量分析期中报告nThus, we have the result that the locus of points x specified by Mahalanobiss method is the set of all points x perpendicular to k, Fisherss discriminant function coefficients, crossing the discriminant function axis at the

17、 midpoint between the two group mean scores.28多变量分析期中报告12.3Sampleproblem12.3Sampleproblem12.3.1data12.3.1data實例實例說明明公司欲促銷一本書公司欲促銷一本書:TheArtHistoryofFlorenceTheArtHistoryofFlorence1.1.店名:店名:BooksbyMailBooksbyMail2.2.資料:擁有資料:擁有50,00050,000名顧客的資料庫名顧客的資料庫3.3.目目標標:目目標標行行銷銷(targeted(targetedmarketing)mark

18、eting),只寄促銷信給買此書機率相對較高的客只寄促銷信給買此書機率相對較高的客戶29多变量分析期中报告12.3Sampleproblem12.3Sampleproblem12.3.1data12.3.1data 4.4.描述目標顧客:描述目標顧客:BooksbyMailBooksbyMail寄發公司寄發公司的直接信函給的直接信函給1,0001,000名顧客名顧客( (從從50,00050,000顧客顧客中隨機抽取中隨機抽取),結果有,結果有8383名顧客真的購買名顧客真的購買(8.3%)(8.3%)。公司欲使用區別分析來更了解那些因素造公司欲使用區別分析來更了解那些因素造成這些樣本購買者與

19、未購買者的差異,並成這些樣本購買者與未購買者的差異,並建立區別函數建立區別函數,以更有效且準確的再寄促以更有效且準確的再寄促信函給其他顧客。信函給其他顧客。30多变量分析期中报告12.3Sampleproblem12.3Sampleproblem12.3.1data12.3.1data雖然雖然BooksbyMailBooksbyMail可以考慮很多顧客資訊,可以考慮很多顧客資訊,但我們只將焦點放在兩個變數:但我們只將焦點放在兩個變數:A.A.每位顧客最近一次從每位顧客最近一次從BooksbyMailBooksbyMail買書之買書之購買時間與分析時隔了多少個月購買時間與分析時隔了多少個月B.B

20、.每位顧客從每位顧客從BooksbyMailBooksbyMail購買過藝術類書購買過藝術類書籍的本數籍的本數31多变量分析期中报告12.3.2Resultsn圖圖12.812.8為散佈圖,針對為散佈圖,針對8383個購買顧客與隨個購買顧客與隨機抽取機抽取8383個未購買顧客。個未購買顧客。距上次買書的月數購買藝術書本數32多变量分析期中报告12.3.2Results表表12.112.1的結果支持圖的結果支持圖12.812.8:購買者購買者-買藝術書的數量較多且最近一次買書時間近。買藝術書的數量較多且最近一次買書時間近。非購買者非購買者 買藝術書的數量較少且最近一次買書時間遠。買藝術書的數量較

21、少且最近一次買書時間遠。33多变量分析期中报告SASSAS程式程式INFILE D:多變量分析上課資料MultivariateDataData setsASCIICh12BOOKS_1.TXT;input id$ recency number buyer$;cards;PROC DISCRIM ALL;CLASS BUYER;VAR RECENCY NUMBER;RUN;34多变量分析期中报告35多变量分析期中报告36多变量分析期中报告37多变量分析期中报告38多变量分析期中报告39多变量分析期中报告40多变量分析期中报告41多变量分析期中报告12.3.2Results令令非購買者非購買者為群

22、體為群體1 1購買者購買者為群體為群體2 2則群組距心差異為:則群組距心差異為:(9.4,1.00)-(12.7,0.33)=(-(9.4,1.00)-(12.7,0.33)=(-3.3,0.67)3.3,0.67)也可算出組也可算出組內矩陣平方和以及聯合組矩陣平方和以及聯合組內平方和:平方和:60206.0219.12904.07-55.060206.0219.12904.07-55.0219.1337.9-55.0092.00219.1337.9-55.0092.0063.240.1640.01583-0.0060463.240.1640.01583-0.00604 0.164 0.431

23、 -0.00604 2.323842多变量分析期中报告12.3.2ResultsK K與與成正比,成正比,使用區別函數權重使用區別函數權重K K計算區別分數計算區別分數 t=Xkt=Xk結果如下:結果如下:購買者的區別分數較非購買者為正購買者的區別分數較非購買者為正 ( (參見圖參見圖12.912.9p.441)p.441)60%60%購買者的區別分數大於購買者的區別分數大於0 026%26%非購買者的區別分數大於非購買者的區別分數大於0 043多变量分析期中报告buyernonbuyers44多变量分析期中报告12.412.4兩群組分析相關研究問題兩群組分析相關研究問題12.4.112.4.

24、1共變異數矩陣相等的檢定共變異數矩陣相等的檢定費費雪法估計採聯合組雪法估計採聯合組內共變異矩陣,但假如共變異矩陣,但假如各群組的母體共變異數不一樣呢各群組的母體共變異數不一樣呢? ?Box(1949,1950)Box(1949,1950)提供一個檢定方法:提供一個檢定方法:該檢定以卡方分配的該檢定以卡方分配的M M統計量為基礎統計量為基礎以以B B為為M M統計量統計量loglog轉換的檢轉換的檢 定統計量定統計量45多变量分析期中报告12.4.112.4.1共變異數矩陣相等的檢定共變異數矩陣相等的檢定46多变量分析期中报告12.4.112.4.1共變異數矩陣相等的檢定共變異數矩陣相等的檢定

25、下圖是當H0為偽時47多变量分析期中报告12.4.112.4.1共變異數矩陣相等的檢定共變異數矩陣相等的檢定以上述例子以上述例子BooksbyMailBooksbyMail來計算來計算B B。先計算各。先計算各組的組組的組內共變異數矩陣與聯合共變異數矩共變異數矩陣與聯合共變異數矩陣,如下:陣,如下: =0.99998(3.304)-916(3.186)-82(3.6710=77.2=0.99998(3.304)-916(3.186)-82(3.6710=77.2df=3,rejectHdf=3,rejectH0 0atat=0.001=0.00148多变量分析期中报告12.4.112.4.1共

26、變異數矩陣相等的檢定共變異數矩陣相等的檢定問題:假如我們使用聯合估計,但是群組間共問題:假如我們使用聯合估計,但是群組間共變異數為不同變異數為不同,則後果如何呢,則後果如何呢? ?圖12.11為兩群有相同的為兩群有相同的組組內變異數變異數。假如虛線。假如虛線的左邊的所有的左邊的所有值,Group1Group1的的densitydensity大於大於Group2Group2的的densitydensity,均可歸類於,均可歸類於Group1Group1;虛線;虛線的右邊的所有的右邊的所有值,則則均可歸類於均可歸類於Group2Group2 。圖圖12.1149多变量分析期中报告12.4.112.

27、4.1共變異數矩陣相等的檢定共變異數矩陣相等的檢定圖圖12.212.2為兩個不同共變為兩個不同共變異數的群,異數的群,兩條點線間的兩條點線間的值Group1Group1的的densitydensity較高較高,均可,均可歸類於歸類於Group1Group1;而;而兩兩條點線外的條點線外的值Group2Group2的的densitydensity較高較高均可歸均可歸類於類於Group2Group2。50多变量分析期中报告12.4.112.4.1共變異數矩陣相等的檢定共變異數矩陣相等的檢定當兩群組變異數不一樣時,可使用馬氏法,使用組當兩群組變異數不一樣時,可使用馬氏法,使用組內估計估計( (非聯合

28、估計非聯合估計),則:,則:因為因為不等於不等於,故,故的解是二次的,而非的解是二次的,而非線性的線性的。51多变量分析期中报告12.4.112.4.1測試共變異數矩陣相等測試共變異數矩陣相等如右圖,如果使用線性區別函數,則如右圖,如果使用線性區別函數,則馬氏法的軌跡將為與橫軸垂直的直線馬氏法的軌跡將為與橫軸垂直的直線,如此將會有應屬於,如此將會有應屬於Group2Group2的點,被的點,被歸到歸到Group1Group1。如果使用二次區別函數,。如果使用二次區別函數,則馬氏法的軌跡為一橢圓,橢圓則馬氏法的軌跡為一橢圓,橢圓內的的點都歸類於點都歸類於Group1Group1,橢圓外的,橢圓外

29、的點都歸類於點都歸類於Group2Group2。GROUP2GROUP152多变量分析期中报告12.4.112.4.1共變異數矩陣相等的檢定共變異數矩陣相等的檢定小結:小結:共變異數矩陣相等的檢定對於兩群組共變異數矩共變異數矩陣相等的檢定對於兩群組共變異數矩陣的差異非常敏感,這並不是件好事;尤其當兩陣的差異非常敏感,這並不是件好事;尤其當兩群中的一群,其成員數目相對很小時,此時我們群中的一群,其成員數目相對很小時,此時我們真的真的值得以小群的共變異數矩陣作為計算馬氏距得以小群的共變異數矩陣作為計算馬氏距離的基礎嗎?我們最好還是先使用線性區別函數,離的基礎嗎?我們最好還是先使用線性區別函數,檢視

30、其區別與歸類的績效,如果績效真的很不好檢視其區別與歸類的績效,如果績效真的很不好時,才考慮使用二次區別函數時,才考慮使用二次區別函數。53多变量分析期中报告12.4.212.4.2如何檢定兩群群心的差異如何檢定兩群群心的差異? ?當只有一個變數當只有一個變數X X時,運用時,運用來檢定。來檢定。為為t-statistict-statistic有有自由度。自由度。將上式平方,則變為將上式平方,則變為F-statisticF-statistic有有自由度,為:自由度,為:54多变量分析期中报告12.4.212.4.2如何檢定兩群群心的差異如何檢定兩群群心的差異? ?當有多個區別變數時,運用知名的當

31、有多個區別變數時,運用知名的Hotellings T2來檢定,如右:來檢定,如右:55多变量分析期中报告12.4.212.4.2如何檢定兩群群心的差異如何檢定兩群群心的差異? ?上述兩法很類似,但差異為:上述兩法很類似,但差異為:聯合估計差異以聯合估計差異以取代之。取代之。BookbyMailBookbyMail實例運用實例運用:0.01583-0.006040.01583-0.00604-0.006042.3238-0.006042.323856多变量分析期中报告 0.01583 -0.00604 -0.00604 2.3238 *(-3.30.67)=94.55結果表示兩群心有顯著差異。結

32、果表示兩群心有顯著差異。57多变量分析期中报告12.4.312.4.3如何評估區別函數的配適度如何評估區別函數的配適度? ?在回歸分析裡,以在回歸分析裡,以為衡量配適度指標。為衡量配適度指標。在區別分析裡面,以命中率在區別分析裡面,以命中率(hitrate)(hitrate)為衡量指為衡量指標:標:即預期歸類與實際歸類的符合程度。即預期歸類與實際歸類的符合程度。1.1.為了評估命中率為了評估命中率,需使用一個決策法則使我們可以,需使用一個決策法則使我們可以歸類觀察歸類觀察值。58多变量分析期中报告2.計算計算cutoffscore()cutoffscore()來歸類觀察來歸類觀察值。tt歸類為

33、一群組;反之,為另一群組。歸類為一群組;反之,為另一群組。如此可比較實際與預測歸類的差異。如此可比較實際與預測歸類的差異。3.3.計算計算當群組大小不相同時當群組大小不相同時,則則cutoff score 需要需要調整調整。以下例以下例說明:明:59多变量分析期中报告12.4.312.4.3如何評估區別函數的配適度如何評估區別函數的配適度? ?以某大學商學院以某大學商學院MBAMBA一年級學生的身高為例做區別分一年級學生的身高為例做區別分析,即使用身高來區分男女生。假設男女比例為析,即使用身高來區分男女生。假設男女比例為2:1(1002:1(100男男:50:50女女) ),男身高平均,男身高

34、平均70inches(70inches(標準差標準差3inches)3inches),女身高平均,女身高平均67inches(67inches(標準差標準差 33inches)inches)。計算計算 =68.5(inches)60多变量分析期中报告右表為右表為hits-and-misseshits-and-misses(confusionmatrix)(confusionmatrix)分類效果良好:分類效果良好:7373個男生與個男生與3434個女生歸類正確,所以命中率為個女生歸類正確,所以命中率為107/150=71.3%107/150=71.3%。男人命中率為男人命中率為73/89=82

35、%73/89=82%女人命中率為女人命中率為34/61=55.7%34/61=55.7%61多变量分析期中报告當群組大小不一樣時,當群組大小不一樣時,cutoffscorecutoffscore計算如計算如右:右:此式可以降低歸類錯誤的機率。此式可以降低歸類錯誤的機率。以此式計算如下:以此式計算如下:命中率從命中率從71.3%71.3%上升到上升到112/150=74.7%112/150=74.7%62多变量分析期中报告比例機會效標比例機會效標(ProportionalChanceCriterion)(ProportionalChanceCriterion)不使用任何自變數的資訊,單純根據群組

36、大小歸類不使用任何自變數的資訊,單純根據群組大小歸類指派觀察指派觀察值到到Group1Group1的機率為的機率為 p p指派觀察指派觀察值到到Group2Group2的機率為的機率為(1-p)(1-p)。63多变量分析期中报告以上例以上例MBAMBA學生來學生來說明:明:P=100/(100+50)=2/3P=100/(100+50)=2/3則預期歸類正確數量為則預期歸類正確數量為所以命中率為所以命中率為83.3/150=55.583.3/150=55.5使用自變數的資訊是否顯著提升命中率呢使用自變數的資訊是否顯著提升命中率呢? ?計算標準計算標準差差以以來檢定來檢定結果為顯著,支持學生身高

37、資訊使我們可以區分學結果為顯著,支持學生身高資訊使我們可以區分學生性別。生性別。64多变量分析期中报告配適模型的命中率的潛在配適模型的命中率的潛在偏誤偏誤區別函數之命中率可能區別函數之命中率可能產生偏誤生偏誤(over(overfitting)fitting),可採用訓練樣本配模型,而使用,可採用訓練樣本配模型,而使用保留樣本保留樣本(holdoutsample)(holdoutsample)來驗證區別模式來驗證區別模式的績效。的績效。當沒有足當沒有足夠樣本來分割樣本做效度驗證時,樣本來分割樣本做效度驗證時,可使用可使用Jackknifevalidation(U-method)Jackknif

38、evalidation(U-method)。65多变量分析期中报告配適模型的命中率的潛在配適模型的命中率的潛在偏誤偏誤因為偏誤較易發生在少量觀察因為偏誤較易發生在少量觀察值與較多的獨與較多的獨立變數時。立變數時。以一個例子以一個例子說明之:明之:2020個觀察個觀察值(n1=n2=10)(n1=n2=10)1010個獨立變數個獨立變數( (隨機數字隨機數字產生生, ,母體區別函數母體區別函數真實命中率不會超過真實命中率不會超過50%)50%)66多变量分析期中报告右圖為右圖為hits-and-misseshits-and-misses顯示出命中率有顯示出命中率有90%90%且且Proporti

39、onalchanceProportionalchancecriterioncriterion為顯著為顯著。p0.01p0.01右表為右表為jackknifedhits-jackknifedhits-and-missand-miss,給予我們,給予我們較好的評估歸類效果較好的評估歸類效果67多变量分析期中报告12.4.4如何使用區別函數去預測?如何使用區別函數去預測?區別分析目的之一為預測,即依據獨立區別分析目的之一為預測,即依據獨立變數的資訊來歸類觀察變數的資訊來歸類觀察值。許多因素會影響歸類決策,例如歸類錯誤成許多因素會影響歸類決策,例如歸類錯誤成本,例如:本,例如:將將Group1Grou

40、p1觀察觀察值錯誤歸類到錯誤歸類到Group2Group2的成本為的成本為Group2Group2觀察觀察值錯誤歸類到錯誤歸類到Group1Group1的的1010倍,則歸倍,則歸類會較傾向錯誤成本較小的一方。類會較傾向錯誤成本較小的一方。68多变量分析期中报告12.4.4如何使用區別函數去預測?如何使用區別函數去預測?我們可使用我們可使用BayesianapproachBayesianapproach去處理歸去處理歸類類問題。問題。假設資料為多變量常態分配,並假設各群母假設資料為多變量常態分配,並假設各群母體組體組內共變異數矩陣為相同。共變異數矩陣為相同。69多变量分析期中报告同樣,群同樣,

41、群組二為:組二為:70多变量分析期中报告使用使用BayessBayess定理,得到定理,得到為了歸類為了歸類,檢檢查上述兩個式的比率,假如比上述兩個式的比率,假如比率大於一,則將觀察率大於一,則將觀察值指派到指派到Group1Group1。比率為比率為71多变量分析期中报告取取loglog產生生= =為費雪法的區別分數為費雪法的區別分數t t為馬氏法的兩群組的等距點為馬氏法的兩群組的等距點將將t=t=與與替代上式得出替代上式得出72多变量分析期中报告上面分析可以擴展到包含不對上面分析可以擴展到包含不對稱錯誤分類成本稱錯誤分類成本假如假如指分類到指分類到Group1Group1, 但實際為但實際

42、為Group2Group2所所產生的成本,則決策法則變為:生的成本,則決策法則變為:73多变量分析期中报告BooksbyMailExampleBooksbyMailExample以以BooksbyMailBooksbyMail為例,公司再次發出促銷信給為例,公司再次發出促銷信給10001000名顧客名顧客( (隨機選取,與第一次的隨機選取,與第一次的10001000名顧客不名顧客不重複重複),當為,當為holdoutdataholdoutdata,以測試區別函數的,以測試區別函數的預測能力。結果收到預測能力。結果收到8181位顧客回函購買。位顧客回函購買。問題:該如何使用第一次樣本的區別函數來

43、定義第問題:該如何使用第一次樣本的區別函數來定義第二次樣本的潛在購買者二次樣本的潛在購買者 ? ?可以使用可以使用使用截斷使用截斷值(cutoff(cutoffscore)score),結果如下:,結果如下:74多变量分析期中报告依據結果,我們將依據結果,我們將郵寄郵寄2525顧客,但是顧客,但是我們命中率有我們命中率有56%56%。(14/25=56%)(14/25=56%)考慮錯誤歸類成本,考慮錯誤歸類成本,舉例:製作促銷信及郵資的變動成本為舉例:製作促銷信及郵資的變動成本為$1$1顧客買書帶來的純益為顧客買書帶來的純益為$6$6(機會成本機會成本)依據依據 為指派法則,改變為指派法則,改

44、變cutoff,結果為:,結果為:75多变量分析期中报告上表可算出純益為上表可算出純益為$6*14-$1*11=$73$6*14-$1*11=$73考慮錯誤分類成本考慮錯誤分類成本後,依右表可算出純益為後,依右表可算出純益為$6*40-$1*102=$138$6*40-$1*102=$138結果:擴展目標客結果:擴展目標客戶群到群到15%15%,純益增加一倍。,純益增加一倍。76多变量分析期中报告12.512.5多重區別分析:原理多重區別分析:原理12.5.1Intuition-Fishers12.5.1Intuition-Fishersapproachapproach費雪法費雪法(Fishe

45、rsApproach)(FishersApproach):多重區別分析與簡單區別分析目標一樣。多重區別分析與簡單區別分析目標一樣。惟一要改變的是,需要比一個更多的依變惟一要改變的是,需要比一個更多的依變數去代表群體的組成數去代表群體的組成。舉例:。舉例:Y Y1 1=1=1代表群代表群1 1,0 0為其他群體為其他群體Y Y2 2=1=1代表群代表群2 2,0 0為其它群體為其它群體當當Y Y1 1=0=0、Y Y2 2=0=0,則代表群,則代表群3 3。77多变量分析期中报告12.5.1Intuition12.5.1IntuitionFishersApproachFishersApproac

46、h使用同樣目標函數,使組間差異相對於組使用同樣目標函數,使組間差異相對於組內差異為最大。推導:差異為最大。推導: 多群組需要多群組需要兩個以上的區別函數兩個以上的區別函數去解去解決區別問題。決區別問題。第一階微分78多变量分析期中报告12.5.1Intuition12.5.1IntuitionFishersApproachFishersApproach例:例:右圖有三個群組與兩個變右圖有三個群組與兩個變數,與相同數目的觀察數,與相同數目的觀察值。群組一與群組二、三有群組一與群組二、三有明顯區別。明顯區別。圖圖(12.15)(12.15)79多变量分析期中报告右圖群組一與群組右圖群組一與群組二、

47、三有明顯區分,但二、三有明顯區分,但二與三群組卻不明顯。二與三群組卻不明顯。群組二、三,中心垂直群組二、三,中心垂直於區別函數軸,幾乎快於區別函數軸,幾乎快一樣。一樣。80多变量分析期中报告右圖右圖Group2Group2與與3 3的區別的區別能力不佳,因為從重疊能力不佳,因為從重疊部分太多,組間差異相部分太多,組間差異相對於組對於組內差異不大。差異不大。費雪法有時稱為費雪法有時稱為典型區別分析典型區別分析。當兩個以。當兩個以上群組時,費雪法不易處理上群組時,費雪法不易處理歸類,此時,馬氏距,此時,馬氏距離法較容易使用。離法較容易使用。81多变量分析期中报告12.5.1Intuition12.

48、5.1IntuitionMahalanobissApproachMahalanobissApproachMahalanobissapproachMahalanobissapproach處理多個群組的歸類時處理多個群組的歸類時較為簡易,但不是尋找與各群組中心等距離點的較為簡易,但不是尋找與各群組中心等距離點的軌跡,而是只計算觀察軌跡,而是只計算觀察值到到各群心的距離,並各群心的距離,並指指派觀察派觀察值到最近距離的群組到最近距離的群組。82多变量分析期中报告n若群組大小不同,即事前機率(prior)不同時,則前述馬氏距離的歸類方法可改為利用貝氏定理計算事後機率,並將觀察值歸類到有最大事後機率的群

49、組83多变量分析期中报告有有G G個群體,事後機率觀察個群體,事後機率觀察值屬於屬於groupggroupg,為:為:若資料為多變量常態分配,則為:若資料為多變量常態分配,則為:整理上述兩方程式得出:整理上述兩方程式得出:依據事後機率,分配觀察依據事後機率,分配觀察值到適當群組。到適當群組。84多变量分析期中报告12.5.2 MechanicsRelationship to Canonical Correlation多元區別分析是典型相關分析的特例。多元區別分析是典型相關分析的特例。典型相關分析與多元區別分析的特徵根有明典型相關分析與多元區別分析的特徵根有明確關係。確關係。典型相關分析的目標函

50、數為典型相關分析的目標函數為WT-1,而多元區別分析則為而多元區別分析則為W-1A。85多变量分析期中报告從從典型相關分析典型相關分析,我們知道:,我們知道:W-1A 的特徵根為:的特徵根為:W-1(A+W) 的特徵根為:的特徵根為:W (A+W) -1 的特徵根為:的特徵根為:所以所以: 86多变量分析期中报告WilksWilks,可計算如下:,可計算如下:使用使用(12.65)(12.65),可以從多元區別分析的,可以從多元區別分析的值寫寫成:成:87多变量分析期中报告12.6 SAMPLE PROBLEM:REAL ESTATE一、一、 資料:資料:multiple-listingser

51、vicemultiple-listingservice(MLS)(MLS), 舊金山灣區的三個地方,在舊金山灣區的三個地方,在19861986年某月,從供銷售的年某月,從供銷售的single-single-familyfamily房子中隨機抽樣房子中隨機抽樣3535棟房子:棟房子:1.LosAltos1.LosAltos:9棟棟 2.MenloPark2.MenloPark:13棟棟3.PaloAlto3.PaloAlto:13棟棟88多变量分析期中报告對於每個對於每個listinglisting依照三個特徵收集資料,分依照三個特徵收集資料,分別為:別為:1.1.房屋要價房屋要價2.2.房間數

52、房間數3.3.面積面積( (平方英呎平方英呎) )問題問題:1.1.這三個社區在三個特徵上,是否有顯著差這三個社區在三個特徵上,是否有顯著差異異? ?2.2.如果是的話,如何描述這些社區間的差如果是的話,如何描述這些社區間的差異異? ?3.3.需要多少區別函數與如何解釋它們呢需要多少區別函數與如何解釋它們呢? ?89多变量分析期中报告Results對於這對於這些資料些資料,我們進行兩種分析:我們進行兩種分析:第一:決定費雪第一:決定費雪(fishers)(fishers)區別函數。區別函數。這個典型區別分析提供我們必要資訊,以檢這個典型區別分析提供我們必要資訊,以檢定區別函數的顯著性,及各群群

53、心差異的顯定區別函數的顯著性,及各群群心差異的顯著性。著性。90多变量分析期中报告SASSAS程式運用程式運用91多变量分析期中报告第二:使用馬式距離法評估歸類績效第二:使用馬式距離法評估歸類績效( (使用使用jackknifejackknifeholdoutholdout法法)。在分析開始之前,我們必須先檢定是否線性區在分析開始之前,我們必須先檢定是否線性區別函數是適當的。各組間共變異數矩陣為:別函數是適當的。各組間共變異數矩陣為:檢定統計量在檢定統計量在0.10.1水準下不顯著,建議使用線水準下不顯著,建議使用線性區別函數。性區別函數。92多变量分析期中报告SPSS程式補充93多变量分析期

54、中报告典型分析結果典型分析結果因為我們有兩個指標變數與三個獨立變數,因為我們有兩個指標變數與三個獨立變數,區別函數為二。區別函數為二。回想回想(12.56)(12.56),eigenvalueeigenvalue等於每個等於每個區別函數目標函數區別函數目標函數值。右表:。右表:顯示出第一個區別函數比第二顯示出第一個區別函數比第二個更能區分各組間的觀察個更能區分各組間的觀察值。94多变量分析期中报告右表右表12.1312.13呈現兩區別函呈現兩區別函數的區別函數係數數的區別函數係數值,。有關於。有關於整個樣本整個樣本的共變異數矩陣,係數的共變異數矩陣,係數標準化,也可以標準化,也可以說為,為,K

55、=K=為為= =總樣本共變異數矩總樣本共變異數矩陣。陣。另外描述的另外描述的K K方法為使用方法為使用組組內共變異數矩陣,為共變異數矩陣,為,可避免兩可避免兩組間平均差異的影響。組間平均差異的影響。95多变量分析期中报告觀察右表獨立變數觀察右表獨立變數x與區別與區別函數之相關係數,與上述提函數之相關係數,與上述提到之標準化係數,發現:到之標準化係數,發現:1.第一個區別函數主要反應第一個區別函數主要反應供出售房子的坪數大小,供出售房子的坪數大小,(與房屋價格有密切關係與房屋價格有密切關係 )。2. 第二個區別函數主要反第二個區別函數主要反應出房子的房間數。應出房子的房間數。96多变量分析期中报

56、告下表為各組中心的區別函數分數,可以了解下表為各組中心的區別函數分數,可以了解各組間的差異。各組間的差異。舉例來講:舉例來講:知道第一個區別函數主要與面積及價格知道第一個區別函數主要與面積及價格有相關,觀察右表發現有相關,觀察右表發現Los Alots與與Menlo Park及及Palo Alto有差異,因為備供出售的房有差異,因為備供出售的房子有較高坪數以及價格。子有較高坪數以及價格。97多变量分析期中报告第二個區別函數支持第二個區別函數支持Palo Alto頃向於有較小頃向於有較小的房間數目,相對於的房間數目,相對於Menlo Park。但也很明顯,第二個區別函數績效是比第二但也很明顯,第

57、二個區別函數績效是比第二個區別函數還要弱的。個區別函數還要弱的。98多变量分析期中报告SASSAS程式運用程式運用99多变量分析期中报告下圖表示將資料描繪於區別函數空間,可以下圖表示將資料描繪於區別函數空間,可以發現:發現:1.Los Alots房子與其他地區的房子,在一房子與其他地區的房子,在一個區別函數間有很清楚的區分。個區別函數間有很清楚的區分。2.在第二個區別函數,在第二個區別函數,Menlo Park與與 Palo Alto房子的區別能力較弱。房子的區別能力較弱。100多变量分析期中报告n Plot of Can2*Can1. Symbol is value of place.nCa

58、n2 |n 2.0 +n |n | 3n | 2n |n 1.5 + 2 1n | 2 2n | 2 1n |n |n 1.0 + 2n |n | 1n |n | 1n 0.5 +n | 2n | 2n |n | 3n 0.0 + 32n | 3 2n | 3 1n | 3n |n-0.5 + 3 3n |n | 1n | 1 3n | 1n-1.0 + 3n | 3n | 1n | 2n |n-1.5 + 3n |n | 3n |n |n-2.0 + 2n -+-+-+-+-+-+-+-n -2 -1 0 1 2 3 4n Can1nNOTE: 1 obs hidden.1=LA2=MP3=

59、PA101多变量分析期中报告Mahalanobiss approach也以也以holdout validation approach(12.4.3所所描述描述) 來對照。來對照。以下為分析結果以下為分析結果:102多变量分析期中报告103多变量分析期中报告Jackknifed Validation104多变量分析期中报告1.1.整整體樣本區別函數的命中體樣本區別函數的命中(7+8+8)/35=66%(7+8+8)/35=66%,HoldoutvalidationHoldoutvalidation為為(4+7+7)/35=51%(4+7+7)/35=51%。2.2.雖然雖然holdoutmeth

60、odholdoutmethod分類準確僅為勉強超過分類準確僅為勉強超過50%50%,但依然我們預期的比率機會效標,但依然我們預期的比率機會效標 (proportionalchancecriterion)(proportionalchancecriterion)顯著的高。顯著的高。預期區分正確的數目,從公式為:預期區分正確的數目,從公式為: 計算得:計算得:105多变量分析期中报告12.712.7應用複區別分析之相關問題應用複區別分析之相關問題12.7.112.7.1如何檢定各群組平均之顯著如何檢定各群組平均之顯著差異差異? ?當區別分析包含兩個群組時,可以使用當區別分析包含兩個群組時,可以使用

61、 Hotellings去檢定群組中心的差異去檢定群組中心的差異。但當有三組群組時,我們使用但當有三組群組時,我們使用11章的變異數分析來分章的變異數分析來分析。析。在在ANOVA中,我們測試各組平均差異藉由觀察比例:中,我們測試各組平均差異藉由觀察比例:組組內平方和平方和/總平方和總平方和。假如總平方和沒有比組假如總平方和沒有比組內平方和大很多平方和大很多(比率接近比率接近1) ,表示組間平方和接近於表示組間平方和接近於0,沒有重大差異在組之間。,沒有重大差異在組之間。106多变量分析期中报告MANOVAMANOVA,當各組有關於多於一個變數來衡,當各組有關於多於一個變數來衡量,使用量,使用來

62、分析組來分析組內變異是否比組間變異變異是否比組間變異要小。也可用來檢定多元區別分析各群群心之顯著要小。也可用來檢定多元區別分析各群群心之顯著差異。差異。我們可以區別分析的我們可以區別分析的eigenvalueeigenvalue來寫來寫:Bartlettschi-squareteststatisticforBartlettschi-squareteststatisticforNowbecomesNowbecomes:自由度為自由度為p(G-1)pp(G-1)p為獨立變數為獨立變數G G為群組數目。為群組數目。 107多变量分析期中报告使用上述方法來檢定這三個地區的差異。使用上述方法來檢定這三個

63、地區的差異。H H0 0: :這三個地區無差異。這三個地區無差異。n=35,p=3,G=3n=35,p=3,G=3自由度為自由度為6 6,有顯著差異。,有顯著差異。108多变量分析期中报告12.7.212.7.2如何決定顯著的如何決定顯著的區別函數的區別函數的數目數目? ?在多元區別分析中,我們減少構面來簡化在多元區別分析中,我們減少構面來簡化問題問題。雖然有很多群組與自變數,只有少數雖然有很多群組與自變數,只有少數典型區別函數是顯著的典型區別函數是顯著的。我們可運用的我們可運用的BartlettsVBartlettsV統計量循序檢統計量循序檢定出顯著的區別函數。定出顯著的區別函數。109多变

64、量分析期中报告BartlettsVBartlettsV為為 WilksWilks的函數,使用多元區別的函數,使用多元區別分析分析產生的生的eigenvalueeigenvalue。為了檢定第二條典型區別函數之顯著性,我們移除第為了檢定第二條典型區別函數之顯著性,我們移除第一個一個eigenvalueeigenvalue,重新計算,重新計算WilksWilks及及BartlettsBartlettsVV統計量統計量值。同時減少群組數目與獨立變數同時減少群組數目與獨立變數( (各減少一個各減少一個) )來調來調整自整自由度。由度。110多变量分析期中报告使用使用realestatelistingdatarealestatelistingdata來來說明,如明,如上所述兩個正典區別函數為顯著上所述兩個正典區別函數為顯著0.0010.001的水準的水準下:下:假如我們現在移除第一個區別函數:假如我們現在移除第一個區別函數:計算計算V=34-1ln(1.155)=4.76V=34-1ln(1.155)=4.76自由度為自由度為(p-1)*(G-2)=2(p-1)*(G-2)=2,在,在p=0.1p=0.1水準下勉強顯著。水準下勉強顯著。111多变量分析期中报告 END112多变量分析期中报告

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号