《让数字会说话三》PPT课件.ppt

资源描述

《《让数字会说话三》PPT课件.ppt》由会员分享，可在线阅读，更多相关《《让数字会说话三》PPT课件.ppt（58页珍藏版）》请在金锄头文库上搜索。

1、多元迴歸多元迴歸Multiple RegressionMultiple Regression 量化研究法二統計原理與分析技術第第16章章簡單迴歸與多元迴歸簡單迴歸與多元迴歸Simple and Multiple regression基本定義簡單迴歸：以單一自變項去解釋（預測）依變項的迴歸分析多元迴歸：同時以多個自變項去解釋（預測）依變項的迴歸分析各變項均為連續性變項，或是可虛擬為連續性變項者方程式簡單迴歸：Y=b1x1+a多元迴歸：Y=b1x1+b2x2+b3x3+bnxn+a多元迴歸的特性：對於依變項的解釋與預測，可以據以建立一個完整的模型。各自變項之間概念上具有獨立性，但是數學上可能是非

2、直交（具有相關）自變項間的相關對於迴歸結果具有關鍵性的影響。2預測與解釋預測與解釋預測型迴歸主要目的在實際問題的解決或實務上的應用從一組獨變項中，找出最關鍵與最佳組合的迴歸方程式，產生最理想的預測分數獨變項的選擇所考慮的是要件為是否具有最大的實務價值，而非基於理論上的適切性最常用的變項選擇方法是逐步迴歸法（stepwise regression）解釋型迴歸主要目的則在瞭解現象的本質與理論關係，也就是探討獨變項與依變項的關係檢驗變項的解釋力與變項關係，對於依變項的變異提出一套具有最合理解釋的迴歸模型理論的重要性不僅在於決定獨變項的選擇與安排，也影響研究結果的解釋最常用的變項選擇方法是為同

3、時迴歸法（simultaneous regression）或階層迴歸法（hierarchical regression） 3多元迴歸的資料結構多元迴歸的資料結構4多元相關多元相關R：多元相關（multiple correlation）依變項的迴歸預測值（Y）與實際觀測值（Y）的相關 R2：多元相關平方表示Y被X解釋的百分比，是一種機率的概念簡單迴歸中，僅有一個獨變項，R=r， R2 =r2多元迴歸中，有多個獨變項，Rr， R為多個獨變項的線性整合分數與依變項的相關5多元迴歸方程式多元迴歸方程式迴歸模型：對於依變項的迴歸方程式6迴歸變異量拆解與迴歸變異量拆解與F考驗考驗依變項的變異可拆解成迴

4、歸效果與誤差效果殘差為估計變異誤，開方即得估計標準誤迴歸解釋力的統計顯著性，可利用F考驗來檢驗。分子為迴歸解釋變異數（SSreg/dfreg），分母為誤差變異數（SSres/dfres），相除得到F值。 7多元迴歸的參數檢定多元迴歸的參數檢定迴歸分析的檢定整體考驗對於R2的F考驗事後考驗對於個別解釋變數的顯著性考驗：t test若R2具有統計顯著性，需進行參數的估計檢定，來決定各獨變項的解釋力 8 係數係數標準化迴歸係數b係數去除單位效果（乘以自變項標準差，除以依變項標準差）表示其他解釋變數被控制後的淨解釋力（邊際解釋力） 9迴歸的基本假設迴歸的基本假設基本假設一基本假設一:固定自變項假

5、設（固定自變項假設（fixed variable）自變項是研究者在進行研究之初，所指定會影響依變數的主要變數，其選用並非隨機選擇得來，因此，如果一個研究可以被重複驗證，特定自變數的特定數值應可以被重複獲得，然後得以此一群特定的X變數值(自變數)代入方程式而得到預測值。我們關心的是依變項，是否能夠找到重要的自變項來對依變項加以闡釋，因此我們假設可以找到這些變項的重要數據。10基本假設二基本假設二 : 線性關係假設（線性關係假設（linear relationship） -當X們與Y的關係被納入研究之後，迴歸分析必須建立在Y與X變項們之間具有線性關係的假設上。 -非線性的變項關係，需將數據進行數

6、學轉換才能視同線性關係來進行迴歸分析(非線性迴歸)，而類別自變項則需以虛擬變項的方式，將單一的類別自變項依各水準分成多個二分的自變項，以視同連續變項的形式來進行(虛擬回歸)。 -回歸係數是線性。11基本假設三基本假設三:常態性假設（常態性假設（normality） -常態性的假設係指迴歸分析中的所有觀察值Y被迴歸方程式解釋剩下的殘差是一個常態分配，即Y來自於一個呈常態分配的母群體。因此經由迴歸方程式所分離的誤差項e，即由特定群Xi特定值所預測得到預測值的與實際Yi之間的差距，也應呈常態分配。 -誤差項e的平均數為0是個假設。 -此假設是為了迴歸係數的檢定。 12基本假設四基本假設四: 誤差獨立

7、性假設誤差獨立性假設（independence）誤差項除了應呈隨機化的常態分配外，不同特定值X所產生預測值的誤差之間應相互獨立，無相關存在，也就是無自我相關（non-autocorrelation），而誤差項也需與自變項X們相互獨立。當誤差項出現自我相關，無法獲得有效的參數估計值(有效:估計參數的變異數)，降低統計檢定力，易得到不顯著的結果。13基本假設五基本假設五:誤差等分散性假設或稱同質性誤差等分散性假設或稱同質性（homoscedasticity）誤差等分散性(a)與誤差變異歧異性(b)圖示 14基本假設六基本假設六:無多重共線性假設無多重共線性假設 -在多元迴歸分析，若自變項間相關程

8、度過高，不但自變項之間的概念區隔模糊，難以解釋之外，在數學上會因為自變項間共變過高，造成自變項標準誤膨脹的扭曲現象，這種自變項間過度高相關稱為多重共線性（multi-collinearnality），迴歸分析應避免多重共線性的存在。 -多重共線性若明顯的情況下，迴歸所計算出的參數值，變異量嚴重膨脹，使得參數估計的變異數(標準差)過大，進一步造成推論上的問題，如信賴區間擴大，導致第一類型錯誤，或是迴歸係數檢定不容易顯著。15多元共線性（多元共線性（mulitlinearility）獨變項間的多重相互關係16多元共線性的檢驗對於某一個自變項共線性的檢驗，可以使用容忍值（tolerance）或變異數

9、膨脹因素（variance inflation factor, VIF）來評估。 Ri2為某一個自變項被其他自變項當作依變項來預測時，該自變項可以被解釋的比例，1- Ri2（容忍值）為該自變項被其他自變項無法解釋的殘差比 Ri2比例越高，容忍值越小，代表預測變項不可解釋殘差比低，VIF越大，即預測變項迴歸係數的變異數增加，共變性越明顯。整體迴歸模式的共線性診斷可以透過特徵值（eigenvalue）與條件指數（conditional index; CI）來判斷。各變量相對的變異數比例（variance proportions），可看出自變項之間多元共線性的結構特性。當任兩變項在同一個特徵值上的

10、變異數比例接近1時，表示存在共線性組合。 17解釋型迴歸分析解釋型迴歸分析目的利用多元迴歸程序來進行變項間關係的釐清與相對比較的迴歸應用變數選擇多利用同時進入法，稱為同時迴歸（simultaneous regression）程序選擇自變數與依變數報告變數的描述統計量與相關矩陣檢驗自變數的多元共線性與其他假設報告迴歸模型解釋力（R2）與顯著性考驗（整體考驗）進行個別自變數的顯著性考驗（事後考驗）個別變數解釋力（beta係數）的報告與比較 18範例範例表16.5 六十位科學競賽活動參賽者背景資料與各種測量數據19分析結果分析結果表16.6 科學競賽資料的同時迴歸法估計結果與模式摘要20預測型迴歸

11、分析預測型迴歸分析目的藉由迴歸模型的建立，研究者或實務工作者得以發展出一套對於依變項的預測系統透過有效的變項選擇程序，以確立迴歸方程式預測誤差的評估與計算，以及預測分數如何反應誤差的影響迴歸模型的推論效力問題變數選擇多利用逐步進入法，稱為逐步迴歸（stepwise regression）程序決定自變數與依變數報告變數的描述統計量與相關矩陣排除無效變數，保留有效變數，建立多元迴歸方程式向前法：各自變項與依變項相關高低逐一被選入向後法：自變項全部進入模型，再將沒有解釋力的變數淘汰逐步法：合併向前法與向後法，逐一納入自變數，同時也淘汰沒有解釋力的變數報告迴歸模型解釋力（R2）與顯著性考驗（

12、整體考驗）進行分數預測與區間估計21逐步迴歸分析結果（逐步迴歸分析結果（向前法向前法）22逐步迴歸分析結果（逐步迴歸分析結果（向後法向後法）23範例小結範例小結以向前法、向後法、逐步法，得到的結果都相同最佳方程式包含有X2、X6、X1三個獨變項，可以解釋依變項變異的82.6%（R2=.826）多元迴歸方程式：24逐步法與同時法比較逐步分析法較同時進入法可以找到最有預測力的變項，同時也可以避免共線性的影響，適合做探索性的研究使用。逐步法適合用以預測性研究，協助建立最佳預測模型逐步法是以統計程序處理變項重要性，在理論解釋性研究缺乏基礎同時法的優點則是可以從整體效果模式中看到所有自變項的效果，

13、每一個自變項的解釋力皆被考慮與呈現。 25分數的預測分數的預測依變項平均數估計標準誤（standard error of mean predicted score）個別觀察值估計標準誤（standard error of individual score） 26範例範例科學實作能力（X）對於參賽成績（Y）的簡單迴歸 X=50，Y=38.126X的平均數（的平均數（71.545），Y預測預測值值為為54.1027複核效化複核效化複核效化（cross-validation）指測量或分析的結果具有跨樣本或跨情境的有效性。迴歸模型的類化能力樣本依賴性：迴歸模型僅能應用於建立迴歸模型的該樣本所代表的

14、母體複核效化是將在某一個樣本上所得到迴歸模型參數，以另一個樣本的觀察資料來重新檢驗模型的解釋力Shrinkage（縮動）某一個迴歸模型從當初建立的樣本，應用到另一個樣本時，模型解釋力通常會降低以原來迴歸建立時的解釋力數據去套用到新樣本時，會產生高估現象。當獨變項越多，樣本數越少的情況下（也就是變項/樣本比越大時），高估現象越嚴重樣本數變數與樣本數比：1:15到1:30之間，類化能力較為穩定一個獨變項要有15到30個樣本，10個獨變項的迴歸模型，應有150到300個受測者，類化能力較為穩定 28複核效化的程序複核效化的程序Stevens, 1996建議程序將樣本隨機分成兩個樣本，先利用其中

15、一個樣本進行模型發展，另一個樣本作為檢查樣本，重新評估模型的解釋力檢核樣本（screening sample）建立模型的樣本測定樣本（calibration sample）或效度樣本（validation sample）檢驗類化能力的樣本操作程序由檢核樣本所得到迴歸方程式，然後以該方程式帶入測定樣本的預測變數值，得到依變項預測值Y複核效度指標：測定樣本的依變項觀察值（Y）與預測值（Y）的相關係數亦可直接比較兩個樣本的解釋力的差異（R2）複核效化解釋力係數Pedhazur（1997） 29階層迴歸分析階層迴歸分析目的將獨變項以分層來處理，所進行的多步驟多元迴歸分析一種整合性的多層次分析策

16、略，兼具統計決定與理論決定的變項選擇程序自變數的分組，依照研究者的需要或理論上的概念區分成不同的區組（block），然後依照特定的次序投入模型中理論組合（theoretical sets）各區組的決定，是以理論的觀點進行組合功能組合（functional sets）各區組的決定，是以自變數的功能與性質進行組合例如人口變項的組合、社經地位的指標的組合時間序列組合（time-series sets）各區組的決定，是以研究設計的觀點，越早進入者，表示是影響他人的因，較晚者則為被影響的果結構組合（structural sets）指獨變項的組合是基於變項間的組成關係例如類別變項的虛擬化處理操作

17、方法各區組內可以僅有一個獨變項或多個變項多變項的區組內，各變項進入方程式方法則可為同時法或逐步法30表16.10 階層迴歸分析各區組模型摘要與參數估計值 31Basic assumptions to regressionAssumptionsAssumptions for residuals (error scores)Zero MeanHomoscedasticIndependence with predictorsNormalityAssumptions for specification errorsLinear relationshipAll relevant predictors m

18、ust be includedNo irrelevant predictors can be includedAssumptions for measurement errorsRelevant measurement procedures and variable selectionsProvidence of the goodness index of measurement32Issues in RegressionMulticollinearityTheoretical issuesAnalytic or Technical issuesMeasurement issuesCatego

19、rical variable as predictorsEffect codingDummy codingType of regression analysisDetermination of selection procedures of predictorsSimultaneous regressionStepwise regressionHierarchical regressionControlling for Type I and II errorLess is moreTheoretical considerationMeasurement consideration33Misus

20、age and threaten factors for correlation coefficientConclusion of causal effectsRestricting or Irrelevant range of variablesUnderestimation due to limited variance of variableSpurious correlationCorrelation due to common causeInfluences of Nuisance variablesConfounding effects due to the third varia

21、blesSuppressor variable: Irrelevant variance can be SuppressedSkewness to normalityInfluences of extreme scoresPoor measurement attributesLow reliabilityPoor validityIrrelevant criterion variablesViolation of assumption of linear relationshipMisuse of non-continuous variables34線性關係分析：路徑分析線性關係分析：路徑分析

22、Path Analysis路徑分析基本原理路徑分析基本原理一種用以探討多重變項之間因果結構模式的統計技術最初由遺傳學家Wright於1921年所提出，至1960年代才廣泛受到重視路徑分析由一系列的迴歸分析所組成，除了借用迴歸方程式的原理，並透過假設性的架構，將不同的方程式加以組合，形成結構化的模式 36路徑分析的基本概念路徑分析的基本概念結構方程式（structural equation）構成路徑模型的數學方程式，外衍與內衍變項之間的關係係數bi，稱為路徑係數（path coefficient）。外衍變項(exogenous variable) 模型中作為影響或解釋其他變項的變異量的變項

23、。其變異量由不屬於路徑模型的其他變項所決定。內衍變項(endogenous variable)模型中被他人所影響或解釋的變項。其變異量由外衍變項及殘差（干擾）變異量兩部分。干擾變異(disturbances) 內衍變項無法被外衍變項解釋的部分37中介作用（中介作用（Mediation）Mediation（indirect effect）Occur when the causal effect of an independent variable(X) on a dependent variable (Y) is TRANSMITTED by a mediator (M).Mediator a

24、ccounts for the relationship b/w two other variables (Baron & Kenny, 1986)sab is given by Aroian (1944), Mood, Graybill, & Boes (1974), Sobel(1982)38故事一：多拉故事一：多拉A夢追星族夢追星族誰是多啦誰是多啦A夢的粉絲族？夢的粉絲族？性別喜歡小叮噹的程度年齡成績童心Y=b1X1+b2X2+b3X3+b4X4+a40任意門的鑰匙*範例一範例一.Data list free /id like gender age gpa child.Begin dat

25、a.1 8 0 30 1 102 7 0 24 3 93 5 1 39 2 44 5 1 25 2 65 8 1 19 3 96 1 0 45 2 17 2 1 35 2 58 9 0 30 1 10End data.Variable labels like 喜歡程度喜歡程度 gender 性別性別 age 年齡年齡 gpa 成績表現成績表現 child 童心童心.Value labels gender 0 女女 1 男男 /gpa 1 前段前段 2 中段中段 3 後段後段.desc var=all.Correlation variables like gender age gpa child

26、.REGRESSION /DEPENDENT like /METHOD=ENTER gender age gpa child .Exe.誰是多啦誰是多啦A A夢的粉絲族？夢的粉絲族？42誰是多啦誰是多啦A A夢的粉絲族？夢的粉絲族？43This is a Regression Model性別年齡成績童心喜歡小叮噹.022.064.000.982這是最好的模型嗎？44誰是多啦誰是多啦A夢的粉絲族？夢的粉絲族？這樣可以嗎？性別年齡成績童心喜歡小叮噹.022.064.000.982-.388-.983-.27745誰是多啦誰是多啦A夢的粉絲族？夢的粉絲族？這是我們的最終解答嗎？還有什麼別的嗎？性別年

27、齡成績童心喜歡小叮噹.982-.388-.983-.27746中介效果的成立與檢定中介效果的成立與檢定年齡童心喜歡小叮噹.926*-.788*中介效果基本條件(Judd & Kenny, 1981; Baron & Kenny, 1986; Muller, Judd, & Yzerbyt, 2005)C1: XY significant (-.714)C2: X Me significant (-.788)C3: Me Y significant (.926)C4: Add a Me, X Y non-sigificant (-.714 .043)-.714* .043.959*間接效果=-.

28、788(-.959)=-.76-.714-.043=-.76=(-.788)*(-.959)47誰是多啦誰是多啦A夢的粉絲族？夢的粉絲族？這個怎麼樣？EstimateS.E.C.R.P 標準化CHILD-GENDER-1.700.834-2.037.042-.28CHILD-AGE-.379.053-7.164*-.98CHILD-GPA-1.687.628-2.688.007-.39LIKE-CHILD.825.1276.482*.9348路徑分析的程序路徑分析的程序建立假設模型變項的選擇變項關係的決定模型的安排參數估計迴歸係數與R2的估計計算殘差變異數估計各種效果直接、間接與整體效果模型衍

29、生相關的計算與運用擬似相關的計算模型修飾（trimming a model）49路徑分析圖路徑分析圖50路徑分析的各種變項關係路徑分析的各種變項關係 51遞迴模型與非遞迴模型遞迴模型與非遞迴模型迴歸(非遞迴)模型(nonrecursive model)：因果關係是單一方向性，且殘差項是彼此獨立的殘差模型。非迴歸(遞迴)模型 (nonrecursive model)：允許相關的殘差(correlated-disturbance)，或是變項間具有回溯關係殘差。 52殘差變異數殘差變異數每一個內衍變項所不能被外衍變項解釋的部份以1減去R2乘以內衍變項的變異數，得到非標準化的殘差變異數(若不乘以內

30、衍變項變異數則是標準化的變異數) 53路徑分析效果估計路徑分析效果估計直接效果(direct effect) 顯著的外衍與內衍變項解釋關係，直接由迴歸係數表示間接效果(indirect effect)顯著的外衍與內衍變項解釋關係之間具有一個或多個中介變項(mediated variable)的作用內衍與外衍變項之間的直接效果均為顯著，若有任何一個直接效果不顯著，間接效果無法成立整體效果(total effect)間接與直接效果的加總54路徑係數的估計路徑係數的估計55路徑分析各項效果分解說明路徑分析各項效果分解說明 56模型衍生相關模型衍生相關 (model-implied or predi

31、cated correlation) 定義由模型推導出兩個變項的相關強度功能比較個別參數的優劣性：兩變項之間以理論假設求出的參數與實際觀測值的差距檢驗整體模型的契合度（加總模型中所有理論與實際觀測差距值）內容：自變項對於內衍變項的整體效果的迴歸係數數值非因果性關係的係數值(如相關係數) 計算的原理：軌跡法則(tracing rule)57模型衍生相關範例模型衍生相關範例自我效能與學業表現的衍生相關的軌跡:直接效果：自我效能學業表現=.29間接效果：自我效能成就動機學業表現=.13相關間接效果I：自我效能社會期待學業表現=.13.16=.02相關間接效果II：自我效能社會期待成就動機學業表現=.13.02.21=.00自我效能感對於學業成績的模型衍生相關： .29+.13+.02+.00=.44 將.44與原始的Pearson相關相比較58

展开阅读全文

《让数字会说话三》PPT课件.ppt

最新文档