應用統計工作坊(一) 讓數字會說話

1、迴歸分析Regression Analysis1 1簡單迴歸與多元迴歸 Simple and Multiple regressionl基本定義l簡單迴歸:以單一自變項去解釋(預測)依變項的迴歸分析l多元迴歸:同時以多個自變項去解釋(預測)依變項的迴歸分析l各變項均為連續性變項,或是可為虛擬為連續性變項者l方程式l簡單迴歸:Y=b1x1+al多元迴歸:Y=b1x1+b2x2+b3x3+bnxn+al多元迴歸的特性:l對於依變項的解釋與預測,可以據以建立一個完整的模型。l各自變項之間概念上具有獨立性,但是數學上可能是非直交(具 有相關)l自變項間的相關對於迴歸結果具有關鍵性的影響。2 2高等教育統

2、計研究高等教育統計研究迴歸分析的統計原理: 變異數拆解與F testl利用回歸方程式, 依變項Y變異量當 中可以被解釋的部 分稱為回歸變異量l無法被解釋的部分 稱為殘差變異量lSSy=SSreg+SSres迴歸離均差誤差原始離均差Xi3 3高等教育統計研究高等教育統計研究迴歸可解釋變異量比(R2) l迴歸可解釋變異量比,又稱為R2(R square),表示使用X 去預測Y時的預測釋力,即Y變項被自變項所解釋的比率。 反應了由自變項與依變項所形成的線性迴歸模式的契合度 (goodness of fit) l又稱為迴歸模型的決定係數(coefficient of determination) ,R

3、2開方後可得multiple R,為自變項與依變項的多元相關 。l此一數值是否具有統計上的意義,反映了此一迴歸分析或 預測力是否具有統計上的意義,必須透過F考驗來判斷 4 4高等教育統計研究高等教育統計研究Adjusted R2l以樣本統計量推導出來的R2來評估整體模式的解 釋力,並進而推論到母群體時,會有高估的傾向 l樣本數越小,越容易高估,解釋力膨脹效果越明 顯,樣本數越大,膨脹情形越輕微 l校正後R2(adjusted R2),可以減輕因為樣本估 計帶來的R2膨脹效果。當樣本數越小,應採用校 正後R2。 5 5高等教育統計研究高等教育統計研究迴歸係數(regression coeffic

4、ient)l迴歸方程式Y=bX+alB係數:l為一未標準化的迴歸係數,其意義為每單位X值的變動時 ,Y所變動的原始量lB係數適用於實務工作的預測數值的計算l係數:l如果將b值乘以X變項的標準差再除以Y變項的標準差,即 可去除單位的影響,並控制兩個變項的分散情形,得到新 的數值(Beta),為不具備特定單位的標準化迴歸係數l係數也是將X與Y變項所有數值轉換成Z分數後,所計算得到的迴歸方 程式的斜率,該方程式通過ZX,ZY的零點,因此截距為0。l係數具有與相關係數相似的性質,也就是介於-1至+1之間,其絕對值 越大者,表示預測能力越強,正負向則代表X與Y變項的關係方向。l係數適用於變項解釋力的比較

5、,偏向學術用途6 6高等教育統計研究高等教育統計研究多元共線性的檢驗l對於某一個自變項共線性的檢驗,可以使用容忍值(tolerance) 或變異數膨脹因素(variance inflation factor, VIF)來評估。 lRi2為某一個自變項被其他自變項當作依變項來預測時,該自變 項可以被解釋的比例,1- Ri2(容忍值)為該自變項被其他自變 項無法解釋的殘差比 lRi2比例越高,容忍值越小,代表預測變項不可解釋殘差比低, VIF越大,即預測變項迴歸係數的變異數增加,共變性越明顯。 l整體迴歸模式的共線性診斷可以透過特徵值(eigenvalue)與條 件指數(conditional i

6、ndex; CI)來判斷。l各變量相對的變異數比例(variance proportions),可看出自變 項之間多元共線性的結構特性。當任兩變項在同一個特徵值上的 變異數比例接近1時,表示存在共線性組合。 7 7高等教育統計研究高等教育統計研究Basic assumptions to regressionlAssumptionslAssumptions for residuals (error scores)lZero Mean lHomoscedastic lIndependence with predictors lNormality lAssumptions for specifica

7、tion errorslLinear relationship lAll relevant predictors must be included lNo irrelevant predictors can be included lAssumptions for measurement errorslRelevant measurement procedures and variable selections lProvidence of the goodness index of measurement8 8高等教育統計研究高等教育統計研究Issues in RegressionlMult

8、icollinearitylTheoretical issueslAnalytic or Technical issueslMeasurement issues lCategorical variable as predictorslEffect codinglDummy coding lType of regression analysislDetermination of selection procedures of predictorslSimultaneous regression lStepwise regression lHierarchical regression lCont

9、rolling for Type I and II errorlLess is morelTheoretical considerationlMeasurement consideration9 9高等教育統計研究高等教育統計研究Homoscedasticity and Standard error of estimate; SEest1010 高等教育統計研究高等教育統計研究多元迴歸的應用策略1111迴歸的應用模式lTwo applications of correlation and regressionlPredictionTo predict events or behavior fo

10、r practical decision-making purposes in applied settingslExplanationTo understand or explain the nature of a phenomenon for purpose of testing or developing theories1212 高等教育統計研究高等教育統計研究預測型迴歸lDetermining the predictor variables and criterion variables lSearching for valid variables and removing the

11、unnecessary variables lDeriving a linear formula: multiple regression equation (Usage of derivation study) lLinear equation is custom-made, therefore the accuracy and degree of relationship may shrink among studies lStrategy for shrinkagelCross-validation studyConducting a second study to evaluate h

12、ow well the formula form the derivation study actually predicts for other people from the same population lShrinkage formulasdetermining the amount of shrinkage by obtain an estimate by means of one of several formulas, correcting for the number of predictors relative to the number of subjects1313 高

13、等教育統計研究高等教育統計研究預測型迴歸的程序lMultiple regression equationlPartial regression coefficientslIntercept: score of the criterion varible when all of the predictors are zerolPredicted score lRaw score or standard score regression equationlAccuracy of predictionlMultiple correlation coefficient (R)lCoefficient

14、of multiple determination (R2)lSimultaneous or stepwise procedure lSignificance test for R2 by ANOVAlInterval estimation (standard error of estimate; SEest)lStandard deviation of the distribution of the error scoresl95% confident interval of predicted scores1414 高等教育統計研究高等教育統計研究解釋型迴歸 lConceptualizat

15、ion to the differences lThe ability to make causative and explanatory interpretations is determined primarily by the design of the data collection and the logic of the reasoning rather than by the procedures for analyzing the datalIncluding and dropping predictor variables has to be under in both se

16、rious theoretical consideration or data analysis procedureslTwo main taskslIdentifying those factors with which is co-occurslRuling out plausible alternative causal explanations using statistical control instead of experimental control1515 高等教育統計研究高等教育統計研究解釋型迴歸的程序lAccuracy of explanationlMultiple correlation coefficient (R)lCoefficient of multiple determination (R2)lSignificance test for R2 by ANOVA lIndependent contribution and statistical controllCorrelation coeffi


