796中級社會統計

上传人:工**** 文档编号:586632221 上传时间:2024-09-05 格式:PPT 页数:69 大小:1.78MB
返回 下载 相关 举报
796中級社會統計_第1页
第1页 / 共69页
796中級社會統計_第2页
第2页 / 共69页
796中級社會統計_第3页
第3页 / 共69页
796中級社會統計_第4页
第4页 / 共69页
796中級社會統計_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《796中級社會統計》由会员分享,可在线阅读,更多相关《796中級社會統計(69页珍藏版)》请在金锄头文库上搜索。

1、Ming-chiChen社會統計Page.1中級社會統計第十五講二元依變項的迴歸分析:分對數模型(logitmodelorlogisticmodel)OLS無法處理的變數是否做慈善捐款?是否投票?家庭子女數是否尋求民俗醫療?什麼國家會有民主體制中國廣東省一年抗議事件發生次數他們有的是二元依變項,回答有是/非兩種可能,有的則是從0到某個有限整數的次數。有的則是有順序的質性變數統稱為受限的依變數Limiteddependentvariable,limdepMing-chiChen社會統計Page.2Ming-chiChen社會統計Page.3廣義線性模型GLM我們之前所討論的線性迴歸模型(line

2、arregressionmodel,就是我們用OLS來求解的迴歸模型)其實屬於一個更大的統計模型家族,這就是廣義線性模型generalizedlinearmodel,GLM之前的線性迴歸模型方法只能處理連續的DV,而且有很多限制(homoscedasticity,殘差與IV不相關等)GLM則可以處理DV不符合變異數齊一性假設或變異數常態分配的連續變數、處理間斷性DV。這些DV有時候也被稱為類別categorical或受限limited依變項可以參照鄭旭智等譯、J.ScottLong原著,類別與受限依變項的迴歸統計模式。(台北:弘智1997)底下的討論主要基於Agresti的Statistica

3、lMethodsfortheSocialSciences,3rded.GLM的構成g(x)=+1X1+2X2+kXk所有的GLM都有三個部分隨機部分randomcomponent:對DV做其機率分佈的假設,在線性迴歸模型中我們假設為常態分配。系統部分systematiccomponent:自變項連結函數linkfunction:指定依變項Y的期望值(或稱均數)是如何可以線性地被自變項預測的函數。Ming-chiChen社會統計Page.4隨機部分指定依變項Y以及其機率分配之前我們所討論的,包括ANOVA在內,都預設了Y是連續變數Y是一個常態分配,且具有相同的變異數。換句話說,ANOVA和一般線

4、性模型都是有著常態隨機部分的概化線性模型GLMswithnormalrandomcomponent除此之外,DV也可能是二元變數(成功/失敗):二項分配binomial,適合分對數logit模型來分析DV也可能是一個次數count:波耳松分配PoissondistributionDV雖然是連續變數,但只能取正值,分配會右偏,而均數越大變異也越大,是一種gammadistributionMing-chiChen社會統計Page.5系統部分迴歸方程式等號右邊的部分+1X1+2X2+kXkMing-chiChen社會統計Page.6連結函數指定=E(Y)是如何關連到自變數g()=+1X1+2X2+k

5、Xkg()就是連結函數link function最簡單的連結函數是g()= ,這是一個identity link恆等連結=+1X1+2X2+kXkOLSMing-chiChen社會統計Page.7常見的連結函數分佈分佈名稱名稱連結函數連結函數均均值值函數函數常態恆等指數倒數Gamma逆高斯二次倒數卜瓦松自然對數二項式 Logit對數連結loglinkg()=ln()100=102=log10100=2e3=20.056(e2.718)=ln20.056=3在社會科學裡,多半時候log其實就是指ln在這個式子裡,不管g()為正或負, 恆為正這是一個對數連結log link,適用於次數DV用log

6、 link的GLM往往被稱為loglinear modelMing-chiChen社會統計Page.9分對數連結logitlink對於二元變數,我們往往指定連結函數g()=log(/1- )在介於0與1之間時適用當DV為二元變數時,我們可以指定一個事件發生的機率為這種迴歸模型稱為logit modelMing-chiChen社會統計Page.10GLM與最大概似法GLM在兩個面向上概化了OLS隨機部分可以不是常態分配可以針對依變項做特定的函數OLS用最小平方法來估算迴歸係數,而GLM用一個不受常態分配假設限制的方法最大概似法maximumlikelihood來估算在SAS裡是用procgenm

7、od這個指令procgenmody=x/dist=normlink=identity;在Stata裡是用glm這個指令glmconsumincome,family(gamma)link(identity)Ming-chiChen社會統計Page.11Ming-chiChen社會統計Page.12收入與消費p.389在dataeditor裡自行輸入資料Ming-chiChen社會統計Page.13收入與消費p.389Stata沒有內建Whitetest的功能,有的是另一個檢定Cook-Weisberg。一樣是要先run過迴歸分析。Ming-chiChen社會統計Page.14WhiteTest所

8、以拒絕虛無假設,也等於說變異數不齊一。Ming-chiChen社會統計Page.15看圖形判斷Ming-chiChen社會統計Page.16看圖形判斷Ming-chiChen社會統計Page.17看圖形判斷X越大殘差值越大Stata與GammaGLMMing-chiChen社會統計Page.18Heteroscedasticity&GammaGLM依變項y的標準差並非像常態分配預設一般維持不變,而會隨著均數增大而增大,根據圖形以及Whitetest發現有Heteroscedasticity的問題。設依變項有著Gamma分配的特質Gamma分配的特質標準差和均數等比例增大縮小(均數倍增標準差也倍

9、增)恆為正、右偏。卡方分配就是一種Gamma分配二元依變項誰會做慈善捐款?誰去投票?誰會去尋求民俗醫療?什麼廠商西進大陸什麼國家會有民主體制誰移居到都市/外國?贊成婚前性行為以上都是社會科學關心的問題,他們都是二元依變項。回答有是/非兩種可能Ming-chiChen社會統計Page.20二元依變項的分析依變項Y有兩種結果,用機率的術語來說就是成功/失敗。也就是Y有1或0兩個可能值=E(Y)=P(y=1)表示成功的機率Ming-chiChen社會統計Page.21二元依變項的分析如何用迴歸方程式來預測成功的機率?用線性機率模型(linear probability model): = P(y=1

10、) = + X ?問題何在?在自變項X相當小時,機率 0;而在X很大的時候, 1但是機率不可能小於0或大於1而且,自變項的機率分配是一個二項分配binomial distribution,用常態分配假設有其不適之處。怎麼辦?Ming-chiChen社會統計Page.22線性機率模型Ming-chiChen社會統計Page.2310xlinear勝算與羅吉斯轉換可以把依變項做一些適當的轉換/(1- )稱為勝算odds,是賭徒常用的機率計算方式,就是成功/不成功的比。勝算介於0和之間。這樣的轉換只解決了一部份的問題再把勝算取自然對數log/(1- ),這個過程稱羅吉斯轉換logistic tran

11、sformation又稱logit。這樣轉換之後, log/(1- )就會介於-和之間了(probit和complementary log-log轉換也有類似的效果)Ming-chiChen社會統計Page.24Odds勝算今天下午新竹降雨機率為74,折算成下雨的勝算為?Odds=0.74/(1-0.74)=2.846新興民主化國家在政權轉型後一年內發生軍事政變的機率為15,則發生政變的勝算為?Odds=0.15/(1-0.15)=0.176勝算這個概念雖然沒有機率來得符合我們的直覺,但應該還不難理解。Ming-chiChen社會統計Page.25Oddsratio勝算比我們也常用勝算比(od

12、dsratio)來表達兩個勝算之間的關係今天下午新竹下雨的機率是74,而苗栗下雨的機率是65。新竹下雨的勝算是2.846,苗栗則是1.444新竹和苗栗今天下午下雨的勝算比是2.846/1.444=1.971Ming-chiChen社會統計Page.26LogisticRegressionModel當從0增加到1時,odds從0增加到,而分對數logit則從- 增加到。當=1/2時,odds=1,而logit=0當1/2時,logit0當1/2時,logit0Ming-chiChen社會統計Page.27LogisticRegressionModelMing-chiChen社會統計Page.28

13、10xlinearLogistic, 0Logistic, 0,X變大,也變大當0,X變大,變小| |越大,logistic曲線越陡但是在logistic regression model裡,這不是斜率的意思。Ming-chiChen社會統計Page.29Logistic曲線的切線斜率斜率會隨著X不同而不同。如果=0.5,則勝算odds /(1- )=1log/(1- )=0 0=+XX=-/當X=-/, =0.5Ming-chiChen社會統計Page.30 (1- )是logistic曲線在特定值時的切線斜率若自變項X預測得知=0.5則,在這個X值上切線的斜率是0.25 當=1/2時,切線

14、斜率最大,logit=0,也就是當X=-/ 時。Stata與logitregression用88q1的資料我們想要瞭解什麼樣的人會捐錢幫助別人?在Stata裡依變項失敗(沒有捐錢)要以0來表示gendonation=v54這是為了不動原資料方便轉換Tabdonation看有無異常值Recodedonation(2=0)Ming-chiChen社會統計Page.32Stata與logitregressiongenh_inc=v47家戶月平均收入用do檔來方便作轉換Ming-chiChen社會統計Page.33Stata與logitregressionMing-chiChen社會統計Page.34

15、把這個dofile個容易記得的地方和名字存起來。Stata與logitregressionMing-chiChen社會統計Page.35找到你放dofile的檔案夾執行。Stata與logitregressionMing-chiChen社會統計Page.36亦可用glmdonationh_inc,family(binomial)link(logit)State與線性機率模型前面的係數太小,因為收入是以元為單位,試以萬元作為單位。gendemi_inc=h_inc/10000tabdemi_inc看分佈狀況Ming-chiChen社會統計Page.37 以上得出線性機率模型linearproba

16、bilitymodel,LPM捐款機率P(y=1)=0.7028+0.008554*以萬元計的家戶月收入Stata&LogitregressionMing-chiChen社會統計Page.38logitregressionMing-chiChen社會統計Page.39 也就是說,根據logistic迴歸模型的預測,受訪者的家庭月收入10萬元會有79.5的機會捐款。 若某個受訪者的家庭月收入為10萬元,則捐款的機率為Stata與logitregressionMing-chiChen社會統計Page.40Statalogistic指令產生的係數不是logisticregressionmodel的係

17、數,而是oddsratio,也就是e,這也可以用計算機取反對數自行計算出來。詮釋連續自變數的logit迴歸係數Ming-chiChen社會統計Page.41針對連續自變數的logit迴歸係數,一般而言我們可以這樣了解,在控制了其他自變數以後,連續自變數X每增加一個單位,一變數Y的勝算增加100(e-1)詮釋dummyvariablelogit迴歸係數先對迴歸係數作反對數轉換,求e這個數值乘上100就是虛擬變數值為1的和虛擬變數值為0前對後的百分比差距Ming-chiChen社會統計Page.42Logit迴歸模型與虛擬變數以前面的88q1這個資料為例,v1為受訪者性別,1為男,2是女。轉換成虛

18、擬變數dummyvariablegensex=1replacesex=0ifv1=2tabsexMing-chiChen社會統計Page.43Logit迴歸模型與虛擬變數Ming-chiChen社會統計Page.44男生比女生更傾向不捐款,e-0.1818416=0.8337,也就是說在控制了家庭收入之後,男生捐款的勝算(機會)是女生的83.37%Stata與虛擬變數:xi指令宗教與慈善捐款的關係v49:1佛教2道教3民間信仰4一貫道5軒轅教6回教”7天主教8基督教9沒有宗教信仰10其他“genrelig=.Ifv49=6|v49=10replacerelig=1ifv49=1replacer

19、elig=2ifv49=2|v49=3|v49=4|v49=5replacerelig=3ifv49=7|v49=8replacerelig=4ifv49=9Ming-chiChen社會統計Page.45Stata與虛擬變數:xi指令expandinteractions這個作法是讓Stata自動針對類別自變項產生數個虛擬變數。xi,prefix(ind)i.relig所有虛擬變數以ind做開頭,以relig的類別來做虛擬變數,產生indrelig_1,indrelig_2,indrelig_3,indrelig_4共四個虛擬變數另一個方法則是讓Stata自己設定虛擬變數xii.religi.r

20、eligindrelig_1-4(naturallycoded;indrelig_1omitted)分數最小的那一組(佛教是1)被當成對照Ming-chiChen社會統計Page.46我們可用charreligomit4指定relig第四組(無宗教信仰)為對照,虛擬變數組名稱為_I原變數名稱_*分別tab _Irelig_1、_Irelig_2、和_Irelig_3看是否合乎原來的宗教變數Stata與虛擬變數:xi指令Ming-chiChen社會統計Page.48Ming-chiChen社會統計Page.49在其他條件皆相等的情況下,佛教徒比無神論者捐款的勝率為289.6;道教/民間信仰比無神

21、論者捐款的勝率為231.26;基督天主教比無神論捐款的勝率為233.07logisticregressionmodel的統計推論多半的統計軟體會報告個別自變項的Wald統計量,方便我們判斷係數是否到達顯著水準H0:=0Wald統計量是除以其標準誤結果統計量Z的平方Waldstatistics是一個依循卡方分配的統計量不過Stata報告標準統計量Z,意思跟解讀都是相近的。Ming-chiChen社會統計Page.50Logit迴歸係數的Z檢定Ming-chiChen社會統計Page.51性別這個自變項沒有達到顯著水準,無法拒絕這個變數對捐款沒有影響的虛無假設。而收入和所有的宗教虛擬變數都到達顯著

22、水準。Logit迴歸係數的Wald檢定透過將前表中的Z值取平方得到Wald檢測統計量,然後查卡方分配表。先進行過logit或logistic的Stata分析後,可以用test自變數名稱這個指令產生Wald檢測統計量。例如:testsex的結果如下Ming-chiChen社會統計Page.52 這個1.75正就是前面Z統計量-1.32的平方(1.32是四捨五入過了,所以有誤差),檢測一個IV,所以自由度=1,結論是性別這個IV不顯著虛無假設H0:sex=0Logit迴歸係數信賴區間前表中,我們看到_Irelig_1的95%的信賴區間是0.7154,1.4113,如何解讀?首先取antilog,e

23、0.7154,e1.4113=2.0449,4.1012意思是佛教徒捐款的勝算有百分之九十五的機會是無神論者的2.0449到4.1012倍。Statalogistic指令直接給我們估計勝算的區間(看前面logistic迴歸的最後兩欄數值)Ming-chiChen社會統計Page.53Likelihood-ratiotest可以用來比較增加新的變項(組)前後likelihoodratio的改變我們可以令L0為當虛無假設為真的時候概似函數的最大值,而L1則為虛無假設為不真時概似函數的最大值。虛無假設是所有新增的自變數係數相等且等於0,例如在一個僅有單一IV的模型,我們的虛無假設是這個IV的係數為0

24、Likelihood-ratiotest統計量:Ming-chiChen社會統計Page.54 log(L0/L1)前面乘以-2是因為這樣在大樣本時才會符合卡方分配,使我們得以檢驗檢定統計量。這個統計量的自由度就等於我們兩模型之間自變數個數的差異,比如說一個單一IV的模型和一個沒有任何IV的模型相比,其自由度為1。Likelihood-ratiotest:anexampleMing-chiChen社會統計Page.55和沒有任何自變數的模型(loglikelihood=-1004.2316)比較,(-2logL0)-(-2logL1)的卡方值為68.31,在自由度=5(自變數個數)的情況下,犯

25、型一錯誤0.0001,這和一般迴歸分析中的F檢定類似Likelihood-ratiotest&Waldtest針對logisticregressionmodel裡個別自變項係數的統計檢定,除了Waldtest和Ztest以外,我們也可以用likelihood-ratio檢定,比較去除某個IV的模型和原來模型的loglikelihood,來檢測其係數是否顯著(自由度1)大樣本時,Wald檢測和likelihood-ratio檢測有相似的結果。在中小型樣本時,最好選擇用likelihood-ratioMing-chiChen社會統計Page.56Logit迴歸係數的likelihood-ratio

26、檢定Ming-chiChen社會統計Page.57如果不是要Stata自己對類別變項產生虛擬變項就不需要加xi;quietly是要Stata不用產生表格,但相關數值還在記憶體裡。我們把相關數值用eststorea記成a。接下來建立一個沒有性別的模型,相關數值記成b用lrtestab,stats來比較a、b兩模型的loglikelihoodLikelihood-ratio=1.76=(-2logL0)-(-2logL1)=-2*(-970.9538)-2*(-970.0759)自由度=1,P值為0.1852,結論是性別這個IV不顯著Likelihood-ratiotestLikelihood-r

27、atiotest可以用來檢測nestedmodels變數多的模型和變數少的模型的loglikelihood的差異乘以-2這趨近於卡方分配,其自由度為多出來的變項個數這就好像OLS裡在nested模型間來判斷新加入一組變項是否顯著的F檢定一般。全模型也可以看IV有無聯合解釋力,這就是Stata右上角的檢定數值的意義,和複線性迴歸全模型的F檢定一樣。Ming-chiChen社會統計Page.58Likelihood-ratiotest:anexample我們加入了宗教信仰的一組三個虛擬變數以後,loglikelihood=-970.07593沒有宗教信仰相關的虛擬變數的logit迴歸模型logli

28、kelihood=-993.36151(-2logL0)-(-2logL1)=-2(-993.36151)-2(-970.07593)=46.57116自由度為323, 0.01=11.3446.57,意謂宗教這一組類別變數顯著,可以拒斥H0:_Irelig_1= _Irelig_2= _Irelig_3=0Ming-chiChen社會統計Page.59一組虛擬變數的LR檢定xi:quietlylogitdonationdemi_incsexi.religeststoreaquietlylogitdonationdemi_incsexifrelig!=.這是只跑那些宗教不是缺失值missing

29、value的個案,以免發生模型間樣本量不同而不能比較的狀況。eststoreclrtestac,statsMing-chiChen社會統計Page.60自由度=3,兩模型間有三個虛擬變項的差異,P值小於0.0001,拒絕虛無假設(三個係數都=0,也就是宗教對捐款有影響。OrderedLogit前面的logitregression處理的依變項是二元變數(是/不是)。Logitregression也可以用來處理多元的順序尺度的依變數(非常不滿意、滿意、中立、不滿意、非常不滿意)稱之為orderedlogit、ordinallogit、proportionaloddsmodel在Stata裡是用ol

30、ogit這個指令來處理比如說我們要解釋個人的宗教參與度(幾乎沒有或從來沒有、每年至少一次、每個月至少一次)這是一個順序尺度的變項累進機率與Logit我們在此處用累進機率cumulativeprobabilities的概念作為基礎令P(yj)代表回答落在j這個類屬或以下的機率(1, 2, ,j)以宗教參與度為例P(y=1)P(y2)=P(y=1)+ P(y=2)P(y3)=1累進機率與Logit每個類屬j或以下的勝算odds是P(yj)/ P(yj)每一個累進機率都可以被轉換成高於或低於的二元變數的勝算A popular logistic model for an ordinal respons

31、e uses logits of the cumulative probabilitiescumulativelogits以宗教參與為例CumulativeLogitModelsforanOrdinalResponseAmodelcansimultaneouslydescribetheeffectofanexplanatoryvariableonallthecumulativeprobabilitiesfory.對於每個累積機率,這個模型就像是一般的羅吉斯模型,每一組自變項都可分成高於和低於特定的類屬j。這個模型是LogitP(yj)=j+x, j=1, 2, ,c-1.Inthismodel

32、, doesnothaveajsubscript.Ithasthesamevalueforeachcumulativelogit.Inotherwords,themodelassumesthattheeffectofxisthesameforeachcumulativeprobility.Thiscumulativelogitmodelwiththiscommoneffectisoftencalledtheproportionaloddsmodel比例勝算模型CumulativeLogitModelsforanOrdinalResponseForeachj,theoddsthatyjmulti

33、plybyeforeachone-unitincreaseinx.Modelfittingtreatstheobservationsasindependentfromamultinomialdistribution.Thisisageneralizationofthebinomialdistributionfromtwotomultipleoutcomecategories.Softwareestimatestheparametersusingallthecumulativeprobabilitiesatonce.Thisprovidesasingleestimatebeta-hatfortheeffectofx,ratherthanthethressseparateestimateswedgetbyfittingthemodelseperatelyforeachcumulativeprobability.92q2資料,討論宗教信仰與教育程度(年數)對宗教參與度的影響LogisticModelsforNominalResponses教育程度(不識字、小學、初中、高中、大專以上)與族群對宗教信仰的影響

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号