检视资料与敍述性统计

资源描述

《检视资料与敍述性统计》由会员分享，可在线阅读，更多相关《检视资料与敍述性统计（33页珍藏版）》请在金锄头文库上搜索。

1、第三章檢視資料與敍述性統計 3-1 檢視資料 3-2 敘述性統計分析 (Descriptive Statistics) 3-1 檢視資料檢視資料是在統計分析之前, 必需要作的事, 目的是為了確保資料分析結果的正確性。我們整理檢視資料時, 常見又可以避免或處理的問題如下： u登錄錯誤 u遺漏值 u遺漏值的處理 u偏離值(是否要刪除) u檢定多變量分析的基本假設 3-1-1 登錄錯誤登錄錯誤是很難避免的, 只要是有人工輸入的資料, 經常會發生登錄錯誤, 在筆者的經驗中, 不管是自行輸入或則找工讀生輸入資料, 都曾經發生過登錄錯誤, 例(1)：輸入性別, 男性為1, 女性為2, 在

2、登錄資料時, 很容易發生資料登錄為12和21, 例(2)：輸入李克特(Linkert)5點量表, 非常不滿意為1到非常滿意為5, 在登錄資料時, 很容易發生資料登錄為11,12, 23, 34, 45等等, 這時候應如何處理呢? 我們提供最簡單的方式便是利用數值統計中的次數，最小值 (minimum)和最大值(maximum)來檢視資料一旦發現異常值, 則馬上可以回到資料集進行修正。 1. 開啟範例檔 missing data.sav 2. 按 Analyze Descriptive Statistics Frequencies 3. 選取 Sex 4. 按，將 Sex 選入Var

3、iable(s) 5. 按 Statistics，選取 Range、Minimum、Maximum 6. 按 Continue，回到 Frequencies視窗 7. 按 OK，出現報表結果，如下圖：實務操作如下：我們登錄性別是男性為1，女性為2，因此Minimum應為1， Maximum應為2，上表中的Maximum為11，顯然是有登錄錯誤，請回原始資料進行修正。輸出報表結果如下：遺漏值一直也是在數量方法中, 很常碰到的問題, 一般在E-mail(word檔)和當面填寫問卷回收後, 都會發覺有漏填, 甚至是有大半都未填, 這些漏填的值, 可能對於結果都有著多多少少的影響, 甚至

4、會將結果倒轉, 也就是從顯著影響變成不顯著, 或則是從不顯著變成了顯著的影響, 因此, 當遺漏值發生時, 對於遺漏值的處理, 我們就必須謹慎小心, 適當地去處理。 3-1-2 遺漏值遺漏值發生的原因有很多, 有可能是未登錄而產生遺漏值, 填答者拒絶回答(隱私的問題), 或則是取樣不適當, 也就是找來的填答者, 根本不適合填答我們的問題, 這些都有可能導致於遺漏值的發生。當遺漏值發生時，我們就需要做遺漏值的分析。 1. 開啟範例檔 missing data.sav，按Analyze Missing Value Analysis 2. 選取 Score，Cost 3. 按，將Sco

5、re，Cost選入 Quantitative Variables，點選 Listwise、 Pairwise、EM、Regression，再選取 Sex、Income、Location 4. 按，將 Sex、Income、Location選入Categorical Variables 5. 按 Descriptives，選取 Univariate statistics、Percent mismatch、Sort by missing value patterns、t tests with groups formed by indicator variabels、 Crosstabulati

6、ons of categorical and indicator variables 6. 按Continue，回到 Missing Value Analysis 視窗 7. 按 Variables，使用預設 Use all quantitative variables 8. 按 Cancel，回到Missing Value Analysis視窗 9. 按 EM，使用預設 Normal 10. 按 Continue，回到Missing Value Analysis視窗 11. 按 Regression，使用預設Residuals 12. 按 Continue，回到Missing Value A

7、nalysis視窗 13. 按 OK，出現報表結果遺漏值的分析 MVA (missing values analysis) 遺漏值分析 Univariate Statistics a Number of cases outside the range (Q1 - 1.5*IQR, Q3 + 1.5*IQR). Missing Count遺漏值的數量 Missing Percent遺漏值百分比報表結果一般處理遺漏值的方法有(1) 只採用填寫完整的資料 (2) 刪除樣本個數 (3) 插補法三大類, 我們介紹如下： 1. 只採用填寫完整的資料 2. 刪除樣本個數或變數 3. 插補法 (Imp

8、utation method) 插補法適用於量化的變數(metric variables), 常用的方法有 (a) 使用所有資訊 (b) 估計取代遺漏的資料兩個方法。 3-1-3 遺漏值的處理 1. 開啟範例檔missing data.sav 2. 按 Transform Replace Missing Values 3. 選取 Score 4. 在Method選取 Series mean，按，將 Score選入 New Variable(s) ，變成 Score_1 5. 選取 Cost 6. 按，將 Cost選入New Variable(s)，變成 Cost_1，在Method選取

9、Linear trend at point 7. 按Change 8. 按 OK，出現報表結果 9. 我們回到資料檔，會看到插補的數值，以新的變數 Score_1和 Cost_1 儲存，如下圖：實務操作如下：在Score_1變數中，用Score變數的Series mean 平均數:例如 75.78，來代替遺漏值。在Cost_1變數中，用Cost 變數的線性迴歸所預測的數值:例如 9072.93來代替遺漏值。偏離值指的是變數的觀察值明顯的與其它值有所有不同, 我們不能因此就判定偏離值的好與壞, 而是要依變數含的內容而定, 例如, 變數代表的是企業的年淨利, 若是有正的偏離值, 其所代

10、表的是企業該年表現的很傑出, 賺了很多錢, 相反的, 調查物品的賣出價格時, 若是有多個偏離值, 其所代表的可能是售價有異常, 需要加以檢視, 以判定要保留或刪除, 以避免偏離值影響正常的研究結果。偏離值發生的原因很多, 常見的有輸入或編碼錯誤, 異常的事件發生, 若是具有代表性, 則保留偏離值, 若是不具有代表性, 則刪除此偏離值, 異常事件發生的偏離值, 雖然本身是偏離值, 但若是與其它變數結合時, 其有相當的代表含意, 則我們仍然需要保留此偏離值。有關偏離值的量測，我們會在檢定多變量分析基本假設的實務操作中，一併實作。 3-1-4 偏離值Outlier 在進行多變量分析之

11、前, 我們須先確認收集而來的樣本, 必須符合多變量分析的基本假設, 有常態性(normality), 同質性 (homoscedasticity) 也稱為變異數相等, 和線性(linearity), 若是變數和變量無法符合多變量分析的基本假設, 則可以透過資料的轉換, 以達到符合多變量分析的基本假設, 在一般的量化研究中, 若是資料未符合多變量分析的基本假設, 並且未經由資料的轉換而符合多變量分析的基本假設, 那麼使用多變量技術, 進行統計的假設檢定結果, 無法支持其結果無法支持結果的論述, 原因就在於其收集的資料, 根本就不適用於多變量分析, 而是需要其它量化技術的處理。 3-

12、1-5 檢定多變量分析的基本假設常態性的檢定有多種, 我們介紹常用的方式如下： lHistogram直方圖 lStem-and-leaf根菜圖 lskewness偏度 lkurtosis峰度 lkolmogorov-Smirnov, K-S檢定 lShapiro-wilk, S-W檢定常態性的檢定直方圖是簡易的判定方式, 如下圖, 其呈現的分配, 如同常態分配的型態中間較高, 兩邊較低 Histogram 直方圖根菜圖是另一種簡易的判別方式, 如下圖： Stem是根, 也就是觀察的值, leaf是次數, 觀察值發生的次數, 看根葉圖時, 必須轉90度看, 也是如同常態分配的型態中間

13、較高, 兩邊較低。 Stem-and-leaf 根菜圖 Skewness 偏度資料分佈的情形, 以偏度來看除了正常的常態分配外, 有可能是左偏或右偏的資料分配, 如下圖：資料的左偏和右偏的分佈, 有時難以判定時, 可以用偏度的統計值Z skewness來作統計檢定 Z skewness = N是樣本數(Hair, 1998) 我們需要的是Z值小於常態分配的臨界值, 例如, 在95%的信心水準下, 臨界值是1.96, 也就是說, z值介於1.96時, 接受為常態分配, 若是在99%的信心水準下, 臨界值是2.58, 也就是說z值介於2.58時, 接受常態分配。 kurtosis 峰度

14、資料的分佈, 以峰度來看, 除了正常的常態分配外, 有可能是高狹峰態分佈和低闊峰態分佈, 如下圖：資料的高狹峰態分佈和低闊峰態分佈, 有時難以判定時, 可以用峰度的統計值 Z kurtosis來作統計檢定 Z kurtosis = N是樣本數(Hair, 1998) 我們需要的是Z值小於常態分配的臨界值, 例如, 在95%的信心水準下, 臨界值是1.96, 也就是說, z值介於1.96時, 接受為常態分配, 若是在99%的信心水準下, 臨界值是2.58, 也就是說z值介於2.58時, 接受常態分配。 Kolmogorov-Smirnov 檢定和Shapiro-wilk檢定 Kolm

15、ogorov-Smirnov 檢定和Shapiro-wilk 檢定是常態性檢定中, 最常用的2個方法, 因為這兩種檢定都提供了統計檢定的顯著水準, 若是達到顯著水準, 以95%的信心水準為例, Sig.p0.05, 則會拒絶虛無假設也就是拒絶了常態性, 我們想要的是” 不顯著”, Sig.p0.05, 代表的是符合常態分配。 Homoscedasticity (同質性) Homoscedasticity (同質性)也稱為變異數相等, 我們檢定變異數相等的目的是避免依變數只被部份的自變數所解釋, 特別是在ANOVA單變量變異數分析和MANOVA 多變量變異數分析, 都需要作變異數相等的檢

16、定, 一般最常用的方式如下： l依變數為一個計量變數(metric)時, 適用Levene test, 來檢測單一變數是否平均分佈於不同組別。 l依變數為兩個計量變數(metric)時, 適用Boxs M檢定, 來檢測變異矩陣或共變異矩陣的相等性。對於Levene test和Boxs M檢定, 我們在ANOVA和MANOVA章節有實作和解說。 Linearity 線性多變量分析中, 另一個重要的基本假設就是Linearity 線性, 只要是基於線性結合的多項式關係而進行的多變量分析技術, 都需要符合線性的特性, 例如, 多元迴歸(Multiple regression), 邏輯迴歸(Logic regression)和結

展开阅读全文