抽样词汇抽样基本观念

上传人:jiups****uk12 文档编号:45527843 上传时间:2018-06-17 格式:PPT 页数:46 大小:208.50KB
返回 下载 相关 举报
抽样词汇抽样基本观念_第1页
第1页 / 共46页
抽样词汇抽样基本观念_第2页
第2页 / 共46页
抽样词汇抽样基本观念_第3页
第3页 / 共46页
抽样词汇抽样基本观念_第4页
第4页 / 共46页
抽样词汇抽样基本观念_第5页
第5页 / 共46页
点击查看更多>>
资源描述

《抽样词汇抽样基本观念》由会员分享,可在线阅读,更多相关《抽样词汇抽样基本观念(46页珍藏版)》请在金锄头文库上搜索。

1、抽樣詞彙抽樣基本觀念母體 : 求取資訊的對象全體 e.g.人,動物或事物.個體 : 母體中的一份子.若母體包含的是人,我們則常稱這些人為受試(或受訪)對象. 樣本: 母體的一部份,我們蒐集其資訊以便對整個母體做某些結論抽樣底冊 : 個體的清單,我們從抽樣底冊中抽取樣本. 變數 : 個體的某種特質,被選入樣本的個體就會被度量這種特質. 1n例1:民意調查.n變數 : 人們對有關公共政策的問題的回答.n母體:18歲以上的美國居民,包括非公民甚至非法移民. n樣本:從母體中選出,經由電話訪談的人.其人數在1000至1500之間. 例2:政府經濟與社會資料. 美國最重要的政府抽樣調查是按月執行的“當前

2、人口調查”, 其所記錄的資料中,有許多資料和16歲以上人口是否就業有關. 母體:所有九千七百萬美國住戶. 個體:住戶(不是個人或家族).一個住戶的組成份子,是所有住 在同一個屋子中的人,不論他們之間是何種關係. 每月被訪談的約60,000個住戶.2例3:市場調查 “尼爾森媒體研究”的電視收視率調查服務.母體:所有九千五百萬戶有電視機的美國住戶.樣本:約5000個住戶,住戶同意使用個人收視記錄器來記錄 該戶中每個人收視的節目. 例4:社會科學研究.變數:受訪對象的個人及家庭背景,經驗與習慣,以及對某些 主題的態度及意見.母體:住在美國住戶中的成年人(18歲以上),不包括住在機 構裡的成年人:例如

3、監所人犯及住在大學宿舍裡的人,也不 包括無法以英語訪談的人.樣本:約1400個成人,訪談是面對面在受訪者的住所進行.3為什麼要抽樣?n為什麼不做普查含整個母體的樣本? (1)費時又費錢. (2)破壞性的調查. e.g.測試鞭炮的功能. (3)檢查個數太多,影響準確度.怎樣取得爛樣本?n有偏取樣法如果設計使得結果總是往某個方向偏,我們就稱這個設 計是有偏的. 方便抽樣:從母體抽樣時,選最容易取得的樣本自發性回應樣本: 對某一訴求自然形成的的回應.e.g.寫應或叩應或意見調查方便抽樣及自發性回應樣本常常是有偏的. 4例5:購物中心訪談. 樣本中“較有錢的,青少年及退休人士”的族群比重太重. 例6:

4、寫應意見調查. 通常對某一議題有強烈感覺的人,尤其是負面感覺的比較會不嫌麻煩的去回應5簡單隨機抽樣n避開人為選擇因素n選取n個簡單隨機棒本時,必須使得抽樣底冊中任一個 個體,被選中的機率都相同. (1)樣本小時,可將抽樣底冊中的每一個個體標示在一樣的籤條上,混勻後,隨機抽取n張.(2)樣本大時,則採用隨機數字表6n列出0,1,2,3,4,5,6,7,8及9這些數字,且滿足:(1)表中任一個位置的數字,其為0,1,2,3,4,5,6,7,8或9中任何一個的機率相同.(2)不同位置的數字之間是獨立的,即一個位置的數值,完全不會影響到其他位置的數值. 隨機數字表如何選取SRSn例7: 用兩個步驟選取

5、SRS(1) 編代碼.對抽樣底冊中每個個體指定一個數字代碼. (2) 利用隨機數字來隨機選取代碼. 7n參數是描述母體的固定數字.我們無法知道參數的值.n統計量是描述樣本的數字.一旦取了樣本,統計量的值 就知道了,但是換個不同的樣本,統計量的值就可能改 變.我們常用統計量來估計未知的參數.從樣本看母體參數及統計量抽樣分佈n抽樣變異:如果我們不斷從同一個母體抽取樣本,樣 本統計量的值會隨樣本而變. n抽樣分佈:若我們從同一母體抽許多個樣本,其對應之 樣本統計量會具有某種可預測的抽樣變異型態n抽樣分佈就是描述這種型態.8偏差與精確n偏差:樣本統計量老是朝同一個方向偏離母體參數值. 欠精確:如果不斷

6、抽取樣本,在不同樣本之下,同一個統 計量計算出來的值差異很大、很分散.n若要減低偏差:利用隨機抽樣即可.若將整個母體列在 抽樣底冊,再從中抽取簡單隨機樣本,就會得到不偏估計 值,也就是說,以SRS得到的統計量估計母體參數,既不 會老是高估,也不會老是低估. n如何增加SRS的精確度:用大一點的樣本.只要樣本取 得足夠大,要多精確都可以做到. 從大母體取樣母體大 小無所謂只要母體比樣本大得多,隨機樣本的統計量之 精確性就和母體大小沒關係.9信賴敘述n例11:利用抽樣分佈. 了解新聞內容n根據最近的一項蓋洛普調查,美國人民在 望向西元2000年的此時,預期日子會過得 更好.n有1234位成人被訪問

7、到你認為到西元 2000年時,你的生活是否會過得更好? 時, 有77答是.此次調查的誤差界限是正負4 個百分點.10例12:誤差界限. n=1234, p =950/1234=0.77在所有的樣本當中,有95%的樣本比例 p的值會在真正參數值p的+- 0.04之內.“ “在95%的信心下,認為到西元2000年生活會更好的成人 比例會落在以下的範圍內11信賴敘述n信賴敘述(針對母體而不是針對樣本)包含:(1)誤差界限: 樣本統計量離母體參數多遠.(2)信賴水準: 所有可能樣本中滿足這樣的誤差界 限的百分比.n我們對母體所做的結論永遠不會是完全正確的.n 如果我們要求95%的信賴水準,則必須接受比

8、 95%信心時大的誤差界限. 報告誤差界限時,常 使用95%的信賴水準. n想在同樣的信賴水準下要求較小的誤差嗎?取個大點的樣本就成了.12抽樣的實際n抽樣會發生的誤差(1)抽樣誤差: 抽樣這個動作造成的誤差. 此誤差 使得樣本結果和普查結果不同. (a)隨機抽樣誤差 : p 與p的差距樣本統計量和母體參數之間的差距,是在選取樣本時因機遇造成的.信賴敘述中的誤差界限只包含隨機抽樣誤差. (b)抽樣方法 e.g.自發性回應 (c) 抽樣底冊不完整(2)非抽樣誤差和“從母體取樣本”這個動作無關.此誤差即使在普查中也可能出現.13例14:電話抽樣. (1) 以電話簿當抽樣底冊,會有很大的偏差因為在很

9、多大城市中,未登錄的電話 數目超過登錄的電話數目. (2) 利用隨機撥號(RDD)先從所有區域及前3碼的清單抽樣本,再以RDD設備用隨機方法取後4碼.(問題:超過3/4的號碼沒有分發出去;同一住戶擁有一支以上的電話號碼.) (3) 約6%的美國住戶沒有電話. 美國南部住戶沒有電話的比例是北部住戶的2倍.這些漏列會造成調查結果偏差.一般調查結果聲明的誤差界限並不包括此誤差. (4) 打第一次電話即有人接聽的住戶中,只有37%為男性.為了平衡受訪對象的性別,可隨機抽取該住戶的一個成人來訪問好的電話調查會盡力訪問到所有選出的電話號碼. 即使接不通也會多次重打.n例15:電腦輔助訪問電腦可協助:自動跳

10、過不相干的問題;隨機排列問題順序 記錄已回答人的資料;安排電訪時間.14非抽樣誤差n(1)處理誤差(計算誤差,輸入誤差)n(2)無回應誤差 :無法得到已經被選入樣本中的 個體的資料是非抽樣誤差中最嚴重的一種. 最常發生無回應的原因是連絡不上受訪對象或 受訪對象拒絕合作.無回應所造成的偏差,很容易就可超越信賴敘述 中描述的隨機抽樣誤差.n(3) 回應誤差15例16:普查漏失. (1)每10年,美國普查局會寫問卷到他們地址單上所有住戶單位. (2) 75%寄回問卷 (3)1990 - 65%寄回問卷,在紐約市僅有53%寄回問卷. (4)對沒寄回的,再派人去訪問.共6次,仍漏掉1.8%的人口.(包括

11、3.8%在L.A市及4.6%的黑人.) 建議:對於不寄回的住戶,與其試圖連絡每一戶,不如抽取一個 樣本做更強及更迅速的後續動作.回應誤差:謊報年齡,收入,記錯答案16例17:種族效應.1989年,紐約市以及維吉尼亞州選出第一 位黑人州長,實際得票率與民調有相當大的差異.(很多人不 願意坦承自己投票給黑人.)例18:選舉經費補助.(問題的措辭例) 應該立法來禁止利益團體捐款給競選活動,還是團體有權 捐款給他們支持的候選人?(1) 自發行性回應: 回答yes的比例99%(2) 隨機樣本,回答yes的比例80%(3) 以較中立的立場來提出這個議題,回答yes的比例60% 使用引導傾向的問題及自發性回

12、應樣本的民調是不需理會 的.17相信調查結果之前該問的問題n誰做的調查? n母體是什麼? n樣本是怎樣選取的? n樣本多大? n應答率是多少? n用什麼方式連絡受訪者? n調查是什麼時候做的?n問題是怎麼問的?18其他抽樣設計n可靠的抽樣調查既有賴於統計觀念(隨機抽樣),也 有賴於施行技巧(後續動作,問題的措詞,有技巧的 訪問).n我們的目標是要從由人組成的很大母體中抽樣時 ,取SRS是好的統計觀念,但是實際施行太貴了.n這些實際困難的解決方法是用比SRS複雜的抽 樣設計,第一步是從地圖抽樣而不是從人抽樣n例19: 根據種族分層。n學生總數 30,000 其中黑人 3,000取500名學生 的

13、SRS,每個學生被抽中的機率相同n500/30,000= 1/60 n分層樣本,e.g 200名黑人及300名其他學生。19多段樣本n第1階段:從美國的3141個郡中抽取樣本. n第2階段:從第1階段選的每一郡中的鎮或區裡選 出一個樣本. n第3階段:用地圖或空中鳥瞰圖當做抽樣底冊,從 第2階段得到的每一區中抽出小區域(e.g:街區). n第4階段:從第3階段的每一個街區抽出住戶樣本. n多段抽樣設計可以克服SRS在實施上的障礙,並 且可以節省抽樣經費.n前述的電話調查也是使用多段調查. 在多段設計 中,每個階段所取的樣本可能是SRS,也可以是系 統隨機樣本.e.g:依照地理的順序或數字順序,

14、每 隔3個取1個.此法不須底冊,且省時,但須注意其 陷阱.e.g:避免全部取到3樓的住戶. 20分層樣本n應用於多段抽樣的第一階段 1 將抽樣底冊中的個體先分成若干群,叫做層.分層的標準是,你對於這些層有特別的興趣 ,或者同一層中的個體有接近的性質。2 每層各取一個SRS,全部就是我們的樣本。 n當前人口調查根據人口數將地理區域分層,且在 第一階段把所有人口綢密地區全部納入樣本(即 普查).n分層樣本有兩點優於SRS:(1)從分層樣本可以得到有關各層的個別資訊。(2)如果變數值在同一層的個體間較接近,而在整個母體間差異較大,那麼以同樣大小的樣本來比,分層樣本得到的估計值更精確。21設計抽樣調查

15、n第一步:決定母體n第二步:明確陳述要估量的變數第三步 :建立抽樣底冊n第四步:針對樣本做統計設計n第五步:注意細節22n 議題:民意調查與政治活動 贊成者:公眾議題的意見調查清楚呈現大眾意見反對者:問題措辭是否適當,答題者是否謹慎n議題:政治職位候選人的意見調查贊成者:得到關於選民的可靠資訊使競選總部知道如何把候選人塑造成能滿足民眾需求的形象;民主社會不應禁止資訊公開反對者:預測選舉結果的民調恐會影響選民行為議題:以隨機取樣的意見做為公共政策的依據23為什麼要隨機選取?n隨機抽取使每個人被選中的機率相同。n美國聯邦法院曾裁定,只有當申請者的 需求程度一樣時,才可使用隨機選取。24例20:徵兵

16、抽籤。徵兵抽籤計劃抽出隨機排序的生日。所有19到25歲的男性都是這次的抽籤對象,共有366個生日 。n年尾生的人似乎傾向於抽到比較前面的徵兵順序 。n真正隨機的抽籤是1000次中只會出現不到一次這樣的結果。n調查發現,塑膠球是一次裝一個月份的,又沒混合均勻。1月份的生日容易在底下,而12月份的生日是最後裝進去的,容易在上面。25n 議題:資訊道德n例21 (漏掉細節)施行研究的機構必須設立制度審查委員會, 負責事 先審查所有的研究計畫,以保護受試對象,使受試 對象免於受到可能的傷害。在蒐集資料前,研究中 的每一個受試對象都必須在知情的狀況下同意受試 。任何個人資料都必須 保密。只有整體的統計結果 可以公開。 制度審查委員會知情且同意。n例22 (保密原則)政府資料庫的使用。在保護個人和提供以後可造福 其他人的知識之間,哪裡才應該是平衡點? n 26實驗n實驗可以對因果關係提供好的證據。n為什麼要做實驗呢?這樣我們才可以確實針對我們感興趣的 處理,研究其效果。27為什麼要實驗?n觀測和實驗n觀測研究 觀查一些個體,並度量我們感興趣的變數,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号