第六章抽样及抽样分配.doc

资源描述

《第六章抽样及抽样分配.doc》由会员分享，可在线阅读，更多相关《第六章抽样及抽样分配.doc（10页珍藏版）》请在金锄头文库上搜索。

1、第六章抽樣及抽樣分配壹、本單元的目標1、說明從樣本推論到母群體之推論統計的目的。2、定義並解釋隨機抽樣的基本方法。3、解釋並定義幾個重要關鍵的概念：母群體（population）、樣本（sample）、母數或參數（parameter）、統計值（statistic）、代表性（representativeness）、EPSEM。4、說明兩個重要的定理。幾個要注意區別的名詞：抽樣(sampling)樣本(sample)樣本分配(sample distribution)抽樣分配(sampling distribution)本章學習後，您應了解樣本、母群體、樣本分配及抽樣分配之間的關係。貳、前言

2、社會科學研究的目標是驗證我們的理論及假設。如果我們的理論或假設能在許多不同的人群或社會情境中獲得證實，那我們自然會對這些理論或假設有信心。但在社會科學的研究中，我們通常沒有足夠的經費或時間來收集許多不同或整個母群體(population)的資料。因此，我們只有透過抽樣（有一定方法及步驟的）方式，由母群體中選擇出一部份來做研究。此選出的部份即為樣本。然後我們用推論統計，將樣本之特性推論到母群體之特性。例如，了解樣本之平均數後，我們可以推論統計之方式，推測母群體之平均數為何。母群體之各種特性(如平均數、標準差等)，我們稱之為母數或參數(parameters)。自然，我們可能一輩子都不知道實際真正的

3、母數為何，但我們可以在一定的範圍內，推測這些母數。推論統計之運用或任務有兩種。一為從樣本之特性（已知）推測母群體之特性（未知），此為estimation（估計）之過程或工作。二為做假設測定(hypothesis testing)，此為先對母群做一些假設，然後透過分析樣本後得到的結果，來驗證及了解這些假設是否有效。本單元則先談達成這些任務的基礎，包括抽樣（sampling），以及抽樣分配（sampling distribution）的概念。抽樣分配是瞭解推論統計的關鍵概念。Statistic（樣本的特性） Parameter（母群體的特性）透過 Statistics 推估參、機率抽樣之方法(T

4、echniques for probability sampling)從母群體中抽取所謂機率樣本(probability sample)的方式很多。但不論何種方式，都有一定之步驟，而不是任意去抽的，所謂隨機(random)，並不是隨意。當然，社會科學家也經常會用非機率樣本來做研究。這種樣本雖然也有其功能，如做探索性的研究，也常比較容易或以低成本取得，但這類樣本最大的限制，是無法將由此類樣本得到的結果推論到抽樣所用之特定群體以外的群體。不論機率抽樣(probability sampling)的方式為何，其目標是一樣的，就是抽得之樣本要能代其所來自的母群體，也就是要有表性（representati

5、ve）。例如，母群中有60%的人是女性，則機率樣本若有代表性，也應相當接近60%的人是女性。確保樣本有代表性的的原則，也就是機率抽樣的基本原則是，如果抽樣的方式是以均等機率之選取方式(Equal Probability of SElection Method，簡稱EPSEM)，則如此得到之樣本極可能有代表性。需注意的是根據EPSEM之抽樣法和樣本是否有代表性是兩回事。換言之，即使是透過EPSEM方法所得之樣本也不一定有代表性，但透過此法得到有代表性之樣本的可能性很高，而且研究者可以推估得到無代表性樣本的機率有多大。推論統計只能運用在以EPSEM方式得到之樣本上。透過推論統計，我們可以了解或估計

6、樣本之誤差（亦即了解樣本特性代表性之程度）。肆、EPSEM抽樣方式一、簡單隨機抽樣(simple random sampling；SRS)：此抽樣法是最基本之EPSEM抽樣法，但亦常是最難做到的。此抽樣法為將母群中每一元素或個案列成一名單，然後以一個保證讓每一件個案有均等機會被選為樣本的方式來抽選。常用的作法之一是將每一個案都編成號（一個個案只有一個編號），然後利用亂數表(tables of random numbers)來選出需要之樣本數，如果某一編號被重複選擇了，要放棄此一選擇。當然，今天我們可用電腦程式來做這種選擇。二、系統抽樣(systematic sampling)：如果嚴格實施上述

7、之簡單隨機抽樣，常常要花很多時間（特別是沒電腦時），因此我們常用系統抽樣方式來代替簡單隨機抽樣，此抽樣法只要求第一個樣本個案是利用亂數表取得，其他的樣本個案則是依次加上一定之抽樣間距取得。抽樣間距是以母群體數除以所需樣本數（即母群數樣本數）而得。第一個樣本個案就是在此抽樣間距內依亂數取得，第二個樣本個案以下，即利用此抽樣間距來抽選。如第一個抽得的是名單第13位，如母群數是10000，所需樣本是200，則間隔為10000/20050，下一抽取之個案的編號即為63，再下一個為113，依次往下選出。要注意的是系統抽樣時，母群之名單所列之元素不能有某種週期性或間隔之順序性，如名單中每第10人即為女性，

8、則依10之倍數的間隔來抽，很可能抽到的都是女性。三、分層抽樣(stratified sampling)：如果做研究時，我們對於某一特性感興趣，我們可先將母群依此特性分類，即分成strata（分層），然後最常做的是在每一分層中，依一定之比例（如10%）做簡單隨機抽樣。例如，我們可將政大學生依年級分成四層，然後，每一層次抽1%的學生，此法之優點是常常我們所要研究之特性中每一類人很少時，先分層，就可保證抽到此類人（如研究政大僑生和非僑生之某種態度，僑生人數有限，先分層即可抽到僑生）。四、叢集抽樣(cluster sampling)：上述幾種抽樣法要做得好，其前提是要有一個完整的名單，但這常是做不到

9、的，如你要研究台北市之某種態度或行為，要有全部中學生之名單幾乎是不可能的，或是極費工夫及資源，這時叢集抽樣法則極為有用，你可以學校為單位，先以隨機抽樣法抽出若干學校，然後每個學校再以班為單位抽出若干班，每班再抽出若干人。所謂叢集(cluster)以此例即可看出，叢集抽樣涉及先抽選個案所組成的團體或區域（即叢集），而不是直接抽選個人，而且抽樣過程常分成幾個階段。由於cluster sampling中每一cluster的大小不同，且常需經多階段之抽樣，而每一個階段的抽樣都會有發生誤差的機率，也就是每一個階段都可能有選出不具代表性之樣本的風險。故此抽樣方法的抽樣誤差(sampling error)會

10、較簡單隨機抽樣要大，因為簡單隨機抽樣只涉及一個階段的選樣過程。總而言之，推論統計之工作是依據樣本所得到的資訊為基礎，來推測母群體之特性，而這些樣本必須是依EPSEM得到的，雖然EPSEM方法得之樣本不一定有代表性，但依此法得到有代表性樣本之可能性極大。肆、抽樣分配(The sampling distribution)一旦我們以EPSEM的抽樣方法選取一個樣本後，我們能知道些什麼？一方面，我們可以從樣本得到許多有關樣本的訊息，但另一方面我們卻對母群體一無所知。這時就需用到推論統計來將樣本所測量到的一些變項的特性，來推論這些變項在母群體的特性為何。由前面幾個單元的學習，你應該已經學會如何適當的利

11、用樣本來描述一個變項的三個特性：（1）整個分配的形狀；（2）一些有關集中趨勢的量數；（3）一些有關離散狀況的量數。那推論統計是如何從已知之樣本特性推論到幾乎是一無所知的母群體特性呢？這就牽涉到了抽樣分配之觀念。那麼到底什麼是抽樣分配呢？抽樣分配的正式定義是“A theoretical, probabilistic distribution of a statistic for all possible samples of a certain sample size (N).” 也就是說，如果我們想要知道母群之某一個變項（如年齡）的算術平均數，那麼我們可以從母群中抽一個樣本（其樣本數為一固定大

12、小的N，譬如說100人），計算其平均數後，將此N人放回母群中，再抽一次有N人之樣本，再算一次平均數，如此反覆的做，總有一天我們會得到母群之個案所組成之所有可能有此N大小的樣本（譬如說由一個有10000人之母群中，由所有可能之不同的100人所組成之所有可能的不同樣本），並由每一個這樣的樣本所得到的平均數。由於每個樣本中所含之個案是有些不同的，所以每個樣本所計算得到的平均數也會不同，而且所得到的每一個這樣的平均數有其不同的發生機率。從另一個角度來看，如果我們事先就知道母群體某一變項的母數（如平均數）。當你從此母群體選取一固定N大小的樣本，然後由此樣本中計算此一變項的統計值時，理論上你所得到的統計值

13、有相當大的可能會是接近母群體之母數，而得到一個離母群體母數甚遠的可能性則比較小，且離開越遠者，其出現的機率會越小。上述這些所有可能得到的統計值本身，即可構成一種分配（這就像是你得到一組資料，而這資料中的每個分數都是平均數，然後利用這資料來看所有這些平均數的分配）。由於我們事實上並不可能做這種重覆抽樣之工作，因此這種分配基本上是理論性的。因為這種理論性的分配就代表著得到某一個樣本的機率，故也是一種機率分配。換言之，所謂抽樣分配就是一種與從所有可能之固定大小的樣本中所得到之某一統計值（statistic）之理論的機率分配。抽樣分配是依據機率的定律（不是實證研究結果）所得到的一種理論性的分配，雖是理

14、論性的，但其特性確是已知的。到目前為止，您應能區別三種不同分配之概念了，這三種分配是：1、樣本分配(the sample distribution)：這是實際由樣本得到的某一變項之分配的形狀(shapes of distribution)、集中量數、離散量數等，主要都是在描述樣本之特性。而我們往往只有這類的樣本資訊。2、母群分配(the population distribution)：母群之資料雖可由實證研究得知，但經常限於人力、物力，我們不可能搜集到完整之母群資料，因此對於母群特性如其分配之形狀、平均數、標準差等，都是一無所知，因而需要透過推論統計來估計。3、抽樣分配：一種依機率法則得到之

15、理論性分配，這種分配之特性可依一些定理推導出來，因此是已知的，也就透過抽樣分配之特性，我們可從樣本推到母群體。抽樣分配的用途可從其定義中看出。因為它是由所有可能之樣本所得到的結果來組成的，因此透過此分配，我們就可以得知某一特定之樣本結果出現的機率為何。推論統計就是涉及這三類的分配。我們是從可知的樣本資訊，透過已知但是為理論性的抽樣分配，來推估未知的母群體的資訊。在統計學上，對於抽樣分配之集中及離散之趨勢有兩個重要的定理(theorems)。第一個定理是：如果我們從一個是常態分配(normal distribution)之母群中（母群之平均數為，標準差是）重覆的抽N樣本數之樣本，則所有樣本之平均數()所構成之抽樣分配必然是一種常態分配，而且此分配之平均數也是（和母群體的平均數是一樣的），標準差則為。根據以往的經驗，一個人口中體重、身高或IQ常是常態分配，所以如果你從人口中重覆抽一有N樣本數之樣本（如做一萬次），則所有可能（如一萬個）樣本之一萬個平均數所得之分配，是一種常態分配。而且其平均數換言之，所有（一萬個）平均數的平均數是和母群之平均數一樣，但其標準差是。但是如果母群體之分配不是常態時，會有什麼後果？第二個定理（叫中央極限定理，The Central Limit Theorem）告訴我們說：從任何一個母群中重複抽N大小之樣本，而母群之平均數是

展开阅读全文