抽樣與抽樣分配
統計推論的目的 建立估計值 ( 統計值 ) 及利用樣本資訊來檢定母體的假設 因為在實際上, 對母體內的所有個體或物件進行測定或測試的, 考量時間和成本的不可行, 因此抽取樣本進行調查, 變成必要的做法
抽樣 抽樣的結果只是母體某些特徵值的估計值, 我們不可能期待樣本平均數恰巧正是母體平均數, 理由是樣本只是母體的一部分 透過適當的抽樣方法, 抽樣結果可以提供對母體特性的 良好 估計值, 但估測的結果有多好, 統計方法可回答此問題
Electronics Associates 公司 (EAI) 的抽樣問題 (1) 2500 位主管做為母體, 從人事資料了解每個人的年薪及受訓狀況 母體平均數 : μ =$51,800 母體標準差 : σ=$4,000 資料顯示 2500 位主管中有 1500 完成訓練課程, 以 p 代表完成課程的母體比例,p=1500/2500=0.60
Electronics Associates 公司 (EAI) 的抽樣問題 (2) EAI 公司如何利用樣本資料取得母體參數的估計值, 假設抽出 30 位主管作為樣本, 希望樣本資料可以提供母體的充分資訊, 要如何抽出這 30 位主管?
簡單隨機抽樣 (Simple Random Sampling) (1) 簡單隨機抽樣樣本的定義和抽取程序視母體為有限 (finite) 或無限 (infinite) 母體而定 簡單隨機樣本 ( 有限母體 ) 某一個大小為 N 的有限母體中, 抽出樣本大小為 n 的簡單隨機樣本, 意指大小為 n 的每個可能樣本被抽出的機率皆相同 EAI 的抽樣問題包含 2500 為主管, 屬於有限母體
簡單隨機抽樣 (Simple Random Sampling) (2) 不歸還抽樣 (sampling without replacement) 選取樣本時, 每個個體在樣本中只出現一次 歸還抽樣 (sampling with replacement) 選取樣本時, 每個個體在樣本中出現兩次甚至更多 歸還抽樣雖然是簡單隨機抽樣的一個有效方法, 但大部分的人還是使用不歸還抽樣方式, 因此一般假設簡單隨機抽樣是以不歸還抽樣的方式進行
簡單隨機抽樣 (Simple Random Sampling) (3) 簡單隨機樣本 ( 無限母體 ) 從無限母體抽出一個簡單隨機樣本必須滿足下列條件 : 每一個元素 ( 或個體 ) 皆抽自相同的母體 每一個元素 ( 或個體 ) 皆可獨立抽出 例子 : 速食店隨機選取顧客回答問題 強調每一個元素 ( 或個體 ) 皆可獨立抽出的目的, 是為了要避免選擇偏差 如何做到獨立? 確保任一個被選中的顧客, 都不會影響下一個顧客是否被選中 以麥當勞為例 : 若有顧客使用折價卷, 下個顧客就會被要求填答問卷
點估計 (Point Estimation) (1) 樣本平均值 ( x) 是母體平均數 (μ) 的點估計量 (point estimator) 樣本標準差 (s) 是母體平均數 (σ) 的點估計量 p 樣本比例 ( ) 是母體比例 p 的點估計量 在特定樣本中得到的 x s 或 p 的值則稱為點估計值 (point estimate)
點估計 (Point Estimation) (2) 30 位 EAI 主管樣本的點估計值 母體參數值 μ = $51800 σ = $ 4000 p = 0.60 點估計值 x = $51814 s = $ 3348 p = 0.63 沒有任何一項點估計值會恰好等於對應的母體參數, 此項差異是意料中之事, 因為我們只是應用樣本而非整個母體普查來進行點估計
抽樣分配 (Sampling Distribution) (1) 假設我們現在另外抽出 30 位主管的資料, 得到以下的點估計值 : x = $52670 p = 0.70 注意 : 此次的 x 和 p值與前面不同 假設我們重複同樣的抽樣程序, 每次抽出 30 位主管為樣本, 並計算的 x 和 p 值
抽樣分配 (Sampling Distribution) (2)
抽樣分配 (Sampling Distribution) (3)
抽樣分配 (Sampling Distribution) (4)
的抽樣分配 (1) 樣本平均數 x是隨機變數, x 的機率分配稱為 x 的抽樣分配, 它是樣本平均數 x 的所有可能值的機率分配 x 的期望值 x E( x) E( x) x的期望值 母體平均數 x 在簡單隨機抽樣下, 均數等於母體平均數 的抽樣分配的期望值或平
x 的抽樣分配 (2) 當點估計量的期望值等於母體參數, 我們稱此點估計量為不偏估計量 (unbiased estimator), 所以 x 是母體平均數 的不偏估計量
x 的標準偏差 (1) x 的標準偏差 有限母體 x N N n 1 n 無限母體 x n x n N x的標準偏差 母體標準差 樣本大小 母體大小
x 的標準偏差 (2) 比較兩個標準偏差算式, 主要差別在有限母體算式多了 (N n)/(n 1), 這個因子通常被稱為有限母體校正因子 (finite population correction factor) 在許多的抽樣實例中, 有些有限母體 很大, 相較之下的樣本大小則是 很小, 因此有限母體校正因子 (N n)/(n 1) 趨近於 1 所以母體不論是有限或是無限,x 的標準偏差的差異並不明顯, 因此可以忽略 此時雖然母體是有限的, 我們仍用 σ x =σ n 為 x 標準差的計算公式
x 的標準偏差 (3) x 的標準偏差計算公式 : x n 適用於當母體為無限, 或母體為有限, 且樣本數小於或等於母體大小的 5%, 也就是 n/n 0.05 為了計算 σ x, 需要知道母體的標準差 σ, 為進一步強調 σ 與 σ x, 的差異, 我們稱 x 的標準差 σ x 為平均數的標準誤 (standard error) 一般而言, 標準誤一詞是指點估計量的標準差
x 的標準偏差 (4) EAI 的例子 σ= 4000,N=2500 n/n=30/2500=0.012, 因為樣本數小於母體大小的 5%, 可以忽略校正因子, 所以計算得到 : x n 4000 30 730.3
母體為常態分配 x 抽樣分配的形狀 如果母體是常態分配, 無論樣本大小,x 的抽樣分配也是常態分配 母體不是常態分配 如果不是常態分配, 中央極限定理 (central limit theorem) 可以幫助我們決定 x 抽樣分配的形狀
中央極限定理 (1) 由母體中抽出樣本大小為 n 的簡單隨機樣本, 當樣本大小 n 夠大時, 樣本平均數 x 抽樣分配將趨近於常態分配
中央極限定理 (2)
中央極限定理 (3) 在大部分的統計應用實例中, 只要樣本數大於 30, x 的抽樣分配便會趨近常態分配 如果母體的偏度高, 或者有離群值, 可能要求樣本數大於 50 如果母體是離散的, 常態近似所需的樣本大小通常視母體比例而定
x 抽樣分配的實務價值 (1)
x 抽樣分配的實務價值 (2)
x 抽樣分配的實務價值 (3) 52300 51800 z 0.68 730.30 P(51300 x 52300) P( z 0.68) P( z 0.68) 0.7517 0.2483 0.5034 z 51300 51800 0.68 730.30
x 抽樣分配的實務價值 (4) 一個樣本大小為 30 的 EAI 主管的簡單隨機樣本, 其樣本平均數 x 會落在母體平均數 ±$500 範圍內的機率為 0.5034, 也就是說, 有 1-0.5034=0.4966 的機率會使樣本平均數超過 x 和 = $51800 範圍 換句話說, 樣本平均數有一半的機率會落在此範圍內, 但有一半的機率不會 或許我們應該考慮更大樣本的情形, 探討樣本大小與 x 抽樣分配間的關係
樣本大小與 x 抽樣分配的關係 (1)
x 樣本大小與抽樣分配的關係 (1) 假設在 EAI 抽樣的例子中, 抽取的隨機樣本的大小為 100 位主管而非 30 位, 直覺上, 大樣本好像可以提供較多的資訊, 樣本數 n=100 的樣本平均數比 n=30 的樣本平均數似乎會是更好的母體平均估計值 首先 E(x) 並不考慮樣本大小, 因此不管樣本大小 n 是多少, 所有 x 的可能值的平均數等於母體平均數 μ 然而, 樣本平均標準誤, 則與樣本數的平方根有關 當 x n 樣本數增加, 則標準誤 x 減少 在 EAI 問題中, 當 n=30, 標準誤為 730.3, 而當 n=100 時, 則標準誤降為 x n 4000 100 400
樣本大小與 x 抽樣分配的關係 (2)
x 樣本大小與抽樣分配的關係 (3) 計算在 n=100 時,100 位 EAI 主管簡單隨機樣本的平均數會落在母體平均數 ±$500 範圍內的機率 因為抽樣分配為常態, 且其平均數為 $51800, 標準誤為 $400, 利用標準常態分配獲得機率值 : 52300 51800 z 1.25 400 51300 51800 z 1.25 400 z = 1.25 的累積機率為 0.8944,z = -1.25 的累積機率為 0.1056 P(51300 x 52300) P( z 1.25) P( z 1.25) 0.8944 0.1056 0.7888 x
x 樣本大小與抽樣分配的關係 (4) 從上述的結果得知, 當抽樣樣本大小增加時, 平均數的標準誤減少, 因此當樣本愈大時, 樣本平均數落於母體平均數的誤差在某特定範圍內的機率會愈高
p 的抽樣分配 (1) 樣本比例 p 是母體比例 p 的點估計量, 計算樣本比例的公式是 : x p n x 樣本中有某種特性的元 n 樣本大小 素數目 樣本比例 p 抽樣分配 是隨機變數, 且其機率分配稱為 p 的
p 的抽樣分配 (2) 為了決定樣本比例 p 有多接近母體比例 p, 需要先了解 p 抽樣分配的幾個特徵值 : p 的期望值 p 的標準差及 p 抽樣分配的形狀 p 的期望值 p 的標準差 E( p) E( p) p p的期望值 p 母體比例 有限母體 : 無限母體 : p p N N n 1 p(1 p) n p(1 p) n
p 的抽樣分配 (3) 樣本數夠大, 無限母體與有限母體的差異是可以忽略的 樣本比例的標準差的計算, 當母體為有限且 n/n0.05, 可以使用 p p( 1 p) / n 的公式 但如果母體有限且 n/n>0.05, 則必須加上有限母體校正因子 在 EAI 例子中, 參加管理課程的主管的比例為 p=0.60, 由於 n/n=30/2500=0.012, 故計算比例的標準誤時, 可忽略有限母體校正因子, 若樣本數為 30 位主管, 則 p p(1 n p) 0.06(1 0.06) 30 0.0894
p 的抽樣分配 (4) p 抽樣分配的形狀 樣本比例 p x / n, 就取自大母體的簡單隨機樣本而言, x 值可視為二項隨機變數, 表示樣本中具有某種特定屬性的元素個數 由於 n 是常數,x/n 的機率就像 x 的二項機率, p 的抽樣分配也是離散機率分配, 每個 x/n 的機率即為 x 的機率 當 np 5 及 n(1-p) 5, p 的抽樣分配可以利用常態分配來近似
p 的抽樣分配 (5) 在 EAI 抽樣的例子中, 有參加管理訓練課程的主管的母體比例 p=0.60, 當取樣樣本大小為 30, 則 np=30 0.60=18 且 n(1-p)=30 0.40=12, p 的抽樣分配可以趨近常態分配描述 p 0.60 (1 0.60) 30 0.0894
p 的抽樣分配 (6) 樣本比例 p 值落在 0.55 到 0.65 間的機率 P( 0.55 p 0.65) 0.7123 0.2877 0.4246
p 的抽樣分配 (7) 若樣本大小由 30 增加為 100, 樣本比例 0.55 到 0.65 間的機率 : p 值落在 p 0.60 (1 0.60) 100 0.049 z z 0.55 60 1.02 0.049 0.65 0.60 1.02 0.049 P( 1.02 z 1.02) 0.8461 0.1539 0.6922
點估計量的性質 (1) 樣本統計量作為點估計量, 需具備良好的點估計量的性質, 包括 : 不偏性 有效性 一致性 以 θ 代表母體參數, ˆ 代表樣本統計量或 θ 的點估計量
點估計量的性質 (2) 不偏性 樣本統計量的期望值等於要估計的母體參數的期望值, 則此樣本統計量就是母體參數的不偏估計量 (unbiased estimator) 樣本統計量, 是母體參數 θ 的不偏估計量 ˆ E( ˆ)
點估計量的性質 (3)
點估計量的性質 (4) 有效性 假定有 n 個元素的簡單隨機樣本可以提供同一個母體參數兩個不偏估計量, 此種情況下, 我們會使用標準差較小的點估計量, 因為它可以提供更接近母體參數的估計值 標準差較小的點估計量相對於其他點估計量, 有更高的相對有效性 (relative efficiency)
點估計量的性質 (5) 兩個不偏點估計量 ˆ 與 ˆ 的抽樣分配, 的標準 1 2 ˆ 1 誤比 ˆ 的標準誤來得小, 相較於 ˆ 2 2, ˆ 更有效, 1 也是更好的點估計量
點估計量的性質 (6) 一致性 (consistency) 當樣本數變大時, 點估計量的數值變得更接近母體參數時, 就稱點估計量是一致的 換言之, 大樣本比小樣本能提供更好的點估計值
其他抽樣方法 (1) 分層隨機抽樣 (stratified random sampling) 母體的所有元素先被區隔成數群, 稱為層 (strata) 母體中每一個元素只歸屬在某一個資料層中, 常見的區分基準如部門 地理位置 年齡 產業別等, 由樣本設計者自行決定 較好的區分方法是資料層內的元素愈相像愈好 區隔出資料層後, 再由每個資料層進行簡單隨機抽樣 分層抽樣的品質好壞, 端視資料層內元素的同質性程度, 同質性高, 層內的變異將減少, 只要少量的抽樣資料就可得到良好的估計值
其他抽樣方法 (2) 叢式抽樣或集束抽樣 (cluster sampling) 母體首先被分出幾群, 稱為叢體 (clusters), 每個元素只歸屬一個叢體, 然後再就所有叢體中進行簡單隨機抽樣 被抽出的叢體中的所有元素即構成樣本 當一個叢體內的元素是異質 ( 不相同 ) 時, 叢式抽樣可以得到好的分析結果 叢式抽樣的好壞評斷標準在於所用的叢體對母體是否有代表性 叢式抽樣主要的應用之一是地區抽樣, 每一叢體可以是城市的某個地區或其他定義清楚的地區 叢式抽樣通常抽取的樣本會比簡單隨機抽樣和分層隨機抽樣來得多, 但是因為已經分成幾個叢體或地區, 訪問者可在同一地區訪問 ( 例如 : 某縣市的一里 ), 成本反而會降低, 時間也可縮短 因此, 叢式抽樣可以讓我們在此較低的成本下, 取得較大的樣本
其他抽樣方法 (3)
其他抽樣方法 (4) 系統抽樣 (systematic sampling) 在某些抽樣情況下, 特別是指母體很大的情況, 簡單隨機抽樣利用亂數找對應的樣本元素將會相當費時 此時, 系統抽樣就是可行的選擇 例如 : 在 5000 個元素的母體中要抽出 50 個當作樣本, 可以從每 5000/50=100 個元素中抽出一個元素, 直到抽出 50 個元素為止 這樣的抽樣方法比簡單隨機抽樣還要簡單, 尤其當母體元素呈隨機排序時, 由於第一個被抽出的元素是隨機決定的, 系統抽樣通常也被假設為具有簡單隨機抽樣的特性
其他抽樣方法 (5) 便利抽樣 (convenience sampling) 屬於非機率抽樣 (nonprobability sampling) 方法, 正如其名, 樣本是否被抽出的關鍵是便利性, 我們無法知道樣本中的元素被抽中的機率 例如 : 教授可能以自願參與實驗的學生為樣本, 因為學生是現成的, 資料取得的成本也低 同樣的, 檢驗員要檢驗一整個貨櫃的柳橙時, 會隨意抽出幾箱柳橙作為樣本 便利抽樣法的優點是樣本抽選與資料蒐集都相當簡單, 但不可能以樣本的代表性來評估樣本的 適合度 (goodness) 便利抽樣的結果可能很好也可能不理想, 沒有統計程序可用來對抽樣結果的品質進行機率分析或推論 將便利抽樣視為隨機抽樣的做法並不被支持, 因此用便利抽樣作母體的統計推論必須謹慎小心
其他抽樣方法 (5) 判斷抽樣 (judgment sampling) 一種非機率抽樣方法 使用這種方法的研究者必須非常了解研究對象, 選出他認為最能代表母體的樣本 這個方法通常也相當簡便, 例如 : 一名記者可能會選出他認為最能反映全體參議員看法的 2 位或 3 位參議員來採訪 這個方法選出的樣本的品質端視研究者的判斷而定, 同樣地, 利用此法做統計推論時, 也要特別小心