抽樣方法與統計估計 Statistics, Autumn 2010, C. J. Chang
抽樣的原因 調查整個母體會花費太多時間 研究母體中所有資訊需要龐大的成本 在實際情況下, 無法對母體中的所有項目進行調查 某些特定的實驗俱有摧毀的本質 樣本結果的適當性 2
常見的抽樣方法 隨機抽樣 簡單隨機抽樣 (simple random sample) 系統隨機抽樣 (systematic random sampling) 分層隨機抽樣 (stratified random sampling) 群落抽樣 (cluster sampling) 非隨機抽樣 便利抽樣 (convenience sampling) 判斷抽樣 (judgment sampling) 3
簡單隨機抽樣 簡單隨機抽樣是一種母體中的每一個項目被選中的機率都相同的抽樣方法 其做法是將待選取的項目編號, 之後利用亂數表決定選取的項目 4
系統隨機抽樣 系統抽樣就是任意選擇一起始點, 之後每隔一固定間隔就選取一個樣本 將母體中所有元素編號 (1~N) 計算 N/n, 並取小於或等於 N/n 的最大整數 K, 其中 n 為所須的樣本數 從母體中, 每隔 K 個選出一個樣本, 共選出 n 個樣本 實務上因為常有現成的資料可用, 例如 : 電話簿 戶口名冊 學籍資料等, 因此使用系統抽樣會較為便利性 我們可以用母體的總數除以需求的樣本數做為我們選取間隔的決策準則 若實體的順序與母體的特徵有關聯時, 就不可以使用系統抽樣 5
分層隨機抽樣 分層隨機抽樣的做法是先將母體依特質分為數個層級, 然後每個層級所佔母體的比例自各層級中隨機抽取樣本 分層隨機抽樣能確保佔母體比例較小的層級能一定被抽取到, 在某些情況下, 分層隨機抽樣更能反應母體特徵 6
分層隨機抽樣 (Ex.) 將預抽的樣本數 50* 各層的比例決定各層樣本的抽取數 預計抽取 50 個樣本 7
群落抽樣 群落抽樣是先將母體分成幾個群體, 之後隨機選取幾個群體, 再由這些群體之間進行抽樣 群落抽樣的優點是可以避免母體規模過於龐大的困擾, 讓調查的範為可以縮小, 以節省時間與成本, 進而提昇調查品質 群落內的差異性較高, 而群落間的差異性較小時, 群落抽樣只要抽樣幾個群落, 將能掌握母體的狀況 8
群落抽樣 (Ex.) 群落 群落 第群 第群 群落 第群 樣本 Ex. 將某一州分成 12 個區塊, 隨機抽取四個區域進行調查 9
非隨機抽樣 便利抽樣以資料取得便利性為主要考量, 選擇較不花費成本的資料蒐集工具 網路問卷 電視台的意見調查 修課同學所填寫的問卷 判斷抽樣的樣本取得是依據研究者的主觀判斷選擇適合的研究對象進行調查, 其代表性較差, 但適合用於初期或先期研究 政治評論節目 產品的購買經驗 10
抽樣誤差 透過抽樣, 我們可以利用樣本來估計母體的特徵, 但是樣本只是母體的一部份, 所以樣本平均數與標準差不可能剛好等於母體的平均數與標準差, 因此樣本統計量與母體參數間存在差距, 這就是所謂的抽樣誤差 平均數的抽樣誤差 X 11
抽樣誤差 (Ex.) 已知某旅館 2007 年 6 月每天出租房間數量的母體平均數為 3.13 現隨機抽取兩組樣本 (4, 7, 4, 3, 1; 3, 1, 2, 3, 6), 試計算每組的樣本平均數, 與抽樣誤差 x 47431 X1 3.8 n 5 x 31236 X 2 3 n 5 第一組樣本的抽樣誤差為 X1 3.8 3.13 0.67 第二組樣本的抽樣誤差為 X 3 3.13 0.13 2 抽樣誤差為正數, 表示樣本平均數高估母體平均數 ; 抽樣誤差為負數, 表示樣本平均數低估母體平均數 12
樣本平均數的抽樣分配 因為以樣本來估計母體參數會產生誤差, 所以特定樣本數的不同樣本, 其樣本平均數也會隨著改變, 如果我們將某個特定樣本數的所有組合找出, 求出所有樣本平均數, 並將其整理成機率分配, 這就是所謂樣本平均數的抽樣分配 樣本平均數抽樣分配與母體分配的關係 樣本平均數抽樣分配的平均數剛好等於母體平均數 樣本平均數抽樣分配的離散程度會比母體分配的離散程度小 樣本平均數抽樣分配會趨近於常態機率分配 13
樣本平均數抽樣分配的標準差 因為樣本平均數的資料範圍比母體的資料範圍還小, 但樣本平均數抽樣分配的平均數卻很接近母體平均數, 因此樣本平均數抽樣分配的離散程度比母體分配的離散程度要小, 而樣本平均數抽樣分配的標準差 ( 簡稱平均數的標準誤 ) 計算公式如下 平均數的標準誤 X n 14
中樣極限極定理 (central limit theorem) 當樣本數趨近於無限大時, 樣本平均數的抽樣分配會趨近於常態分配 如果母體的平均數為, 標準差為, 則 : 抽樣分配的平均數為抽樣分配的變異數為 2 n 抽樣分配的標準誤為 n z X n N(0,1) 15
樣本平均數與常態分配 當母體分配為常態分配時, 不論樣本數為多少, 樣本平均數的抽樣分配都會服從常態分配 當母體的分配未知, 或是不為常態分配時, 只要樣本數個數至少為 30, 則由中央極限值定理得知, 樣本平均數的抽樣分配會近似於常態分配 母體標準差已知, 計算 X相對應的 z值 z X n 16
樣本平均數 (Ex.) 已知可樂的容量為常態分配, 每瓶的平均容量是 31.2 盎司, 母體標準差 0.4 盎司 現在由生產線隨機抽取 16 瓶可樂為樣本, 這組樣本平均容量是 31.38 盎司, 試計算其 z 值為何? 樣本平均數大於 31.38 盎司的機率為何? X 31.38 31.2 z 1.8 n 0.4 16 P(31.38 X) P(1.8 z) P(0 z) P(0 z 1.8) 0.5 0.4641 0.0359 17
樣本平均數 (Ex.) 在南加州單人套房的每月租金服從常態分配, 平均數是 $2200, 標準差為 $250 請計算隨機選取 50 間單人房為樣本, 每月平均租金至少是 $1950 的機率是多少 1950 2200 P(900 X) P( z) P( 7.07 z) 1 250 50 機率接近為 1 18
樣本平均數 (Ex.) 某零售店顧客的消費金額服從常態分配, 其平均數是 $23.5, 標準差為 $5 現有一組 50 位顧客的樣本, 請問樣本平均數至少是 $25 的機率? 樣本平均數介於 $22.5 與 $25 之間的機率? 25 23.5 P(25 X) P( z) P(2.12 z) P(0 z) P(0 z 2.12) 5 50 0.5 0.483 0.017 22.5 23.5 25 23.5 P(22.5 X 25) P( z ) P( 1.41 z 2.12) 5 50 5 50 P( 1.41 z 0) P(0 z 2.12) 0.4207 0.483 0.9037 19
點估計與信賴區間 點估計 (point estimate) 利用樣本資料計算統計量, 用來估計母體參數 區間估計 (interval estimate) 當我們欲利用點估計找出母體參數, 通常樣本估計值不一定會正好等於母體參數, 而會略大或略小, 因此我們會利用區間的方式表示估計結果 信賴區間 (confidence interval) 在特定機率下, 估計母體參數可能落在的數值範圍 此特定的機率值可以稱為信賴水準 信賴水準 (confidence level) 上述的特定機率即稱為信賴水準 20
點估計 樣本平均數 X 是母體平均數的點估計 樣本比例 p 是母體比例的點估計 s 樣本標準差是母體標準差的點估計 21
z 分配與 t 分配的選擇標準 我們在求解信賴區間時, 會因為樣本數的不同與是否知道母體標準差 σ, 而會選擇不同的分配 22
母體標準差 σ 已知的信賴區間 母體平均數信賴區間 X z n 信賴區間的取值是左右延伸, 所以我們在取 z 值時, 要用雙尾的概念 Ex. 95% 信賴區間, 因為誤差分佈在兩邊, 所以我們找出機率值為 0.475 相對應的 z 值 23
大樣本的信賴區間 母體平均數信賴區間 ( 我們使用樣本標準差取代母體標 s 差 σ) X z n 信賴區間的取值是左右延伸, 所以我們在取 z 值時, 要用雙尾的概念 Ex.95% 信賴區間, 因為誤差分佈在兩邊, 所以我們找出機率值為 0.475 相對應的 z 值 24
常用 z 值的對照表 信賴區間 單尾的顯著雙尾的顯著水準 α 水準 α z 值 80% 0.1 0.2 1.282 90% 0.05 0.1 1.645 95% 0.025 0.05 1.96 98% 0.01 0.02 2.326 99% 0.005 0.01 2.576 25
母體標準差已知的信賴區間 (Ex.) 針對某速食店進行每日銷售調查, 假設該速食店每日銷售量呈常態分配, 且母體標準差為 $3000, 現抽選出 40 天為樣本, 其樣本平均數為 $20000, 試求平均銷售量的 99% 信賴區間 查表得知, 99% 信賴區間下 z X 2.576 信賴區間為 3000 z 20000 2.576 20000 1221.904 n 40 26
母體標準差已知的信賴區間 (Ex.) 某銀行想要知到一般顧客的平均定期存款金額, 於是隨機抽取 49 位定期存款客戶, 得知這 49 位客戶的平均定期存款金額為 30 萬, 假設已知母體標準差為 8 萬, 試求平均定期存款金額的 90% 信賴區間 查表得知, 90% 信賴區間下 z X 1.645 信賴區間為 8 z 30 1.645 30 1.88 n 49 27
大樣本的信賴區間 (Ex.) 美國管理協會希望瞭解在零售產業中, 中階主管的平均收入, 現在隨機抽取 256 個中階主管, 其平均數為 $45420, 標準差為 $2050, 試求平均收入的 95% 信賴區間 查表得知, 95% 信賴區間下 z X 1.96 信賴區間為 s 2050 z 45420 1.96 45420 251.125 n 256 28
大樣本的信賴區間 (Ex.) 某問卷公司想調查有菸癮的吸菸者在一週內購買香菸平均, 現在隨機抽選 64 位吸菸者為樣本, 其平均數為 $20, 標準差為 $5, 試求平均金額的 95% 信賴區間 查表得知, 95% 信賴區間下 z X 1.96 信賴區間為 s 5 z 20 1.96 20 1.225 n 64 29
小樣本的信賴區間 母體平均數信賴區間 ( 樣本小時, 用 t 分配取代 z 分配 ) X t s n t 值與自由度有關, 自由度為 n-1 自由度 =5-1=4 30
t 分配與 z 分配的比較 與 z 分配相同,t 分配也是連續型的機率分配 與 z 分配相同,t 分配的圖形也是鐘型與對稱分配 t 分配的標準差會依樣本數而改變, 樣本數越大, 標準差越小, 當樣本數趨近於無限大時,t 分配與 z 分配就會相同 t 分配的圖形比 z 分配更平坦 31
自由度的概念 自由度 (degrees of freedom) 我們一般用 df 代表自由度, 是指我們使用樣本統計量時, 能自由變動的變量數量, 所以自由度就是將樣本數減 1 ( 因為樣本平均數已知 ) 32
小樣本的信賴區間 (Ex.) 某輪胎製造商想要研究公司所生產的輪胎品質, 現在隨機選取了 10 個行駛 50000 英里的輪胎做樣本, 發現輪胎的剩餘厚度的平均數為 0.32 英吋, 標準差為 0.09 英吋, 請建構母體平均數的 95% 信賴區間 查表得知, 95% 信賴區間下, n10( df 9) t X 2.262 信賴區間為 s 0.09 t 0.32 2.262 0.32 0.064 n 10 33
小樣本的信賴區間 (Ex.) 台南市政府教育局想要估計台南市小學生每天收看電視所花的時間, 因此隨機抽取 26 位小學生, 得知這 26 位小學生平均收看 80 分鐘電視, 標準差則為 30 分鐘, 試求台南市小學生每天花在電視時間平均數的 95% 信賴區間 查表得知, 95% 信賴區間下, n 26( df 25) t X 2.060 信賴區間為 s 30 t 80 2.060 80 12.12 n 26 34
比例的信賴區間 前面所提的內容都是針對比例尺度的資料, 如果我們的資料是名目測量尺度, 我們就會資料轉換成比例進行分析 比例針對特定的主題, 使用分數 以例或百分比表示出部份的樣本 樣本比例 p X n X 為母體中某種屬性的次數 n 為樣本數 一般樣本的比例我們會用英文字 p 表示 ; 若是母體比例, 則是用希臘字母 π 35
母體比例的信賴區間 為建構比例的信賴區間, 樣本資料必須滿足 二項分配的條件 樣本數要夠大 可以用 nπ 與 n(1-π) 是否同時大於 5 來判斷 母體比例的信賴區間 p z p(1 p) n 36
母體比例的信賴區間 (Ex.) 衛生署想要調查全國大專院校學生抽煙人口比例, 於是隨機抽取 100 位大專生, 發現有 46 位同學有吸煙, 試求抽煙人口比例的 95% 信賴區間 計算樣本比例 46 p 0.46 100 查表得知, 95% 信賴區間下 z 1.96 信賴區間為 p(1 p) 0.46(1 0.46) pz 0.46 1.96 0.46 0.097 n 100 37
母體比例的信賴區間 (Ex.) 某候選人欲參加台南市長選舉, 在正式參選前, 他先進行了一次民意調查, 隨機抽取了 400 位選民, 其中有 300 位表示會支持他, 試求他選民支持率的 99% 信賴區間 計算樣本比例 300 p 0.75 400 查表得知, 99% 信賴區間下 z 2.576 信賴區間為 p(1 p) 0.75(1 0.75) pz 0.75 2.576 0.75 0.056 n 400 38
大樣本的信賴區間 (Ex.) 美國餐廳協會對年輕夫妻每週外出用餐次數進行調查, 根據 60 對夫妻為樣本的調查結果指出, 平均數為每週 2.76 次, 標準差為 0.75 次, 請建立母體平均數 98% 的信賴區間 查表得知, 98% 信賴區間下 z X 2.326 信賴區間為 s 0.75 z 2.76 2.326 2.76 0.2252 n 60 39
小樣本的信賴區間 (Ex.) 一份美國銀行協會抽選 25 位大學畢業生的研究指出, 每一位學生的平均助學貸款是 $14381, 樣本標準差為 $1892, 請建構母體平均數 90% 的信賴區間 查表得知, 90% 信賴區間下, n 25( df 24) t 1.711 信賴區間為 s 1892 X t 143811.711 14381647.4424 n 25 40
母體比例的信賴區間 (Ex.) 某公司對於新進員工都會進行藥物檢測, 在過去的 220 新進員工中, 有 14 位沒有通過檢測, 請建構新進員工沒有通過檢測比例的 99% 信賴區間 計算樣本比例 14 p 0.064 220 查表得知, 99% 信賴區間下 z 2.576 信賴區間為 p(1 p) 0.064(1 0.064) pz 0.064 2.576 0.064 0.0425 n 220 41
有限母體矯正因子 有限母體當母體元素的個數有上限時, 我們稱之為 有限母體 針對一個有限母體, 我們須將信賴區間的公式的公式做調整, 這個調整就稱為 有限母體矯正因子 N n FPC N 1 經調整後的信賴區間為 s N n p(1 p) N n X t pz n N 1 n N 1 42
樣本數的選擇因素 決定樣本數選擇的因素 信賴水準 最大容許誤差 E 母體的變異程度 σ X z n X X z n z n 43
樣本數的選擇公式 估計母體平均數所需的樣本數 z z E z n n n E E 估計母體比例所需的樣本數量 2 2 2 2 z z p(1 p) z n p(1 p) E E E 若計算所得 n 為小數, 必須無條件進位 44
估計母體標準差的方式 因為確認樣本數的工作是在進行抽樣之前, 所以我們還沒樣有樣本標準差可以來替代母體標準差, 可是因為確認樣本數的需要, 我們常用下列的方式估計母體標準差 使用之前類似研究的數據 利用全距估算, 母體標準差可以用六分之一的全距估計 進行實驗性研究, 也就是先進行少量的實驗, 以求得樣本標準差 若是估計母體比例的樣本數, 我們在不知道比例的情況下, 可以用 p=0.5 來估計 45
樣本數的選擇 (Ex.) 某學生想要計算議員的平均薪資為何, 他能接受的最大誤差為 $100, 使用 95% 的信賴水準, 若之前相同研究所得到的標準差為 $1000, 那麼這次研究最少需要多少樣本數 2 2 z 1.961000 n E 100 最小的樣本數為 385 2 (19.6) 384.16 46
樣本數的選擇 (Ex.) 某學生想要研究擁有垃圾掩埋場的城市比例有多少, 其能接受的最大誤差為 0.1, 使用 90% 的信賴水準, 若無法得知母體比例, 那麼這次研究最少需要多少樣本數 2 2 z 1.645 n p(1 p) 0.5(10.5) 67.65 E 0.1 最小的樣本數為 68 47
樣本數的選擇 (Ex.) 隨機挑選 25 位員工, 發現他們每小時的平均薪資為 $65, 標準差為 $6.25 母體平均數的最佳估計值是多少 建構母體平均薪資的 99% 信賴區間 使用 95% 信賴水準, 能容忍的誤差是 $1, 則樣本應該為多少 母體平均數的最佳估計值為 65 查表得知, 99% 信賴區間下, n25 t 2.797 信賴區間為 X s 6.25 t 65 2.797 65 3.496 n 25 2 2 z 1.966.25 n 150.0625 最小的樣本數為 151 E 1 48
The end of this chapter. Thank You!