第十一章 決定樣本的大小 中興大學行銷系 黃文仙 本章大綱 1. 樣本大小的規則. 以接近信賴區間決定樣本大小 3. 樣本大小的公式 4. 決定樣本大小時的實務考量 5. 決定樣本大小的其他方法 6. 兩種樣本大小的特殊決定情況 1
前言 樣本選擇的方法會影響樣本代表性 樣本大小並不能判斷代表性, 但會影響到樣本結果的正確性 樣本正確性 (sample accuracy) 是指隨機樣本的統計值與母體值的接近程度 3 樣本大小和樣本正確性的規則 (1/3) 1. 唯有普查的樣本能夠完全正確. 機率樣本總是會有些不正確 ( 樣本誤差 ) 3. 機率樣本越大越正確 ( 較少樣本誤差 ) 4. 機率樣本的正確性 ( 誤差 ) 可以用簡單的公式來計算, 以正負多少百分比來表示 4
樣本大小和樣本正確性的規則 (/3) 5. 對於調查中的任何結果, 如果用同樣的機率樣本大小再次調查, 將會發現同樣的結果 ( 介於原始結果的正負多少個百分比之內 ) 6. 幾乎在所有的個案中, 機率樣本的正確性 ( 樣本誤差 ) 都與母體的大小無關 5 樣本大小和樣本正確性的規則 (3/3) 7. 機率樣本的大小可以只占母體規模的微小比率, 但仍可以非常正確 ( 較少樣本誤差 ) 8. 機率樣本的大小取決於顧客想要的正確性 ( 可接受的樣本誤差 ) 和蒐集該樣本大小所需要的成本 6 3
以接近信賴區間決定樣本大小 決定樣本大小最正確的值為接近信賴區間 (confidence interval approach) 其應用正確性 ( 樣本誤差 ) 變異性 (variability) 和信賴區間的概念, 創造出 正確 的樣本大小 它在理論上是最正確的方法, 所以被大多數的調查公司和行銷研究人員採用 7 調查的兩種誤差 抽樣誤差 樣本選擇方法 樣本大小 調查調查總誤差 非抽樣誤差 資料處理誤差 受訪者誤差 樣本選擇誤差 無反應誤差 反應誤差 訪問員誤差 8 4
樣本規模與樣本誤差的關係 9 樣本誤差公式 機率樣本的正確性 ( 誤差 ) 可以用簡單的公式來計算, 以正負多少百分比來表示 得到樣本誤差圖, 該公式為 : 常數 p 和 q 是? 樣本大小 10 5
樣本誤差公式 以上的樣本誤差公式只適用於名目資料或是分類型分類型的資料 11 p 和 q: 變異性的概念 當有多種不同的回答時, 結果具有大的變異 變異性定義為受訪者間對一特定問題回答相異的程度 如果在回應尺度上, 大多數的受訪者都是回答相同的答案, 因為其回應為高度相似, 所以分配的變異較少, 如果回答出多種答案, 則變異性較大 1 6
p 和 q: 變異性的概念 以 Domino 披薩為例, 說明 p 和 q 是什麼 : p = 說 會的百分比 q = 100% p, 說 不會的百分比 p=50% 且 q=50% 的樣本誤差公式 ± 500 13 p 和 q: 變異性的概念 使用名目資料 ( 即 是 否 ), 我們可以用長條圖將變異性概念化 最高的變異性是 50-50 百分比 重點 : 當母體成員間的差異較大時, 應該抽取較多的樣本, 以達到正確性 14 7
信賴區間的概念 對於調查中的任何結果, 如果用同樣的機率樣本大小再次調查, 將會發現同樣的結果 ( 介於原始結果的正負多少個百分比之內 ), 此規則是根據信賴區間 (confidence interval) 的概念 信賴區間為一個範圍, 其端點定義了對某問題的特定回應比率 15 信賴區間的概念 如果在總統大選之前,TVBS 民調結果告訴我們說 : 有 37% 選民支持馬英九, 3% 支持蔡英文 ; 在 95% 信心水準下, 抽樣誤差在 ±3.1 個百分點以內 16 8
信賴區間的概念 我們有 95% 信心, 支持馬英九的選民比例, 在 (.339,.401) 範圍內, 而支持蔡英文的選民比例, 在 (.199,.61) 範圍內 括弧內的數字是分別用 37% 和 3% 加減 3.1% 得來的, 而這兩個範圍, 就是我們要討論的信賴區間 (confidence interval) 17 信賴區間的概念 : 詐騙電話 假設我們想知道全台灣成年人當中, 有多少百分比接到過詐騙電話 我們沒法子問到全台灣的成年人, 因此只能抽樣本來做調查, 抽樣調查的目的, 就是要根據樣本的數據來對母體做結論 18 9
信賴區間的概念 : 詐騙電話 民國 93 年 4 月, 聯合報就做了這樣一項調查, 得到的結果是 : 過去一年來, 高達六成七受訪者表示曾親自接到詐騙電話 另外還有 : 調查於四月十九日至四月二十日進行, 成功訪問了九百一十二位成年民眾, ; 在百分之九十五的信心水準下, 抽樣誤差在正負三點二個百分點以內 調查是以台灣地區住宅電話為母體作尾數兩位隨機抽樣 ( 見 93 年 4 月 日聯合報 ) 19 信賴區間的概念 : 詐騙電話 在受訪民眾中 接到過詐騙電話的比例, 是 67% 母體比例( 全台灣成年人當中 接到過詐騙電話的百分比 ) 也會是 67% 嗎? 通常是不會, 因為我們知道樣本結果通常不會和母體的真正比例一模一樣 我們只能說, 全台灣成年人當中 接到過詐騙電話的百分比, 大約 是 67% 而信賴區間把這個 大約 具體化了 0 10
信賴區間的概念 : 詐騙電話 所以,95% 信賴區間是從樣本數據計算出來的一個區間, 保證在所有樣本當中, 有 95% 會把真正的母體參數包含在區間之中 把案例中的 67% 分別加減報導中提到的抽樣誤差 3.%, 所得到的區間 (.638,.70) 就是對於母體比例 p 的 95% 信賴區間 1 信賴區間的概念 : 詐騙電話 95% 的確實意義是這樣的 : 如果我們重新抽一個同樣大小的樣本 (91 人 ), 樣本中接到過詐騙電話的百分比還會是 67% 嗎? 多半不會, 因為樣本的組成份子會改變, 我們假設這次得到的樣本比例是 69.5% 好了, 加減 3.% 就得到 (.663,.77); 如果再重抽一次, 假設得到 65%, 區間就變成 (.618,.68); 11
信賴區間的概念 : 詐騙電話 假設我們如此這般一直重複下去, 得到無數的區間, 則在這些區間當中, 有 95% 會把真正的母體比例, 也就是 p( 全台灣成年人當中 接到過詐騙電話的百分比 ), 包含在區間裡面 3 信賴區間的概念 : 詐騙電話 民調實際得到的區間 (.638,.70) 有沒有把 p 包含在裡面呢? 這只有老天爺知道 但是因為包含 p 的區間佔所有區間的 95%, 所以這個區間包含 p 的機會是頗大的, 如果這是事實的話, 代表真正的 p 就介於.638 和.70 之間 如果運氣不好, 這個區間正好屬於不包含 p 的 5%, 則代表真正的 p 不是大於.70 就是小於.638 4 1
信賴區間的概念 信賴區間是根據統計中常見的常態或鐘形曲線 1.96 倍的標準差定義了曲線分布的端點 5 信賴區間的概念 根據中央極限定理 (central limit theorem), 我們可以使用常態曲線 不管母體分布的形態為何, 重製的樣本分布 (n 至少 =30 ) 會長得像常態曲線 中央極限定理讓我們得以使用常態曲線的邏輯 6 13
信賴區間的概念 如果重複調查很多次 ( 或許 1,000 次 ), 可以預期結果落在一個已知的範圍 基於此, 我們有 95% 確信真實的母體比率會落在這個範圍 7 信賴區間的概念 p=50% q=50% 且 n=100 時的樣本誤差公式 : ± 500 100 = ±9.8% 8 14
信賴區間的公式 信賴區間 = p ± 樣本誤差 此範例中 95% 信賴區間的限制為 50% ± 9.8%, 即為 40.% 和 59.8% 亦即: 50% 的樣本會在下一次訂披薩時訂購 Domino, 真實的母體比率會介於 40.% 和 59.8% 之間, 即使重作 1,000 次調查,95% 的發現也都會位於這個範圍 9 信賴區間的概念 下圖示範樣本大小如何影響理論上抽樣分布的形狀, 以及信賴區間的範圍 n = 100 n = 500 n = 1000 30 15
樣本大小的公式 標準樣本大小公式 : 31 練習題 使用本章所提供的公式, 及精確性 ( 允許誤差 )±5%, 計算下列適合的樣本數 : 30% 的變異,95% 的信賴水準 (pq) n= z e 1.96 (30 x70) = 5 3.84 x 100 = 5 8064 = 5 = 3.6 (33) 3 16
練習題 使用本章所提供的公式, 及精確性 ( 允許誤差 )±5%, 計算下列適合的樣本數 : 60% 的變異,99% 的信賴水準 (pq) n = z e. 58 (60 x 40) = 5 6.66 x 400 = 5 15,984 = 5 = 639.4 (639) 33 決定樣本大小時的實務考量 如何估計母體的變異性? 當使用百分比的標準樣本大小公式時, 有兩種選擇 : 1. 預期最壞的情況 : 最壞的情況或最大的變異百分率為 50%/50%, 此為最保守的假計. 估計真實的變異 (variability): 研究人員也會試著去估計 p, 而非直接採取最壞的情況 34 17
決定樣本大小時的實務考量 如何決定可接受樣本誤差的量? 1. 研究人員應該幫助經理制定決策 經理願意容忍多少誤差?. 慣例是 ± 5% 3. 越重視決策, 樣本誤差的數字越小 35 決定樣本大小時的實務考量 如何決定信賴水準? 1. 研究人員應該幫助經理制定決策 信賴水準越高, 樣本規模越大. 行銷研究中傳統都是使用 95% 的標準信賴區間, 其 z 值為 1.96 3. 越重視決策, 經理越可能要求更高的信賴水準 99% 的信賴水準, 其 z 值為.58 36 18
決定樣本大小的其他方法 1 3 4 獨斷 百分率經驗法則 樣本大小慣例樣本大小規格統計分析需求樣本大小規格樣本大小規格的成本基礎 37 決定樣本大小的其他方法 1 獨斷 百分率經驗法則 樣本大小 獨斷法為關於樣本大小的 百分率經驗法則 獨斷樣本大小雖然簡單且容易使用, 但卻不具效率與經濟性 38 19
決定樣本大小的其他方法 慣例樣本大小規格 慣例法遵循一些 慣例, 或是一些數字, 那些數字被認為會是正確的樣本大小 使用慣例樣本大小會造成樣本太大或太小 慣例樣本大小忽略了目前調查的特殊狀況 39 決定樣本大小的其他方法 3 統計分析需求樣本大小規格 研究人員有時會進行特定類型的資料分析, 以判斷樣本大小 40 0
決定樣本大小的其他方法 4 樣本大小規格的成本基礎 所有可負擔法 不是基於調查產生的資訊價值來決定樣本大小, 而是由預算來決定樣本數, 且這個方法也沒有考慮到樣本的正確性 41 兩種樣本大小的特殊決定情況 1 小母體抽樣 非機率抽樣時的樣本大小 4 1
兩種樣本大小的特殊決定情況 1 小母體抽樣 小母體 : 樣本數大於總母體大小的 5% 限定倍數 (finite multiplier): 對樣本大小公式進行調整 進行小母體研究時, 適當運用限定倍數可以減少樣本大小, 並節省成本 43 兩種樣本大小的特殊決定情況 1 小母體抽樣 小母體的樣本大小公式 : 小母體樣本 n N - n N - 1 44
兩種樣本大小的特殊決定情況 1 小母體抽樣 若使用 1,000 家公司為母體 假設想知道有多少比率的公司對於當地醫院所提供的物資濫用勸告計畫感興趣, 在不確定變異, 決定採用最壞的情況 (50-50), 使用 95% 信賴水準, 結果的正確性為 ±5% 45 兩種樣本大小的特殊決定情況 1 小母體抽樣 計算如下 : (pq) n= z e 1.96 (50 x 50) = 5 3.84 x 500 = 5 9600 = 5 = 384 46 3
兩種樣本大小的特殊決定情況 1 小母體抽樣 因應小母體的情況, 使用限定倍數來調整樣本大小 : N - n 小母體樣本 n N - 1 減少樣本大小 81% 384 = 303 1000-384 1000-1 47 兩種樣本大小的特殊決定情況 非機率抽樣時的樣本大小 當使用非機率抽樣時, 決定樣本大小的唯一合理方式是權衡樣本所帶來的利益 價值和蒐集資訊所花的成本 48 4
資料來源 Alvin C. Burns and Ronald F. Bush (009), Marketing Research, 6th edition, Pearson. 淡江大學數學系鄭惟厚教授 什麼是信賴區間 : http://www.google.com.tw/url?sa=t&source=web &cd=1&ved=0cbkqfjaa&url=http%3a%f% Fmathcenter.ck.tp.edu.tw%FResources%FCtr l%fepaper%fepaperopenfilex.ashx%3fauto Key%3D11&ei=IvXBTfuYPIO8vgPU4m_BA& usg=afqjcnemwnizoaesljhszp5zncsutjio A 49 5