區間估計
區間估計值 (Iterval Estimate) 由於點估計量的值不會恰好等於母體參數, 因此區間估計值通常是由點估計量的值加或減某個值求得, 我們稱這個加減值是邊際誤差 (margi of error) 區間估計值的一般形式是 : 點估計值 ± 邊際誤差 區間估計值可以讓我們瞭解, 由樣本得到的點估計值與母體參數值的接近程度
母體平均數 (σ 已知 ) 為了求算母體平均數的區間估計值, 必須知道母體的標準差 σ 或樣本的標準差 s 以計算邊際誤差 在大部分應用中, σ 很少是已知的數值, 而是以 s 來計算邊際誤差 在某些應用中, 歷史資料或其他某些可用的訊息, 讓我們得以在抽樣前取得母體標準差的優良估計值 在品質管制的應用中, 如果程序進行順利無誤, 或在 控制中, 是母體標準差為已知也是適當的 此種情況稱為 σ 已知的情況
個案研究 : 洛依德公司 洛依德公司每週選擇 100 名顧客的簡單隨機樣本, 以瞭解每位顧客每次購物的花費 若以 x 表示每次購物的花費, 樣本平均數 x可以提供母體平均數 μ 的點估計值 洛伊德公司進行此項調查已有數年, 根據歷史資料, 洛伊德公司假定母體平均數 μ=$8 母體標準差 σ=$0, 也顯示母體是常態分配
邊際誤差與區間估計 (1) 洛依德公司的例子, 購物花費的母體是標準差 σ=$0 的常態分配, 根據中央極限定理, x 的抽樣分配是常態分配, 且其標準誤 x 0 / 100
邊際誤差與區間估計 () 利用標準常態機率表, 可以發現 95% 的常態分配隨機變數的值會落在離平均值 ±1.96 個標準差內, 因為 x 的抽樣分配是常態分配, 有 95% 的 x 值必須落在 μ ±1.96 個標準差內 x 洛依德公司的例子, 的抽樣分配是常態分配, 標準誤 x 因為 1.96 x 1.96 3. 9 結論是 : 樣本大小為 =100 而得到的樣本平均數會有 95% 落在母體平均數 ±3.9 的範圍內
邊際誤差與區間估計 (3)
邊際誤差與區間估計 (4) 假定選取三個不同的隨機樣本, 每個樣本 100 名顧客 x3 1.96 x x 1.96 x 3.9 參數 μ 形成的區間並未涵蓋母體平均數
邊際誤差與區間估計 (5) 假定最近數週內, 洛依德公司的品管團隊調查 100 顧客, 得到的購物花費平均數是 x = 8, 以 x 3. 9 計算區間估計值, 可以得到 8 ±3.9 因此, 以最近一個月的樣本資料得到的區間估計值是 8-3.9=78.08 到 8+3.9=85.9 由於以 x 3.9 建立的各種區間估計值中, 有 95% 的區間估計值會包含母體平均數 因此, 我們可以說有 95% 的信心, 78.08~85.9 的區間會包含母體平均數 μ, 可以說這個區間是在 95% 的信賴水準 (cofidece level) 下建立的 其中, 0.95 稱為信賴係數 (cofidece coefficiet), 區間 78.08~ 85.9 則稱為信賴區間 (cofidece iterval)
邊際誤差與區間估計 (6) 已知邊際誤差為 z ( ), 母體平均數 μ 的區間估計值在 σ 已知的情況下, 通式如下 : x 其中 (1- α) 是信賴係數,z α/ 是右尾面積為 α/ 的標準常態機率分配的 z 值 90% 信賴水準下, 信賴區間 : 95% 信賴水準下, 信賴區間 : z 0 8 1.645 8 3.9 78.71 ~ 85.9 100 0 8 1.96 8 3.9 78.08 ~ 85.9 100 99% 信賴水準下, 信賴區間 : 0 8.576 8 5.15 76.85 ~ 87.15 100
實用忠告 x z 母體是常態分配, 利用 求算確切的信賴區間, 95% 的信賴區間, 會有 95% 的信心此區間包含母體平均數 若母體不是常態分配, 信賴區間則是近似值 大部分的實際應用中, 建立母體平均數的信賴區間時, 樣本大小 30 就已足夠 ; 如果母體不是常態分配, 但大致上對稱, 樣本大小至少為 15, 也可以得到良好的近似信賴區間 樣本數更小時, 只有分析人員相信或可以假定母體分配至少是近似常態時, 才可使用
母體平均數 (σ 未知 ) 在建立母體平均數的區間估計值時, 經常沒有母體標準差的良好估計值 在這種情況下, 就要以同一個樣本來估計 μ 和 σ 此種情況稱為 σ 未知的情況 若以 s 來估計 σ, 邊際誤差及母體平均數的區間估計值是根據稱為 t 分配 (t distributio) 的機率分配求算而得 雖然 t 分配是假設母體為常態分配而建立的機率分配, 但許多研究證明, 在許多母體明顯非常態分配的情況下,t 分配仍有其適用性
t 分配 (t Distributio) (1) t 分配是由一群類似的機率分配所組成, 任一 t 分配都有其特定的參數, 即所謂的自由度 (degrees of freedom) 亦即可能有自由度為 1 自由度為 自由度為 3 等不同的 t 分配 當自由度增加時, t 分配和標準常態分配的差異將愈來愈小 注意 : t 分配的平均值為 0
t 分配 (t Distributio) ()
t 分配 (t Distributio) (3) 當 t 分配的自由度為 9 時, 則 t 0.05 =.6; 當自由度是 60 時, 則 t 0.05 =.000; 當自由度繼續增加, 則 t 0.05 愈逼近 z 0.05 =1.96 事實上, t 分配自由度為無限大 ( ), 就等同於標準常態分配 假如自由度大於 100, 就可以用自由度無限大的 t 值來近似 換言之, 自由度超過 100 的 t 分配, 標準常態 z 值是很好的近似值
邊際誤差與區間估計 (1) σ 未知時, 要計算 μ 的區間估計必須以樣本標準差 s 作為 σ 的估計值, 同時 z α/ 則以 t 分配的 t α/ 值取代 因此, 邊際誤差是 t s / 利用邊際誤差, 可得到 σ 未知情況下, 母體平均數的區間估計值的通式如下 : x t s 為樣本標準差,(1- α) 為信賴係數 ; t α/ 為自由度 -1, 而右尾面積為 α/ 所對應的 t 值 s
邊際誤差與區間估計 () 上式中的 t 值的自由度為 -1, 與利用 s 估計母體標準差 σ 有關, 樣本標準差的計算式為 : s ( xi x) 1 自由度是指在 ( x i x) 的計算中, 提供資訊的獨立資料個數, 個計算 ( x i x) 的資料個數如下所示 : x1 x, x x,..., x x 由於任一資料集之 ( x 0 i x), 則其中只有 -1 個 x i x 的值是獨立的 ; 亦即, 只要知道 -1 個 x i x 的值, 則最後一個值可以藉由 ( x i x) 0 這個先決條件所決定 因此,-1 是對應於 ( x x) i 的自由度
邊際誤差與區間估計 (3) 為了說明 σ 未知時的區間估計程序, 看看以下的例子 : 某個研究調查美國家庭信用卡帳戶餘額, 以瞭解信用卡債務的情形 研究中共有 70 個家庭的信用卡帳戶餘額 因為沒有任何歷史資料, 無法知道信用卡帳戶餘額的母體標準差 因此, 必須利用樣本標準差 s 來估計母體標準差 σ 由資料算出樣本平均數 x =$931 樣本標準差 s = $4007 信賴水準是 95%, 樣本大小是 70, 自由度為 -1 = 69, 查表得知在自由度為 69 下,t 分配右尾是 0.05 時 t 0.05 = 1.995 信用卡帳戶餘額的母體平均數的區間估計值 : x t s 931 1.995 931 955 8357 ~ 1067 4007 70
實用忠告 邊際誤差與區間估計 (4) 如果母體是常態分配 s 公式 : x t 的區間估計可以適用於任何大小樣本並產生 確切的區間估計值 如果母體不是常態分配, 此公式的區間估計只是近似值, 此種情況下, 近似值的近似程度則視母體的分配及樣本大小而定 大部分的實際應用中, 以此公式建立母體平均數的信賴區間時, 樣本大小 30 就已足夠 但是, 如果母體分配有嚴重的偏態或離群值, 建議最好將樣本大小增加到 50 或更多 如果母體不是常態分配, 但大致上對稱 樣本大小至少為 15, 此公式仍可得到良好的近似信賴區間, 但在樣本更小時, 只有分析人員相信或可以假定母體分配至少近似常態時, 才能使用此公式
當只有小樣本 邊際誤差與區間估計 (5) 選擇 0 名員工為樣本, 接受此項訓練, 樣本中的每一位員工所需的訓練天數 根據樣本資料的直方圖, 無法得到母體是常態分配的結論, 也看不出偏態或離群值, 因此 t 分配及 0 個資料值的樣本來計算母體的區間估計值, 應是可接受的 這些資料計算出的平均數和樣本標準差 : xi x 1030 0 ( xi x) s 1 1 19, t 0.05 51.5.093 51.5 889 0 1.093 6.84 0 6.84 51.5 3. 48.3 ~ 54.7
母體平均數區間估計程序摘要
樣本數大小的決定 (1) 如何選擇夠大的樣本以得到預期的邊際誤差 已知區間估計值如下 : x z z 即是邊際誤差 因此, 知道 z α/ 母體標準差 σ 和樣本數 決定了此一邊際誤差 一旦決定信賴係數 1- α, 就可以決定 z α/ 如果有 σ 的值, 就可以在任何特定的邊際誤差下, 找到所需的樣本數 令 E= 所要的邊際誤差, 則 E z / z / E 值是使用者在特定信賴水準下願意接受的邊際誤差, 常用的信賴水準為 95%, 其對應的 z 0.05 = 1.96 E / z E
樣本數大小的決定 () 估計樣本數大小, 須先知道母體標準差 σ, 即使 σ 未知, 如果先前已有 σ 的初始值或計畫值 (plaig value), 仍可以公式估計 三種獲得 σ 的計畫值的方法 : 以先前來自相同或類似單位的樣本求得樣本比例 ; 以前測 ( 或先驅 ) 實驗取得初步樣本, 以此樣本得到的樣本標準差作為 σ 的計畫值 ; 利用判斷或 最佳猜測法 決定 σ 值 例如 : 先估計母體的最大值與最小值, 最大值與最小值的差距可作為全距 (rage) 的估計值, 再將全距除以 4 作為標準差的約略估計值, 以作為母體 σ 的計畫值
樣本數大小的決定 (3) 在一個美國租車費用的調查中發現, 租用中型汽車的平均費用是每天 $55 假設原先執行這項調查的公司想要執行另一項新的調查, 以估計現階段在美國租用一輛中型汽車一天所需的費用 在設計此項新的研究時, 計畫主持人特別指定在估計每天租車費的母體平均數時, 必須採用的邊際誤差為 $, 信賴水準則為 95% 一位分析師看過先前研究的樣本資料, 得到樣本標準差為 $9.65 ( z ) / 1.96 E 9.65 89.43 建議的樣本數是 90 個中型汽車租金的樣本
母體比例 (1) 母體比例 p 的區間估計值的通式是 : p 邊際誤差 若 p 5 且 (1-p) 5, 則 p 的抽樣分配會近似常態分配 p 的標準誤是 : p p( 1 p)
母體比例的區間估計值 : 母體比例 () p z / p(1 p) 其中,1- α 為信賴係數, 而 z α/ 為標準常態分配右尾面積 α/ 所對應的 z 值
母體比例 (3) 為了瞭解女性高爾夫球員對高爾夫球課程的看法, 針對全美 900 位女性高爾夫球員進行調查 調查結果發現, 有 396 位女性高爾夫球員對練習發球的次數感到滿意, 如此, 對發球次數感到滿意的女性高爾夫球員之母體比例的點估計為 396/900=0.44, 其 95% 的信賴區間估計為 : p z / p(1 p) 0.44(1 0.44) 0.44 1.96 900 0.44 0.034 0.4076 ~ 0.474 結論 : 我們有 95% 的信心說, 有 40.76%~47.4% 的女性高爾夫球員, 對其練習發球的次數感到滿意
母體比例 (3) 樣本大小的決定 E = 所要的邊際誤差 我們不能使用上式公式計算特定邊際誤差下的樣本大小, 因為必須在抽樣後才能得知, 因此我們需要的計畫值, 以便計算所需要的樣本大小 以符號 p* 表示的計畫值, 以下式計算所需樣本大小 : / / ) (1 ) ( ) (1 E p p z p p z E p p p * * / ) (1 ) ( E p p z
母體比例 (4) 計畫值 p 可依下列程序獲得 : 以先前來自相同或類似的樣本之樣本比例作為計畫值 p*; 以前測 ( 或先驅 ) 實驗選擇適當的樣本, 以此樣本比例作為計畫值 p*; 利用判斷或 最佳猜測法 來決定計畫值 p*; 在沒有先前的實驗資料可用的情形下, 可設 p* 的計畫值為 0.50
母體比例 (5) 再回到女性高爾夫球員的相關調查, 假若此調查之主持人希望在 95% 的信賴水準下, 母體比例估計的邊際誤差為 0.05, 則需要多大的樣本? 以之前的調查結果中 p = 0.44 當作計畫值 p*: ( z ) p E (1 p ) 1.96 * * / 0.44 (1 0.44) 0.05 1514.5 若沒有其他資訊, 而選擇使用 p* = 0.50 當作計畫值的理由是因為, 此時樣本數會最大, 可保證有足夠的樣本數來確保達到所需要的精確度 ( z ) p E (1 p ) 1.96 * * / 0.50 (1 0.50) 0.05 1536.6
母體比例 (6)