連續機率分配 - PDF Free Download

區間估計

區間估計值 (Iterval Estimate) 由於點估計量的值不會恰好等於母體參數, 因此區間估計值通常是由點估計量的值加或減某個值求得, 我們稱這個加減值是邊際誤差 (margi of error) 區間估計值的一般形式是 : 點估計值 ± 邊際誤差區間估計值可以讓我們瞭解, 由樣本得到的點估計值與母體參數值的接近程度

母體平均數 (σ 已知 ) 為了求算母體平均數的區間估計值, 必須知道母體的標準差 σ 或樣本的標準差 s 以計算邊際誤差在大部分應用中, σ 很少是已知的數值, 而是以 s 來計算邊際誤差在某些應用中, 歷史資料或其他某些可用的訊息, 讓我們得以在抽樣前取得母體標準差的優良估計值在品質管制的應用中, 如果程序進行順利無誤, 或在控制中, 是母體標準差為已知也是適當的此種情況稱為 σ 已知的情況

個案研究 : 洛依德公司洛依德公司每週選擇 100 名顧客的簡單隨機樣本, 以瞭解每位顧客每次購物的花費若以 x 表示每次購物的花費, 樣本平均數 x可以提供母體平均數 μ 的點估計值洛伊德公司進行此項調查已有數年, 根據歷史資料, 洛伊德公司假定母體平均數 μ=$8 母體標準差 σ=$0, 也顯示母體是常態分配

邊際誤差與區間估計 (1) 洛依德公司的例子, 購物花費的母體是標準差 σ=$0 的常態分配, 根據中央極限定理, x 的抽樣分配是常態分配, 且其標準誤 x 0 / 100

邊際誤差與區間估計 () 利用標準常態機率表, 可以發現 95% 的常態分配隨機變數的值會落在離平均值 ±1.96 個標準差內, 因為 x 的抽樣分配是常態分配, 有 95% 的 x 值必須落在 μ ±1.96 個標準差內 x 洛依德公司的例子, 的抽樣分配是常態分配, 標準誤 x 因為 1.96 x 1.96 3. 9 結論是 : 樣本大小為 =100 而得到的樣本平均數會有 95% 落在母體平均數 ±3.9 的範圍內

邊際誤差與區間估計 (3)

邊際誤差與區間估計 (4) 假定選取三個不同的隨機樣本, 每個樣本 100 名顧客 x3 1.96 x x 1.96 x 3.9 參數 μ 形成的區間並未涵蓋母體平均數

邊際誤差與區間估計 (5) 假定最近數週內, 洛依德公司的品管團隊調查 100 顧客, 得到的購物花費平均數是 x = 8, 以 x 3. 9 計算區間估計值, 可以得到 8 ±3.9 因此, 以最近一個月的樣本資料得到的區間估計值是 8-3.9=78.08 到 8+3.9=85.9 由於以 x 3.9 建立的各種區間估計值中, 有 95% 的區間估計值會包含母體平均數因此, 我們可以說有 95% 的信心, 78.08~85.9 的區間會包含母體平均數 μ, 可以說這個區間是在 95% 的信賴水準 (cofidece level) 下建立的其中, 0.95 稱為信賴係數 (cofidece coefficiet), 區間 78.08~ 85.9 則稱為信賴區間 (cofidece iterval)

邊際誤差與區間估計 (6) 已知邊際誤差為 z ( ), 母體平均數 μ 的區間估計值在 σ 已知的情況下, 通式如下 : x 其中 (1- α) 是信賴係數,z α/ 是右尾面積為 α/ 的標準常態機率分配的 z 值 90% 信賴水準下, 信賴區間 : 95% 信賴水準下, 信賴區間 : z 0 8 1.645 8 3.9 78.71 ~ 85.9 100 0 8 1.96 8 3.9 78.08 ~ 85.9 100 99% 信賴水準下, 信賴區間 : 0 8.576 8 5.15 76.85 ~ 87.15 100

實用忠告 x z 母體是常態分配, 利用求算確切的信賴區間, 95% 的信賴區間, 會有 95% 的信心此區間包含母體平均數若母體不是常態分配, 信賴區間則是近似值大部分的實際應用中, 建立母體平均數的信賴區間時, 樣本大小 30 就已足夠 ; 如果母體不是常態分配, 但大致上對稱, 樣本大小至少為 15, 也可以得到良好的近似信賴區間樣本數更小時, 只有分析人員相信或可以假定母體分配至少是近似常態時, 才可使用

母體平均數 (σ 未知 ) 在建立母體平均數的區間估計值時, 經常沒有母體標準差的良好估計值在這種情況下, 就要以同一個樣本來估計 μ 和 σ 此種情況稱為 σ 未知的情況若以 s 來估計 σ, 邊際誤差及母體平均數的區間估計值是根據稱為 t 分配 (t distributio) 的機率分配求算而得雖然 t 分配是假設母體為常態分配而建立的機率分配, 但許多研究證明, 在許多母體明顯非常態分配的情況下,t 分配仍有其適用性

t 分配 (t Distributio) (1) t 分配是由一群類似的機率分配所組成, 任一 t 分配都有其特定的參數, 即所謂的自由度 (degrees of freedom) 亦即可能有自由度為 1 自由度為自由度為 3 等不同的 t 分配當自由度增加時, t 分配和標準常態分配的差異將愈來愈小注意 : t 分配的平均值為 0

t 分配 (t Distributio) ()

t 分配 (t Distributio) (3) 當 t 分配的自由度為 9 時, 則 t 0.05 =.6; 當自由度是 60 時, 則 t 0.05 =.000; 當自由度繼續增加, 則 t 0.05 愈逼近 z 0.05 =1.96 事實上, t 分配自由度為無限大 ( ), 就等同於標準常態分配假如自由度大於 100, 就可以用自由度無限大的 t 值來近似換言之, 自由度超過 100 的 t 分配, 標準常態 z 值是很好的近似值

邊際誤差與區間估計 (1) σ 未知時, 要計算 μ 的區間估計必須以樣本標準差 s 作為 σ 的估計值, 同時 z α/ 則以 t 分配的 t α/ 值取代因此, 邊際誤差是 t s / 利用邊際誤差, 可得到 σ 未知情況下, 母體平均數的區間估計值的通式如下 : x t s 為樣本標準差,(1- α) 為信賴係數 ; t α/ 為自由度 -1, 而右尾面積為 α/ 所對應的 t 值 s

邊際誤差與區間估計 () 上式中的 t 值的自由度為 -1, 與利用 s 估計母體標準差 σ 有關, 樣本標準差的計算式為 : s ( xi x) 1 自由度是指在 ( x i x) 的計算中, 提供資訊的獨立資料個數, 個計算 ( x i x) 的資料個數如下所示 : x1 x, x x,..., x x 由於任一資料集之 ( x 0 i x), 則其中只有 -1 個 x i x 的值是獨立的 ; 亦即, 只要知道 -1 個 x i x 的值, 則最後一個值可以藉由 ( x i x) 0 這個先決條件所決定因此,-1 是對應於 ( x x) i 的自由度

邊際誤差與區間估計 (3) 為了說明 σ 未知時的區間估計程序, 看看以下的例子 : 某個研究調查美國家庭信用卡帳戶餘額, 以瞭解信用卡債務的情形研究中共有 70 個家庭的信用卡帳戶餘額因為沒有任何歷史資料, 無法知道信用卡帳戶餘額的母體標準差因此, 必須利用樣本標準差 s 來估計母體標準差 σ 由資料算出樣本平均數 x =$931 樣本標準差 s = $4007 信賴水準是 95%, 樣本大小是 70, 自由度為 -1 = 69, 查表得知在自由度為 69 下,t 分配右尾是 0.05 時 t 0.05 = 1.995 信用卡帳戶餘額的母體平均數的區間估計值 : x t s 931 1.995 931 955 8357 ~ 1067 4007 70

實用忠告邊際誤差與區間估計 (4) 如果母體是常態分配 s 公式 : x t 的區間估計可以適用於任何大小樣本並產生確切的區間估計值如果母體不是常態分配, 此公式的區間估計只是近似值, 此種情況下, 近似值的近似程度則視母體的分配及樣本大小而定大部分的實際應用中, 以此公式建立母體平均數的信賴區間時, 樣本大小 30 就已足夠但是, 如果母體分配有嚴重的偏態或離群值, 建議最好將樣本大小增加到 50 或更多如果母體不是常態分配, 但大致上對稱樣本大小至少為 15, 此公式仍可得到良好的近似信賴區間, 但在樣本更小時, 只有分析人員相信或可以假定母體分配至少近似常態時, 才能使用此公式

當只有小樣本邊際誤差與區間估計 (5) 選擇 0 名員工為樣本, 接受此項訓練, 樣本中的每一位員工所需的訓練天數根據樣本資料的直方圖, 無法得到母體是常態分配的結論, 也看不出偏態或離群值, 因此 t 分配及 0 個資料值的樣本來計算母體的區間估計值, 應是可接受的這些資料計算出的平均數和樣本標準差 : xi x 1030 0 ( xi x) s 1 1 19, t 0.05 51.5.093 51.5 889 0 1.093 6.84 0 6.84 51.5 3. 48.3 ~ 54.7

母體平均數區間估計程序摘要

樣本數大小的決定 (1) 如何選擇夠大的樣本以得到預期的邊際誤差已知區間估計值如下 : x z z 即是邊際誤差因此, 知道 z α/ 母體標準差 σ 和樣本數決定了此一邊際誤差一旦決定信賴係數 1- α, 就可以決定 z α/ 如果有 σ 的值, 就可以在任何特定的邊際誤差下, 找到所需的樣本數令 E= 所要的邊際誤差, 則 E z / z / E 值是使用者在特定信賴水準下願意接受的邊際誤差, 常用的信賴水準為 95%, 其對應的 z 0.05 = 1.96 E / z E

樣本數大小的決定 () 估計樣本數大小, 須先知道母體標準差 σ, 即使 σ 未知, 如果先前已有 σ 的初始值或計畫值 (plaig value), 仍可以公式估計三種獲得 σ 的計畫值的方法 : 以先前來自相同或類似單位的樣本求得樣本比例 ; 以前測 ( 或先驅 ) 實驗取得初步樣本, 以此樣本得到的樣本標準差作為 σ 的計畫值 ; 利用判斷或最佳猜測法決定 σ 值例如 : 先估計母體的最大值與最小值, 最大值與最小值的差距可作為全距 (rage) 的估計值, 再將全距除以 4 作為標準差的約略估計值, 以作為母體 σ 的計畫值

樣本數大小的決定 (3) 在一個美國租車費用的調查中發現, 租用中型汽車的平均費用是每天 $55 假設原先執行這項調查的公司想要執行另一項新的調查, 以估計現階段在美國租用一輛中型汽車一天所需的費用在設計此項新的研究時, 計畫主持人特別指定在估計每天租車費的母體平均數時, 必須採用的邊際誤差為 $, 信賴水準則為 95% 一位分析師看過先前研究的樣本資料, 得到樣本標準差為 $9.65 ( z ) / 1.96 E 9.65 89.43 建議的樣本數是 90 個中型汽車租金的樣本

母體比例 (1) 母體比例 p 的區間估計值的通式是 : p 邊際誤差若 p 5 且 (1-p) 5, 則 p 的抽樣分配會近似常態分配 p 的標準誤是 : p p( 1 p)

母體比例的區間估計值 : 母體比例 () p z / p(1 p) 其中,1- α 為信賴係數, 而 z α/ 為標準常態分配右尾面積 α/ 所對應的 z 值

母體比例 (3) 為了瞭解女性高爾夫球員對高爾夫球課程的看法, 針對全美 900 位女性高爾夫球員進行調查調查結果發現, 有 396 位女性高爾夫球員對練習發球的次數感到滿意, 如此, 對發球次數感到滿意的女性高爾夫球員之母體比例的點估計為 396/900=0.44, 其 95% 的信賴區間估計為 : p z / p(1 p) 0.44(1 0.44) 0.44 1.96 900 0.44 0.034 0.4076 ~ 0.474 結論 : 我們有 95% 的信心說, 有 40.76%~47.4% 的女性高爾夫球員, 對其練習發球的次數感到滿意

母體比例 (3) 樣本大小的決定 E = 所要的邊際誤差我們不能使用上式公式計算特定邊際誤差下的樣本大小, 因為必須在抽樣後才能得知, 因此我們需要的計畫值, 以便計算所需要的樣本大小以符號 p* 表示的計畫值, 以下式計算所需樣本大小 : / / ) (1 ) ( ) (1 E p p z p p z E p p p * * / ) (1 ) ( E p p z

母體比例 (4) 計畫值 p 可依下列程序獲得 : 以先前來自相同或類似的樣本之樣本比例作為計畫值 p*; 以前測 ( 或先驅 ) 實驗選擇適當的樣本, 以此樣本比例作為計畫值 p*; 利用判斷或最佳猜測法來決定計畫值 p*; 在沒有先前的實驗資料可用的情形下, 可設 p* 的計畫值為 0.50

母體比例 (5) 再回到女性高爾夫球員的相關調查, 假若此調查之主持人希望在 95% 的信賴水準下, 母體比例估計的邊際誤差為 0.05, 則需要多大的樣本? 以之前的調查結果中 p = 0.44 當作計畫值 p*: ( z ) p E (1 p ) 1.96 * * / 0.44 (1 0.44) 0.05 1514.5 若沒有其他資訊, 而選擇使用 p* = 0.50 當作計畫值的理由是因為, 此時樣本數會最大, 可保證有足夠的樣本數來確保達到所需要的精確度 ( z ) p E (1 p ) 1.96 * * / 0.50 (1 0.50) 0.05 1536.6

母體比例 (6)