Microsoft Word - 94_4_stat_handout_09計數資料之假設檢定.doc

9 第九章計數資料之假設檢定 006 年 9 月 6 日最後修改 9.1 計數資料檢定概論 9. 適合度檢定 9.3 計數資料檢定的限制 9.4 列聯表分析 9.5 符號檢定 9.1 計數資料檢定概論無母數方法應用於收集到的資料為非量化資料的場合, 即名目尺度 (nomnal lvl data) 或順序尺度 (ordnal lvl data) 的場合非量化資料無法計算平均數, 因此, 第六七八章的假設檢定方法都無法派上用場無母數方法有兩個基本作法 :(1) 計算觀察個數, 然後對這些計數數值最文章 ;() 將資料排序後給名次, 然後對名次作檢定前者適用所有的資料, 後者適用於順序尺度資料以上的資料當然, 對於名目尺度資料而言, 前者是唯一可以使用的分析分法排序給名次的檢定方法將在第十章介紹本章介紹以計數為基礎的假設檢定方法分組是計數資料檢定最重要的特徵若不分組, 只算得一個樣本數, 作不了任何有意義的分析就分組組數的多寡, 計數資料檢定分成兩類 :(1) 分成兩組者, 適用的檢定統計量成二項分配 ;() 分成兩組以上者, 適用的檢定統計量成卡方分配後者應用的範圍比較廣, 因而有學者直接稱計數資料檢定為卡方檢定 ( χ tst) 比較觀察次數與理論次數是計數資料檢定的第二個特徵觀察次數 (obsrvaton frquncy) 為各組的樣本計數值, 理論次數 (thortcal frquncy) 則為各組在虛無假設成立下應該分配到的計數值檢定的原則為, 觀察次數與理論次數差距大則拒絕虛無假設, 反之則接受虛無假設範例 9.1 觀察次數與理論次數若要檢定中位數是否為 30, 虛無假設寫成 006 陳欣得統計學計數資料之假設檢定第 9-1 頁

H : mdan= 30 0 並將樣本分成 A( 大於 30 組 ) B( 小於 30 組 ) 兩組, 等於 30 的樣本捨棄不用則理論上 ( 虛無假設成立的話 ), 樣本歸屬於 A 組或 B 組的機率應各為二分之一如果實際觀察的樣本大於 30 者過多, 表示中位數不應該是 30( 拒絕虛無假設 ) 範例 9. 觀察次數與理論次數某產品有三大品牌,A B 與 C; 一般認為這三品牌均分市場, 亦即三品牌的市佔率各佔 33.3% 現訪問使用該產品的顧客 90 人, 發現三品牌的使用者各有 5 人 37 人與 8 人若市佔率真如一般預期, 則這 90 訪問這中, 三品牌的使用者應各為 30 人 30 人 30 人這個例子中, 觀察值為 o = [ 5,37,8], 理論值為 = [ 30,30,30] 若認為 o 與不相同, 則會拒絕三品牌市佔率相等的假設 9. 適合度檢定適合度檢定 (Goodnss-of-Ft Tst) 用於兩組以上的資料, 資料整理成一般次數分配表若整理成列聯表則稱為獨立性檢定與齊一性檢定令 o 分別為第組的觀察值與理論值, = 1,, n 則統計量 n = 1 ( o ) 為自由度 n k的卡方分配 (χ²), 其中,n 為分組數, k 為減少的自由度一般在計算理論值時都會用等式 Σ =Σ o, 因此自由度至少會減少一個, 亦即, 沒有其他母體參數需要估計的情況下, 自由度為 n 1 適合度檢定為右尾檢定, 為什麼? 範例 9.3 適合度檢定以下是六位大聯盟球員之棒球卡的銷售情形 : 006 陳欣得統計學計數資料之假設檢定第 9- 頁

解組別 O Tom Savr 13 Nolan Ryan 33 Ty Cobb 14 Gorg Bratt 7 Hank Aaron 36 Johnny Bnch 17 合計 10 請以 α = 0.05 檢定這六位球員的受歡迎程度是否相同組別 P O E O E (O E)²/E Tom Savr 1/6 13 0-7.450 Nolan Ryan 1/6 33 0 13 8.450 Ty Cobb 1/6 14 0-6 1.800 Gorg Bratt 1/6 7 0-13 8.450 Hank Aaron 1/6 36 0 16 1.800 Johnny Bnch 1/6 17 0-3 0.450 合計 10 34.400 自由度 n 1= 5之卡方分配, 0.05 ( ) 34.4 α =, 得 R { χ 11.07} o 樣本檢定統計量 = R, 拒絕虛無假設, 六位球員的受歡迎程度不同範例 9.4 適合度檢定解 AHAA 對全國的調查顯示, 國民一年中住院次數的比例為, 從未住院者 40% 一次者 30% 兩次者 0% 兩次以上者 10% 今調查 B 城的 150 位民眾, 發現住院次數的人數依次為,55 人 50 人 3 人與 13 人請檢定 B 城民眾的住院狀況與全國的狀況是否有差異 ( α = 0.05 ) 組別 P O E O E (O E)²/E 0 0.4 55 60-5 0.417 1 0.3 50 45 5 0.556 0. 3 30 0.133 3 or mor 0.1 13 15-0.67 總和 150 1.37 自由度 n 1= 3之卡方分配, 0.05 ( ) 1.37 α =, 得 R { χ 7.815} o 樣本檢定統計量 = R, 無法拒絕虛無假設, 006 陳欣得統計學計數資料之假設檢定第 9-3 頁

B 城民眾的住院狀況與全國的狀況沒有差異 9.3 計數資料檢定的限制適合度檢定之檢定統計量中, 理論次數除在分母的位置, 若有的數值太小會使整個統計量之數值變成偏高而不穩定因此有以下兩個限制 : (a) 只有兩組資料的情況下, 兩個理論次數都需等於或大於 5; (b) 多於兩組資料的情況下, 理論值小於 5 的組數不能超過 0% 若無法滿足上兩個條件, 則需合併理論值小於 5 的分組 9.4 列聯表分析有兩種列聯表分析 : 獨立性檢定與齊一性檢定範例 9.5 獨立性檢定受刑人出獄後的生活狀況調查結果如下 : 觀察資料 (O) 組別極佳良好平平不適應總和家鄉 7 35 33 5 10 外地 13 15 7 5 80 總和 40 50 60 50 00 其中, 橫列是出獄後的居住地, 分成住家鄉與外地兩組 ; 縱行為生活適應狀況, 分成極佳良好平平與不適應等四組請檢定出獄受刑人的居住地與其生活適應狀況是否有關聯 ( α = 0.01) 解資料顯示, 調查的 00 人中, 有 10 人住家鄉 80 人住外地, 其比例分別為 10 00 80 00 如果居住地與生活適應情況無關, 則適應狀況極佳的 40 人, 理論上也應以此比例分佈在家鄉與外地, 即住家鄉且適應極佳的理論人數為 40 10 00 = 4 人, 而住外地且適應極佳的理論人數為 40 80 00 = 16 人 006 陳欣得統計學計數資料之假設檢定第 9-4 頁

令 j o 為列聯表中第列第 j 行的觀察次數, 令 Σ o Σo j 行的總和,N 為全部觀察次數理論值的計算公式如下, 為列聯表之第列第 j j Σ o Σo = N j 例如 10 50 80 50 = = 30, = = 0 00 00 1 自由度的計算公式如下 ( )( ) df = N c r + 1= c 1 r 1 其中,c 為行數 r 為列數在本例子中, c = 4 r =, 因此自由度為 ( )( ) 理論次數 (E) 組別極佳良好平平不適應總和家鄉 4.00 30.00 36.00 30.00 10 外地 16.00 0.00 4.00 0.00 80 總和 40 50 60 50 00 4 1 1 = 3 (O E)²/E 組別極佳良好平平不適應總和家鄉 0.375 0.833 0.50 0.833.9 外地 0.563 1.50 0.375 1.50 3.438 總和 0.938.083 0.65.083 5.79 自由度 ( r )( c ) 1 1 = 3之卡方分配, 0.01 ( ) 5.79 α =, 得 R { χ 11.345} o 樣本檢定統計量 = R, 無法拒絕虛無假設, 出獄受刑人的居住地與其生活適應狀況無關範例 9.6 齊一性檢定對 A 市與 B 市之市民作市政建設的滿意度調查, 其結果如下 006 陳欣得統計學計數資料之假設檢定第 9-5 頁

觀察資料 (O) 組別 A 市 B 市總和很滿意 100 100 00 滿意 150 150 300 不滿意 300 00 500 很不滿意 00 150 350 總和 750 600 1350 解請檢兩市市民的施政滿意度是否相同 ( α = 0.05 ) 齊一性檢定與獨立性檢定的計算過程完全相同理論次數 (E) 組別 A 市 B 市總和很滿意 111.11 88.89 00 滿意 166.67 133.33 300 不滿意 77.78. 500 很不滿意 194.44 155.56 350 總和 750 600 1350 (O E)²/E 組別 A 市 B 市總和很滿意 1.111 1.389.500 滿意 1.667.083 3.750 不滿意 1.778. 4.000 很不滿意 0.159 0.198 0.357 總和 4.714 5.893 10.607 自由度 ( r )( c ) 1 1 = 3之卡方分配, 0.05 ( ) 10.607 α =, 得 R { χ 7.815} o 樣本檢定統計量 = R, 拒絕虛無假設, 兩市市民的施政滿意度是否不相同範例 9.7 適合度檢定 ( 檢定資料是否為常態分配 ) 某次考試的成績如下 90 68 88 75 70 80 85 6 58 61 67 50 7 74 60 76 58 77 6 70 83 98 76 7 84 006 陳欣得統計學計數資料之假設檢定第 9-6 頁

請檢定這 5 筆成績是否成為常態分配 ( α = 0.05 ) 解經計算, 這 5 筆成績的平均數與標準差分別為 : μ = 7.64 σ = 11.55 因此假設理論值為 μ = 7.64 σ = 11.55 的常態分配將資料分成五組, 且令每組之理論次數皆為 5, 即各組的機率皆為 15= 0. 其結果如下自由度的計算如下組別 P O E O E (O E)²/E x 6.9 0. 7 5 0.800 6.9 <x 69.71 0. 5-3 1.800 69.71 <x 75.57 0. 6 5 1 0.00 75.57 <x 8.36 0. 4 5-1 0.00 x > 8.36 0. 6 5 1 0.00 總和 1 5 3.00 df = n k 1= 5 1= 其中,n 為組數,k 為分配的參數個數自由度 n k 1= 之卡方分配, 0.05 ( ) 3. α =, 得 R { χ 5.991} o 樣本檢定統計量 = R, 無法拒絕虛無假設, 這 5 筆成績可視為為常態分配 9.5 符號檢定範例 9.8 二項分配與符號檢定下表是員工作某項訓練課程之前後測驗成績, 請檢定該測驗是否有效 ( α = 0.1 ) 006 陳欣得統計學計數資料之假設檢定第 9-7 頁

員工訓練前訓練後 1 Good Outstandng Far Exclnt 3 Exclnt Good 4 Poor Good 5 Exclnt Exclnt 6 Good Outstandng 7 Poor Far 8 Exclnt Outstandng 9 Good Far 10 Poor Good 11 Good Outstandng 1 Far Exclnt 13 Good Far 14 Good Outstandng 15 Poor Good 解虛無假設為訓練與測驗成績無關若這個虛無假設為真, 則訓練後成績比訓練前進步與退步的機率應該相同; 亦即, 去除不進不退者後, 進步的機率應佔 50% 真正用於檢定的虛無假設為 H 0 : p 0.5, 其中 p 為進步的機率以進步為 + 退步為不進不退為 0, 則結果如下表員工訓練前訓練後進步與否 1 Good Outstandng + Far Exclnt + 3 Exclnt Good 4 Poor Good + 5 Exclnt Exclnt 0 6 Good Outstandng + 7 Poor Far + 8 Exclnt Outstandng + 9 Good Far 10 Poor Good + 11 Good Outstandng + 1 Far Exclnt + 13 Good Far 14 Good Outstandng + 15 Poor Good + 統計結果為 11 人進步,3 人退步 ( 不進不退者不列入計算 ) H : p 0.5 0 檢定統計量 x( 正向反應個數 ) 為 n = 14 p = 0.5 的二項分配 α = 0.05 下拒絕區域 R= { x> 9} 樣本檢定統計量值 x = 11 R, 拒絕 H 0, 該訓練課程有正面效果 006 陳欣得統計學計數資料之假設檢定第 9-8 頁