9 第九章計數資料之假設檢定 006 年 9 月 6 日最後修改 9.1 計數資料檢定概論 9. 適合度檢定 9.3 計數資料檢定的限制 9.4 列聯表分析 9.5 符號檢定 9.1 計數資料檢定概論 無母數方法應用於收集到的資料為非量化資料的場合, 即名目尺度 (nomnal lvl data) 或順序尺度 (ordnal lvl data) 的場合 非量化資料無法計算平均數, 因此, 第六 七 八章的假設檢定方法都無法派上用場 無母數方法有兩個基本作法 :(1) 計算觀察個數, 然後對這些計數數值最文章 ;() 將資料排序後給名次, 然後對名次作檢定 前者適用所有的資料, 後者適用於順序尺度資料以上的資料 當然, 對於名目尺度資料而言, 前者是唯一可以使用的分析分法 排序給名次的檢定方法將在第十章介紹 本章介紹以計數為基礎的假設檢定方法 分組是計數資料檢定最重要的特徵 若不分組, 只算得一個樣本數, 作不了任何有意 義的分析 就分組組數的多寡, 計數資料檢定分成兩類 :(1) 分成兩組者, 適用的檢定統 計量成二項分配 ;() 分成兩組以上者, 適用的檢定統計量成卡方分配 後者應用的範圍比較廣, 因而有學者直接稱計數資料檢定為卡方檢定 ( χ tst) 比較觀察次數與理論次數是計數資料檢定的第二個特徵 觀察次數 (obsrvaton frquncy) 為各組的樣本計數值, 理論次數 (thortcal frquncy) 則為各組在虛無假設 成立下應該分配到的計數值 檢定的原則為, 觀察次數與理論次數差距大則拒絕虛無假 設, 反之則接受虛無假設 範例 9.1 觀察次數與理論次數 若要檢定中位數是否為 30, 虛無假設寫成 006 陳欣得統計學 計數資料之假設檢定第 9-1 頁
H : mdan= 30 0 並將樣本分成 A( 大於 30 組 ) B( 小於 30 組 ) 兩組, 等於 30 的樣本捨棄不用 則 理論上 ( 虛無假設成立的話 ), 樣本歸屬於 A 組或 B 組的機率應各為二分之一 如果 實際觀察的樣本大於 30 者過多, 表示中位數不應該是 30( 拒絕虛無假設 ) 範例 9. 觀察次數與理論次數某產品有三大品牌,A B 與 C; 一般認為這三品牌均分市場, 亦即三品牌的市佔率各佔 33.3% 現訪問使用該產品的顧客 90 人, 發現三品牌的使用者各有 5 人 37 人 與 8 人 若市佔率真如一般預期, 則這 90 訪問這中, 三品牌的使用者應各為 30 人 30 人 30 人 這個例子中, 觀察值為 o = [ 5,37,8], 理論值為 = [ 30,30,30] 若認為 o 與 不相同, 則會拒絕三品牌市佔率相等的假設 9. 適合度檢定 適合度檢定 (Goodnss-of-Ft Tst) 用於兩組以上的資料, 資料整理成一般次數分配表 若整理成列聯表則稱為獨立性檢定與齊一性檢定 令 o 分別為第 組的觀察值與理論值, = 1,, n 則統計量 n = 1 ( o ) 為自由度 n k的卡方分配 (χ²), 其中,n 為分組數, k 為減少的自由度 一般在計算理論值時都會用等式 Σ =Σ o, 因此自由度至少會減少一個, 亦即, 沒有其他母體參數需要 估計的情況下, 自由度為 n 1 適合度檢定為右尾檢定, 為什麼? 範例 9.3 適合度檢定 以下是六位大聯盟球員之棒球卡的銷售情形 : 006 陳欣得統計學 計數資料之假設檢定第 9- 頁
解 組別 O Tom Savr 13 Nolan Ryan 33 Ty Cobb 14 Gorg Bratt 7 Hank Aaron 36 Johnny Bnch 17 合計 10 請以 α = 0.05 檢定這六位球員的受歡迎程度是否相同 組別 P O E O E (O E)²/E Tom Savr 1/6 13 0-7.450 Nolan Ryan 1/6 33 0 13 8.450 Ty Cobb 1/6 14 0-6 1.800 Gorg Bratt 1/6 7 0-13 8.450 Hank Aaron 1/6 36 0 16 1.800 Johnny Bnch 1/6 17 0-3 0.450 合計 10 34.400 自由度 n 1= 5之卡方分配, 0.05 ( ) 34.4 α =, 得 R { χ 11.07} o 樣本檢定統計量 = R, 拒絕虛無假設, 六位球員的受歡迎程度不同 範例 9.4 適合度檢定 解 AHAA 對全國的調查顯示, 國民一年中住院次數的比例為, 從未住院者 40% 一次 者 30% 兩次者 0% 兩次以上者 10% 今調查 B 城的 150 位民眾, 發現住院次數 的人數依次為,55 人 50 人 3 人 與 13 人 請檢定 B 城民眾的住院狀況與全國 的狀況是否有差異 ( α = 0.05 ) 組別 P O E O E (O E)²/E 0 0.4 55 60-5 0.417 1 0.3 50 45 5 0.556 0. 3 30 0.133 3 or mor 0.1 13 15-0.67 總和 150 1.37 自由度 n 1= 3之卡方分配, 0.05 ( ) 1.37 α =, 得 R { χ 7.815} o 樣本檢定統計量 = R, 無法拒絕虛無假設, 006 陳欣得統計學 計數資料之假設檢定第 9-3 頁
B 城民眾的住院狀況與全國的狀況沒有差異 9.3 計數資料檢定的限制 適合度檢定之檢定統計量中, 理論次數 除在分母的位置, 若有 的數值太小會使整 個統計量之數值變成偏高而不穩定 因此有以下兩個限制 : (a) 只有兩組資料的情況下, 兩個理論次數都需等於或大於 5; (b) 多於兩組資料的情況下, 理論值小於 5 的組數不能超過 0% 若無法滿足上兩個條件, 則需合併理論值小於 5 的分組 9.4 列聯表分析 有兩種列聯表分析 : 獨立性檢定與齊一性檢定 範例 9.5 獨立性檢定 受刑人出獄後的生活狀況調查結果如下 : 觀察資料 (O) 組別 極佳 良好 平平 不適應 總和 家鄉 7 35 33 5 10 外地 13 15 7 5 80 總和 40 50 60 50 00 其中, 橫列是出獄後的居住地, 分成住家鄉與外地兩組 ; 縱行為生活適應狀況, 分成 極佳 良好 平平 與不適應等四組 請檢定出獄受刑人的居住地與其生活適應狀況 是否有關聯 ( α = 0.01) 解 資料顯示, 調查的 00 人中, 有 10 人住家鄉 80 人住外地, 其比例分別為 10 00 80 00 如果居住地與生活適應情況無關, 則適應狀況極佳的 40 人, 理論上也應以 此比例分佈在家鄉與外地, 即住家鄉且適應極佳的理論人數為 40 10 00 = 4 人, 而住外地且適應極佳的理論人數為 40 80 00 = 16 人 006 陳欣得統計學 計數資料之假設檢定第 9-4 頁
令 j o 為列聯表中第 列 第 j 行的觀察次數, 令 Σ o Σo j 行的總和,N 為全部觀察次數 理論值的計算公式如下, 為列聯表之第 列 第 j j Σ o Σo = N j 例如 10 50 80 50 = = 30, = = 0 00 00 1 自由度的計算公式如下 ( )( ) df = N c r + 1= c 1 r 1 其中,c 為行數 r 為列數 在本例子中, c = 4 r =, 因此自由度為 ( )( ) 理論次數 (E) 組別 極佳 良好 平平 不適應 總和 家鄉 4.00 30.00 36.00 30.00 10 外地 16.00 0.00 4.00 0.00 80 總和 40 50 60 50 00 4 1 1 = 3 (O E)²/E 組別 極佳 良好 平平 不適應 總和 家鄉 0.375 0.833 0.50 0.833.9 外地 0.563 1.50 0.375 1.50 3.438 總和 0.938.083 0.65.083 5.79 自由度 ( r )( c ) 1 1 = 3之卡方分配, 0.01 ( ) 5.79 α =, 得 R { χ 11.345} o 樣本檢定統計量 = R, 無法拒絕虛無假設, 出獄受刑人的居住地與其生活適應狀況無關 範例 9.6 齊一性檢定 對 A 市與 B 市之市民作市政建設的滿意度調查, 其結果如下 006 陳欣得統計學 計數資料之假設檢定第 9-5 頁
觀察資料 (O) 組別 A 市 B 市 總和 很滿意 100 100 00 滿意 150 150 300 不滿意 300 00 500 很不滿意 00 150 350 總和 750 600 1350 解 請檢兩市市民的施政滿意度是否相同 ( α = 0.05 ) 齊一性檢定與獨立性檢定的計算過程完全相同 理論次數 (E) 組別 A 市 B 市 總和 很滿意 111.11 88.89 00 滿意 166.67 133.33 300 不滿意 77.78. 500 很不滿意 194.44 155.56 350 總和 750 600 1350 (O E)²/E 組別 A 市 B 市 總和 很滿意 1.111 1.389.500 滿意 1.667.083 3.750 不滿意 1.778. 4.000 很不滿意 0.159 0.198 0.357 總和 4.714 5.893 10.607 自由度 ( r )( c ) 1 1 = 3之卡方分配, 0.05 ( ) 10.607 α =, 得 R { χ 7.815} o 樣本檢定統計量 = R, 拒絕虛無假設, 兩市市民的施政滿意度是否不相同 範例 9.7 適合度檢定 ( 檢定資料是否為常態分配 ) 某次考試的成績如下 90 68 88 75 70 80 85 6 58 61 67 50 7 74 60 76 58 77 6 70 83 98 76 7 84 006 陳欣得統計學 計數資料之假設檢定第 9-6 頁
請檢定這 5 筆成績是否成為常態分配 ( α = 0.05 ) 解 經計算, 這 5 筆成績的平均數與標準差分別為 : μ = 7.64 σ = 11.55 因此假設理論值為 μ = 7.64 σ = 11.55 的常態分配 將資料分成五組, 且令每組之理論次數皆為 5, 即各組的機率皆為 15= 0. 其結果 如下 自由度的計算如下 組別 P O E O E (O E)²/E x 6.9 0. 7 5 0.800 6.9 <x 69.71 0. 5-3 1.800 69.71 <x 75.57 0. 6 5 1 0.00 75.57 <x 8.36 0. 4 5-1 0.00 x > 8.36 0. 6 5 1 0.00 總和 1 5 3.00 df = n k 1= 5 1= 其中,n 為組數,k 為分配的參數個數 自由度 n k 1= 之卡方分配, 0.05 ( ) 3. α =, 得 R { χ 5.991} o 樣本檢定統計量 = R, 無法拒絕虛無假設, 這 5 筆成績可視為為常態分配 9.5 符號檢定 範例 9.8 二項分配與符號檢定 下表是員工作某項訓練課程之前後測驗成績, 請檢定該測驗是否有效 ( α = 0.1 ) 006 陳欣得統計學 計數資料之假設檢定第 9-7 頁
員工 訓練前 訓練後 1 Good Outstandng Far Exclnt 3 Exclnt Good 4 Poor Good 5 Exclnt Exclnt 6 Good Outstandng 7 Poor Far 8 Exclnt Outstandng 9 Good Far 10 Poor Good 11 Good Outstandng 1 Far Exclnt 13 Good Far 14 Good Outstandng 15 Poor Good 解 虛無假設為 訓練與測驗成績無關 若這個虛無假設為真, 則訓練後成績比訓練前 進步 與 退步 的機率應該相同; 亦即, 去除不進不退者後, 進步 的機率應佔 50% 真正用於檢定的虛無假設為 H 0 : p 0.5, 其中 p 為進步的機率 以進步為 + 退步為 不進不退為 0, 則結果如下表 員工 訓練前 訓練後 進步與否 1 Good Outstandng + Far Exclnt + 3 Exclnt Good 4 Poor Good + 5 Exclnt Exclnt 0 6 Good Outstandng + 7 Poor Far + 8 Exclnt Outstandng + 9 Good Far 10 Poor Good + 11 Good Outstandng + 1 Far Exclnt + 13 Good Far 14 Good Outstandng + 15 Poor Good + 統計結果為 11 人進步,3 人退步 ( 不進不退者不列入計算 ) H : p 0.5 0 檢定統計量 x( 正向反應個數 ) 為 n = 14 p = 0.5 的二項分配 α = 0.05 下拒絕區域 R= { x> 9} 樣本檢定統計量值 x = 11 R, 拒絕 H 0, 該訓練課程有正面效果 006 陳欣得統計學 計數資料之假設檢定第 9-8 頁