7 第七章變異數分析 006 年 8 月 日最後修改 7.1 變異數分析概論 7. 單因子變異數分析 7.3 雙因子變異數分析 7.4 有交互影響之變異數分析 7.1 變異數分析概論 變異數分析 (Analysis Of Variance,ANOVA) 一種假設檢定的特殊型態 ANOVA 的基本想法是將總變異數分成兩部分 ; 與虛無假設有關的可解釋變異 以及與虛無假設無關的不可解釋變異, 一般若虛無假設為真, 則可解釋變異應為零 對兩組變異數的檢定, 我們有 F 分配可以用 ( 可解釋變異在分子 不可解釋變異在分母 ), 更進一步來說,ANOVA 一律是右尾檢定 ( 為什麼?) 範例 7.1 ( 變異數分析的各種變異數 ) 前一章的假設檢定無法處理這種虛無假設 : H μ μ μ, k 3 0 : 1 = = = k 令觀察值為 x ij, i= 1,, nj, j = 1,, k, 其中, 一共有 k 組觀察值, 而 n j 為第 j 組的觀察值數目 以下是所有觀察值的均差平方和 ( xij μ) = ( xij μj + μj μ) ij ij ( μ j μ) ( xij μj) j i j i = + ( μ μ) ( x μ ) = n + j j ij j j j i 006 陳欣得統計學 變異數分析第 7-1 頁
即 總均差平方和 = 組間均差平方和 + 組內均差平方和 SST = SSB + SSW 其中, μ 為總平均數, μ 為第 j 組的平均數 在虛無假設成立的狀況下, 組間均差 平方和應為零, SSB = 0 幾個均差平方和的中英文名詞如下 j 總均差平方和 (total sum of square,sst) 組間均差平方和 (sum of square between groups,ssb) 組內均差平方和 (sum of square within groups,ssw) 由於均差平方和與變異數之間只差變異數需除樣本數 ( 嚴格來說是自由度, n 1), 為方便起見, 我們常稱之為總變異 組間變異 與組內變異, 即 總變異 = 組間變異 + 組內變異 另外, 組間變異與虛無假設有關, 又稱為處置變異 (sum of square of treatment,sstr) 或可解釋變異 ; 相對地, 組內變異又稱為誤差變異 (sum of square of error,sse) 隨機變異 或不可解釋變異 典型的變異數分析的檢定統計量為 ( 1) ( ) 可解釋變異數 SSTR k MSTR F = = = 不可解釋變異數 SSE N k MSE 其中, N = n1+ n + + nk, 而 MSTR 稱為處置均方和 (mean sum of square of treatment),mse 稱為誤差均方和 (mean sum of square of error) 變異數分析就是假設檢定, 其虛無假設一律為 H μ μ μ, k 3 0 : 1 = = = k 其檢定統計量一律為 ( 1) ( ) SSTR k MSTR F = = SSE N k MSE, 自由度 df ( k 1, N k ) =, 右尾檢定 006 陳欣得統計學 變異數分析第 7- 頁
我們真正要作的是計算樣本的 MSTR 與 MSE, 也就是計算樣本檢定統計量值 因為這兩個數值的計算過程比一般假設檢定繁複, 我們用變異數分析表 (ANOVA table) 來整合計算過程 範例 7. ( 變異數分析表 ) 以下是變異數分析表 : Source of Variation Sum of Squares Degree of Freedom Mean Square F Treatments SSTR k-1 MSTR = SSTR / k-1 F = MSTR / MSE Error SSE N-k MSE = SSE / N-k Total SST N-1 變異來源 平方和 自由度 均方和 F 組間變異 SSTR k-1 MSTR = SSTR / k-1 F = MSTR / MSE 組內變異 SSE N-k MSE = SSE / N-k 總變異 SST N-1 請注意表內各項數值間的關係 一般只要知道其中四項, 其他各項就可以用相互間 的關係推算出來 範例 7.3 ( 變異數分析表 ) 就以下變異數分析表, 請推求出表中其他數值 : 變異來源 平方和 自由度 均方和 F 處置變異 44.16 組內變異總變異 53.71 13 解 SSE = SST SSTR = 53.71 44.16 = 9.55 ( ) ( ) N k = N 1 k 1 = 13 = 11 SSTR 44.16 MSTR = = =.08 k 1 MSE SSE 9.55 = = = 0.87 N k 11 MSTR.08 F = = = 4.435 MSE 0.87 完整的變異數分析表如下 006 陳欣得統計學 變異數分析第 7-3 頁
變異來源 平方和 自由度 均方和 F 處置變異 44.16.08 4.435 組內變異 9.55 11 0.87 總變異 53.71 13 就可解釋變異有不同的定義, 變異數分析分成三類 : (1) 單因子變異數分析 (one-way ANOVA) () 雙因子變異數分析 (two-way ANOVA) (3) 有交互影響之變異數分析 (two-way ANOVA with interaction) 或稱為因子實驗 (Factorial Experiment) 變異數分析的假設 (1) 各組母體均為常態分配 () 各組母體的標準差相等 (3) 各組母體互相獨立 7. 單因子變異數分析 單因子變異數分析只從總變異中抽取出一組可解釋變異 : ( xij x) = ( xij xj + xj x) ij ij ( x j x) ( xij xj) j i j i = + ( ) ( ) = n x x + x x j j ij j j j i 總變異 = 組間變異 + 組內變異 SST = SSTR + SSE 其中 006 陳欣得統計學 變異數分析第 7-4 頁
( ) ij ( Σx ) ij ij ij ij SST = x x =Σx nx =Σx ( ) ( ) 1 1 SSTR = x x = n x x = n x + n x + + n x Nx SSE = SST SSTR j j j k k j i j N 也就是說, 我們可以用下列公式計算 SST 與 SSTR; ( ΣA ) ( ΣA ) ( ΣA ) ( ΣT) 1 k SSTR = + + + n n n N 1 ( Σ ) SST =Σx N SSE = SST SSTR T k 其中 Σ A j Σ T 為第 j 因子 ( 行 ) 觀察值之和 為全部觀察值之和 Σ x 為全部觀察值之平方和 母體標準差的估計 ANOVA 假設各組母體標準差皆相等, 令其為 σ σ 的最佳估計量為 MSE 檢定兩組平均數是否相等虛無假設 H0 : μ1 = μ 檢定統計量 t = x x 1 ( 1 + 1 ) MSE n n 1, 自由度 df = N k 檢定任兩組平均數是否相等 以信賴區間法來作檢定 μ 的信賴區間為 j 006 陳欣得統計學 變異數分析第 7-5 頁
{ μ,, } a df = n k a df = n k CI = x t MSEn x+ t MSEn μ j j j j j j 範例 7.4 ( 單因子 ANOVA) 給定資料 : A B C 10 8 7 11 9 8 1 10 6 10 8 7 1 6 將資料作以下整理 : A B C 合計 10 8 7 11 9 8 1 10 6 10 8 7 1 6 ΣA 55 35 34 14 n A 5 4 5 14 (ΣA)²/n A 605 306.5 31. 114.45 x² A B C 合計 100 64 49 11 81 64 144 100 36 100 64 49 144 36 合計 609 309 34 115 整理成變異數分析表如下 : 變異來源 平方和 自由度 均方和 F 處置變異 44.16.08 5.435 組內變異 9.55 11 0.87 總變異 53.71 13 其中 006 陳欣得統計學 變異數分析第 7-6 頁
k = 3, n = 5, n = 4, n =5, N = n + n + n = 14 A B C A B C ( 14) SSTR = 1,14.45 = 44.16 14 ( 14) SST = 1,15 = 53.71 14 SSE = SST SSTR = 53.71 44.16 = 9.55 假設檢定 : (1) H : 0 μa = μb = μc ( 右尾檢定 ) () 檢定統計量 MSTR MSE,11 的 F 分配 F = 為自由度 ( ) (3) 右尾檢定, 自由度 (,11 ) 的 F 分配, 0.05 MSTR MSE (4) 樣本檢定統計量 F = = 5.43 R (5) 拒絕虛無假設, 三組的平均數不完全相等 α =, 拒絕區域 R= { F > 3.983} 成對檢定 : (1) H : 0 μa = μb ( 雙尾檢定 ) xa xb () 檢定統計量 t = MSE + 1 1 ( n n ) A B 為自由度 11 的 t 分配 (3) 雙尾檢定 自由度 11 的 t 分配 0.05 R= t <.01, t >.01 55 35 xa xb 5 4 (4) 樣本檢定統計量 t = = = 3.5960 R 1 1 1 1 MSE + 0.87 + α =, 拒絕區域 { } ( ) ( 5 4) n n (5) 拒絕虛無假設,A B 兩組的平均數不相等 A B 成對檢定 ( 信賴區間法 ): CI μ CI μ CI μ A B C 55 { 5.01 0.87 5} { 10.083 μ A 11.917} = ± = 35 { 4.01 0.87 4} { 7.75 μb 9.775} = ± = 34 { 5.01 0.87 5} { 5.883 μc 7.717} = ± = 因 CI μ A CIμ =, 故可推論在 α = 0.05 下會拒絕 H : 0 μa = μb 同理, 虛無假設 B H : 0 μa = μc與 H : 0 μb = μc 也都不會成立 006 陳欣得統計學 變異數分析第 7-7 頁
7.3 雙因子變異數分析 原始資料有兩種分組方法 : 處置變異 (Treatments Variation,SSTR): 主要分組 ( 共分 k 組 ) 集區變異 (Block Variables,SSBK): 次要分組 ( 共分 b 組 ) 將單因子變異數分析中的隨機變異分離出集群 ( 列 ) 因子的影響 ( 變異 ): 總變異 = 處置變異 + ( 隨機變異 ) = 處置變異 + 集區變異 + 隨機變異 SST = SSTR + SSBK + SSE 計算公式如下 : ( ΣA ) ( ΣA ) ( ΣA ) ( ΣT) 1 k SSTR = + + + b b b N ( ΣB ) ( ΣB ) ( ΣB ) ( ΣT) 1 b SSBK = + + + k k k N ( Σ ) SST =Σx N SSE = SST SSTR SSBK T 其中 Σ A j Σ B i Σ T 為第 j 行觀察值之和 為第 i 列觀察值之和 為全部觀察值之和 Σ x 為全部觀察值之平方和 有兩組檢定 : F F TR BK ( k 1) ( 1)( 1) MSTR SSTR = = MSE SSE k b ( b 1) ( 1)( 1) MSBK SSBK = = MSE SSE k b : 檢測主要分組 ( 處置 ) 平均數是否完全相等 : 檢測次要分組 ( 集區 ) 平均數是否完全相等 變異數分析表如下 : 006 陳欣得統計學 變異數分析第 7-8 頁
Source of Variation Sum of Squares Degree of Freedom Mean Square F Treatments SSTR k-1 MSTR = SSTR / k-1 F TR = MSTR / MSE Blocks SSBK b-1 MSBK = SSBK / b-1 F BK = MSBK / MSE Error SSE (k-1)(b-1) MSE = SSE / (k-1)(b-1) Total SST N-1 變異來源 平方和 自由度 均方和 F 處置變異 SSTR k-1 MSTR = SSTR / k-1 F TR = MSTR / MSE 集區變異 SSBK b-1 MSBK = SSBK / b-1 F BK = MSBK / MSE 組內變異 SSE (k-1)(b-1) MSE = SSE / (k-1)(b-1) 總變異 SST N-1 範例 7.5 ( 雙因子 ANOVA) 給定資料 : A1 A A B1 7 9 1 B 11 1 14 B3 13 11 8 B4 8 9 7 B5 9 10 13 將資料作以下整理 : A1 A A ΣB n B (ΣB)²/k B1 7 9 1 8 3 61.3 B 11 1 14 37 3 456.3 B3 13 11 8 3 3 341.3 B4 8 9 7 4 3 19.0 B5 9 10 13 3 3 341.3 ΣA 48 51 54 153 15 159.3 n A 5 5 5 15 (ΣA)²/b 460.8 50. 583. 1564. x² A1 A A 合計 B1 49 81 144 74 B 11 144 196 461 B3 169 11 64 354 B4 64 81 49 194 B5 81 100 169 350 合計 1633 006 陳欣得統計學 變異數分析第 7-9 頁
整理成變異數分析表如下 : 變異來源 平方和 自由度 均方和 F 處置變異 3.60 1.80 0.388 處置變異 31.73 4 7.93 1.71 組內變異 37.07 8 4.63 總變異 7.40 14 其中 k = 3, b= 5, N = kb= 15 ( 153) SSTR = 1,564. = 3.6 15 ( 153) SSBK = 1,59.3 = 31.73 15 ( 153) SST = 1,633 = 7.40 15 SSE = SST SSTR SSBK = 37.07 假設檢定 : (1) H : 0 μa = μb = μc ( 右尾檢定 ) () 檢定統計量 MSTR MSE 為自由度 (, ) (,8) (3) 右尾檢定, 自由度 (,8) 的 F 分配, 0.05 (4) 樣本檢定統計量 = 0.388 R MSTR MSE df df = 的 F 分配 (5) 無法拒絕虛無假設, 各處置分組的平均數相等 TR E α =, 拒絕區域 R= { F > 4.4590} (1) H0 : μb 1 μb μb3 μb4 μb5 = = = = ( 右尾檢定 ) () 檢定統計量 MSBK MSE 為自由度 (, ) ( 4,8) (3) 右尾檢定, 自由度 (4,8) 的 F 分配, 0.05 (4) 樣本檢定統計量 = 1.71 R MSBK MSE df df = 的 F 分配 BK E α =, 拒絕區域 R= { F > 3.8379} (5) 無法拒絕虛無假設, 各集區間的平均數相等 7.4 有交互影響之變異數分析 雙因子變異數分析中的隨機變異再分離出兩因子間的交互影響 ( 變異 ): 006 陳欣得統計學 變異數分析第 7-10 頁
總變異 = 行間變異 + 列間變異 + 交互影響變異 + 隨機變異 SST = SSA + SSB + SSAB + SSE ( 這裡的 SSA SSB 即上節的 SSTR SSBK) 計算公式如下 : ( ΣA ) ( ΣA ) ( ΣA ) ( ΣT) 1 a SSA = + + + n n n N SSB A1 A Aa ( ΣB ) ( ΣB ) ( ΣB ) ( ΣT) 1 b = + + + n n n N B1 B Bb SSE = ij = x + x + + x ( Σxij ) b a b a ( 第方格內之變異 ) ij,1 ij, ij, nij i= 1 j= 1 i= 1 j= 1 nij SSAB = SST SSA SSB SSE 其中 Σ A j Σ B i Σ T 為第 j 行觀察值之和 為第 i 列觀察值之和 為全部觀察值之和 Σ x 為全部觀察值之平方和 原始資料中, 每一個實驗方格需有一個以上的觀察值 ( 在雙因子 ANOVA 中, 每一方格恰好有一個觀察值 ) 有三組檢定 : F F F A B AB ( a 1) ( ) MSA SSA = = MSE SSE N ab ( b 1) ( ) MSB SSB = = MSE SSE N ab : 檢測主要分組 ( 行因子 ) 平均數是否完全相等 : 檢測次要分組 ( 列因子 ) 平均數是否完全相等 ( 1)( 1) ( ) MSAB SSAB a b = = MSE SSE N ab : 檢測兩因子間是否有交互影響 變異數分析表如下 : 006 陳欣得統計學 變異數分析第 7-11 頁
變異來源 平方和 自由度 均方和 F 行因子變異 SSA a-1 MSA = SSA / a-1 F A = MSA / MSE 列因子變異 SSB b-1 MSB = SSB / b-1 F B = MSB / MSE 交互影響變異 SSAB (a-1)(b-1) MSAB = SSAB / (a-1)(b-1) F AB = MSAB / MSE 隨機變異 SSE N-ab MSE = SSE / (N-ab) 總變異 SST N-1 範例 7.6 ( 有交互影響之雙因子 ANOVA) 解 原始資料整理成以下標準形式 : x ij A 甲 64 71 67 75 76 74 57 67 6 乙 7 73 71 71 71 71 59 71 65 丙 76 84 90 65 64 66 61 77 69 B C x ij A B C 甲 4096 5041 4489 565 5776 5476 349 4489 3844 乙 5184 539 5041 5041 5041 5041 3481 5041 45 丙 5776 7056 8100 45 4096 4356 371 599 4761 將每方格加總 : 006 陳欣得統計學 變異數分析第 7-1 頁
Σx ij A B C ΣB n B (ΣB)²/a 甲 0 5 186 613 9 4175.1 乙 16 13 195 64 9 4364.0 丙 50 195 07 65 9 4733.8 ΣA 668 633 588 1889 7 1349.9 n A 9 9 9 7 (ΣA)²/b 49580.4 4451.0 38416.0 13517.4 Σx ij A B C 合計 甲 1366 16877 1158 4085 乙 15554 1513 1747 4344 丙 093 1677 14411 4800 合計 13359 隨機變異 A B C 合計 甲 4.67.00 50.00 76.67 乙.00 0.00 7.00 74.00 丙 98.67.00 18.00 8.67 合計 379.33 ( Σx ) A甲 0 例如 A甲方格變異 =ΣxA 甲 = 13, 66 = 4.67 n 3 A甲 整理成以下變異數分析表 : 變異來源 平方和 自由度 均方 F A 因子 357.4 178.70 8.480 B 因子 89.9 44.93.13 交互作用 54.4 4 135.59 6.434 隨機 379.3 18 1.07 總和 1369.0 6 其中 a= 3, b= 5, nij = 3, i, j, na = n 1 A = n A = n 3 B = n 1 B = n B3 = 9, N = 3 9 = 7 ( 1,889) SSA = 13,517.4 = 375.4 7 ( 1,889) SSB = 13,49.9 = 89.9 7 SSE = 379.3 ( 1,889) SST = 133,59 = 1,369.0 7 SSAB = SST SSA SSB SSE = 54.4 (a) 006 陳欣得統計學 變異數分析第 7-13 頁
右尾檢定, 自由度 (,18) 的 F 分配, 0.05 樣本檢定統計量 FA = 8.480 R, 拒絕虛無假設 H 0 品種的不同會影響產量 α =, 拒絕區域 R= { F > 3.5546} (b) 右尾檢定, 自由度 (,18) 的 F 分配, 0.05 α =, 拒絕區域 R= { F > 3.5546} 樣本檢定統計量 FB =.13 R, 無法拒絕虛無假設 H 0 施肥方式不會影響產量 (c) 右尾檢定, 自由度 (4,18) 的 F 分配, 0.05 α =, 拒絕區域 R= { F >.977} 樣本檢定統計量 FA = 6.434 R, 拒絕虛無假設 H 0 品種與施肥方式有交互作用 006 陳欣得統計學 變異數分析第 7-14 頁