的目的 的目的在於對統計分析所給定的先驗 假設條件 進行檢定, 以檢驗假設條件的 適當性 此假設條件包含 1. 分配形式的假設 : 例如在假設檢定中的常態分配假設 ; 2. 獨立性的假設 : 例如在兩個母體平均數及變異數假設檢定中的兩母體相互獨立的假設 ;

Similar documents
:

When the rejection rule for a test at every level α can be re-written as then xxx is the p-value of the test. xxx < α, If p-value < α, then the test c

M ( ) K F ( ) A M ( ) 1815 (probable error) F W ( ) J ( ) n! M ( ) T ( ) L ( ) T (171

0 0 = 1 0 = 0 1 = = 1 1 = 0 0 = 1

Vol. 15 No. 1 JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGY Feb O21 A

: :

3.1 ( ) (Expectation) (Conditional Mean) (Median) Previous Next

: Previous Next First Last Back Forward 1

)

授 课 主 要 内 容 回 顾 与 说 明 1 文 案 调 查 的 题 方 法 2 文 案 调 查 体 系 的 建 立 第 二 单 元 授 课 内 容 与 方 法 授 课 方 法 与 时 间 分 配 说 明 3 分 钟 第 三 章 市 场 调 查 方 法 选 择 第 二 节 实 地 调 查 法 学

第一章合成.ppt

《分析化学辞典》_数据处理条目_1.DOC

: p Previous Next First Last Back Forward 1


統計分析入門與應用 說明 : a. 獨立樣本 : 兩個來自於獨立, 沒有相關的樣本 b. 成對樣本 : 兩個平均數來自於同一個樣本, 有關係的樣本 7-2 Means 平均數分析 Means 平均數分析是用在不同類別變數組合下, 連續變數在各組的統計量, 例如 : 平均數 中位數 標準差 總合 最小

➀ ➁ ➂ ➃ ➄ ➅ ➆ ➇ ➈ ➉ Lecture on Stochastic Processes (by Lijun Bo) 2

: p Previous Next First Last Back Forward 1

統計課程目錄95

建築工程品質管理案例研討

:

ii


Microsoft PowerPoint - 第9章 簡單隨機抽樣與抽樣分配.ppt [相容模式]

untitled

PowerPoint 演示文稿


Chinese Journal of Applied Probability and Statistics Vol.25 No.4 Aug (,, ;,, ) (,, ) 应用概率统计 版权所有, Zhang (2002). λ q(t)

C19 (1)


5 (Green) δ

! /. /. /> /. / Ε Χ /. 2 5 /. /. / /. 5 / Φ0 5 7 Γ Η Ε 9 5 /

Microsoft Word - 95_1_stat_handout_04抽樣與抽樣分配.doc

中国扫盲现状分析报告


Chapter 4 Random Variables and Probability Functions

Z(x) = 0 S(x) π n i (x 1,, x n ) = x i n 1 i n n g : N n N h : N n+2 N n- (n + 2)- (n + 1)- f : N n+1 N g h f(x 1,, x n, 0) =

Microsoft Word - 94_4_stat_handout_06假設檢定_考古題.doc

西安美术学院福建公安高等专科.doc

: 29 : n ( ),,. T, T +,. y ij i =, 2,, n, j =, 2,, T, y ij y ij = β + jβ 2 + α i + ɛ ij i =, 2,, n, j =, 2,, T, (.) β, β 2,. jβ 2,. β, β 2, α i i, ɛ i

!! # % & ( )!!! # + %!!! &!!, # ( + #. ) % )/ # & /.

! # % & # % & ( ) % % %# # %+ %% % & + %, ( % % &, & #!.,/, % &, ) ) ( % %/ ) %# / + & + (! ) &, & % & ( ) % % (% 2 & % ( & 3 % /, 4 ) %+ %( %!

July NEW FINANCE

. () ; () ; (3) ; (4).. () : P.4 3.4; P. A (3). () : P. A (5)(6); B. (3) : P.33 A (9),. (4) : P. B 5, 7(). (5) : P.8 3.3; P ; P.89 A 7. (6) : P.

99710b43ZW.PDF

IP Encoder 1 channel.book


Microsoft PowerPoint - ch08.ppt

Microsoft Word - 94_2_stat_handout08_線性迴歸(考古題).doc

Microsoft Word - P085003

( )

化学实验基本操作-加热、干燥和冷却.doc

SA3-075_成果報告書.PDF

lim f(x) lim g(x) 0, lim f(x) g(x),

Microsoft Word - ACL chapter02-5ed.docx

Ρ Τ Π Υ 8 ). /0+ 1, 234) ς Ω! Ω! # Ω Ξ %& Π 8 Δ, + 8 ),. Ψ4) (. / 0+ 1, > + 1, / : ( 2 : / < Α : / %& %& Ζ Θ Π Π 4 Π Τ > [ [ Ζ ] ] %& Τ Τ Ζ Ζ Π

) & ( +,! (# ) +. + / & 6!!!.! (!,! (! & 7 6!. 8 / ! (! & 0 6! (9 & 2 7 6!! 3 : ; 5 7 6! ) % (. ()

%! # # % % & # ( ) ( +, & +, +, & +, & +, +, &!

<4D F736F F D20BDD7A4E5A4BAA4E5BB50A5D8BFFD2E646F63>

&! +! # ## % & #( ) % % % () ) ( %

# ( + + # + # 6 +,! + # +! +, + # ( + ) ( + ( + ) + 7! + # + /8 + ) ( +! + #. + ( +, +! + # + # + + ( ! ( + ) ( + ) +, + ( + 9% +! +, + ( +

( ) t ( ) ( ) ( ) ( ) ( ) t-

!! )!!! +,./ 0 1 +, 2 3 4, # 8,2 6, 2 6,,2 6, 2 6 3,2 6 5, 2 6 3, 2 6 9!, , 2 6 9, 2 3 9, 2 6 9,

(Microsoft Word - \245\315\254\241\273P\245\360\266\242.doc)

( ) Wuhan University

Stochastic Processes (XI) Hanjun Zhang School of Mathematics and Computational Science, Xiangtan University 508 YiFu Lou talk 06/


., /,, 0!, + & )!. + + (, &, & 1 & ) ) 2 2 ) 1! 2 2

基礎統計

, ( 6 7 8! 9! (, 4 : : ; 0.<. = (>!? Α% ), Β 0< Χ 0< Χ 2 Δ Ε Φ( 7 Γ Β Δ Η7 (7 Ι + ) ϑ!, 4 0 / / 2 / / < 5 02

4= 8 4 < 4 ϑ = 4 ϑ ; 4 4= = 8 : 4 < : 4 < Κ : 4 ϑ ; : = 4 4 : ;

<4D F736F F D20C0CFE6F7A1B6D8FED9CDB5C4B1B3D3B0A1B72E646F63>


Ps22Pdf

% %! # % & ( ) % # + # # % # # & & % ( #,. %

連續機率分配

Microsoft Word - p11.doc

Microsoft PowerPoint - spss2-1.ppt

WL100079ZW.PDF

& & ) ( +( #, # &,! # +., ) # % # # % ( #

: 459,. (2011),, Zhu (2008). Y = Xθ + ε, (1.1) Y = (y 1,..., y n ) T, ε = (ε 1,..., ε n ) T, θ = (θ 1,..., θ p ) T, X n p, X i X i, E(ε) = 0, Var (ε)

(Microsoft Word \262\316\255p\244W\264\301\245\275\303D\256w)

/ Ν #, Ο / ( = Π 2Θ Ε2 Ρ Σ Π 2 Θ Ε Θ Ρ Π 2Θ ϑ2 Ρ Π 2 Θ ϑ2 Ρ Π 23 8 Ρ Π 2 Θϑ 2 Ρ Σ Σ Μ Π 2 Θ 3 Θ Ρ Κ2 Σ Π 2 Θ 3 Θ Ρ Κ Η Σ Π 2 ϑ Η 2 Ρ Π Ρ Π 2 ϑ Θ Κ Ρ Π

( ) ( ) ( NSC M )

避孕篇

針灸治療膝關節疼痛綜述

Microsoft Word - ACI chapter00-1ed.docx

8 9 8 Δ 9 = 1 Η Ι4 ϑ< Κ Λ 3ϑ 3 >1Ε Μ Ε 8 > = 8 9 =

常用的統計檢定方法 依變項 DV 類別變數 自變項 IV 連續變數 連續變數 Type A: t 檢定 變異數分析 Type B: 相關 迴歸分析 類別變數 Type C: 卡方檢定 Type D: 判別分析 羅吉斯迴歸

第9章 排队论

1.

Β 8 Α ) ; %! #?! > 8 8 Χ Δ Ε ΦΦ Ε Γ Δ Ε Η Η Ι Ε ϑ 8 9 :! 9 9 & ϑ Κ & ϑ Λ &! &!! 4!! Μ Α!! ϑ Β & Ν Λ Κ Λ Ο Λ 8! % & Π Θ Φ & Ρ Θ & Θ & Σ ΠΕ # & Θ Θ Σ Ε

[2001]1 SL SL

! Ν! Ν Ν & ] # Α. 7 Α ) Σ ),, Σ 87 ) Ψ ) +Ε 1)Ε Τ 7 4, <) < Ε : ), > 8 7

untitled


untitled




untitled

Transcription:

第十六章 : : 卡方檢定 Mei-Yuan Chen Department of Finance National Chung Hsing University February 19, 2013

的目的 的目的在於對統計分析所給定的先驗 假設條件 進行檢定, 以檢驗假設條件的 適當性 此假設條件包含 1. 分配形式的假設 : 例如在假設檢定中的常態分配假設 ; 2. 獨立性的假設 : 例如在兩個母體平均數及變異數假設檢定中的兩母體相互獨立的假設 ;

: 二項母體 在母體比例的檢定中, 我們假設隨機變數 X 表示台灣股票報酬率的漲 ( 數值為 1) 跌 ( 數值為 0), X : Ω D X (µ X,σ 2 X,α 3(X),α 4 (X)) = Bernoulli(p X ). 而因應實際問題 台灣股票市場是否符合效率市場假說? 的虛無假設為 H 0 : p X = 1/2; 而此問題的虛無假設可更改為 H 0 : X Bernoulli(1/2),Bernoulli(1/2) 是個特定的分配

自隨機變數 X 蒐集一組隨機樣本 {x 1,x 2,...,x n }, 對於虛無假設為 H 0 : p X = 1/2 已知的的檢定統計量為 1. t pn = p n 1/2 pn (1 p n )/n H 0 N(0,1). 2. 其中 p n = n x i/n n H x 0 i B(n,1/2).

H 0 : X Bernoulli(1/2) 的檢定 n x i + n (1 x i ) = n [ p n +(1 p n )] = n, 其中 n (1 x i) = n n x i 為樣本資料中 失敗 出象的個數, 因此在虛無假設 H 0 : p X = p 0 下, n x i + n (1 x i ) H 0 = n [p 0 +(1 p 0 )] = n.

所以邏輯上, 我們可以藉由 n x i 與 np 0 的比較和 n (1 x i) 與 n(1 p 0 ) 的比較, 進行檢定若其間的差異大則表示樣本資料不支持虛無假設, 若差異小則表示樣本資料支持虛無假設 在虛無假設為真下, n x i np 0 0 及 n (1 x i ) n(1 p 0 ) 0, 則 n n ( x i np 0 ) 2 0 且 ( (1 x i ) n(1 p 0 )) 2 0, 因此, 可以用 ( n x i np 0 ) 2 +( n (1 x i) n(1 p 0 )) 2 作為差異性比較的基礎

圖示推論邏輯 (I) p n p X տ distance ց H 0 p 0 n x i n p n տ distance ց np X H 0 np 0

圖示推論邏輯 (II) n (1 x i) 1 p n 1 p X տ distance ց H 0 1 p 0 n(1 p n ) n(1 p X ) տ distance ց H 0 n(1 p 0 )

我們考慮以標準化後的平方和作為差異性的比較, 即 n φ = [( x i np 0 )/ n np 0 ] 2 +[( (1 x i ) n(1 p 0 ))/ n(1 p 0 )] 2. 由於 n ( (1 x i ) n(1 p 0 )) 2 而且 1 1 + np 0 n(1 p 0 ) = (n n x i n+np 0 ) 2 n n = ( x i +np 0 ) 2 = ( x i np 0 ) 2. = n(1 p 0)+np 0 n 2 p 0 (1 p 0 ) 1 = np 0 (1 p 0 ).

( n x i np 0 np0 ) 2 + ( n ) 2 (1 x i) n(1 p 0 ) n(1 p0 ) = ( n x i np 0 np0 ) 2 + ( n x np 0) n(1 p0 ) ) 2 = ( n x i np 0 ) 2 + ( n x i np 0 ) 2 np 0 n(1 p 0 ) ( n ) 2( ) 1 1 = x i np 0 + np 0 n(1 p 0 ) ( n ) 2( ) 1 = x i np 0 np 0 (1 p 0 ) ( n ) 2 = x i np 0 np0 (1 p 0 ) N(0,1) 2 = χ 2 (1).

所以統計量 n χ = [( x i np 0 )/ n np 0 ] 2 +[( (1 x i ) n(1 p 0 ))/ n(1 p 0 )] 2 χ 2 (1) 值得注意的是, 上式中的 χ- 統計量其實就是第 9 章中檢定母體比例所用 z- 統計量的平方, 當然 z- 統計量越接近 0, 相對應於越小的 χ- 統計量值, 因此不棄卻虛無假設 ; 反之,z- 統計量離開 0 越遠, 相對應於越大的 χ- 統計量值, 因此棄卻虛無假設

由以上所討論的 χ- 統計量, 其邏輯在於表現樣本觀察值中 成功 與 失敗 的樣本次數, 與在特定機率值的虛無假設下 成功 與 失敗 出象的理論 ( 預期 ) 次數間的平方差 因此, 將樣本次數定義為 f i,i = 1 成功,0 失敗, 而虛無假設下的理論次數為 E i,i = 1 成功,0 失敗, 則 χ- 統計量成為 χ = 1 i=0 (f i E i ) 2 E i. 其中,f 0 = n (1 x i) = n I(x i = 0),f 1 = n x i = n I(x i = 1),E 0 = n (1 p 0 ), 以及 E 1 = n p 0

此外, 在 χ- 統計量中, 表面上是兩個隨機變數的平方和, 但是, 在樣本觀察值個數 n 固定下, 一但知道 成功 出象的樣本次 數 n x i, 則 失敗 出象的樣本次數即等於 n n x i = n (1 x i), 因此, 將 成功 出象的樣本次 數 n x i 視為隨機變數, 就不可同時再將 失敗 出象的樣本 次數 n (1 x i) 視為隨機變數 ; 這也是為甚麼 χ- 統計量的抽樣分配是自由度為 1 的卡方分配, 而不是自由度為 2 的卡方分配的理由

下傳 ECampus 中的資料檔 RuenTaiQuan.xlsx, 利用母體比例檢定的 t- 統計量及的 χ- 統計量, 回答股票正 負報酬率的機率是否相等? 並驗證是否 χ = t 2?

: 多項母體 除了二項母體外, 亦存在多項母體 (multinomial population), 即母體所定義的實驗具有多個出象, 例如人類的血型共有 A 型 B 型 AB 型和 O 型四種, 因此, 代表血型的母體變數具有四個出象, 故為多項母體, 我們想知道台灣人在四種血型間具有相等的比例, 則我們所應面對的虛無假設為 H 0 : P A = P B = P AB = P O = 0.25, 其中 P A,P B,P AB 和 P O 分別表示台灣人中四種血型的機率 或者, 可以定義一個間斷隨機變數 X: X : Ω = {A,B,AB,O} {1,2,3,4}, P(X = 1) = P A P(X = 2) = P B P(X = 3) = P AB 及 P(X = 4) = P O

為對於這個虛無假設進行統計檢定, 一組具有母體代表性的樣本是必要的, 假設我們蒐集到一組具有母體代表性的 n 個樣本觀察值, 記錄為 {x 1,x 2,...,x n }; 其中, x i = 1 或 2 或 3 或 4 如果樣本中第 i 個人的血型是 A 型 或 B 型 或 AB 型 或 O 型 由於我們相信樣本具有母體代表性, 因此, 如果虛無假設為真, 則此 n 個觀察值的樣本中每一種血型應有接近 n/4 個觀察值, 此 n/4 即稱為在虛無假設下樣本數為 n 的預期個數 (expected frequency) 或理論個數 (theoretical frequency); 所以藉由實際樣本中各種血型的人數與 n/4 數值間的差異, 可作為該樣本是否支持虛無假設的準則, 即若差異大, 表示實際觀察的樣本不支持虛無假設, 反之, 則支持虛無假設

血型實際觀察個數 (f i ) 理論預期個數 (E i ) (f i E i ) 2 /E i f 1 = n I(x i = 1) E 1 = n 0.25 (f 1 E 1 ) 2 /E 1 A B AB O SUM f 2 = n I(x i = 2) E 2 = n 0.25 (f 2 E 2 ) 2 /E 2 f 3 = n I(x i = 3) E 3 = n 0.25 (f 3 E 3 ) 2 /E 3 f 4 = n I(x i = 4) E 4 = n 0.25 (f 4 E 4 ) 2 /E 4 4 (f i E i) 2 E i

Karl Pearson (1990) 建議如下的統計量 k (f i E i ) 2 k (f i np i ) 2 χ = =, E i np i 其中 f i = 樣本中第 i 個出象的實際觀察個數 ( 樣本次數 ) P i = 虛無假設下第 i 個出象的機率值 E i = 虛無假設下第 i 個類項的預期個數,E i = np i, n = 樣本觀察個數 k = 母體所定義出象的個數 在虛無假設下及樣本觀察個數 n 足夠大使中央極限定理成立下, 這個統計量 χ 的極限分配為一具有自由度 k 1 的卡方分配 ; 其說明如下 :

出象 實際觀察個數 (f i ) 理論預期個數 (E i ) (f i E i ) 2 /E i i = 1 f 1 E 1 = n P 1 (f 1 E 1 ) 2 /E 1 i = 2 f 2 E 2 = n P 2 (f 1 E 1 ) 2 /E 2.. i = k f k E k = n P k (f k E k ) 2 /E k SUM. k. (f i E i ) 2 E i

就某一個出象 l 而言, 我們所討論的多項母體 (l = 1,...,k) 可視為出象 l 的伯努利分配, 因為我們可以將母體所定義的多個類項合併成 出象 l 與 非出象 l 兩種類項 ; 假定以 X = 1 定義為 出象 l 以 X = 0 定義為 非出象 l 的伯努利分配隨機母體, 在虛無假設下 X Bernoulli(P l ); 因此, 在觀察個數 n 的樣本可記錄為 {x 1,x 2,...,x n }, 其中 x i = 1 當第 i 個樣本觀察到 出象 l, 而 x i = 0 當第 i 個樣本觀察到 非出象 l, 則出象 l 的樣本個數 ( n x i) 的抽樣分配為二項分配, 即 n X i B(n,P l ), 而此二項分配的平均數為 E( n x i) = np l, 變異數為 var( n x i) = np l (1 P l ); 在前面章節我們知道, 當觀察個數 n 足夠大使中央極限定理成立時, B(n,P l ) N(nP l,np l (1 P l )),

或 n x i np l npl (1 P l ) N(0,1). 因此, 當樣本中出象 l 的實際觀察個數為 n x i = f l 時, (f l np l ) 2 np l (1 P l ) χ2 (1). 所以在 χ- 統計量中, 總共有 k 個樣本次數與理論次數差異的平方和, 即 k l=1 (f i E l ) 2 ; 但是這 k 個樣本次數與理論次數差異的平方僅可同時視 k 1 個為隨機變數, 因為所有的樣本次數或理論次數總和必定等於樣本觀察個數 n, 所以 χ- 統計量具有自由度為 k 1 的卡方分配

間斷隨機變數分配 :Poisson 分配 Poisson 分配適用於描述在一個特定的區間 (interval) 中, 發生某一事件的次數, 發生的次數當然可由 0 次到無限多次, 而發生的次數是間斷的數值 ; 一個平均數為 µ 的 Poisson 分配具有以下的機率函數 : P(X = x) = µx e µ, x = 0,1,2,...,. x!

觀察記錄一段區間內某事件發生的次數, 總共觀察記錄 n 次, 即為 {x 1,x 2,...,x n }; 由這組樣本中, 整理出實際觀察到事件發生 0 次 發生 1 次 發生 2 次 發生 3 次, 的次數, 表示為 f 0,f 1,f 2,f 3,..., 或 f x = n I(x i = x),x = 0,1,2,..., 並以 f 0 /n,f 1 /n,f 2 /n,f 3 /n,... 表示為樣本相對次數, 因相信樣本具有母體的代表性, 可以用 f 0 /n,f 1 /n,f 2 /n,f 3 /n,... 估計 P(X = 0),P(X = 1),P(X = 2),P(X = 3),... 以計算平均數 µ: µ = E(X) = 0 P(X = 0)+1 P(X = 1)+2 P(X = 2) +3 P(X = 3)+ 0 (f 0 /n)+1 (f 1 /n)+2 (f 2 /n)+3 (f 3 /n)+.

假定我們以 ˆµ 表示上式所算得的平均數, 則我們的問題即在於檢定母體是否為具有平均數 ˆµ 的 Poisson 分配的虛無假設 ; 根據此特定平均數 ˆµ 的 Poisson 分配, 我們可由附錄中所附的 Poisson 分配機率分配表查得 P(X = 0),P(X = 1),P(X = 2),P(X = 3),..., 則我們即可求得在虛無假設下的預期次數, 即 E 0 = n P(X = 0),E 1 = n P(X = 1),E 2 = n P(X = 2),...; 根據比較這些算得的預期次數與實際觀察次數 f 0,f 1,f 2,f 3,... 的差異, 我們即可計算 Pearson 統計量 : χ = (f x E x ) 2 x=0 E x

出象 f x f x /n E x (f x E x ) 2 /E x x = 0 f 0 f 0 /n E 0 = n P(x = 0;ˆµ) (f 1 E 1 ) 2 /E 1 x = 1 f 1 f 1 /n E 1 = n P(x = 1;ˆµ) (f 1 E 1 ) 2 /E 2.......... x = k f k f k /n E k = n P(x = k;ˆµ) (f k E k ) 2 /E k SUM 其中 ˆµ = k x=0 f x/n k x=0 P(X = x; ˆµ) = ˆµx e ˆµ,,x = 0,1,2,...,. x! (f i E i) 2 E i χ = k (f x E x ) 2 x=0 E x χ 2 (k), withe x 5.

值得注意的是, 為使這個統計量 χ 具有卡方分配, 所有的預期次數必須大於 5, 若有預期次數小於 5 時, 我們必須加以合併 ; 假定合併後有 k 個預期次數大於 5, 則統計量 χ 具有自由度為 k 1 的卡方分配 若 χ χ 2 1 α(k 1), 則我們在顯著水準 α 下, 棄卻虛無假設, 即樣本資料不支持母體為 Poisson 分配

連續隨機變數分配 假設我們要檢定一個母體是否具有 N(µ,σ 2 ) 的常態分配, 首先我 們將虛無假設下的母體,N(µ,σ 2 ), 實現值等分成 10 等份, 每一 等分所涵蓋的實現值具有 10 % 的機率值, 亦即分割成 l = 1 (,µ+z 0.1 σ] l = 6 [µ,µ+z 0.6 σ) l = 2 (µ+z 0.1 σ,µ+z 0.2 σ] l = 7 [µ+z 0.6 σ,µ+z 0.7 σ) l = 3 (µ+z 0.2 σ,µ+z 0.3 σ] l = 8 [µ+z 0.7 σ,µ+z 0.8 σ) l = 4 (µ+z 0.3 σ,µ+z 0.4 σ] l = 9 [µ+z 0.8 σ,µ+z 0.9 σ) l = 5 (µ+z 0.4 σ,µ] l = 10 [µ+z 0.9 σ, )

0.1 N(10, 16) 0.08 0.06 0.04 0.02 0-10 -5 0 5 10 15 20 25 30

假設我們擁有來自母體的一組具有 n 個觀察值的樣本, 由於我們相信樣本具有母體的代表性, 因此, 若母體真為 N(µ,σ 2 ), 則將所有 n 個觀察值按其數值歸類到上述的 10 等份中, 則每一等份將有 0.1n 個觀察值落在其中, 亦即在每一個類項中, 實際觀察次數與理論預期次數相近, 我們將得到不棄卻虛無假設的推論結果 ; 但若母體不為 N(µ,σ 2 ) 時, 則有些等份所分得的樣本觀察值個數遠超過 0.1n, 而另外有些等份所分得的樣本觀察值個數遠低於 0.1n, 我們將得到棄卻虛無假設的推論結果

Pearson (1990) 統計量 χ = = 10 l=1 10 l=1 (f l E l ) 2 E l (f l 0.1n) 2, 0.1n 其中 f l 為樣本中第 l 個等份的實際觀察個數 ; 若 χ χ 2 1 α(9), 則在顯著水準 α 下, 我們棄卻虛無假設 H 0 : 母體為 N(µ,σ 2 ) 但要注意的是, 在此我們棄卻虛無假設, 表示我們的樣本資料並非由一個具有平均數 µ 和變異數 σ 2 特定的常態分配 ;

由於我們只在乎母體是否為常態分配而已, 而非某一個特定的常態分配, 即特定的 µ 和 σ 2, 因此, 我們由樣本資料計算樣本平均數 x n = n x i/n 和樣本變異數 s 2 n = n (x i x n ) 2 /(n 1), 而我們的虛無假設則為 H 0 : 母體為 N( x n,s 2 n ) 依前面的做法, 我們將虛無假設下的母體,N( x n,s 2 n), 實現值等分成 10 等份, 每一等分所涵蓋的實現值具有 10 % 的機率值, 亦即分割成 (, x n +Z 0.1 s n ] ( x n +Z 0.1 s n, x n +Z 0.2 s n ] ( x n +Z 0.2 s n, x n +Z 0.3 s n ] ( x n +Z 0.3 s n, x n +Z 0.4 s n ] ( x n +Z 0.4 s n, x n ] [ x n, x n +Z 0.6 s n ) [ x n +Z 0.6 s n, x n +Z 0.7 s n ) [ x n +Z 0.7 s n, x n +Z 0.8 s n ) [ x n +Z 0.8 s n, x n +Z 0.9 s n ) [ x n +Z 0.9 s n, )

出象 f l E l (f l E l ) 2 /E l l = 1 (, x n +Z 0.1 s n ] f 1 E 1 = 0.1n (f 1 E 1 ) 2 /E 1 l = 2 ( x n +Z 0.1 s n, x n +Z 0.2 s n ] f 2 E 2 = 0.1n (f 2 E 1 ) 2 /E 2 l = 3 ( x n +Z 0.2 s n, x n +Z 0.3 s n ] f 3 E 3 = 0.1n (f 3 E 1 ) 2 /E 3 l = 4 ( x n +Z 0.3 s n, x n +Z 0.4 s n ] f 4 E 4 = 0.1n (f 4 E 1 ) 2 /E 4 l = 5 ( x n +Z 0.4 s n, x n +Z 0.5 s n ] f 5 E 5 = 0.1n (f 5 E 1 ) 2 /E 5 l = 6 ( x n +Z 0.5 s n, x n +Z 0.6 s n ] f 6 E 6 = 0.1n (f 6 E 1 ) 2 /E 6 l = 7 ( x n +Z 0.6 s n, x n +Z 0.7 s n ] f 7 E 7 = 0.1n (f 7 E 1 ) 2 /E 7 l = 8 ( x n +Z 0.7 s n, x n +Z 0.8 s n ] f 8 E 8 = 0.1n (f 8 E 1 ) 2 /E 8 l = 9 ( x n +Z 0.8 s n, x n +Z 0.9 s n ] f 9 E 9 = 0.1n (f 9 E 1 ) 2 /E 9 l = 10 ( x n +Z 0.9 s n, ) f 10 E 10 = 0.1n (f 10 E 10 ) 2 /E 10 SUM χ = 10 l=1 (f l E l ) 2 E l χ 2 (9). 10 (f l E l ) 2 l=1 E l

則根據上述的分割等份, 我們計算 Pearson (1990) 統計量如下 : χ = = 10 l=1 10 l=1 (f l E l ) 2 E l (f l 0.1n) 2, 0.1n 其中 f l = I(x i l) 為樣本中第 i 個等份的實際觀察個數 ; 若 χ χ 2 1 α (9), 則在顯著水準 α 下, 我們棄卻虛無假設 H 0 : 母體為常態分配

獨立性檢定 : 關聯表 利用上一節利用類項實際觀察個數與預期個數間差異的比較, 作為假設檢定的判斷準則, 再加上母體相互獨立的特性, 透過關聯表 (contingency table) 的設計, 進行母體間獨立性的檢定 根據兩個集合相互獨立的定義 : 集合 A 和 B 相互獨立, 則若且為若 P(A B) = P(A); 或 P(A B) = P(A) P(B); 此觀念應用於兩個間斷的隨機變數數, 即成為 : 兩個獨立的隨機變數 X 和 Y 相互獨立, 若且為若 P(X = l,y = m) = P(X = l) P(Y = m),l = 1,...,k 1,m = 1,...,k 2, 其中 k 1 和 k 2 為隨機變數 X 和 Y 所有可能的實現值 (realizations) 的個數

由於隨機變數 X 和 Y 具有有限個數的實現值, 因此, 我們可以將所有可能成對出現的隨機變數 X 和 Y 的實現值 (X = l,y = m),l = 1,...,k 1,m = 1,...,k 2 ) 視為分割的類項, 因此, 我們將有 k 1 k 2 個類項 ; 在虛無假設 H 0 : 隨機變數 X 和 Y 相互獨立, 類項 (X = l,y = m) 理論上出現的機率值為 P(X = l,y = m) = P(X = l) P(Y = m); 因此, 假若我們有一組具有 n 個觀察值得樣本,{(x i,y i ),i = 1,2,...,n}, 則在 X 與 Y 獨立的虛無假設下, 理論上定義於隨機變數 X 的出象為 l 和定義於隨機變數 Y 的出象為 m 出現的次數為 np(x = l) P(Y = m), 所有隨機變數 X 的出象和隨機變數 Y 的出象組合的理論次數如下表 :

隨機變數 Y m = 1 m = k 2 P 隨 l = 1 np(x = 1)P(Y = 1) np(x = 1)P(Y = k 2 ) P 機 l = 2 np(x = 1)P(Y = 2) np(x = 2)P(Y = k 2 ) P 變 l = 3 np(x = 1)P(Y = 3) np(x = 3)P(Y = k 2 ) P 數.... X l = k 1 np(x = 1)P(Y = k 2 ) np(x = k 1 )P(Y = k 2 ) P P(Y = m) P(Y = 1) P(Y = k 2 )

將這些理論次數與實際出現出象為 x i = l,l = 1,...,k 1 和出象為 y i = m,m = 1,...,k 2 觀察值個數的比較, 我們可以計算 Pearson 統計量 : χ = k 1 k 2 l=1 m=1 [f lm E(f lm )] 2 E(f lm ) = k 1 k 2 l=1 m=1 [f lm np(x = l)p(y = m)] 2, np(x = m)p(y = l) 其中 f lm 為樣本中同時具有出象 X = l 和 Y = m 的實際觀察個數 f lm = n I(x i = l,y i = m); 若 χ χ 2 1 α((k 1 1)(k 2 1)), 則在顯著水準 α 下, 我們棄卻虛無假設 H 0 : 隨機變數 X 和 Y 相互獨立

兩個常態分配的隨機變數 X 和 Y 是否相互獨立 假設我們有一組 n 個觀察值的樣本, 而這 n 個樣本觀察值, 對應於隨機變數 X 的實現值的樣本平均數為 x n 和樣本變異數 s 2 x n, 而對應於隨機變數 Y 的實現值的樣本平均數為 ȳ n 和樣本變異數 s 2 y n, 我們將隨機變數 X 和 Y 各分割成 8 等份 :

l = 1 (, x n +Z 0.125 s xn ] l = 2 ( x n +Z 0.125 s xn, x n +Z 0 l = 2 ( x n +Z 0.25 s xn, x n +Z 0.375 s xn ] l = 4 ( x n +Z 0.375 s xn, x n ] l = 5 [ x n, x n +Z 0.625 s xn ) l = 6 [ x n +Z 0.625 s xn, x n +Z 0 l = 7 [ x n +Z 0.75 s xn, x n +Z 0.875 s xn ) l = 8 [ x n +Z 8.375 s xn, ) m = 1 (,ȳ n +Z 0.125 s yn ] m = 2 (ȳ n +Z 0.125 s yn,ȳ n +Z 0 m = 2 (ȳ n +Z 0.25 s yn,ȳ n +Z 0.375 s yn ] m = 4 (ȳ n +Z 0.375 s yn,ȳ n ] m = 5 [ȳ n,ȳ n +Z 0.625 s yn ) m = 6 [ȳ n +Z 0.625 s yn,ȳ n +Z 0. m = 7 [ȳ n +Z 0.75 s yn,ȳ n +Z 0.875 s yn ) m = 8 [ȳ n +Z 0.875 s yn, )

由於在每一個等分的機率為 12.5 %, 因此, 在隨機變數 X 和 Y 相互獨立的虛無假設下, 同時出現在隨機變數 X 和 Y 所劃分的 64(= 8 8) 個類項的理論機率為 1.5625 % (= 12.5 % 12.5 %), 而 n 個觀察值樣本出現的理論次數為 n 1.5625 % 根據所劃分的 64 個類項之理論次數與實際次數的比較, 我們可計算 Pearson 統計量 : χ 2 = 8 8 l=1 m=1 (f lm E lm ) 2 E lm = 8 l=1 m=1 8 (f lm 0.015625n) 2, 0.015625n 其中 f lm 為樣本中觀察值落在 X 變數的 l 等份和 Y 變數的 m 等份的實際觀察個數, 即 f lm = n I(x i = l,y i = m); 若 χ 2 χ 2 1 α (7 7), 則在顯著水準 α 下, 我們棄卻虛無假設 H 0 : 隨機變數 X 和 Y 相互獨立

Kolmogorov-Smirnov 檢定 :one-sample K-S test Kolmogorov-Smirnov 檢定方法用於探討一組樣本 {x 1,x 2,...,x n } 是否來自一個特定的母體 X, 其累加分配函數為 F X ; 或比較兩個樣本 ( 另一為 {y 1,y 2,...,y m }) 是否來自一個共同的母體 對於一組隨機樣本 {x 1,x 2,...,x n }, 其樣本分配函數 (empirical distribution function)f n 定義為 : F n (x) = 1 n I(x i x) n 其中,I(x i x) 為識別函數 (indicator function), 其值為 1 當 x i x, 否則為 0 定義 D n = sup F n (x) F(x). x

Kolmogorov-Smirnov 檢定 對於 H 0 : {x 1,x 2,...,x n } X 的 Kolmogorov-Smirnov 檢定統計量為 ndn sup B(F(t)) = sup B(t) = K t t [0,1] 其中 B(t) 為布朗橋隨機過程 (Brownian bridge), 則隨機變數 K 的累加分配函數為 P(K q) = 1 2 ( 1) j 1 e 2j2 q 2π 2 = e (2j 1)2 π 2 /(8q 2). q j=1 j=1

Kolmogorov-Smirnov 檢定臨界值 在型 I 誤差為 α 下 ndn K 1 α, 時棄卻虛無假設, 而 K 1 α 為 P(K K 1 α ) = 1 α.

Kolmogorov-Smirnov 檢定 :Two-sample K-S test 假定隨機樣本 {x 1,x 2,...,x n } 來自具有累加分配函數 F 的母體, 而隨機樣本 {y 1,y 2,...,y n } 來自具有累加分配函數 G 的母體, 則檢定虛無假設 H 0 : F(x) = G(x),x [0,1] 的 Kolmogorov-Smirnov 檢定統計量為 nm n+m D n,m K α. 其中, D n,m = sup F n (x) G m (x), x 而 G m (x) 為 G(x) 的樣本分配函數

Shapiro-Wilk 常態分配檢定 檢定隨機樣本 {x 1,...,x n } 是否來自一個常態分配,Shapiro-Wilk 的檢定統計量為 ( n W = a ) 2 ix (i) n (x i x n ) 2 其中,x (i) 為第 i 個排序統計量 (order statistic), 即樣本中第 i 小的的數值, x n 為樣本平均數, 而 a i 的定義為 (a 1,...,a n ) = M V 1 (M V 1 V 1 M) 1/2 其中,M = (M 1,...,M n ) and M 1,...,M n 獨立且均等抽樣自標準常態分配的排序統計量的期望值, 而 V 為其變異共變異數矩陣 當 W 足夠小時, 棄卻虛無假設

Anderson-Darling Test The formula for the Anderson-Darling test statistic A to assess if data {y 1 < < y n } (note that the data must be put in order) comes from a distribution with cumulative distribution function (CDF) F is A 2 = n S where S = n k=1 2k 1 [lnf(y k )+ln(1 F(Y n+1 k ))]. n Note that in this case no parameters are estimated in relation to the distribution function F.

1. The ordered (from low to high) sample observations x 1,...,x n 2. The sample mean x n and sample standard deviation s x are calculated 3. Standardize x i to create new values y i as (x i x n)/s x 4. Withe the standard normal CDF Φ, A 2 is calculated as A 2 = n 1 n (2i 1){lnΦ(y i ) + ln[1 Φ(y n+1 i )]}. n An alternative expressions is A 2 = n 1 n {(2i 1)lnΦ(y i ) + [2(n i) + 1]ln[1 Φ(y i )]}. n 5. To to the adjustment for sample size, A 2 is calculated using ( A 2 = A 2 1 + 4 n 25 ) n 2. 6. If A 2 exceeds 0.751 then the hypothesis of normality is rejected for a 5 % level test. Note that other common critical values for A 2 are.632 for a 10 % level,.870 for a 2.5 % level, and 1.029 for a 1 % level.

Jarque-Bera test The test statistic JB is defined as JB = n (S 2 + 14 ) 6 K2 H 0 χ 2 (2), where n is the sample size, S is the sample skewness, and K is the sample kurtosis S = ˆµ 1 n 3 ˆσ = n (x i x n ) 3 3 ( 1 n n (x i x n ) 2) 3/2 K = ˆµ 1 n 4 ˆσ 3 = n (x i x n ) 4 4 ( 1 n n (x i x n ) 2) 2 3,

R codes 1. Kolmogorov-Smirnov 檢定 :vcd, ks.test() 2. Shapiro-Wilk 常態分配檢定 :vcd, shapiro.test 3. Anderson-Darling Test:ADGofTest, ad.test() 4. Jarque-Bera test:tseries, jarque.bera.test()