認識 SAS

Similar documents
)

Microsoft Word - ACI chapter00-1ed.docx

Microsoft Word - p11.doc

840 提示 Excel - Excel -- Excel (=) Excel ch0.xlsx H5 =D5+E5+F5+G5 (=) = - Excel 00

0 0 = 1 0 = 0 1 = = 1 1 = 0 0 = 1

C19 (1)

When the rejection rule for a test at every level α can be re-written as then xxx is the p-value of the test. xxx < α, If p-value < α, then the test c

Chapter

1 500 表 1: 各國平均分數

Microsoft Word - 94_2_stat_handout08_線性迴歸(考古題).doc

投影片 1

統計分析入門與應用 說明 : a. 獨立樣本 : 兩個來自於獨立, 沒有相關的樣本 b. 成對樣本 : 兩個平均數來自於同一個樣本, 有關係的樣本 7-2 Means 平均數分析 Means 平均數分析是用在不同類別變數組合下, 連續變數在各組的統計量, 例如 : 平均數 中位數 標準差 總合 最小

(baking powder) 1 ( ) ( ) 1 10g g (two level design, D-optimal) 32 1/2 fraction Two Level Fractional Factorial Design D-Optimal D

<4D F736F F D20BDD7A4E5A4BAA4E5BB50A5D8BFFD2E646F63>

Chapter 3 Camera Raw Step negative clarity +25 ] P / Step 4 0 ( 下一頁 ) Camera Raw Chapter 3 089

(1) z 分數! 分析 / 描述統計 / 描述性統計量! 將變數選入 變數 中, 勾選 將標準化的數值存成變數, 按 選項! 勾選所需要的統計量項目後按 繼續 (2) 其他標準分數 ( 例 T 分數 ) (5) 轉換 / 等級觀察值! 將變數選入 變數 中, 按 等級類型 勾選 常態分數, 按 繼

Ps22Pdf

Microsoft Word - __日程_定__[1]

Ps22Pdf

第一章

SW cdr

untitled

2013年香港高級程度會考成績統計

二次曲線 人們對於曲線的使用及欣賞 比曲線被視為一種數學題材來探討要早 得多 各種曲線中 在日常生活常接觸的 當然比較容易引起人們的興趣 比如 投擲籃球的路徑是拋物線 盤子的形狀有圓形或橢圓形 雙曲線 是較不常見的 然而根據科學家的研究 彗星的運行軌道是雙曲線的一部 分 我們將拋物線 圓與橢圓 雙曲

untitled

untitled

臺北醫學大學生物統計研究中心 enews 第 6 期 2015/04 R-web 資料分析應用 : 分析方法 變異數 ( 標準差 ) 檢定 吳佩真副統計分析師 回顧前五期的生統 enews 雲端資料分析暨導引系統 ( R-web, 介紹圖表繪製 平均

ACI pdf


Microsoft Word - 生統e報10月_1_

untitled

untitled

2016 年 地 质 工 程 系 教 学 工 作 安 排 2016 学 年 我 系 将 在 总 结 过 去 工 作 的 基 础 上, 结 合 今 年 学 院 以 抓 质 量 强 内 涵 促 改 革 调 结 构 建 品 牌 细 管 理 重 过 程 为 宗 旨, 以 规 范 管 理 深 化 内 涵 为

<4D F736F F D203136BCADBBD8D2E4D3EBD1D0BEBF2E646F63>


Microsoft Word - 9pinggb_A4.doc

Microsoft Word - 9pinggb_A4-f4.doc

理 论 探 索 事 业 单 位 改 革 的 五 点 思 考 余 路 [ 摘 要 ] 事 业 单 位 改 革 是 中 国 改 革 的 重 要 环 节, 其 影 响 力 和 难 度 不 亚 于 国 有 企 业 改 革 本 文 着 重 围 绕 推 进 事 业 单 位 改 革 应 考 虑 的 五 个 方 面

2深化教育教学改革、创新人才培养模式

Microsoft Word - 9pinggb_let.doc

实 习 上 下 点 表 格 解 释 和 相 关 纪 律 要 求 : 1 表 格 中 所 有 名 词 都 为 简 称, 包 括 医 院 名 称 四 年 级 五 年 级 各 专 业 名 称 等 所 有 时 间 都 为 学 生 装 好 行 李 出 发 时 间, 请 提 前 0 分 钟 将 行 李 运 到

简报158期.doc

Microsoft Word - 9pingb5_let.doc

退休權益.ppt [相容模式]

Microsoft Word - 1.《國文》試題評析.doc

$%%& ()*+, %&, %-&&%%,. $ %,, $,, & /$- 0(1 $%%& %& 234 %-%, 5&%6&633 & 3%%, 3-%, %643 -%%% :::; 7<9; %-%, 3$%$ :::;

# $# #!# # # # # # # %# # # &# # # # #! "

14052_公開用.pdf

# 7 % % % < % +!,! %!!


Microsoft Word - 94_4_stat_handout_06假設檢定_考古題.doc

認識 SAS

tech_atmn_h1h4_E

上海浦~1

Microsoft PowerPoint - spss2-1.ppt

( ) ( ) ( NSC M )

Microsoft Word - _m30.doc


( ) (1) (2) (3) (4) 2

主程式 : public class Main3Activity extends AppCompatActivity { ListView listview; // 先整理資料來源,listitem.xml 需要傳入三種資料 : 圖片 狗狗名字 狗狗生日 // 狗狗圖片 int[] pic =new

Microsoft Word - ACL chapter02-5ed.docx

技 巧 5: 避 免 除 以 0 的 運 算 在 做 除 的 運 算 時, 先 檢 查 除 數 的 數 值, 避 免 有 除 以 0 的 情 況 若 運 算 中 除 數 為 0,SAS 會 在 LOG 中 註 記 提 醒 並 將 運 算 結 果 設 定 為 遺 漏 值, 減 慢 程 式 的 執 行

102_BS

目次 CONTENTS 2 1 乘法公式與多項式 二次方根與畢氏定理 因式分解 一元二次方程式

CU0594.pdf

Microsoft PowerPoint - ch08.ppt

Microsoft Word - 94_4_stat_handout_07變異數分析.doc

Microsoft Word - 04logistic_stu.doc

現在人類獲取地球內部訊息的方法, 是從可能影響我們身家性命安全的地震, 用數學模型把地震資料轉換成地震波速度, 進而獲得地底物質密度與深度的關係 地下世界知多少 km/s g/cm 3 P Gpa km S P S 3,000 3,000 ak K 透視地底 Percy Bridgma

表二 105 年國中教育會考英語科閱讀與聽力答對題數對應整體能力等級加標示對照表 閱讀答 對題數 聽力答對題數 待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強待加強

Excel VBA Excel Visual Basic for Application

Transcription:

4.2. PROC FREQ PROC FREQ 可產生單一變數到多變數的次數分配表及列聯表 (contingency table) 在兩變數的次數表中,PROC FREQ 用來計算並檢定兩變數關聯性及檢定相等 特定 及二項分布等各種比例 在多變數的次數表中,PROC FREQ 則可以產生分層分析, 計算統計值 而在列聯表中,PROC FREQ 能計算各種統計值, 確認經各種分層變數調整後的兩個分類變數其中的關係 雖然 SAS 中還有很多 procedure 會提供次數表, 然而只有 PROC FREQ 會計算單項至 n 項表的卡方檢定 (Chi-square test), 及測量關聯表的關聯性 PROC FREQ 亦可執行費雪精確性檢定 (Fisher s exact test) 費雪精確性檢定多用於 2 2 列聯表, 探討兩類別變項相關性的檢定方法, 常用於樣本數過小以致卡方檢定不能適用的情況 在這章節裡我們會介紹卡方檢定及費雪精確性檢定, 而卡方檢定又可分為適合度檢定 (test of goodness of fit) 獨立性檢定(test of independence) 及一致性檢定 (test of homogeneity) 三種 我們會先討論卡方分配的三種檢定方式, 再介紹費雪精確性檢定 請注意,PROC FREQ 可對應兩種資料型態讀入程序執行, 第一種是未經整理過的原 始資料, 而另一種則是經過整理的次數分配表, 本節將各使用範例說明 卡方適合度檢定 在適合度檢定 (test of goodness of fit) 中, 所要檢定的假設經常是多項母體各類別的比例是否為一特定比例 我們用一個例子來說明, 設紅色及白色金魚草雜交後, 第二代之分離現象如下, 檢定後代的各顏色的金魚草株數是否符合 red : pink : white = 1:2:1 的比例 : r=red, p=pink, w=white r p p p r p p r p p w p r p w p p p w w p p w r p p r p w p r r p w p w p r p p r p p r w p r p w r w p p p w p r p p r r p w w p p r p r w p w p r r w p w p p w p p p r p p r p p w p r p p r w p w w p p p p w p w p p p w p p p p 4.2. PROC FREQ 1

程式碼 DATA plant; INPUT color $ @@; CARDS; r p p p r p p r p p w p r p w p p p w w p p w r p p r p w p r r p w p w p r p p r p p r w p r p w r w p p p w p r p p r r p w w p p r p r w p w p r r w p w p p w p p p r p p r p p w p r p p r w p w w p p p p w p w p p p w p p p p ; PROC FREQ DATA=plant; TABLE color /CHISQ TESTP=(50 25 25); RUN; 程式碼說明 PROC FREQ 敘述句 : 使用 procedure freq 來分析資料 後面要加上欲分析資料集名稱 DATA= 資料集名稱 TABLE 敘述句 : 輸入欲計次的變數, 後面可在加上 / 選項名稱, 選擇檢定方式 如果想進行卡方 適合度檢定, 則在斜線後輸入 CHISQ, 並在 TESTP 後輸入欲檢定比例 注意 :TESTP 後的比例為百分比制 ( 括號內和須為 100), 且括號內數字比例須按變數的字母次序填入 因此 TESTP=(50 25 25) 可解釋為 檢定粉紅色 : 紅色 : 白色是否為 2:1:1 的比例 另有 TESTF 選項可以設定檢定次數, 如本例則為 TESTF=(57.5 28.75 28.75) RUN 敘述句 : 執行程式的敘述句, 指示 SAS 執行上面的程式碼 4.2. PROC FREQ 2

Log 視窗 Output 視窗 報表中的 Test Percent 即為 TESTP 所設定之比例 從 OUTPUT 的結果 p-value = 0.3631, 基於 95% 顯著水準下, 無法拒絕虛無假說 可推測此雜交後代族群符合 1:2: 1 的比例 卡方獨立性檢定 PROC FREQ 可以用來檢定資料的獨立性 (test of independence), 這是該程序最主要的功能之一, 通常在檢定資料的兩類別是否獨立, 其想法為, 若 A 與 B 兩個變數為獨立, 則 AB 事件發生的機率為 A 事件發生的機率乘以 B 事件發生的機率 以下用一個例子作介紹, 調查某一地區市民對 在公共場所抽菸 所持的意見 : 4.2. PROC FREQ 3

性別 同意 反對 沒意見 總計 男 262 231 10 503 女 302 205 5 512 總計 564 436 15 1015 程式碼 DATA smoking; INPUT gender $ opinion $ counts @@; CARDS; male favor 262 male oppose 231 male no_opinion 10 female favor 302 female oppose 205 female no_opinion 5 ; PROC FREQ DATA=smoking; WEIGHT counts; TABLE gender*opinion/chisq; RUN; 程式碼說明 PROC FREQ 敘述句 : 使用 procedure freq 來分析資料 後面要加上欲分析資料集名稱 DATA= 資料集名稱 WEIGHT 敘述句 : 宣告次數分配表中每細格次數之變數 請注意, 前例讀入的資料為原始資料, 而本例中讀入的資料則是已經過整理的次數分配表, 兩者在 PROC FREQ 中有不同的讀入方式, 故使用 WEIGHT 宣告次數分配表每細格的次數之變數 TABLE 列變數 * 行變數 / 選項 : 將資料繪製成表格, 輸入方式為 列變數 * 行變數, 後面可在加上 / 選項名稱, 選擇檢定方式 在這裡我們選用的是卡方檢定 因此 TABLE gender*opinion/ CHISQ 可解釋為 以 gender 為列, 以 opinion 為行繪製圖表, 而細格的次數則來自 WEIGHT 中宣告的變數, 再用卡方檢定分析資料, 請注意, 如列聯表為 2 2, 則 CHISQ 選項會額外輸出 Fisher's exact test 與 continuity-adjusted chi-square RUN 敘述句 : 執行程式的敘述句, 指示 SAS 執行上面的程式碼 4.2. PROC FREQ 4

Log 視窗的訊息 Output 結果 1 4.2. PROC FREQ 5

Output 結果 1 中紅色框框內為選項 CHISQ 之產出結果, 除最常使用的 Chi-Square 檢定之外, 還列了很多統計量, 我們將於本節後面補充說明 其中 Chi-Square 項顯示 p-value = 0.0504 > α=0.05, 無法拒絕虛無假說 可得結論 : 市民之 性別 並不影響其對 公共場所吸菸的看法 卡方一致性檢定 卡方一致性檢定 (test of homogeneity) 是用來檢定兩個或兩個以上母體的某一特性的比例是否一致, 其檢定統計量雖與獨立性檢定之檢定統計量完全相同, 但在模型的假設上卻有差異 在這裡以 血型與潰瘍發生比例 的例子來說明, 下表為 2800 位病患其血型與潰瘍的次數分配表, 欲檢定胃潰瘍及十二指腸潰瘍在血型上發生的比例是否相同 : 血型 疾病 O A B AB Total 胃潰瘍 400 400 75 25 900 十二指腸潰瘍 1000 700 150 50 1900 total 1400 1100 225 75 2800 在計算卡方一致性檢定中每一細格的期望次數, 比如說 O 型血且罹患胃潰瘍的期望次數為總人數乘以所有人罹患胃潰瘍比例乘以所有人中 O 型血的比例, 會與計算卡方獨立性檢定中每一細格的期望次數相同, 然而一致性檢定中, 胃潰瘍各血型的次數是被視為一多項分配, 十二指腸潰瘍各血型的次數亦為一多項分配, 我們所檢定的是兩個多項分配是否相同, 也因此兩種潰瘍各自總人數會在試驗之前就決定好 如果檢定的是 病患發生潰瘍種類與其血型是否獨立 之獨立性檢定, 則試驗尚未執行之前無法得知兩種潰瘍各自總人數會是多少, 亦即, 各自總人數不固定 程式碼 DATA disease; INPUT blood_type $ disease $ count; CARDS; O stomach 400 A stomach 400 B stomach 75 4.2. PROC FREQ 6

AB stomach 25 O intestine 1000 A intestine 700 B intestine 150 AB intestine 50 ; PROC FREQ DATA=disease; WEIGHT count; TABLE disease*blood_type /CHISQ; RUN; 程式碼說明請見獨立性檢定之程式碼說明 Log 視窗 4.2. PROC FREQ 7

Output 結果 2 從 output 結果 2 的 Chi-Square 項, 可發現 p-value 小於 0.05, 故基於 95% 信 心水準下, 我們可以拒絕虛無假說 推測胃潰瘍與十二指腸潰瘍在血型上病患的比例 不同 補充 : 其他重要卡方統計值 除了 Chi-square 統計值外,SAS 另外顯示了許多其他統計值, 在這裡做一個簡單的介紹 若想進一步了解, 可參考 SAS 內建 Help 的路徑 : SAS Products/Base SAS/ Base SAS 9.2 Procedures Guide: Statistical Procedures/ The FREQ Procedure/Details: FREQ Procedure/ Statistical Computations/Chi-square Tests and Statistics Continuity-Adjusted Chi-Square 連續性校正之卡方檢定, 在 2 2 列聯表時與卡方檢定相似, 但多了一步驟將原資料不連續的分布校正為卡方的連續性, 在樣本數小的時候更加實用 事實上連續性校正的使用時機是較受爭議的, 在樣本數小的時候保守性較高 ( 與費雪精確性檢定相似 ) 但在樣本數越大時, 連續性校正的卡方檢定會越接近皮爾森卡方檢定 4.2. PROC FREQ 8

連續性校正卡方檢定的計算公式為 在獨立的虛無假說下, C Q C i j ij max 0, n ij e e ij 0.5 Q 會漸近自由度為 R 1 1 C 的卡方分布 2 Likelihood Ratio Chi-square Test 概度比的卡方值, 概度是用來計算資料的隨機 變數落在指定統計母數 θ 的概似度 其中包含觀測次數及期望次數的比例 計算此統 計值的公式為 G 2 n ij 2 nij ln i j e ij 其中 n ij 及 e ij 分別為表細格 i, j的觀測次數及期望次數 在列變數及行變數獨立時, 會漸近一個自由度為 R 1 C 1 的卡方分布 Mantel-Haenszel Chi-square Test 此方法之對立假說為列變量與行變量間具有線性 2 相關性, 行變量與列變量會被轉換為有序變量, 然後計算 Pearson 相關係數 r, 則檢定統計值公式為 Q MH n 1r 2, 若虛無假設為真, 則此統計量會漸進卡方分佈, 其自由度為 1 Phi Coefficient 由卡方分布演變而來的統計方法 在 2 2 的表下 phi 係數會介在 1 1之間, 若為行或列大於 2 2 的表時,phi 係數會介在 0 min R 1, C 1 之間 Phi 係數的計算方法為 n n n n n n n 2 2 表時, 11 22 12 21/ 1 2 1 2 n 其他條件下為 Q P / n Contingency Coefficient 由卡方分布演變而來的統計方法, 其範圍在 P m / m 之間, 其中 m min R, C 0 1 P Q / Q P 列聯係數的計算公式為 P n 4.2. PROC FREQ 9

Cramer's V 為卡方分布演變而來的統計方法, 上限恆為 1 在 2 2 列聯表下其值會介在 1V 1之間, 若為行或列大於 2 2 的表時, 範圍在 0 V 1 Cramer s V 之計算公式為 2 2 表時, V QP n 其他條件下, V min R 1, C 1 費雪精確性檢定 (Fisher s Exact Test) 在檢定 2 2 列聯表時有卡方檢定與費雪精確性檢定兩種方法, 卡方檢定為一大樣本漸進的方法, 因此在樣本數過小時並不適用 費雪精確性檢定計算觀測表的概度, 實際上為一個超幾何分布, 利用此概度檢定兩類別變項的相關性, 相較於卡方檢定精確許多, 但因為計算繁雜, 通常我們還是以卡方檢定為主, 只有在超過 20% 細格的期望次數小於 5 時, 才會改用費雪精確性檢定 SAS 會自動判斷觀測表示否符合上面的條件, 若期望次數過小, 使用卡方檢定可能會造成誤差時,SAS 會在 output 視窗出現 WARNING, 此時我們應改用費雪精確性檢定 在此我們同樣將卡方獨立性檢定的例子修改一下數據以凸顯此問題 程式碼 DATA smoking; INPUT gender $ opinion $ counts @@; CARDS; 0 0 6 0 1 2 1 0 4 1 1 11 ; PROC FREQ DATA=smoking; TABLE gender*opinion / EXACT; WEIGHT counts; RUN; 程式碼說明 4.2. PROC FREQ 10

TABLE 敘述句 : 同卡方檢定的輸入方式, 僅將斜線後的選項 CHISQ 改為 EXACT 即可, 請注意使用該指令亦會產生 chi-square test, 雖然如此, 因為計算 Fisher's exact test 需要較複雜的計算, 如果符合漸進卡方分佈的狀況, 建議使用 CHISQ, 以節省計算時間與電腦資源 Output 結果 3 4.2. PROC FREQ 11

可發現在卡方檢定報表底下出現警告, 有 50% 細格其期望次數小於 5, 此時可能 不適合用卡方檢定, 而 Fisher s exact test 結果顯示 p-value = 0.0393 < α = 0.05, 拒 絕虛無假說 可得結論 : 市民對在公共場所吸菸的看法 與 性別 有關 補充 :Fisher s exact test 下的 p-value 分析 2 2 列聯表時,SAS 的 output 會提供以下費雪精確性檢定的 p-value:table probability two-sided p-value left-sided p-value right-sided p-value 等, 在此節會做一個簡單的介紹 若想進一步了解, 可參考 SAS 內建 Help 的路徑 : SAS Products/Base SAS/ Base SAS 9.2 Procedures Guide: Statistical Procedures/ The FREQ Procedure/Details: FREQ Procedure/Statistical Computations/ Chi-square Tests and Statistics Table Probability 觀測表的超幾何機率, 也就是固定邊際總和下觀測表發生的機 率 此為費雪精確性檢定的統計量, 其假設 p 為指定邊際總和下某觀測表的超幾何機 率, 則 p-value 的計算方式為將所有指定表的機率 p 相加 PROB A p Two-sided p-value 將固定邊際總和下所有機率小於或等於觀測表的機率相加 在雙 尾的 p-value 下,A 集合包含所有超幾何機率小於或等於觀測表的列聯表 若資料有 一個較小的雙尾 p-value, 表示列變量與行變量相關, 支持對立假說 Left-sided p-value 在 2 2 列聯表下, 費雪精確性的單尾 p-value 決定於表第一行第一列的觀測次數, 也就是細格 1,1, 表示為 n 11 因此左尾費雪精確性檢定的 p-value 為所有 1,1 細格小於或等於 n 11的表發生的機率 在左尾的 p-value 下,A 集合包含與觀測表相同邊際總和下, 所有細格 1,1 小於或等於次數 n 11的列聯表 若有一個較小的左尾 p-value 則表示支持對立假說, 可推測在列變量與行變量獨立的虛無假說下, 觀 測表的第一細格應該是小於期望次數的 Right-sided P-value 與左尾之狀況相似, 右尾費雪精確性檢定的 p-value 為所有 1,1 細格大於或等於 n 11的表發生的機率 A 集合為與觀測表相同邊際總和下, 所有細格 1,1 大於或等於次數 n 11的列聯表 越小的 p-value 越支持對立假說, 表示在虛無假說下第一細格應該是大於其望次數的 4.2. PROC FREQ 12

以上的計算方法均假設在 2 2 的列聯表下, 若為大於 2 2 的列聯表, 雙尾 p-value 的 計算方法同上, 但無法計算單尾 p-value 4.2. PROC FREQ 13