Microsoft Word - 生統e報_ __v3_1210-Final

Similar documents
圖 01-1 PROC UNIVARIATE 的輸出結果 ( 腹膜透析 白蛋白 ) 第 1-1 節重要指令說明 : 1. NORMAL: 在報表中呈現常態檢定的結果 2. CLASS 變項名稱 ( 類別 ): 依照 class 所宣告的類別變項分組呈現資料分析結果 在這個例子中我們將資料分為腹膜透析

表 01 1 使用的變項及部分數據值 DM CVA ID treat Age Albumin Ca P Sex ( 原發病是否 ( 是否有腦血 ( 編號 ) ( 洗腎型態 *) ( 年齡 ) ( 白蛋白 ) ( 鈣 ) ( 磷 ) ( 性別 *) 為糖尿病 *) 管疾病 *)

Microsoft Word - SPSS軟體操作-basic docx

0 0 = 1 0 = 0 1 = = 1 1 = 0 0 = 1

Microsoft Word - 生統e報10月_1_

102_BS


840 提示 Excel - Excel -- Excel (=) Excel ch0.xlsx H5 =D5+E5+F5+G5 (=) = - Excel 00

C19 (1)

投影片 1

( ) t ( ) ( ) ( ) ( ) ( ) t-

1 500 表 1: 各國平均分數

碩命題橫式

Microsoft Word - 生統e報 _相關係數

針灸治療膝關節疼痛綜述

投影片 1

中國醫藥大學生物統計中心 2011 年 10 月 評估科克斯比例風險模式 (Cox s proportional hazard model) 之等比風險假設的方法 生統所李采娟教授 此篇文章介紹兩種方式評估科克斯比例風險模式 (Cox s proportional hazard model) 的等比

投影片 1

)

認識 SAS


南華大學數位論文

Microsoft Word - SPSS軟體操作-basic docx

Microsoft Word - 生統e報.docx

(Microsoft PowerPoint - 25\272\330\262\316\255p\244\350\252k\257\265\247\3361_Ruth.ppt)


<313031A4C9BEC7C160BA5DB3E A457BAF4A4BDA769AAA9292E584C53>

nbqw.PDF

城市学研究 编辑委员会 顾 问 徐匡迪 潘云鹤 王梦奎 单霁翔 毛昭晰 杨 卫 潘公凯 弗朗西斯科 班德林 主 任 王国平 副主任 顾树森 叶高翔 编 委 按姓氏笔画排列 匡廷云 江山舞 阮重晖 何 俊 吴缚龙 邹逸麟 陈 跃 陈同滨 庞学铨 罗卫东 郑杭生 胡征宇 裴长洪 黎青平 主 编 胡征宇

由社會發展趨勢探討國人睡眠品質

Microsoft Word - ACI chapter00-1ed.docx

个人及环境卫生调查 (登革热及沙士) 主要报告

投影片 1



<4D F736F F D20A5F1A4FBA473A6DBA662C149AE76BB50B0A8AFAAB944A440AC78A67BA976C149BEC7ABE4B751AABAB56FAE692E646F63>


<4D F736F F D20A4BDA640BDC3A5CDAED6A4DFBDD2B57BB0F2A5BBAFE0A44FB4FAC5E72DAC79A6E6AF66BEC7B8D5C344A4BDA FA7B9BD5AAAA9>

untitled


团 学 要 闻 我 校 召 开 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 3 月 17 日, 我 校 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 在 行 政 办 公 楼 五 楼 会 议 室 举 行, 校 团 委 委 员 各 院 ( 系 ) 团 委 书 记 校 学 生

第 一 节 认 识 自 我 的 意 义 一 个 人 只 有 认 识 自 我, 才 能 够 正 确 地 认 识 到 自 己 的 优 劣 势, 找 出 自 己 的 职 业 亮 点, 为 自 己 的 顺 利 求 职 推 波 助 澜 ; 一 个 人 只 有 认 识 自 我, 才 能 在 求 职 中 保 持

投影片 1



untitled

無投影片標題

統計分析入門與應用 說明 : a. 獨立樣本 : 兩個來自於獨立, 沒有相關的樣本 b. 成對樣本 : 兩個平均數來自於同一個樣本, 有關係的樣本 7-2 Means 平均數分析 Means 平均數分析是用在不同類別變數組合下, 連續變數在各組的統計量, 例如 : 平均數 中位數 標準差 總合 最小

< > by /10() 8/11() 1 vs. 2 Z () t 3 Z- t- () 4 () () () 3

01.dvi

<4D F736F F D DA5BFA6A1C476C1C92DBEC7ACECB8D5A8F728B57BB35D292E646F63>


大學生批判思考技巧測驗

Microsoft Word - 94_2_stat_handout08_線性迴歸(考古題).doc

Microsoft PowerPoint - 醫師.ppt

(1) z 分數! 分析 / 描述統計 / 描述性統計量! 將變數選入 變數 中, 勾選 將標準化的數值存成變數, 按 選項! 勾選所需要的統計量項目後按 繼續 (2) 其他標準分數 ( 例 T 分數 ) (5) 轉換 / 等級觀察值! 將變數選入 變數 中, 按 等級類型 勾選 常態分數, 按 繼

常用的統計檢定方法 依變項 DV 類別變數 自變項 IV 連續變數 連續變數 Type A: t 檢定 變異數分析 Type B: 相關 迴歸分析 類別變數 Type C: 卡方檢定 Type D: 判別分析 羅吉斯迴歸

國家圖書館典藏電子全文

投影片 1

1970 Roulac (1996) (shock) (structure change) Barras and Ferguson (1985) Barras (1994) (1990) (1996) (1997) 1

4

Microsoft Word - p11.doc

主程式 : public class Main3Activity extends AppCompatActivity { ListView listview; // 先整理資料來源,listitem.xml 需要傳入三種資料 : 圖片 狗狗名字 狗狗生日 // 狗狗圖片 int[] pic =new

Categorical Data Analysis (For this handout, the tables and figures used are from introduction to Categorical Data Analysis, 1 st and 2 nd eds, 1996 a


1 ABSTRACT

第七章行政工作 7.1 預算 法律依據 預算收入 94

Microsoft PowerPoint - C_Structure.ppt

PowerPoint 簡報

<4D F736F F D B0D3B77EC3FEA7DEC3C0C476C1C9A5BFA6A1B8D5C3442DB57BA6A1B35DAD702DBEC7ACEC2E646F6378>

IPO Baron 1982 [2] Rock 1986 [1] Allen Faulhaber 1989 [3] [9] IPO IPO 2010 IPO % 2011 IPO IPO 27.4% 2012 IPO

: 29 : n ( ),,. T, T +,. y ij i =, 2,, n, j =, 2,, T, y ij y ij = β + jβ 2 + α i + ɛ ij i =, 2,, n, j =, 2,, T, (.) β, β 2,. jβ 2,. β, β 2, α i i, ɛ i

國家圖書館典藏電子全文

二次曲線 人們對於曲線的使用及欣賞 比曲線被視為一種數學題材來探討要早 得多 各種曲線中 在日常生活常接觸的 當然比較容易引起人們的興趣 比如 投擲籃球的路徑是拋物線 盤子的形狀有圓形或橢圓形 雙曲線 是較不常見的 然而根據科學家的研究 彗星的運行軌道是雙曲線的一部 分 我們將拋物線 圓與橢圓 雙曲

* UNDP Volunteering Australia * 10 94

個 人 的 手, 拉 著 瞎 子 的 手 把 他 帶 往 村 外 的 時 候, 對 於 瞎 子 來 講, 那 個 人 的 手 和 耶 穌 的 手 有 沒 有 區 別? 沒 有! 為 什 麼 沒 有 區 別? 因 為 對 於 一 個 瞎 子 來 說, 手 和 耳 朵 就 是 他 接 觸 世 界, 瞭

プリント

老人憂鬱症的認識與老人自殺問題

Microsoft Word - 生統e報200907[Final].doc

(Microsoft Word - \244\272\256e\245\376\263\241\267J\276\ doc)

nb.PDF

穨CH17VER1a.PDF

1

4. 下 列 何 者 不 適 合 用 來 描 述 6 年 8 班 的 血 型 分 佈? (A) 長 條 圖 (bar chart) (B) 盒 鬚 圖 (box plot) (C) 圓 餅 圖 (pie chart) (D) 次 數 多 邊 圖 (frequency polygons) 5. 下 表

臺北市及死亡率 - 別 ( 續 1)( 修正 ) ( 二 ) 松山區 中華民國 105 年單 : 人 ; 人 / 十萬人 ;% 所有 1, 所有 所有 惡腫瘤 4

~ 10 2 P Y i t = my i t W Y i t 1000 PY i t Y t i W Y i t t i m Y i t t i 15 ~ 49 1 Y Y Y 15 ~ j j t j t = j P i t i = 15 P n i t n Y

翁秉仁教授 本著作除另有註明, 所有內容取材自作者翁秉仁教授所著作的微積分講義, 採用創用 CC 姓名標示 - 非商業使用 - 相同方式分享 3.0 台灣授權條款釋出

A. 初級資料處理人員 : 建議修習基礎程式設計師課程 (PRG1 + PRG2 + CRB) 並取得基礎程式設計師認證 B. 進階資料處理人員 : 除基礎程式設計師課程外, 建議修習進階程式設計師課程 (MAC1 + SQL1 + PRG3), 並取得進階程式設計師認證 C. 統計分析師 : 除基

基礎統計

一、乘法公式與多項式

Microsoft Word - 24-BF03.doc

tech_atmn_h1h4_E

1970 新技術的應用 X = 20 + B 13B δ13c X 1 X

1

Excel VBA Excel Visual Basic for Application

7. 下列何者敘述錯誤? (A) 抽樣分佈 (sampling distribution) 的抽樣樣本數越大, 其分佈之集中趨勢 (central tendency) 越小 (B) 樣本 (sample) 可以告訴我們關於母群體 (population) 的資訊 (C) 參數 (parameter)

Microsoft Word - CH12-001~030_1_.doc

202,., IEC1123 (1991), GB8051 (2002) [4, 5],., IEC1123,, : 1) IEC1123 N t ( ). P 0 = , P 1 = , (α, β) = (0.05, 0.05), N t = [4]. [6

% % 34

敘述統計概論

Transcription:

第七章羅吉斯迴歸 廖麗娜統計分析師在 SAS 教戰手冊第四章介紹了 卡方檢定及勝算比 ( 生統 e 報第 36 37 期 ), 討論兩個類別變項相關性的統計檢定及相關強度的估計, 此外, 我們也可以使用 羅吉斯迴歸分析 (Logistic regression analysis) 來得到相同的結果 羅吉斯迴歸是一種常用的統計模式, 其概念與線性迴歸相同, 不同的是當依變項為二元的 (binary) 資料型態時, 適合使用羅吉斯迴歸 在流行病學的研究中, 經常使用羅吉斯迴歸分析, 以確認危險因子與疾病的關係, 危險因子 ( 自變項 ) 的資料型態可以是連續型的或類別型的 1 0. 資料型態與適用的統計方法 研究問題 (1): 探討洗腎病人中, 腦血管疾病盛行與年齡的關係為何? 研究問題 (2): 探討洗腎病人中, 腦血管疾病盛行與洗腎型態的關係為何? ( 洗腎病患的洗腎型態和有無腦血管疾病是否相關?) 研究問題 (3): 探討洗腎病患, 在調整白蛋白及鈣生化值後, 腦血管疾病盛行與年齡的關係為何?( 將年齡變項分為三個年齡層, 分別為 0~60 歲 60 以上 ~70 歲及 70 歲以上三層 ) 表 01 1 為本章將使用的變項及數據值, 表 01 2 為資料型態與適用的統計方法, 在本章將用 羅吉斯迴歸分析 (Logistic regression analysis) 來回答研究問題(1)~(3) 這三個研究問題的依變項 (Y) 為 洗腎病人是否有腦血管疾病, 自變項 (X) 包括病人的年齡 洗腎型態 ( 血液透析或腹膜透析 ) 白蛋白及鈣生化值為共變數(covariates)( 詳見表 01 1) 表 01 1 使用的變項及部分數據值 ID ( 編號 ) treat ( 洗腎型態 *) Age ( 年齡 ) DM ( 原發病是否為糖尿病 *) CVA ( 是否有腦血管疾病 *) Albumin ( 白蛋白 ) Ca ( 鈣 ) P ( 磷 ) Sex ( 性別 *) 1 1 45 1 0 3.4 8.8 5.2 女 2 0 70 0 0 3.3 7.6 8.3 女 3 1 59 0 1 1.7 7.9 6.5 男 4 0 77 0 0 2.8 12.1 6.1 女 5 1 43 1 0 3.1 7.1 7.8 女 98 1 68 1 0 2.5 8.3 3.2 女 99 1 55 0 0 3.3 8.8 7.2 女 100 1 78 0 1 1.9 8.8 2.9 男註 : 資料來自本校附設醫院腎臟科, 樣本數共有 100 人且皆為死亡的個案 *: 表示收集到的原始數據之資料型態屬於 類別型資料 7 1 SAS 教戰手冊

表 01 2 資料型態與適用的統計方法 欲檢定的變項 / 依變項 (Y) 兩組 欲進行比較的組別數 / 自變項 (X) 類別 三組或以上 獨立樣本相依樣本獨立樣本相依樣本 連續資料欲檢定的情形 : 集中趨勢 (central tendency) 相關分析 連續 假設變項呈常態或中央極限定理成立 Independent t test Paired t test ANOVA Repeated measures ANOVA correlation / Linear regression 常態假設或中央極限定理不成立 Wilcoxon rank sum test Wilcoxon signed rank test Kruskal Wallis test Friedman test Spearman s correlation 類別資料 兩個類別 三類以上 (with Yates' correction) 欲檢定的情形 : 關聯性 (Association) McNemar 's test Cochran's Q test Cochran's Q test Cochran's Q test Logistic regression Multinomial / Ordinal logistic regression 1 1. 羅吉斯迴歸之介紹使用羅吉斯迴歸時, 依變項 (Y) 須是二元分類的變項, 事件發生 (Y=1) 的機率用符號 p 表示, 機率值的範圍應在 0 與 1 之間 若以線性迴歸方程式來表示, EY ( 1 ) 0 1x1 kxk 表示在特定自變項 (X) 數值的情況下, 預測或估計依變項 Y=1 的平均值, 然而在特定 X 數值下, 平均值的範圍有可能大於 1 或小於 0, 為了避免碰到上述的難題, 將條件機率 P(Y=1 X) 作羅吉斯轉換 (logistic or logit transformation), 也就是事件發生 (Y=1) 的勝算 (odds of event ) 取自然對數 在此情況下, 於特定 X 下, 依變項 (Y) 的分佈是二項式分佈 (binomial distribution), 其平均值為 特定 X 數值下, 事件發生的條件機率,p=P(Y=1 X), 即 E( Y 1 ) p 例如 : 令一個二元分類的依變項 Y 代表是否有腦血管疾病 ( 有腦血管疾病 :Y=1; 無腦血管疾病 :Y=0), 則特定自變項數值下, 估計有腦血管疾病的平均值, 即估計有腦血管疾病的條件機率 p=p(y=1 X) 因為 有腦血管疾病的條件機率 P(Y=1 X) 仍然是一個機率值, 所以它的範圍必須在 0 到 1 之間, 因此將條件機率 P(Y=1 X) 作羅吉斯轉換, 也就是患病的勝算 (odds of disease ) 取自然對數, 其方程式如下 : PY ( 1 ) g ln 0 1x1 kxk (1) 1 PY ( 1 ) 7 2 SAS 教戰手冊

g 為羅吉斯函數, 上式經過整理後, 可以得到 有腦血管疾病的條件機率 p=p(y=1 X), 其方程式如下 : ( 01x1 kxk) e 1 p = (2) ( 0 1x1 kxk) ( 0 1x1 kxk) 1 e 1 e 第 (1) 式中, 某一自變項的羅吉斯迴歸係數取指數後的值, 我們稱它為勝算比 (odds ratio), 例 1 如自變項 X 1 的羅吉斯迴歸係數為 1, 對羅吉斯迴歸係數 1取指數後為 e 2 0. 簡單羅吉斯迴歸 -PROC LOGISTIC 應用 關於研究問題 (1) 探討洗腎病人中, 腦血管疾病盛行與年齡的關係為何?, 利用 程式 02 1 執行簡單羅吉斯迴歸分析, 分析結果如圖 02 1 其中 為年齡的羅吉斯迴歸係數估計值 0.04, 為檢定 H 0 : 年齡的羅吉斯迴歸係數等於 0 之 p 值 (0.1338), 和 分別為年齡每增加一歲和五歲時的勝算比 1.039 及 1.210 與其 95% 信賴區間, 也就是說, 當年齡分別每增加一歲和五歲, 洗腎病人有腦血管疾病的勝算將分別增加 3.9% 和 21%, 但沒有達統計上顯著 /*==================================================*/ /* 簡單羅吉斯迴歸分析 */ /* 研究問題 (1): 探討洗腎病人中, 腦血管疾病盛行與年齡 */ /* 的關係為何? */ /*=================================================*/ PROC LOGISTIC DATA=esrd_02; MODEL CVA(EVENT='1')=age / RISKLIMITS; UNITS age=5; 程式 02 1 利用 PROC LOGISTIC 語法執行簡單羅吉斯迴歸分析 ( 連續變項 ) 7 3 SAS 教戰手冊

圖 02 1 程式 02 1 的輸出結果 - 簡單羅吉斯迴歸分析 ( 連續變項 ) 關於研究問題 (2) 探討洗腎病人中, 腦血管疾病盛行與洗腎型態的關係為何? ( 洗腎病患的洗腎型態和有無腦血管疾病是否相關?), 在該研究問題中, 洗腎型態屬於類別型資料, 包括血液透析 (HD, treat=1) 及腹膜透析 (PD, treat=0), 指定基準組 ( 參考組 ) 為腹膜透析 利用 程式 02 2 執行簡單羅吉斯迴歸分析, 分析結果如圖 02 2 其中 為洗腎型態的羅吉斯迴歸係數估計值 0.28, 為檢定 H 0 : 洗腎型態的羅吉斯迴歸係數等於 0 之 p 值 (0.577), 為洗腎型態的勝算比 0.752 及其 95% 信賴區間 (0.277, 2.045) HD( 血液透析 ) 病人有腦血管疾病的勝算為 PD( 腹膜透析 ) 病人的 0.752 倍, 即 HD 病人比 PD 病人有腦血管疾病的勝算將減少 24.8%, 但無達統計上顯著 /*=============================================================*/ /* 簡單羅吉斯迴歸分析 */ /* 研究問題 (2): 探討洗腎病人中, 腦血管疾病盛行與洗腎型態的關係 */ /* 為何? ( 洗腎病患的洗腎型態和有無腦血管疾病是否相關?) */ /* 說明 :treat=1 為血液透析 (HD) treat=0 為腹膜透析 (PD) */ /* 以腹膜透析 (PD) ( 類別代號 0) 為參考組 */ /*============================================================*/ PROC LOGISTIC DATA=esrd_02; CLASS treat(ref= 0') / PARAM=REF; MODEL CVA(EVENT='1')=treat; 程式 02 2 利用 PROC LOGISTIC 語法執行簡單羅吉斯迴歸分析 ( 類別變項 ) 7 4 SAS 教戰手冊

圖 02 2 程式 02 2 的輸出結果 - 簡單羅吉斯迴歸分析 ( 類別變項 ) 第 2 0 節重要指令說明 : 程式 02 1 1. PROC LOGISTIC: 為執行羅吉斯迴歸分析之必要敘述句 2. MODEL: 宣告羅吉斯迴歸分析模型 以等號 ( = ) 分隔依變項及自變項, 等號前為依變項, 等號後為自變項 EVENT= 事件類別代號 : 指定二元依變項的事件類別, 於 PROC LOGISTIC 程序中將計算此事件類別發生的機率 RISKLIMITS: 宣告計算自變項的勝算比之信賴區間, 該指令只限定自變項為主效應 (main effects) 時, 不包括交互作用項 3. UNITS: 指定連續型自變項每單位的大小, 且其相對應的勝算比估計值也會同時被計算, 例如 UNITS age=5; 代表年齡每增加 5 歲, 其相對應的勝算比為 1.210 程式 02 2 1. CLASS: 界定模型自變項名稱串中的類別變項 2. REF= 類別代號 : 指定類別變項下的參考組組別 本例中, 以洗腎型態 腹膜透析 ( 類別代號 0) 為參考組 3. PARAM=REF: 執行參考組編碼, 參考組在虛擬變項下的值為 0 7 5 SAS 教戰手冊

2 1. 多變項羅吉斯迴歸 -PROC LOGISTIC 應用 在實際的資料分析中, 通常需同時考量多個自變項對依變項的影響, 自變項的資料型態可以是連續型的或類別型的, 藉此建立較符合實際情況的羅吉斯迴歸模式 關於研究問題 (3) 探討洗腎病患, 在調整白蛋白及鈣生化值後, 腦血管疾病盛行與年齡的關係為何?, 在此示範將年齡變項分為三層時, 如何使用 SAS 執行分析及解釋結果 年齡變項分為三層, 分別為 70 歲以上 60 以上 ~70 歲 及 0~60 歲, 且以年齡 0~60 歲為參考組 利用 程式 02 3 執行多變項羅吉斯迴歸分析, 分析結果如圖 02 3 /*==============================================================*/ /* 多變項羅吉斯迴歸分析 */ /* 研究問題 (3): 探討洗腎病患, 在調整白蛋白及鈣生化值後, 腦血管 */ /* 疾病盛行與年齡的關係為何? */ /* 將年齡變項分為三個年齡層, 分別為 70 歲以上 */ /* 60 以上 ~70 歲 及 0~60 歲三層 */ /* 以年齡 0~60 歲 ( 類別代號 1) 為參考組 */ /*=============================================================*/ DATA esrd_03; SET esrd_02; IF 0<=age<60 THEN age_grp=1; ELSE IF 60<=age<70 THEN age_grp=2; ELSE IF 70<=age THEN age_grp=3; ELSE age_grp=.; PROC LOGISTIC DATA=esrd_03; CLASS age_grp(ref='1') / PARAM=REF; MODEL CVA(EVENT='1')=age_grp Albumin Ca; 程式 02 3 利用 PROC LOGISTIC 語法執行多變項羅吉斯迴歸分析 7 6 SAS 教戰手冊

圖 02 3 程式 02 3 的輸出結果 - 多變項羅吉斯迴歸分析 在圖 02 3 中, 及 分別代表 60 以上 ~70 歲與 70 歲以上虛擬變項的羅吉斯迴歸係數估計值,60 以上 ~70 歲為 0.07,70 歲以上為 0.22, 為檢定 H 0 : 代表 60 以上 ~70 歲虛擬變項的羅吉斯迴歸係數等於 0 之 p 值 (0.9132), 為檢定 H 0 : 代表 70 歲以上的虛擬變項羅吉斯迴歸係數等於 0 之 p 值 (0.7354), 及 分別為 60 以上 ~70 歲與 70 歲以上的勝算比 1.077 及 1.240 在調整白蛋白及鈣生化值後,60 以上 ~70 歲之洗腎病人, 有腦血管疾病的勝算為 0~60 歲者的 1.077 倍 ( 增加 7.7%); 同理, 在調整白蛋白及鈣生化值後,70 歲以上之洗腎病人中, 有腦血管疾病的勝算為 0~60 歲者的 1.240 倍 ( 增加 24%) 但 p 值分別為 0.9132 及 0.7354, 沒有達統計上顯著 在多變項羅吉斯迴歸分析中, 多個自變項的選取方法與線性迴歸分析的概念是相同, 而在 SAS 的語法中, 也是在 MODEL 的後面直接加入 SELECTION 的語法, 詳細過程可參考 SAS 教戰手冊第六章第 2 2 節 ( 生統 e 報第 46 期 ) 若想進一步了解多變項羅吉斯迴歸模式建立 (model building), 可參考 David W. Hosmer 和 Stanley Lemeshow 的 Applied Logistic Regression (2 nd ) 一書之第四章 (Model Building Strategies and Methods for Logistic Regression) 7 7 SAS 教戰手冊