第七章羅吉斯迴歸 廖麗娜統計分析師在 SAS 教戰手冊第四章介紹了 卡方檢定及勝算比 ( 生統 e 報第 36 37 期 ), 討論兩個類別變項相關性的統計檢定及相關強度的估計, 此外, 我們也可以使用 羅吉斯迴歸分析 (Logistic regression analysis) 來得到相同的結果 羅吉斯迴歸是一種常用的統計模式, 其概念與線性迴歸相同, 不同的是當依變項為二元的 (binary) 資料型態時, 適合使用羅吉斯迴歸 在流行病學的研究中, 經常使用羅吉斯迴歸分析, 以確認危險因子與疾病的關係, 危險因子 ( 自變項 ) 的資料型態可以是連續型的或類別型的 1 0. 資料型態與適用的統計方法 研究問題 (1): 探討洗腎病人中, 腦血管疾病盛行與年齡的關係為何? 研究問題 (2): 探討洗腎病人中, 腦血管疾病盛行與洗腎型態的關係為何? ( 洗腎病患的洗腎型態和有無腦血管疾病是否相關?) 研究問題 (3): 探討洗腎病患, 在調整白蛋白及鈣生化值後, 腦血管疾病盛行與年齡的關係為何?( 將年齡變項分為三個年齡層, 分別為 0~60 歲 60 以上 ~70 歲及 70 歲以上三層 ) 表 01 1 為本章將使用的變項及數據值, 表 01 2 為資料型態與適用的統計方法, 在本章將用 羅吉斯迴歸分析 (Logistic regression analysis) 來回答研究問題(1)~(3) 這三個研究問題的依變項 (Y) 為 洗腎病人是否有腦血管疾病, 自變項 (X) 包括病人的年齡 洗腎型態 ( 血液透析或腹膜透析 ) 白蛋白及鈣生化值為共變數(covariates)( 詳見表 01 1) 表 01 1 使用的變項及部分數據值 ID ( 編號 ) treat ( 洗腎型態 *) Age ( 年齡 ) DM ( 原發病是否為糖尿病 *) CVA ( 是否有腦血管疾病 *) Albumin ( 白蛋白 ) Ca ( 鈣 ) P ( 磷 ) Sex ( 性別 *) 1 1 45 1 0 3.4 8.8 5.2 女 2 0 70 0 0 3.3 7.6 8.3 女 3 1 59 0 1 1.7 7.9 6.5 男 4 0 77 0 0 2.8 12.1 6.1 女 5 1 43 1 0 3.1 7.1 7.8 女 98 1 68 1 0 2.5 8.3 3.2 女 99 1 55 0 0 3.3 8.8 7.2 女 100 1 78 0 1 1.9 8.8 2.9 男註 : 資料來自本校附設醫院腎臟科, 樣本數共有 100 人且皆為死亡的個案 *: 表示收集到的原始數據之資料型態屬於 類別型資料 7 1 SAS 教戰手冊
表 01 2 資料型態與適用的統計方法 欲檢定的變項 / 依變項 (Y) 兩組 欲進行比較的組別數 / 自變項 (X) 類別 三組或以上 獨立樣本相依樣本獨立樣本相依樣本 連續資料欲檢定的情形 : 集中趨勢 (central tendency) 相關分析 連續 假設變項呈常態或中央極限定理成立 Independent t test Paired t test ANOVA Repeated measures ANOVA correlation / Linear regression 常態假設或中央極限定理不成立 Wilcoxon rank sum test Wilcoxon signed rank test Kruskal Wallis test Friedman test Spearman s correlation 類別資料 兩個類別 三類以上 (with Yates' correction) 欲檢定的情形 : 關聯性 (Association) McNemar 's test Cochran's Q test Cochran's Q test Cochran's Q test Logistic regression Multinomial / Ordinal logistic regression 1 1. 羅吉斯迴歸之介紹使用羅吉斯迴歸時, 依變項 (Y) 須是二元分類的變項, 事件發生 (Y=1) 的機率用符號 p 表示, 機率值的範圍應在 0 與 1 之間 若以線性迴歸方程式來表示, EY ( 1 ) 0 1x1 kxk 表示在特定自變項 (X) 數值的情況下, 預測或估計依變項 Y=1 的平均值, 然而在特定 X 數值下, 平均值的範圍有可能大於 1 或小於 0, 為了避免碰到上述的難題, 將條件機率 P(Y=1 X) 作羅吉斯轉換 (logistic or logit transformation), 也就是事件發生 (Y=1) 的勝算 (odds of event ) 取自然對數 在此情況下, 於特定 X 下, 依變項 (Y) 的分佈是二項式分佈 (binomial distribution), 其平均值為 特定 X 數值下, 事件發生的條件機率,p=P(Y=1 X), 即 E( Y 1 ) p 例如 : 令一個二元分類的依變項 Y 代表是否有腦血管疾病 ( 有腦血管疾病 :Y=1; 無腦血管疾病 :Y=0), 則特定自變項數值下, 估計有腦血管疾病的平均值, 即估計有腦血管疾病的條件機率 p=p(y=1 X) 因為 有腦血管疾病的條件機率 P(Y=1 X) 仍然是一個機率值, 所以它的範圍必須在 0 到 1 之間, 因此將條件機率 P(Y=1 X) 作羅吉斯轉換, 也就是患病的勝算 (odds of disease ) 取自然對數, 其方程式如下 : PY ( 1 ) g ln 0 1x1 kxk (1) 1 PY ( 1 ) 7 2 SAS 教戰手冊
g 為羅吉斯函數, 上式經過整理後, 可以得到 有腦血管疾病的條件機率 p=p(y=1 X), 其方程式如下 : ( 01x1 kxk) e 1 p = (2) ( 0 1x1 kxk) ( 0 1x1 kxk) 1 e 1 e 第 (1) 式中, 某一自變項的羅吉斯迴歸係數取指數後的值, 我們稱它為勝算比 (odds ratio), 例 1 如自變項 X 1 的羅吉斯迴歸係數為 1, 對羅吉斯迴歸係數 1取指數後為 e 2 0. 簡單羅吉斯迴歸 -PROC LOGISTIC 應用 關於研究問題 (1) 探討洗腎病人中, 腦血管疾病盛行與年齡的關係為何?, 利用 程式 02 1 執行簡單羅吉斯迴歸分析, 分析結果如圖 02 1 其中 為年齡的羅吉斯迴歸係數估計值 0.04, 為檢定 H 0 : 年齡的羅吉斯迴歸係數等於 0 之 p 值 (0.1338), 和 分別為年齡每增加一歲和五歲時的勝算比 1.039 及 1.210 與其 95% 信賴區間, 也就是說, 當年齡分別每增加一歲和五歲, 洗腎病人有腦血管疾病的勝算將分別增加 3.9% 和 21%, 但沒有達統計上顯著 /*==================================================*/ /* 簡單羅吉斯迴歸分析 */ /* 研究問題 (1): 探討洗腎病人中, 腦血管疾病盛行與年齡 */ /* 的關係為何? */ /*=================================================*/ PROC LOGISTIC DATA=esrd_02; MODEL CVA(EVENT='1')=age / RISKLIMITS; UNITS age=5; 程式 02 1 利用 PROC LOGISTIC 語法執行簡單羅吉斯迴歸分析 ( 連續變項 ) 7 3 SAS 教戰手冊
圖 02 1 程式 02 1 的輸出結果 - 簡單羅吉斯迴歸分析 ( 連續變項 ) 關於研究問題 (2) 探討洗腎病人中, 腦血管疾病盛行與洗腎型態的關係為何? ( 洗腎病患的洗腎型態和有無腦血管疾病是否相關?), 在該研究問題中, 洗腎型態屬於類別型資料, 包括血液透析 (HD, treat=1) 及腹膜透析 (PD, treat=0), 指定基準組 ( 參考組 ) 為腹膜透析 利用 程式 02 2 執行簡單羅吉斯迴歸分析, 分析結果如圖 02 2 其中 為洗腎型態的羅吉斯迴歸係數估計值 0.28, 為檢定 H 0 : 洗腎型態的羅吉斯迴歸係數等於 0 之 p 值 (0.577), 為洗腎型態的勝算比 0.752 及其 95% 信賴區間 (0.277, 2.045) HD( 血液透析 ) 病人有腦血管疾病的勝算為 PD( 腹膜透析 ) 病人的 0.752 倍, 即 HD 病人比 PD 病人有腦血管疾病的勝算將減少 24.8%, 但無達統計上顯著 /*=============================================================*/ /* 簡單羅吉斯迴歸分析 */ /* 研究問題 (2): 探討洗腎病人中, 腦血管疾病盛行與洗腎型態的關係 */ /* 為何? ( 洗腎病患的洗腎型態和有無腦血管疾病是否相關?) */ /* 說明 :treat=1 為血液透析 (HD) treat=0 為腹膜透析 (PD) */ /* 以腹膜透析 (PD) ( 類別代號 0) 為參考組 */ /*============================================================*/ PROC LOGISTIC DATA=esrd_02; CLASS treat(ref= 0') / PARAM=REF; MODEL CVA(EVENT='1')=treat; 程式 02 2 利用 PROC LOGISTIC 語法執行簡單羅吉斯迴歸分析 ( 類別變項 ) 7 4 SAS 教戰手冊
圖 02 2 程式 02 2 的輸出結果 - 簡單羅吉斯迴歸分析 ( 類別變項 ) 第 2 0 節重要指令說明 : 程式 02 1 1. PROC LOGISTIC: 為執行羅吉斯迴歸分析之必要敘述句 2. MODEL: 宣告羅吉斯迴歸分析模型 以等號 ( = ) 分隔依變項及自變項, 等號前為依變項, 等號後為自變項 EVENT= 事件類別代號 : 指定二元依變項的事件類別, 於 PROC LOGISTIC 程序中將計算此事件類別發生的機率 RISKLIMITS: 宣告計算自變項的勝算比之信賴區間, 該指令只限定自變項為主效應 (main effects) 時, 不包括交互作用項 3. UNITS: 指定連續型自變項每單位的大小, 且其相對應的勝算比估計值也會同時被計算, 例如 UNITS age=5; 代表年齡每增加 5 歲, 其相對應的勝算比為 1.210 程式 02 2 1. CLASS: 界定模型自變項名稱串中的類別變項 2. REF= 類別代號 : 指定類別變項下的參考組組別 本例中, 以洗腎型態 腹膜透析 ( 類別代號 0) 為參考組 3. PARAM=REF: 執行參考組編碼, 參考組在虛擬變項下的值為 0 7 5 SAS 教戰手冊
2 1. 多變項羅吉斯迴歸 -PROC LOGISTIC 應用 在實際的資料分析中, 通常需同時考量多個自變項對依變項的影響, 自變項的資料型態可以是連續型的或類別型的, 藉此建立較符合實際情況的羅吉斯迴歸模式 關於研究問題 (3) 探討洗腎病患, 在調整白蛋白及鈣生化值後, 腦血管疾病盛行與年齡的關係為何?, 在此示範將年齡變項分為三層時, 如何使用 SAS 執行分析及解釋結果 年齡變項分為三層, 分別為 70 歲以上 60 以上 ~70 歲 及 0~60 歲, 且以年齡 0~60 歲為參考組 利用 程式 02 3 執行多變項羅吉斯迴歸分析, 分析結果如圖 02 3 /*==============================================================*/ /* 多變項羅吉斯迴歸分析 */ /* 研究問題 (3): 探討洗腎病患, 在調整白蛋白及鈣生化值後, 腦血管 */ /* 疾病盛行與年齡的關係為何? */ /* 將年齡變項分為三個年齡層, 分別為 70 歲以上 */ /* 60 以上 ~70 歲 及 0~60 歲三層 */ /* 以年齡 0~60 歲 ( 類別代號 1) 為參考組 */ /*=============================================================*/ DATA esrd_03; SET esrd_02; IF 0<=age<60 THEN age_grp=1; ELSE IF 60<=age<70 THEN age_grp=2; ELSE IF 70<=age THEN age_grp=3; ELSE age_grp=.; PROC LOGISTIC DATA=esrd_03; CLASS age_grp(ref='1') / PARAM=REF; MODEL CVA(EVENT='1')=age_grp Albumin Ca; 程式 02 3 利用 PROC LOGISTIC 語法執行多變項羅吉斯迴歸分析 7 6 SAS 教戰手冊
圖 02 3 程式 02 3 的輸出結果 - 多變項羅吉斯迴歸分析 在圖 02 3 中, 及 分別代表 60 以上 ~70 歲與 70 歲以上虛擬變項的羅吉斯迴歸係數估計值,60 以上 ~70 歲為 0.07,70 歲以上為 0.22, 為檢定 H 0 : 代表 60 以上 ~70 歲虛擬變項的羅吉斯迴歸係數等於 0 之 p 值 (0.9132), 為檢定 H 0 : 代表 70 歲以上的虛擬變項羅吉斯迴歸係數等於 0 之 p 值 (0.7354), 及 分別為 60 以上 ~70 歲與 70 歲以上的勝算比 1.077 及 1.240 在調整白蛋白及鈣生化值後,60 以上 ~70 歲之洗腎病人, 有腦血管疾病的勝算為 0~60 歲者的 1.077 倍 ( 增加 7.7%); 同理, 在調整白蛋白及鈣生化值後,70 歲以上之洗腎病人中, 有腦血管疾病的勝算為 0~60 歲者的 1.240 倍 ( 增加 24%) 但 p 值分別為 0.9132 及 0.7354, 沒有達統計上顯著 在多變項羅吉斯迴歸分析中, 多個自變項的選取方法與線性迴歸分析的概念是相同, 而在 SAS 的語法中, 也是在 MODEL 的後面直接加入 SELECTION 的語法, 詳細過程可參考 SAS 教戰手冊第六章第 2 2 節 ( 生統 e 報第 46 期 ) 若想進一步了解多變項羅吉斯迴歸模式建立 (model building), 可參考 David W. Hosmer 和 Stanley Lemeshow 的 Applied Logistic Regression (2 nd ) 一書之第四章 (Model Building Strategies and Methods for Logistic Regression) 7 7 SAS 教戰手冊