癌症試驗之存活資料分析 吳雅琪 * 本文是針對癌症臨床試驗所產生的存活資料, 介紹基本統計分析觀念與方法 內容包括定義何謂設限 (censoring) 資料 存活函數及危險函數 ; 介紹存活函數的無母數估計方法 以無母數分析方法從事兩組或兩組以上存活資料的分析比較 ; 及探討如何辨識影響存活時間的重要預後因子及迴歸模式介紹等 將著重於應用性及直觀性方法 什麼是存活分析呢? 存活分析旨在探討事件發生所需的時間 (time to event), 即評估從初始事件到終止事件間經歷的時間 舉例來說, 癌症試驗之整體存活期 (overall survival) 常以隨機分派時間點為起點, 以死亡事件為終點之評估指標, 又如無惡化存活期 (Progression-free survival) 是以隨機分派時間點為起點, 以疾病惡化或死亡事件發生為終點的評估指標 雖然所評估的數值是時間, 但是常用之 t-test ANOVA 或無母數的 Wilcoxon rank sum test 常不適用, 其原因在存活分析常有設限資料 (censored data) 的問題 什麼是設限資料呢? 舉例來說, 當我們在評估每位受試者之整體存活期時, 有些受試者可觀察到完整的存活時間, 這種稱為完整資料 (complete data); 但有些受試者到試驗結束仍活著, 我們無法確知他們實際的存活期間, 僅知道他們至少存活了多少時間, 這種稱為右設限資料 (right censored data) 由於右設限資料之實際存活時間比所觀察到的時間要長, 若用平均值來代表存活時間集中的趨勢是會有偏差的, 中位數 (median) 是較常用來描述其中央趨勢的統計量 由於設限資料是不完整資料 (incomplete data), 為省事, 有些人在分析時就將設限資料當成是完整資料來分析, 這是不恰當的! 因為這是會低估整體存活期的 那是不是可以將設限資料直接排除不算呢? 這也是不恰當的, 因為設限資料即使只提供部份資料, 有時也是很重要的 舉例來說, 若一組受試者在三個月內都死亡, 另一組每位受試者在一年後死亡事件都沒有發生 ( 即都設限在一年 ), 很明顯的第二組整體存活期比第一組好, 若忽略這部份訊息, 很容易做出錯誤的判斷的 因此一旦有設限資料出現, 宜採用存活分析, 存活分析與傳統統計方法不同就是能處理資料中有完整資料與設限資料的統計方法 * 財團法人醫藥品查驗中心臨床組統計小組 RegMed 2011 Vol. 14 4
先介紹如何估計存活函數 (survival curve) 常用的方法是採用 Kaplan-Meier 方式估計存活函數 (Kaplan and Meier, 1958) 舉例來說, 若收集到的資料按發生 順序排列如下, 數字後有加號的表示是設限資料 : 3, 4, 5+, 6, 6+, 8, 10, 12+, 15, 17 Kaplan-Meier (K-M) survival curve 如圖一所示, 這個 K-M curve 是以無母數方式來估計的 呈現出的圖型是一個遞減的階梯函數 (step function), 有 step 的部份是有事件 ( 死亡 ) 發生的時間點, 圖中出現圓點是標示設限資料發生的時間點 這個函數畫出來之後, 我們可以估計各時間點的存活率 ( 例如 : 1-year survival rate 或是 5-year survival rate), 亦可估計 median survival time( 圖二 ) 圖一 :Kaplan-Meier (K-M) survival curve RegMed 2011 Vol. 14 5
圖二 :Median Survival Time 若是有兩個試驗組收集的資料如下 : Treatment A (Group 1): 3, 5, 7, 9+, 18 Treatment B (Group 2): 12, 19, 20, 20+, 33+ 因為數字愈大, 代表存活愈久 ; 因此從數值上來看,Group 2 似乎比 Group 1 存活時間長 兩組所畫出的 K-M curve 列於圖三,Group 2 的存活率在每一個時間點都優於 Group 1 這是圖示方式的比較, 但是若想知道兩組間差異是否達統計上顯著, 必須執行統計檢定 常用的統計方法是 log-rank test 經統計軟體算出 log-rank test statistic = 5.1972,p-value = 0.0226 顯示兩個 survival cures 之差異達統計上顯著 Log-rank test 的優點是它是無母數 (non-parametric) 統計量, 不需要有任何分 佈的假設 ; 但是其缺點是只能提供 p-value, 判斷兩組間的差異是否顯著, 可是 無法提供 treatment effect 的估計 RegMed 2011 Vol. 14 6
圖三 :Kaplan-Meier (K-M) survival curve of group 1 and group 2 要估計 treatment effect, 常用的方法是 Cox proportional hazard model Cox model 主要假設為兩組間危險函數比與時間無關, 是一個常數 這個常數我們稱為危險比 (Hazard Ratio;HR) 其中 HR = 1 HR > 與 HR < 1 之意義整理於表一 基本上 Cox model 檢定是 H0: HR = 1 versus Ha: HR 1; 或是 H0: β = 0 versus Ha: β 0 表一 :Explanation of Hazard Ratio Hazard ratio (HR) log(hr) = β Explanation HR = 1 β = 0 Two groups have the same survival experience HR > 1 β > 0 Survival is better in the control group HR < 1 β < 0 Survival is better in the treatment group RegMed 2011 Vol. 14 7
接以上的範例, 在 proportional hazard 的假設下,Group 2 vs. Group 1 之 HR 估計為 0.105 ( 表二 ), 顯示 Group 2 發生死亡事件的比率比 Group 1 減少了 89.5%, 但是由於 95% CI 上限接近但大於 1, 顯示兩組之差異未達但接近統計上顯著 (Wald test p-value = 0.0511) 表二 :Group 2 vs. Group 1 之 HR 估計 Variable β estimate SE Wald test p-value HR (95% CI) Treatment -2.2538 1.155 0.0511 0.105 (0.01, 1.01) 由以上的結果, 我們發現兩種分析方法的結果不盡相同, 其原因是 log-rank test 是依據 Score test 而表二是依據 Wald test 當樣本數大的時候, 兩個結果是 接近的, 但樣本數小的時候 ( 如以上的範例 ), 兩者會有些差異的 Cox proportional hazard model 雖然可以提供 treatment effect (hazard ratio), 但是它是有一個 proportionality 假設的, 要檢定這個假設是否成立, 可考慮以下 三種方式 : 第一是圖示法, 即若 proportional hazard assumption 成立下, log(-log(k-m curve)) versus log(survival time) 會呈現兩條平行線 若是兩條線不平行或是有交叉, 表示 proportional hazard 的假設恐不成立 第二是在 Cox 模型中加入一個 time-dependent 變數 ( 即 treatment * log(survival time)), 再檢定這個變數是否顯著 ( 即 p-value 是不是很小 ), p-value 愈小, 顯示 HR 會隨時間變動, 而不是一個常數 第三個方法是根據 Schoenfeld residuals 來判斷 (Grambsch & Therneau (1994) 以上很簡單介紹了存活分析中最常見幾種方法, 如 Kaplan-Meier 用來估計存活函數,log-rank test 用來檢定兩個存活函數是否相同,Cox proportional hazard model 用來估計危險比 (hazard ratio), 提供兩組間的 treatment effect 只是 Cox model 有 proportionality 的假設, 建議採用 Cox model 分析時宜對模型的假設做檢定 參考資料 1. E. L. Kaplan, P. Meier. Nonparametric estimation from incomplete observations. Journal of American Statistical Association, 1958; 53: 457-481. RegMed 2011 Vol. 14 8
2. D. R. Cox, D. Oakes. Analysis of Survival Data, London, Chapman and Hall, 1984. 3. John. D. Kalbfleisch, Ross L. Prentice. The Statistical Analysis of Failure Time Data, 2rd Ed., New Jersey, John Wiley and Sons, 2002. 4. Terry M. Therneau, Patricia M. Grambsch. Modeling Survival Data: Extending the Cox Model, 1 st Ed., Springer-Verlag New York Berlin Heidelberg, 2000. 註 : 本文為醫藥品查驗中心 100 年生技醫藥法規科學研究與服務計畫成果 RegMed 2011 Vol. 14 9