貝葉斯統計及其在診斷和篩檢 試驗評價中的應用 劉 沛 東南大學公共衛生學院 流行病與衛生統計學系 liupeiseu@126.com 2008-5-28 1
前 言 貝葉斯統計是當今世界兩大主要統計學派之一, 它與經典統計學派在統計推斷理論和方法上存在重大差異 多年來兩大學派之間的爭論從未停止過, 正是這種論戰推動了雙方向更加合理的方向前進 值得註意的是, 近年來, 由於現代計算機技術的發展較好地解決了高維積分這一限制貝葉斯統計應用的 瓶頸 問題, 使得貝葉斯統計不論在理論研究還是在應用方法上取得了較經典統計學更快的發展 2008-5-28 2
前 言 我強烈地感到統計學正處於新一輪理論和方法論爆發的時代, 而且這個爆發將以貝葉斯學派與頻率學派合並為特色 Bradley Efron 美國統計學會主席 斯坦福大學生物統計學係教授 托馬斯. 貝葉斯以其一篇遺作的思想重大地影響了兩個世紀以後的統計學界, 頂住了統計學的半邊天 陳希孺院士 2008-5-28 3
一 现代貝葉斯統計應用的發展 20 世紀 80 年代 統計決策及貝葉斯分析 對貝葉斯統計作了較完整的敘述 90 年代初 數據分析中的貝葉斯和經驗貝葉斯方法 實際應用中的馬爾可夫鏈蒙特卡洛技術 進一步促進了貝葉斯統計應用的傳播 20 世紀 90 年代中後期以來, 隨著計算機技術的發展和貝葉斯方法的改進, 原來復雜異常的數值計算問題變得非常簡單, 現代貝葉斯理論和應用得到了迅速發展 2008-5-28 5
二 貝葉斯統計和經典統計的主要區別 貝葉斯統計是綜合未知參數的先驗信息與樣本信息, 依據貝葉斯定理, 求出後驗分布, 根據後驗分布推斷未知參數的統計方法 - 在統計推斷中是否能包括先驗信息? - 未知參數是否可以看作是隨機變量? - 事件的概率是否一定要有頻率解釋? - 概率是否可以用經驗來確定? 2008-5-28 6
二 貝葉斯統計和經典統計的主要區別 經典統計的難題而貝葉斯統計能給出較合理解釋的問題 : - 區間估計 - 假設檢驗兩難推斷 - 統計信息中先驗信息的利用 2008-5-28 7
( 一 ) 區間估計 貝葉斯可信區間 ( Bayesian credible interval,bci ) 在貝葉斯統計中, 當獲得隨機變量 x 對應的參數 μ 的後驗分布 π(μ x) 後, 就可計算 μ 落在某區間 [a,b] 內的後驗概率, 譬如 1-α, 即 P(a μ b x)=1-α 按上述方法計算出的區間被稱為 貝葉斯可信區間 與經典統計中 置信區間 (CI) 的區別 - 解釋不同 - 求法不同 2008-5-28 8
解釋不同 貝葉斯可信區間是一個具體的可信區間, 其結論是基於總 體參數 μ 是隨機變量這一基礎上的 如 : 用該法計算出某地成年男子紅細胞總體均數 μ 的 95% 可信區間是 [531,542]( 萬 /mm3), 可寫出 P(531 μ 542/x)=0.95, 這可以說 : μ 屬於或落入 [531, 542] 的概率為 0.95 經典統計的置信區間就只能說 : 在 100 次使用這個置信區間時, 大約 95 次蓋住了 μ 因為經典統計認為 μ 是常量, 它要麽在 [531, 542] 內, 要麽在此區間外, 不能說 μ 在 [531, 542] 內的概率為 0.95 2008-5-28 9
解釋不同 (con.) 從應用角度來說, 對那些難以重復 ( 如罕見疾病的療效判斷 ) 或僅能重復一次 兩次而不可能或不必要多次重復的試驗來說, 這種解釋似乎變得沒有什麽實際意義 相比之下, 貝葉斯可信區間的解釋簡單 自然 易被人們理解和采用 現實情況是 : 很多實際工作者把經典統計的置信區間當作貝葉斯可信區間去使用和理解 返回 8 2008-5-28 10
求法不同 經典統計中尋求置信區間有時是困難的, 因為他要設法構造一個含有被估參數的隨機變量, 使其分布不含有未知參數, 這是一項技術性很強的工作, 不熟悉 抽樣分布 是很難完成的 尋求貝葉斯可信區間只利用後驗分布, 不需要再去尋求另外的分布 貝葉斯可信區間的尋求常常要簡單一些 返回 7 2008-5-28 11
( 二 ) 假設檢驗的兩難推斷 U 檢驗中, 若定檢驗水準 α=0.05, 當 U 1.96 時, 拒絕 H 0, 認為兩總體均數不等 但在作結論時, 如 U=1.95, 對總體均數的估計就會發生實質性變化, 顯然這一結論是不能令人滿意的 這一問題就是經典統計遇到的所謂 兩難推斷問題 2008-5-28 12
解決兩難問題 經典統計框架下 --- 依據的是樣本數據 貝葉斯框架下 --- 通過采用樣本信息對先驗信息進行調整或折衷的方法 在獲得後驗分布 π(μ x) 後, 即可分別計算無效假設 H 0 和備擇假設 H 1 的後驗概率 α 0 和 α 1, 然後比較 α 0 和 α 1 的大小,α 0 /α 1 >1 時, 接受 H 0, 當 α 0 /α 1 <1 時, 接受 H1; 當 α 0 /α 1 1 時, 不宜做判斷, 尚需進一步抽樣或進一步收集先驗信息 2008-5-28 13
與經典統計相比 貝葉斯推斷是在先驗假設 H 0 和備擇假設 H 1 之間的一種折衷, 而這一折衷的權數則是樣本數據所提供的信息 樣本量大, 提供的權重將很大, 貝葉斯估計就非常接近經典估計 ; 小樣本時, 貝葉斯估計會朝事前信念 H 0 的方向收縮, 是一種有偏估計 但一些修正經典估計的方法, 如 James- Stein 估計 嶺回歸等使估計誤差最小化, 而最後的答案都與貝葉斯估計大致相同 因此, 這些方法似乎又為 貝葉斯方法的合理性提供了佐證 返回 7 2008-5-28 14
( 三 ) 統計信息 貝葉斯推斷 1 總體信息 2 樣本信息 3 先驗信息 經典統計推斷 合理量化先驗信息, 增加其客觀成分! 2008-5-28 15
三 貝葉斯統計在醫學診斷和篩檢試驗評價中的應用 問題的產生 缺乏可供應用的金標準 ; 有些疾病的金標準診斷試驗不宜或根本不允許用於待評價的整個人群 如 : 冠心病, 肿瘤, 血吸虫病 2008-5-28 16
解決問題的探索 貝葉斯學派認爲, 統計模型中的參數和觀察變量都被視爲隨機變量 按貝葉斯理論將診斷和篩檢試驗評價指標 ( 靈敏度 特異度等 ) 看作隨機變量更符合實際情況 貝葉斯框架下, 如果已知診斷和篩檢試驗先驗分布和似然函數, 理論上就可求出其后驗分佈 解決複雜高維積分問題已有了辦法, 馬尓可夫鏈蒙特卡洛技術 2008-5-28 17
四 條件相關時無金標準條件下兩組人群聯合診斷試驗統計建模的貝葉斯方法 在兩個或多個無金標準診斷試驗評價中, 國內現有研究均假定診斷試驗條件獨立, 從而選用貝葉斯條件獨立模型進行分析, 但在實際工作中, 試驗結果有時呈現條件相關, 選用條件獨立模型會導致結果偏倚 2008-5-28 19
模型簡介 對兩個診斷試驗 T i (i=1,2), 陽性與陰性檢測結果分別為 T i+ T i-, D D - 表示真實患病狀況與真實未患病狀況, 則第 i 個診斷試驗的靈敏度為 i =P(T i+ D), 特異度為 θ i = P(T i- D - ) 2008-5-28 20
定義條件概率 : η 11 =P(T 1+,T 2+ D) η 12 =P(T 1 +,T 2- D) η 21 =P(T 1-, T 2+ D) η 22 =P(T 1-,T 2- D) θ 11 =P(T 1+,T 2+ D - ) θ 12 =P(T 1 +,T 2- D - ) θ 21 =P(T 1-, T 2+ D - ) θ 22 =P(T 1-,T 2-2008-5-28 21
模型簡介 (con.) 通常情況下, 無法獲取兩個診斷試驗相關程度的大小, 為了便於確定剩餘參數先驗分佈進而通過 Gibbs 抽樣對後驗參數進行確定, 我們對這些待估剩餘參數重新進行參數確定 : DD 2008-5-28 22
模型簡介 (con.) 診斷試驗條件獨立, 則 λ D =γ D =η 2,λ D =γ D =θ 2 ; 診斷試驗陽性相關, 則 λ D >η 2 >γ D,λ >θ 2 >γ 我們可以進一步得到陽性相關係數 ρ D : D D 陰性相關係數 ρ : D 如果兩個試驗條件獨立, 則 ρ D =0 ρ =0 即 η 11 =η 1 η 2, η 12 =η 1 (1-η 2 ), θ 22 =θ 1 θ 2,θ 12 =θ 2 (1-θ 1 ) 2008-5-28 23 D
模型簡介 (con.) 構造似然函數 : 在無金標準診斷模型中, 由於無法得知患病真實值, 似然函數的構造較為復雜 我們引入潛變量 {Ζ IJK }, 對應四格表中各個格子的真陽性數, 結合新參數 {λ D,λ D,γ D,γ }, 可得到四格表 " 增大似然函數 " D 2008-5-28 24
計算方法 MCMC(Markov Chain Monte Carlo ) 技術 採用蒙特卡洛方法, 選用適合於全條件分佈的 Gibbs 抽樣算法構建 Markov 鏈, 完成 Bayesian 估計中高維積分的近似計算 Gibbs 抽樣算法的程序實現由 WINBUGS 軟件完成 2008-5-28 25
實例分析 冠狀動脈造影 (Coronary Angiography,CAG) 是公認的冠心病診斷的金標準, 但由於設備技術條件限制及有創性, 難以普及, 臨床上依然廣泛採用無創檢查方法診斷冠心病 目前, 活動平板運動試驗簡便易行且無創, 但存在一定的假陽性和假陰性 動態心電圖對心肌缺血, 尤其是無症狀性心肌缺血和冠狀動脈痙攣引起的自發性心絞痛或變異性心絞痛的診斷也有很高的價值 2008-5-28 26
資料來源 本次研究中, 數據來源於對兩家醫院心前區疼痛患者進行活動平板運動試驗和動態心電圖的聯合診斷試驗結果, 對冠心病心肌缺血進行診斷, 以冠狀動脈造影結果做為金標準進行分析評價 調查甲 乙兩醫院 2005.8-2006.10 間進行冠脈造影並在此前後進行活動平板運動試驗和動態心電圖檢查的患者, 甲院 226 例 ( 男 159 例 女 67 例 ), 年齡 32-72(52± 8) 歲 ; 乙院 363 例 ( 男 224 例 女 139 例 ), 年齡 39-81 (51± 12) 歲 並已排除急性 陳舊性心肌梗死 心肌病 電解質紊亂者 2008-5-28 27
甲醫院活動平板運動試驗和動態心電圖聯合診斷試驗結果 乙醫院活動平板運動試驗和動態心電圖聯合診斷試驗結果 2008-5-28 28
計算結果 Gibbs 抽樣迭代次數共為 10500 次, 通過 Winbugs 軟件 TRACE 圖可以看出, 本資料經 500 次迭代已滿足收斂要求, 因此用後 10000 次迭代作為 Markov 鏈進行參數估計 2008-5-28 30
計算結果 活動平板運動試驗和動態心電圖聯合診斷試驗 Bayesian 條件獨立模型與條件相關模型試驗參數及其 95% 可信區間估計 兩組診斷試驗的陽性相關係數 ρ D =0.475, 陰性相關係數 ρ =0.528, 診斷試驗 D 中度相關 2008-5-28 31
診斷試驗中度相關 (ρ D =0.6 ρ D =0.5) 時 Bayesian 條件獨立模型與條件相關模型比較 注 : * 表示區間未包含真值 ;( ) 內表示區間長度 2008-5-28 34
診斷試驗低相關時 (ρ D =0.1 ρ D =0.2 )Bayesian 條件獨立模型與條件相關模型比較 當診斷試驗呈低相關時, 應用條件相關模型對試驗參數估計結果與條件獨立模型的估計結果接近 2008-5-28 36
結論 足夠的先驗信息 + 可供利用的一項或多項有效診斷和篩檢試驗手段無金標準情況下, 對診斷和篩檢試驗效果作出客觀評價 先進的計算機模擬技術 ( 如 MCMC) 避開求高維積分, 在診斷和篩檢試驗評價參數的全條件概率分布中, 通過連續抽樣大量叠代構成 Markov 鏈, 並使其收斂至一個穩定分布 只要先驗分布選擇無誤, 先驗參數選擇合理, 選用的診斷和篩檢試驗有效, 貝葉斯推斷的後驗分布參數值將近似等於其實際值, 有可能解決目前無金標準條件下, 診斷和篩檢試驗無法評價的難題 2008-5-28 40
結語 上述思路是對 診斷和篩檢試驗評價必須有金標準存在 的挑戰 但我們絕不是贊成放棄金標準, 而是不同意在診斷和篩檢試驗評價中將金標準絕對化 目前, 我們正積極研究貝葉斯方法在無金標準時評價診斷和篩檢試驗中的應用, 並取得了初步結果 我們相信, 這將有助於解決目前診斷和篩檢試驗評價方法學研究中頻率學派尚難解決的問題 有可能從觀念 ( 主要是對金標準的認識 ) 方法 ( 主要為貝葉斯原理 +MCMC 方法 ) 上產生一套與經典方法相對應新的診斷和篩檢試驗評價研究方法體系 兩套體系相互借鑒, 並駕齊驅, 將有助於開創診斷和篩檢試驗評價研究的新局面 2008-5-28 41
歡迎各位提出寶貴意見, 謝謝! 我們的公共衛生學院 2008-5-28 42
2008-5-28 43
2008-5-28 44