贝叶斯统计及其在诊断和筛检试验评价中的应用刘沛陈启光教授

貝葉斯統計及其在診斷和篩檢試驗評價中的應用劉沛東南大學公共衛生學院流行病與衛生統計學系 liupeiseu@126.com 2008-5-28 1

前言貝葉斯統計是當今世界兩大主要統計學派之一, 它與經典統計學派在統計推斷理論和方法上存在重大差異多年來兩大學派之間的爭論從未停止過, 正是這種論戰推動了雙方向更加合理的方向前進值得註意的是, 近年來, 由於現代計算機技術的發展較好地解決了高維積分這一限制貝葉斯統計應用的瓶頸問題, 使得貝葉斯統計不論在理論研究還是在應用方法上取得了較經典統計學更快的發展 2008-5-28 2

前言我強烈地感到統計學正處於新一輪理論和方法論爆發的時代, 而且這個爆發將以貝葉斯學派與頻率學派合並為特色 Bradley Efron 美國統計學會主席斯坦福大學生物統計學係教授托馬斯. 貝葉斯以其一篇遺作的思想重大地影響了兩個世紀以後的統計學界, 頂住了統計學的半邊天陳希孺院士 2008-5-28 3

一现代貝葉斯統計應用的發展 20 世紀 80 年代統計決策及貝葉斯分析對貝葉斯統計作了較完整的敘述 90 年代初數據分析中的貝葉斯和經驗貝葉斯方法實際應用中的馬爾可夫鏈蒙特卡洛技術進一步促進了貝葉斯統計應用的傳播 20 世紀 90 年代中後期以來, 隨著計算機技術的發展和貝葉斯方法的改進, 原來復雜異常的數值計算問題變得非常簡單, 現代貝葉斯理論和應用得到了迅速發展 2008-5-28 5

二貝葉斯統計和經典統計的主要區別貝葉斯統計是綜合未知參數的先驗信息與樣本信息, 依據貝葉斯定理, 求出後驗分布, 根據後驗分布推斷未知參數的統計方法 - 在統計推斷中是否能包括先驗信息? - 未知參數是否可以看作是隨機變量? - 事件的概率是否一定要有頻率解釋? - 概率是否可以用經驗來確定? 2008-5-28 6

二貝葉斯統計和經典統計的主要區別經典統計的難題而貝葉斯統計能給出較合理解釋的問題 : - 區間估計 - 假設檢驗兩難推斷 - 統計信息中先驗信息的利用 2008-5-28 7

( 一 ) 區間估計貝葉斯可信區間 ( Bayesian credible interval,bci ) 在貝葉斯統計中, 當獲得隨機變量 x 對應的參數 μ 的後驗分布 π(μ x) 後, 就可計算 μ 落在某區間 [a,b] 內的後驗概率, 譬如 1-α, 即 P(a μ b x)=1-α 按上述方法計算出的區間被稱為貝葉斯可信區間與經典統計中置信區間 (CI) 的區別 - 解釋不同 - 求法不同 2008-5-28 8

解釋不同貝葉斯可信區間是一個具體的可信區間, 其結論是基於總體參數 μ 是隨機變量這一基礎上的如 : 用該法計算出某地成年男子紅細胞總體均數 μ 的 95% 可信區間是 [531,542]( 萬 /mm3), 可寫出 P(531 μ 542/x)=0.95, 這可以說 : μ 屬於或落入 [531, 542] 的概率為 0.95 經典統計的置信區間就只能說 : 在 100 次使用這個置信區間時, 大約 95 次蓋住了 μ 因為經典統計認為 μ 是常量, 它要麽在 [531, 542] 內, 要麽在此區間外, 不能說 μ 在 [531, 542] 內的概率為 0.95 2008-5-28 9

解釋不同 (con.) 從應用角度來說, 對那些難以重復 ( 如罕見疾病的療效判斷 ) 或僅能重復一次兩次而不可能或不必要多次重復的試驗來說, 這種解釋似乎變得沒有什麽實際意義相比之下, 貝葉斯可信區間的解釋簡單自然易被人們理解和采用現實情況是 : 很多實際工作者把經典統計的置信區間當作貝葉斯可信區間去使用和理解返回 8 2008-5-28 10

求法不同經典統計中尋求置信區間有時是困難的, 因為他要設法構造一個含有被估參數的隨機變量, 使其分布不含有未知參數, 這是一項技術性很強的工作, 不熟悉抽樣分布是很難完成的尋求貝葉斯可信區間只利用後驗分布, 不需要再去尋求另外的分布貝葉斯可信區間的尋求常常要簡單一些返回 7 2008-5-28 11

( 二 ) 假設檢驗的兩難推斷 U 檢驗中, 若定檢驗水準 α=0.05, 當 U 1.96 時, 拒絕 H 0, 認為兩總體均數不等但在作結論時, 如 U=1.95, 對總體均數的估計就會發生實質性變化, 顯然這一結論是不能令人滿意的這一問題就是經典統計遇到的所謂兩難推斷問題 2008-5-28 12

解決兩難問題經典統計框架下 --- 依據的是樣本數據貝葉斯框架下 --- 通過采用樣本信息對先驗信息進行調整或折衷的方法在獲得後驗分布 π(μ x) 後, 即可分別計算無效假設 H 0 和備擇假設 H 1 的後驗概率 α 0 和 α 1, 然後比較 α 0 和 α 1 的大小,α 0 /α 1 >1 時, 接受 H 0, 當 α 0 /α 1 <1 時, 接受 H1; 當 α 0 /α 1 1 時, 不宜做判斷, 尚需進一步抽樣或進一步收集先驗信息 2008-5-28 13

與經典統計相比貝葉斯推斷是在先驗假設 H 0 和備擇假設 H 1 之間的一種折衷, 而這一折衷的權數則是樣本數據所提供的信息樣本量大, 提供的權重將很大, 貝葉斯估計就非常接近經典估計 ; 小樣本時, 貝葉斯估計會朝事前信念 H 0 的方向收縮, 是一種有偏估計但一些修正經典估計的方法, 如 James- Stein 估計嶺回歸等使估計誤差最小化, 而最後的答案都與貝葉斯估計大致相同因此, 這些方法似乎又為貝葉斯方法的合理性提供了佐證返回 7 2008-5-28 14

( 三 ) 統計信息貝葉斯推斷 1 總體信息 2 樣本信息 3 先驗信息經典統計推斷合理量化先驗信息, 增加其客觀成分! 2008-5-28 15

三貝葉斯統計在醫學診斷和篩檢試驗評價中的應用問題的產生缺乏可供應用的金標準 ; 有些疾病的金標準診斷試驗不宜或根本不允許用於待評價的整個人群如 : 冠心病, 肿瘤, 血吸虫病 2008-5-28 16

解決問題的探索貝葉斯學派認爲, 統計模型中的參數和觀察變量都被視爲隨機變量按貝葉斯理論將診斷和篩檢試驗評價指標 ( 靈敏度特異度等 ) 看作隨機變量更符合實際情況貝葉斯框架下, 如果已知診斷和篩檢試驗先驗分布和似然函數, 理論上就可求出其后驗分佈解決複雜高維積分問題已有了辦法, 馬尓可夫鏈蒙特卡洛技術 2008-5-28 17

四條件相關時無金標準條件下兩組人群聯合診斷試驗統計建模的貝葉斯方法在兩個或多個無金標準診斷試驗評價中, 國內現有研究均假定診斷試驗條件獨立, 從而選用貝葉斯條件獨立模型進行分析, 但在實際工作中, 試驗結果有時呈現條件相關, 選用條件獨立模型會導致結果偏倚 2008-5-28 19

模型簡介對兩個診斷試驗 T i (i=1,2), 陽性與陰性檢測結果分別為 T i+ T i-, D D - 表示真實患病狀況與真實未患病狀況, 則第 i 個診斷試驗的靈敏度為 i =P(T i+ D), 特異度為 θ i = P(T i- D - ) 2008-5-28 20

定義條件概率 : η 11 =P(T 1+,T 2+ D) η 12 =P(T 1 +,T 2- D) η 21 =P(T 1-, T 2+ D) η 22 =P(T 1-,T 2- D) θ 11 =P(T 1+,T 2+ D - ) θ 12 =P(T 1 +,T 2- D - ) θ 21 =P(T 1-, T 2+ D - ) θ 22 =P(T 1-,T 2-2008-5-28 21

模型簡介 (con.) 通常情況下, 無法獲取兩個診斷試驗相關程度的大小, 為了便於確定剩餘參數先驗分佈進而通過 Gibbs 抽樣對後驗參數進行確定, 我們對這些待估剩餘參數重新進行參數確定 : DD 2008-5-28 22

模型簡介 (con.) 診斷試驗條件獨立, 則 λ D =γ D =η 2,λ D =γ D =θ 2 ; 診斷試驗陽性相關, 則 λ D >η 2 >γ D,λ >θ 2 >γ 我們可以進一步得到陽性相關係數 ρ D : D D 陰性相關係數 ρ : D 如果兩個試驗條件獨立, 則 ρ D =0 ρ =0 即 η 11 =η 1 η 2, η 12 =η 1 (1-η 2 ), θ 22 =θ 1 θ 2,θ 12 =θ 2 (1-θ 1 ) 2008-5-28 23 D

模型簡介 (con.) 構造似然函數 : 在無金標準診斷模型中, 由於無法得知患病真實值, 似然函數的構造較為復雜我們引入潛變量 {Ζ IJK }, 對應四格表中各個格子的真陽性數, 結合新參數 {λ D,λ D,γ D,γ }, 可得到四格表 " 增大似然函數 " D 2008-5-28 24

計算方法 MCMC(Markov Chain Monte Carlo ) 技術採用蒙特卡洛方法, 選用適合於全條件分佈的 Gibbs 抽樣算法構建 Markov 鏈, 完成 Bayesian 估計中高維積分的近似計算 Gibbs 抽樣算法的程序實現由 WINBUGS 軟件完成 2008-5-28 25

實例分析冠狀動脈造影 (Coronary Angiography,CAG) 是公認的冠心病診斷的金標準, 但由於設備技術條件限制及有創性, 難以普及, 臨床上依然廣泛採用無創檢查方法診斷冠心病目前, 活動平板運動試驗簡便易行且無創, 但存在一定的假陽性和假陰性動態心電圖對心肌缺血, 尤其是無症狀性心肌缺血和冠狀動脈痙攣引起的自發性心絞痛或變異性心絞痛的診斷也有很高的價值 2008-5-28 26

資料來源本次研究中, 數據來源於對兩家醫院心前區疼痛患者進行活動平板運動試驗和動態心電圖的聯合診斷試驗結果, 對冠心病心肌缺血進行診斷, 以冠狀動脈造影結果做為金標準進行分析評價調查甲乙兩醫院 2005.8-2006.10 間進行冠脈造影並在此前後進行活動平板運動試驗和動態心電圖檢查的患者, 甲院 226 例 ( 男 159 例女 67 例 ), 年齡 32-72(52± 8) 歲 ; 乙院 363 例 ( 男 224 例女 139 例 ), 年齡 39-81 (51± 12) 歲並已排除急性陳舊性心肌梗死心肌病電解質紊亂者 2008-5-28 27

甲醫院活動平板運動試驗和動態心電圖聯合診斷試驗結果乙醫院活動平板運動試驗和動態心電圖聯合診斷試驗結果 2008-5-28 28

計算結果 Gibbs 抽樣迭代次數共為 10500 次, 通過 Winbugs 軟件 TRACE 圖可以看出, 本資料經 500 次迭代已滿足收斂要求, 因此用後 10000 次迭代作為 Markov 鏈進行參數估計 2008-5-28 30

計算結果活動平板運動試驗和動態心電圖聯合診斷試驗 Bayesian 條件獨立模型與條件相關模型試驗參數及其 95% 可信區間估計兩組診斷試驗的陽性相關係數 ρ D =0.475, 陰性相關係數 ρ =0.528, 診斷試驗 D 中度相關 2008-5-28 31

診斷試驗中度相關 (ρ D =0.6 ρ D =0.5) 時 Bayesian 條件獨立模型與條件相關模型比較注 : * 表示區間未包含真值 ;( ) 內表示區間長度 2008-5-28 34

診斷試驗低相關時 (ρ D =0.1 ρ D =0.2 )Bayesian 條件獨立模型與條件相關模型比較當診斷試驗呈低相關時, 應用條件相關模型對試驗參數估計結果與條件獨立模型的估計結果接近 2008-5-28 36

結論足夠的先驗信息 + 可供利用的一項或多項有效診斷和篩檢試驗手段無金標準情況下, 對診斷和篩檢試驗效果作出客觀評價先進的計算機模擬技術 ( 如 MCMC) 避開求高維積分, 在診斷和篩檢試驗評價參數的全條件概率分布中, 通過連續抽樣大量叠代構成 Markov 鏈, 並使其收斂至一個穩定分布只要先驗分布選擇無誤, 先驗參數選擇合理, 選用的診斷和篩檢試驗有效, 貝葉斯推斷的後驗分布參數值將近似等於其實際值, 有可能解決目前無金標準條件下, 診斷和篩檢試驗無法評價的難題 2008-5-28 40

結語上述思路是對診斷和篩檢試驗評價必須有金標準存在的挑戰但我們絕不是贊成放棄金標準, 而是不同意在診斷和篩檢試驗評價中將金標準絕對化目前, 我們正積極研究貝葉斯方法在無金標準時評價診斷和篩檢試驗中的應用, 並取得了初步結果我們相信, 這將有助於解決目前診斷和篩檢試驗評價方法學研究中頻率學派尚難解決的問題有可能從觀念 ( 主要是對金標準的認識 ) 方法 ( 主要為貝葉斯原理 +MCMC 方法 ) 上產生一套與經典方法相對應新的診斷和篩檢試驗評價研究方法體系兩套體系相互借鑒, 並駕齊驅, 將有助於開創診斷和篩檢試驗評價研究的新局面 2008-5-28 41

歡迎各位提出寶貴意見, 謝謝! 我們的公共衛生學院 2008-5-28 42

2008-5-28 43

2008-5-28 44

贝叶斯统计及其在诊断和筛检试验评价中的应用 刘沛 陈启光 教授

贝叶斯统计及其在诊断和筛检试验评价中的应用刘沛陈启光教授