醫學研究中常見的統計應用及誤用 慈濟醫學中心 / 研究部王仁宏 /Paul Wang paulwang@tzuchi.com.tw 分機 17651
課程目標 溫故 回顧醫學研究常見的統計觀念 統計是什麼? 統計如何應用到醫學研究? 常見的統計方法及概念 解讀 & 評論 判斷醫學研究結果的合理性 避免統計方法誤用 避免統計分析結果解讀錯誤
Outline Part I. 統計學簡介 統計是什麼? 統計跟醫學研究的關係? 資料蒐集 ( 母體 vs 樣本 ) Part II. 醫學研究常用統計方法 敘述統計 推論統計 差異比較 相關 迴歸分析 質性資料分析 Part III. 研究結果要如何解讀?
PART I. 統計簡介
資料 統計是什麼? 資訊 知識 統計是從數據中找出訊息並且做成結論!! 統計是幫助我們透過客觀的資料分析來瞭解變異來源的一門科學!! 產生數據 整合數據 + + 解釋推論
為什麼要學習統計? -- 用科學的方法來促進專業的進步 當新治療方法 藥物 設計或介入發展出來時, 關鍵問題是 它有用嗎? 文獻回顧 資料收集 統計分析 專業解釋結果 Make Decision
統計與醫學研究的關係 流行病學 描述流行病學 假說的研擬與篩選 分析流行病學 假說的辨明與修訂 實驗性流行病學 假說的實證與確立 仔細審視思考醫學問題 正確的研究設計 確保資料收集品質 實證醫學 好的 研究設計 + 統計分析 正確且有意義的臨床發現 生物統計學 應用領域 : 醫學或公共衛生等 敘述性統計 研究對象特性描述 推論統計 從樣本所獲得資訊說明母體 科學化整理分析呈現證據 合理的歸納與推論 實證醫學發現
產生數據 母體與樣本 壞樣本的毛病 1. 對調查母體沒有定義清楚 2. 母體裡面的個體有些永遠不可能被抽中
產生數據 壞樣本的例子 1. 便利抽樣 碰到誰就問誰的抽樣非機率抽樣!! Ex: 在新光三越的前廣場進行訪問 壞處 : 母體對象沒有定義, 而且有些個體不會被抽中 2. 自願樣本 自動送上門來的樣本 Ex: 電話叩應 Yahoo 奇摩新聞意見調查 壞處 : 一個人可以重覆許多次, 導致有灌水的問題 3. 立意抽樣 依照本身的主觀判斷去挑樣本 Ex: 訪問對核能發電具有專業知識的人士 4. 配額選樣 壞處 : 專業人士的意見是否足以代表一般人的意見? 把調查對象依照特徵分類後, 依各類比例立意找人到額滿為止 壞處 : 容易受到訪員主觀選擇受訪者的影響, 對於推論的正確性傷害相當大
產生數據 觀察性 vs 實驗性資料 資料性質特徵可推論的方法 Example 觀察性 順其自然 相關分析 (Correlation) 實驗性 操之在我 因果分析 (Causal) 醫院欲紀錄患有高血壓症狀之住院病患之狀況, 每天請護士測量並照實紀錄 Ex: 病歷回顧 醫院欲測量降血壓的新藥之療效, 得到病患同意後, 每日給予病患治療, 並記錄病患血壓 Ex: 臨床試驗
整合數據 & 解釋推論 醫學研究常用統計方法 針對醫學護理類搜尋 20~30 篇論文, 將其統計方法整理如下 : 80/20 法則 學會 描述統計 ANOVA t 檢定 / 卡方檢定 皮爾森相關 迴歸分析就具備九成功力!!
PART II. 醫學研究常用統計方法敘述統計 推論統計 差異比較相關 迴歸分析 質性資料分析
Part 1 描述統計 統計量 集中區勢 離散趨勢 Mean Median Mode Max/Min Quartile(Q1,Q3) Range Standard Deviation -- 統計量 & 統計圖 目的 : 讓分析者可以在短時間內瞭解資料的分佈狀況與訊息 Histogram Pie Chart Boxplot
Part 1 極端值的影響?? 這個籃球隊教練在考 : 究竟應該公布 隊平均身高 180cm 嚇對手, 還是 隊員身高中位數 173cm 讓對手失去戒心? < 注意 > 平均數易受極端值的影響, 尤其在數字個數少的時候影響更大!!
Part 1 < 範例 > 存活率的迷思 健保局 2007 年 5 月公布各醫院器官移植存活率, 以心臟移植五年存活率來看 : 三總 85% 振興 73% 林口長庚 70% 台大 65% 北榮 55% 看來三總是首選? 若加上案例數, 三總 15/85% 振興 148/73% 林口長庚 11/70% 台大 195/65% 北榮 59/55% 選擇是否改觀? 振興優於台大? 病患的病況及背景是否大致接近無法得知 讀到一項統計數據時, 應注意上下文, 弄清楚該統計量真正的意義才能夠避免被誤導!!
Part 2 母體與樣本 母體 Population X 1, X 2,,X N Sampling Experiment 樣本 Sample x 1,,x n H 0 vs H 1 Parameter 參數 推論 Inference 描述 Descriptive Statistics 統計量
Part 2 假設檢定 (Hypothesis Testing) 假設 (Hypothesis) H 0 (Null) vs H 1 (Alternative) 統計假設的架構, 與刑事訴訟法中的無罪推定原則 ( 被告未經審判證明有罪確定前, 推定其為無罪 ) 類似!! 對立假設是研究者期望發現的 虛無假設是被保護的, 除非證據夠強, 否則不輕易推翻現況 檢定 檢定統計量 臨界值 P-value 結論 接受 (Accept) or 拒絕 (Reject) Example(2010 世足賽的章魚哥 ) 章魚不可能預測比賽結果 ( 瞎矇 ) H0: 章魚哥猜對機率 =1/2 H1: 章魚哥猜對機率 >1/2
Part 2 假設檢定的流程 Step 1. 決定虛無假說與對立假說 Step 2. 決定顯著水準 (α) Type I error 發生機率 ex:0.05, 0.01 Step 3. 選擇檢定統計量 Step 4. 收集資料, 計算檢定統計量及 P 值 Step 5. 進行決策判定 <Remark> 實際上顯著與不顯著間並沒有一個真正的標準 P 值越小, 表示我們得到越強的證據能力
Part 2 統計推論所產生的風險 利用樣本證據來對假說進行決策時, 難免會因為樣本的偏差而發生判斷錯誤的情況!! 決策 無法推翻 H 0 犯人無罪 推翻 H 0 犯人有罪 H 0 : 無罪 決策正確 Type I error ( 錯殺忠良 ) 事實 ( 永遠不知 ) H 1 : 有罪 Type II error ( 縱虎歸山 ) 決策正確 Type I error 亦稱做消費者風險 (ex: 沒有效的藥被批准上市 ) Type II error 亦稱做生產者風險 (ex: 有效的藥無法上市 ) [ 註 ] 應注意是否有 measurement error, bias, confounding 等情況發生!!
Part 2 P-value 的迷思 : 顯著與非常顯著 問題 : 在很多統計方法裡都會看到 p 值, 通常在許多期刊表格的下方都會看到 *p<0.05, **p<0.01, ***p<0.001, 所以就說 * 是顯著,** 是很顯著,*** 是非常顯著, 所以說 p<.001 的效果比 p<.05 的好, 這樣說對嗎? P-value 若夠小 ( 一般 <0.05) 則拒絕 H 0 的證據夠強!! 在 H 0 為真的假設下, 得到樣本結果會像實際觀察到那麼極端或更極端的機率!! P 值代表在實驗的條件下, 推翻虛無假設的證據強度 P 值是深受樣本數 (sample size) 的影響 P 值無法完整呈現治療效果, 建議以效果值 (effect size) 和 95% 信賴區間來取代!!
Part 2 假設檢定 (Hypothesis Testing) P-value 與 Sample Size 的關係 : A group : mean = 0, stdev = 1 B group : mean = 0.4, stdev = 1 A 0.4 B Sample size = 5, P-value = 0.599 Sample size = 10, P-value = 0.230 A B 兩個母體平均差異固定, 但隨著 樣本數增加, 檢定 p-value 越來越顯著!! Sample size = 50, P-value =0.044 Sample size = 200, P-value < 0.001
Part 2 統計學意義 (statistical significance) 與臨床意義 (clinical significance) 的差別 A 藥 一般治療 B 藥 A 藥相較於一般治療方式存活時間平均增加 2 年,P 值 <0.001 B 藥相較於一般治療方式存活時間平均增加 4 年,P 值 =0.051 若您是醫師會選擇 A 藥或 B 藥?
Part 2 差異比較 (1/3) 統計學家發明了許多統計檢定方法 單一樣本檢定平均數 Z test(σ 已知 ), T test(σ 未知 ) 兩組樣本檢定平均數 Independent T Test Paired T Test 中位數 Kruskal-Wallis Test( 非常態 ) Mean 有差異 A B Variation 有差異 A B
Part 2 差異比較 (2/3) 兩組或多組樣本檢定平均數 For 2 Groups F=t 2 方法一 利用 T Test 進行兩兩比較 過度檢定 (overtesting) 需要選擇合適的顯著水準, 讓 Overall Type I error 控制 方法二 變異數分析 (ANOVA, F-test) 檢定所有組別平均數是否有顯著差異的整體量測方式 前提假設 1. 所有觀測值是獨立的 每個觀測值彼此不相關 2. 每一組內觀測值呈常態分布 3. 變異同質性 每一組內變異數與他組相同 ANOVA 只要樣本數夠大 每組樣本數相近效果就不錯!!
Part 2 < 範例 >T Test 的誤用 常見誤用情況 : 對於三組以上的資料, 每次取兩組比較, 針對所有組合比較 Example: 比較 A 藥 B 藥控制下病人的血糖值 (A 藥組 B 藥組 對照組 ) A 藥組 vs B 藥組 α=0.05 A 藥組 vs 對照組 α=0.05 B 藥組 vs 對照組 α=0.05 Overall Type I error=3*0.05=15%( 結論有 15% 的機率會是錯誤的!!) 34%
Part 2 差異比較 (3) 多組樣本檢定平均數, 若 ANOVA 發現有差異 (i.e. 至少有一組平均數之間有差異存在 ), 如何發現差異在哪? 事後分析 (Post-hoc Test)/ 多重比較 Bonferroni Test 組數多過於保守 Holm t Test 較 Bonferroni 不保守, 有較大檢定力 Tukey test 低估偵測顯著差異 Student-Newman-Keuls Test(SNK Test) 過度偵測顯著差異 Scheffe Test Fisher s LSD Test 太過自由 Duncan s Multiple Range Test 目前各類統計方法各有優 / 缺點及適用時機!!
Part 2 信賴區間 (Confidence Interval) 信賴區間可以幫助我們估計未知參數的值並告訴我們估計的不確定程度有多大!! 母體 樣本 N(μ, σ 2 ) X 2, ~ N n μ 落在此區間的機率為 95%
Part 2 怎麼比, 才有效? 專家說 : 成長期的兒童若營養攝取不足, 會影響他的成年身高 Why? How? 方案一 觀察瓜地馬拉鄉下兒童吃到的食物約美國兒童的一半, 這些兒童長到七歲時, 平均身高比美國同齡兒童矮約 15 cm/ 體重輕約 5 kg, 之後差距還會拉大 (1960) 衛生條件 醫療設備 疾病盛行 種族差異 父母經濟能力等因素未考量!! 方案二 INCAP(WHO 底下的研究單位 ) 選了瓜國四個村莊分成兩組分別施予蛋白質及高熱量的 A 飲料及不含蛋白質及低熱量的 B 飲料, 並登記兒童飲用量 (1969) 結論 : 瓜國鄉下兒童與美國兒童的成長差異, 主要是由蛋白質的攝取量造成 Finding 平均來看, 多攝取 1 磅可以多成長 0.1 cm, 美國與瓜國兒童成長到七歲蛋白質攝取量差距約 150 磅可以解釋方案一之發現
Part 3 使用時機 兩個變數之關係 當兩個變項之間存有某種連動的變化趨勢, 則稱他們之間是相關的 研究常需同時審視兩個變項的資料 (ex: 身高 體重 ) 兩個變項之間是否有關連 (relationship) 關連的強弱 統計圖形 散佈圖 (Scatter Plot) 統計量 相關係數 (Correlation Coefficient) 瞭解兩個變項之間的線性關係
Part 3 完全正相關 相關性的強弱 完全負相關 正相關 負相關 可用相關係數 (r) 的大小進行判斷越接近 +1 or -1 代表線性相關程度越強!! 沒有直線關係 沒有直線關係但有非線性相關
Part 3 各種相關係數 皮爾森相關係數 (Pearson correlation coefficient) 主要是測量兩連續變數間關係的強弱 需符合常態假設 斯皮爾曼等級相關係數 (Spearman rank C.C.) 主要是測量兩等級變項間關係的強弱 不需常態假設
Part 3 相關係數範例 Example: 分析孩童注射疫苗比率的高低與死亡率是否相關? 方法一 皮爾森相關係數 r = -0.79 t = -5.47 p-value<0.001 方法二 斯皮爾曼等級相關係數 r = -0.54 t = -2.72 p-value=0.014 顯著負相關
Part 3 相關係數使用注意事項 Q : 假如我們取樣 1000 筆資料, 研究兩個變數之間的相關性, 得到相關係數為 r=-0.06 (p<0.001), 該如何解釋? 兩個變數之線性關係不強!! ( r 很接近 0) 相關係數檢定主要是檢定母群體相關係數是否為 0 當樣本數大的時候, 一般均會達到統計上的顯著差異 General Rule : Portney & Watkins(2000) 0 ~ 0.25 無相關 or 輕微相關 0.25 ~ 0.5 輕度相關 (fair degree) 0.5 ~ 0.75 中度相關 (moderate to good relationship) >0.75 強相關 (good to excellent relationship)
Part 3 相關 因果 即使相關係數數值很高且達顯著統計意義, 這並不表示兩個連續變項具有因果關係 兩變項間是否為一因果關係, 應是依臨床或學理來決定
Part 3 相關 因果的例子 2007.05 奇摩新聞 -- 大樂透連六槓, 上看 3 億, 射手 O 型已婚男中獎率最高 台灣彩券針對近 197 位中獎五百萬元以上者進行分析, 發現每期都購買 且在住家附近下注, 中獎率超過三成 其中, 已婚 男性 四十歲到四十九歲 O 型 射手座等特質中頭獎機率最高, 跟北富銀時代比較, 除了星座外, 其餘特質皆相同 相關不代表因果
Part 3 相關性 (Correlation) 一致性 vs 相關性 如果資料點完全落在任何一直線上即是完美相關 (r=1)!! 一致性 (Agreement) 完美的一致性需要所有資料點全落在平等線!! 兩種量測的差異 Bland-Altman Difference Plot 若 >95% 的點落在此區間 一致 兩種量測的平均值
Part 3 一致性分析範例 -- 利用心臟超音波評估二尖瓣閉鎖不全 RF( 逆流分率 ) Objective: 分析兩種測量方法是否一致? r=0.89 代表兩種方法差不多, 但是沒有量化其一致性!! 利用 Bias(Doppler-Cath) vs 平均值, 判斷兩種測量方法沒有系統偏差且相當一致!!
Part 3 迴歸分析 (Regression) 迴歸 (regression) 以一個自變項 (independent variable) 的變化來預測或解釋另一個應變項 (dependent) 的變化 < 例如 > 1. 以身高來預測體重 2. 以指考成績來預測大一第一學期的成績 3. 以年齡來預測血中膽固醇濃度 4. 預測食鹽攝取量對血壓值的影響 5. 以氣溫來預測飲料的銷售量
Part 3 有相關並非證明有因果關係
Part 3 相關係數與迴歸分析
Part 3 相關係數與迴歸分析的限制 無法有效測量一個非線性關係的強度 當樣本數 n 很小時 (n<50), 需對相關係數的信賴度有所保留 Outlier 的影響很大 Causation versus association Outlier
Part 3 當用相關或迴歸聯繫兩個變數時 必須檢視樣本資料作成的圖, 以瞭解資料是否符合統計方法之假設 兩變項間是否為一因果關係, 應是依臨床實驗或學理來決定
Part 3 統計與因果 < 重要觀念 > 1. 即使兩個變數間有很強的關聯, 也不代表改變其中一個變數的值會導致另一個變數的改變 2. 兩個變數之間的關聯, 常常受其他潛在背景中的潛在變數 (Z) 影響 3. 建立因果關係最好的證據, 來自隨機化比較實驗 (RCT) X Y X Y X? Y Z Z? 因果關係 共同反應 Example: 看電視會延年益壽?( 胡說相關 ) X: 平均每人電視機數 Y: 國民平均餘命 Z: 國家財富 交絡 Example: 胖媽媽和胖女兒 X: 媽媽 BMI Y: 女兒 BMI Z: 其他因素 ( 生活習慣 )
Part 3 因果證據 Q: 當我們不能做實驗時, 能確立因果關係的標準在哪? 相關很強 ex: 吸菸和肺癌之間的相關性很強 相關有一致性 ex: 不同國家對不同人所做的研究都一致 較高劑量和較強反應有關 ex: 吸菸較多或菸齡較長更常得病 被懷疑的原因在時間上早於結果 ( 時序性 ) 肺癌是在吸菸多年後才顯現的 吸菸人口越普遍後, 死於肺癌的人數才上升 被懷疑的原因是可信的 ( 生物贊同性 ) ex: 動物實驗結果顯示, 吸菸產生的焦油的確會致癌 出處 Hill AB. The Environment and Disease: Association or Causation? Proceedings of the Royal Society of Medicine. 1965;58:295-300. 此篇文章 2010 被 YJBM 選為 Five Classic Articles in Public Health!! 因果證據強度還是比不上用設計完美的實驗所得到的證據
Part 4 質性資料的分析 質性資料特質 不能作個人量化量測, 它是關於有沒有存在某種特質的資料, 例如 : 有無抽菸 / 喝酒 / 嚼檳榔 依照感興趣的特質將資料分組, 例如 : 高血壓 老年人 觀測到的是次數 用來將資料分組的表格稱為列聯表 (Contingency Table) 關心什麼? 兩個變數有沒有相關? 獨立性 危險因子有疾病沒有疾病總計 有暴露 a b a+b 沒有暴露 c d c+d 不同族群中某項特質的分佈是否相似? 同質性 實驗組 vs 對照組治療成功的比例有差? 比例差異顯著性
分析方法 樣本為獨立樣本 卡方檢定 1 < 注意事項 > 2X2 列聯表, 所有格子的期望值都要大於 5 更大的列聯表, 各格的期望值不要小於 1, 且期望值小於 5 的格數不要超過 20% 如果發生上述情況, 應採用 Fisher Exact Test 樣本為配對或非獨立 McNemar s Test 2 Part 4 適用時機 :Matched Before-and-after design [ 註 ] O: 觀測值 E: 期望值 ( 在 H0 成立計算的結果 ) 發生車禍前後是否習慣性繫安全帶?
Part 4 辛普森詭論 (Simpson s Paradox) 內容 : 在某個條件下的兩組數據, 分別討論時都會滿足某種性質, 可是一旦合併考慮, 卻可能導致相反的結論 Example: 入學審核有性別歧視? (E. H. Simpson, 1951) 電機工程 男 女 通過 30 10 拒絕 30 10 總和 60 20 + 英文 男 女 通過 5 10 拒絕 15 30 總和 20 40 男女申請通過比例皆 50% 男女申請通過比例皆 33% 合併 男女總和 通過 35 20 55 拒絕 45 40 85 總和 80 60 140 男 > 女男申請通過比例 =44% 女申請通過比例 =33% 當潛在變數存在時, 觀察到的關聯有可能是誤導的, 辛普森詭論只是這項事實的一種極端形式!!
PART III. 研究結果要如何解讀?
研究結果要如何解讀? 媒體經常披露各式各樣的研究結果, 通常還加上引人注目的標題, 例如 : 咖啡喝多了對心臟不好酒喝多想護肝來杯茶 咖啡日本研究指出唱歌可以抗癌低脂飲食無助防癌救心?
< 範例 > 咖啡喝多了對心臟不好? IF=6.6 臨床營養期刊說 : 一個人若每天喝超過一杯以上的咖啡, 則當事人得到心臟病的機會會比別人高上許多!! ( 希臘某大學營養學者研究結果 )
< 範例 > 咖啡喝多了對心臟不好? 約 3000 人 身體健康成人 ( 無心血管疾病 ) < 問卷 > 每天喝多少咖啡? 抽血 正相關 咖啡喝得越多, 血液中的發炎因子含量越高!! + 目前的研究已知 : 當發炎因子多時, 代表體內的血液循環系統有問題 推論 咖啡喝得越多, 對心臟越不好 因果
< 範例 > 咖啡喝多了對心臟不好? 要點一 : 看研究不能只看標題, 必須讀內文, 瞭解研究怎麼做的!! 要點二 : 兩件事情有正向關聯, 不代表兩者有因果關係!!
< 範例 > 低脂飲食無助防癌救心? 2006.2.9 綜合外電報導 ( 經過剪輯內容較粗略 )
< 範例 > 低脂飲食無助防癌救心? 此研究為美國國家衛生研究院 婦女健康促進計畫 的一部分 JAMA :February 8, 2006, Vol 295, No. 6 IF=30!! N 很大近五萬人, 長達八年追蹤蒐集的資料!!
< 範例 > 低脂飲食無助防癌救心? 目標 : 改變飲食習慣 ( 總熱量中只有 20% 來自脂肪 ) 增加蔬菜水果和穀類攝取量 實驗組 19541 人 18+4*7=46 次 + 道德勸說 + < 問卷 > 每天吃了什麼食物? Self-report 對照組 29294 人 營養和健康 : 美國人之飲食指南 + + 每天吃了什麼食物 < 問卷 >?
< 範例 > 低脂飲食無助防癌救心? 要點三 : 當一項研究所需數據, 必須依賴參與研究者自己提供時, 其正確性值得審慎考量!!
Review Part I. 統計學簡介 統計是什麼? 統計跟醫學研究的關係? 資料蒐集 ( 母體 vs 樣本 ) Part II. 醫學研究常用統計方法 敘述統計 推論統計 差異比較 相關 迴歸分析 質性資料分析 Part III. 研究結果要如何解讀?
Reference 統計與生活 ( 國立台灣大學出版中心, 2010) 你不能不懂的統計常識 ( 天下文化, 2007) 簡明生物統計學 (2 nd ed.) Basic Statistics for the Health Sciences(5 th ed.) Reading Statistics and Research(5 th ed.) Understanding Statistics for Research Staff, Rachel Enriquez Statistical guidelines for contributors to medical journals Statistical errors in medical research a review of common pitfalls(2007) Applying the Right Statistics: Analyses of Measurement Studies(2003) Misusage of statistics in medical research(2007)
靜思語 : 知識要用心體會, 才能變成自己的智慧 感謝聆聽 Q & A