投影片 1 - PDF 免费下载

醫學研究中常見的統計應用及誤用慈濟醫學中心 / 研究部王仁宏 /Paul Wang paulwang@tzuchi.com.tw 分機 17651

課程目標溫故回顧醫學研究常見的統計觀念統計是什麼? 統計如何應用到醫學研究? 常見的統計方法及概念解讀 & 評論判斷醫學研究結果的合理性避免統計方法誤用避免統計分析結果解讀錯誤

Outline Part I. 統計學簡介統計是什麼? 統計跟醫學研究的關係? 資料蒐集 ( 母體 vs 樣本 ) Part II. 醫學研究常用統計方法敘述統計推論統計差異比較相關迴歸分析質性資料分析 Part III. 研究結果要如何解讀?

PART I. 統計簡介

資料統計是什麼? 資訊知識統計是從數據中找出訊息並且做成結論!! 統計是幫助我們透過客觀的資料分析來瞭解變異來源的一門科學!! 產生數據整合數據 + + 解釋推論

為什麼要學習統計? -- 用科學的方法來促進專業的進步當新治療方法藥物設計或介入發展出來時, 關鍵問題是它有用嗎? 文獻回顧資料收集統計分析專業解釋結果 Make Decision

統計與醫學研究的關係流行病學描述流行病學假說的研擬與篩選分析流行病學假說的辨明與修訂實驗性流行病學假說的實證與確立仔細審視思考醫學問題正確的研究設計確保資料收集品質實證醫學好的研究設計 + 統計分析正確且有意義的臨床發現生物統計學應用領域 : 醫學或公共衛生等敘述性統計研究對象特性描述推論統計從樣本所獲得資訊說明母體科學化整理分析呈現證據合理的歸納與推論實證醫學發現

產生數據母體與樣本壞樣本的毛病 1. 對調查母體沒有定義清楚 2. 母體裡面的個體有些永遠不可能被抽中

產生數據壞樣本的例子 1. 便利抽樣碰到誰就問誰的抽樣非機率抽樣!! Ex: 在新光三越的前廣場進行訪問壞處 : 母體對象沒有定義, 而且有些個體不會被抽中 2. 自願樣本自動送上門來的樣本 Ex: 電話叩應 Yahoo 奇摩新聞意見調查壞處 : 一個人可以重覆許多次, 導致有灌水的問題 3. 立意抽樣依照本身的主觀判斷去挑樣本 Ex: 訪問對核能發電具有專業知識的人士 4. 配額選樣壞處 : 專業人士的意見是否足以代表一般人的意見? 把調查對象依照特徵分類後, 依各類比例立意找人到額滿為止壞處 : 容易受到訪員主觀選擇受訪者的影響, 對於推論的正確性傷害相當大

產生數據觀察性 vs 實驗性資料資料性質特徵可推論的方法 Example 觀察性順其自然相關分析 (Correlation) 實驗性操之在我因果分析 (Causal) 醫院欲紀錄患有高血壓症狀之住院病患之狀況, 每天請護士測量並照實紀錄 Ex: 病歷回顧醫院欲測量降血壓的新藥之療效, 得到病患同意後, 每日給予病患治療, 並記錄病患血壓 Ex: 臨床試驗

整合數據 & 解釋推論醫學研究常用統計方法針對醫學護理類搜尋 20~30 篇論文, 將其統計方法整理如下 : 80/20 法則學會描述統計 ANOVA t 檢定 / 卡方檢定皮爾森相關迴歸分析就具備九成功力!!

PART II. 醫學研究常用統計方法敘述統計推論統計差異比較相關迴歸分析質性資料分析

Part 1 描述統計統計量集中區勢離散趨勢 Mean Median Mode Max/Min Quartile(Q1,Q3) Range Standard Deviation -- 統計量 & 統計圖目的 : 讓分析者可以在短時間內瞭解資料的分佈狀況與訊息 Histogram Pie Chart Boxplot

Part 1 極端值的影響?? 這個籃球隊教練在考 : 究竟應該公布隊平均身高 180cm 嚇對手, 還是隊員身高中位數 173cm 讓對手失去戒心? < 注意 > 平均數易受極端值的影響, 尤其在數字個數少的時候影響更大!!

Part 1 < 範例 > 存活率的迷思健保局 2007 年 5 月公布各醫院器官移植存活率, 以心臟移植五年存活率來看 : 三總 85% 振興 73% 林口長庚 70% 台大 65% 北榮 55% 看來三總是首選? 若加上案例數, 三總 15/85% 振興 148/73% 林口長庚 11/70% 台大 195/65% 北榮 59/55% 選擇是否改觀? 振興優於台大? 病患的病況及背景是否大致接近無法得知讀到一項統計數據時, 應注意上下文, 弄清楚該統計量真正的意義才能夠避免被誤導!!

Part 2 母體與樣本母體 Population X 1, X 2,,X N Sampling Experiment 樣本 Sample x 1,,x n H 0 vs H 1 Parameter 參數推論 Inference 描述 Descriptive Statistics 統計量

Part 2 假設檢定 (Hypothesis Testing) 假設 (Hypothesis) H 0 (Null) vs H 1 (Alternative) 統計假設的架構, 與刑事訴訟法中的無罪推定原則 ( 被告未經審判證明有罪確定前, 推定其為無罪 ) 類似!! 對立假設是研究者期望發現的虛無假設是被保護的, 除非證據夠強, 否則不輕易推翻現況檢定檢定統計量臨界值 P-value 結論接受 (Accept) or 拒絕 (Reject) Example(2010 世足賽的章魚哥 ) 章魚不可能預測比賽結果 ( 瞎矇 ) H0: 章魚哥猜對機率 =1/2 H1: 章魚哥猜對機率 >1/2

Part 2 假設檢定的流程 Step 1. 決定虛無假說與對立假說 Step 2. 決定顯著水準 (α) Type I error 發生機率 ex:0.05, 0.01 Step 3. 選擇檢定統計量 Step 4. 收集資料, 計算檢定統計量及 P 值 Step 5. 進行決策判定 <Remark> 實際上顯著與不顯著間並沒有一個真正的標準 P 值越小, 表示我們得到越強的證據能力

Part 2 統計推論所產生的風險利用樣本證據來對假說進行決策時, 難免會因為樣本的偏差而發生判斷錯誤的情況!! 決策無法推翻 H 0 犯人無罪推翻 H 0 犯人有罪 H 0 : 無罪決策正確 Type I error ( 錯殺忠良 ) 事實 ( 永遠不知 ) H 1 : 有罪 Type II error ( 縱虎歸山 ) 決策正確 Type I error 亦稱做消費者風險 (ex: 沒有效的藥被批准上市 ) Type II error 亦稱做生產者風險 (ex: 有效的藥無法上市 ) [ 註 ] 應注意是否有 measurement error, bias, confounding 等情況發生!!

Part 2 P-value 的迷思 : 顯著與非常顯著問題 : 在很多統計方法裡都會看到 p 值, 通常在許多期刊表格的下方都會看到 *p<0.05, **p<0.01, ***p<0.001, 所以就說 * 是顯著,** 是很顯著,*** 是非常顯著, 所以說 p<.001 的效果比 p<.05 的好, 這樣說對嗎? P-value 若夠小 ( 一般 <0.05) 則拒絕 H 0 的證據夠強!! 在 H 0 為真的假設下, 得到樣本結果會像實際觀察到那麼極端或更極端的機率!! P 值代表在實驗的條件下, 推翻虛無假設的證據強度 P 值是深受樣本數 (sample size) 的影響 P 值無法完整呈現治療效果, 建議以效果值 (effect size) 和 95% 信賴區間來取代!!

Part 2 假設檢定 (Hypothesis Testing) P-value 與 Sample Size 的關係 : A group : mean = 0, stdev = 1 B group : mean = 0.4, stdev = 1 A 0.4 B Sample size = 5, P-value = 0.599 Sample size = 10, P-value = 0.230 A B 兩個母體平均差異固定, 但隨著樣本數增加, 檢定 p-value 越來越顯著!! Sample size = 50, P-value =0.044 Sample size = 200, P-value < 0.001

Part 2 統計學意義 (statistical significance) 與臨床意義 (clinical significance) 的差別 A 藥一般治療 B 藥 A 藥相較於一般治療方式存活時間平均增加 2 年,P 值 <0.001 B 藥相較於一般治療方式存活時間平均增加 4 年,P 值 =0.051 若您是醫師會選擇 A 藥或 B 藥?

Part 2 差異比較 (1/3) 統計學家發明了許多統計檢定方法單一樣本檢定平均數 Z test(σ 已知 ), T test(σ 未知 ) 兩組樣本檢定平均數 Independent T Test Paired T Test 中位數 Kruskal-Wallis Test( 非常態 ) Mean 有差異 A B Variation 有差異 A B

Part 2 差異比較 (2/3) 兩組或多組樣本檢定平均數 For 2 Groups F=t 2 方法一利用 T Test 進行兩兩比較過度檢定 (overtesting) 需要選擇合適的顯著水準, 讓 Overall Type I error 控制方法二變異數分析 (ANOVA, F-test) 檢定所有組別平均數是否有顯著差異的整體量測方式前提假設 1. 所有觀測值是獨立的每個觀測值彼此不相關 2. 每一組內觀測值呈常態分布 3. 變異同質性每一組內變異數與他組相同 ANOVA 只要樣本數夠大每組樣本數相近效果就不錯!!

Part 2 < 範例 >T Test 的誤用常見誤用情況 : 對於三組以上的資料, 每次取兩組比較, 針對所有組合比較 Example: 比較 A 藥 B 藥控制下病人的血糖值 (A 藥組 B 藥組對照組 ) A 藥組 vs B 藥組 α=0.05 A 藥組 vs 對照組 α=0.05 B 藥組 vs 對照組 α=0.05 Overall Type I error=3*0.05=15%( 結論有 15% 的機率會是錯誤的!!) 34%

Part 2 差異比較 (3) 多組樣本檢定平均數, 若 ANOVA 發現有差異 (i.e. 至少有一組平均數之間有差異存在 ), 如何發現差異在哪? 事後分析 (Post-hoc Test)/ 多重比較 Bonferroni Test 組數多過於保守 Holm t Test 較 Bonferroni 不保守, 有較大檢定力 Tukey test 低估偵測顯著差異 Student-Newman-Keuls Test(SNK Test) 過度偵測顯著差異 Scheffe Test Fisher s LSD Test 太過自由 Duncan s Multiple Range Test 目前各類統計方法各有優 / 缺點及適用時機!!

Part 2 信賴區間 (Confidence Interval) 信賴區間可以幫助我們估計未知參數的值並告訴我們估計的不確定程度有多大!! 母體樣本 N(μ, σ 2 ) X 2, ~ N n μ 落在此區間的機率為 95%

Part 2 怎麼比, 才有效? 專家說 : 成長期的兒童若營養攝取不足, 會影響他的成年身高 Why? How? 方案一觀察瓜地馬拉鄉下兒童吃到的食物約美國兒童的一半, 這些兒童長到七歲時, 平均身高比美國同齡兒童矮約 15 cm/ 體重輕約 5 kg, 之後差距還會拉大 (1960) 衛生條件醫療設備疾病盛行種族差異父母經濟能力等因素未考量!! 方案二 INCAP(WHO 底下的研究單位 ) 選了瓜國四個村莊分成兩組分別施予蛋白質及高熱量的 A 飲料及不含蛋白質及低熱量的 B 飲料, 並登記兒童飲用量 (1969) 結論 : 瓜國鄉下兒童與美國兒童的成長差異, 主要是由蛋白質的攝取量造成 Finding 平均來看, 多攝取 1 磅可以多成長 0.1 cm, 美國與瓜國兒童成長到七歲蛋白質攝取量差距約 150 磅可以解釋方案一之發現

Part 3 使用時機兩個變數之關係當兩個變項之間存有某種連動的變化趨勢, 則稱他們之間是相關的研究常需同時審視兩個變項的資料 (ex: 身高體重 ) 兩個變項之間是否有關連 (relationship) 關連的強弱統計圖形散佈圖 (Scatter Plot) 統計量相關係數 (Correlation Coefficient) 瞭解兩個變項之間的線性關係

Part 3 完全正相關相關性的強弱完全負相關正相關負相關可用相關係數 (r) 的大小進行判斷越接近 +1 or -1 代表線性相關程度越強!! 沒有直線關係沒有直線關係但有非線性相關

Part 3 各種相關係數皮爾森相關係數 (Pearson correlation coefficient) 主要是測量兩連續變數間關係的強弱需符合常態假設斯皮爾曼等級相關係數 (Spearman rank C.C.) 主要是測量兩等級變項間關係的強弱不需常態假設

Part 3 相關係數範例 Example: 分析孩童注射疫苗比率的高低與死亡率是否相關? 方法一皮爾森相關係數 r = -0.79 t = -5.47 p-value<0.001 方法二斯皮爾曼等級相關係數 r = -0.54 t = -2.72 p-value=0.014 顯著負相關

Part 3 相關係數使用注意事項 Q : 假如我們取樣 1000 筆資料, 研究兩個變數之間的相關性, 得到相關係數為 r=-0.06 (p<0.001), 該如何解釋? 兩個變數之線性關係不強!! ( r 很接近 0) 相關係數檢定主要是檢定母群體相關係數是否為 0 當樣本數大的時候, 一般均會達到統計上的顯著差異 General Rule : Portney & Watkins(2000) 0 ~ 0.25 無相關 or 輕微相關 0.25 ~ 0.5 輕度相關 (fair degree) 0.5 ~ 0.75 中度相關 (moderate to good relationship) >0.75 強相關 (good to excellent relationship)

Part 3 相關因果即使相關係數數值很高且達顯著統計意義, 這並不表示兩個連續變項具有因果關係兩變項間是否為一因果關係, 應是依臨床或學理來決定

Part 3 相關因果的例子 2007.05 奇摩新聞 -- 大樂透連六槓, 上看 3 億, 射手 O 型已婚男中獎率最高台灣彩券針對近 197 位中獎五百萬元以上者進行分析, 發現每期都購買且在住家附近下注, 中獎率超過三成其中, 已婚男性四十歲到四十九歲 O 型射手座等特質中頭獎機率最高, 跟北富銀時代比較, 除了星座外, 其餘特質皆相同相關不代表因果

Part 3 相關性 (Correlation) 一致性 vs 相關性如果資料點完全落在任何一直線上即是完美相關 (r=1)!! 一致性 (Agreement) 完美的一致性需要所有資料點全落在平等線!! 兩種量測的差異 Bland-Altman Difference Plot 若 >95% 的點落在此區間一致兩種量測的平均值

Part 3 一致性分析範例 -- 利用心臟超音波評估二尖瓣閉鎖不全 RF( 逆流分率 ) Objective: 分析兩種測量方法是否一致? r=0.89 代表兩種方法差不多, 但是沒有量化其一致性!! 利用 Bias(Doppler-Cath) vs 平均值, 判斷兩種測量方法沒有系統偏差且相當一致!!

Part 3 迴歸分析 (Regression) 迴歸 (regression) 以一個自變項 (independent variable) 的變化來預測或解釋另一個應變項 (dependent) 的變化 < 例如 > 1. 以身高來預測體重 2. 以指考成績來預測大一第一學期的成績 3. 以年齡來預測血中膽固醇濃度 4. 預測食鹽攝取量對血壓值的影響 5. 以氣溫來預測飲料的銷售量

Part 3 有相關並非證明有因果關係

Part 3 相關係數與迴歸分析

Part 3 相關係數與迴歸分析的限制無法有效測量一個非線性關係的強度當樣本數 n 很小時 (n<50), 需對相關係數的信賴度有所保留 Outlier 的影響很大 Causation versus association Outlier

Part 3 當用相關或迴歸聯繫兩個變數時必須檢視樣本資料作成的圖, 以瞭解資料是否符合統計方法之假設兩變項間是否為一因果關係, 應是依臨床實驗或學理來決定

Part 3 統計與因果 < 重要觀念 > 1. 即使兩個變數間有很強的關聯, 也不代表改變其中一個變數的值會導致另一個變數的改變 2. 兩個變數之間的關聯, 常常受其他潛在背景中的潛在變數 (Z) 影響 3. 建立因果關係最好的證據, 來自隨機化比較實驗 (RCT) X Y X Y X? Y Z Z? 因果關係共同反應 Example: 看電視會延年益壽?( 胡說相關 ) X: 平均每人電視機數 Y: 國民平均餘命 Z: 國家財富交絡 Example: 胖媽媽和胖女兒 X: 媽媽 BMI Y: 女兒 BMI Z: 其他因素 ( 生活習慣 )

Part 3 因果證據 Q: 當我們不能做實驗時, 能確立因果關係的標準在哪? 相關很強 ex: 吸菸和肺癌之間的相關性很強相關有一致性 ex: 不同國家對不同人所做的研究都一致較高劑量和較強反應有關 ex: 吸菸較多或菸齡較長更常得病被懷疑的原因在時間上早於結果 ( 時序性 ) 肺癌是在吸菸多年後才顯現的吸菸人口越普遍後, 死於肺癌的人數才上升被懷疑的原因是可信的 ( 生物贊同性 ) ex: 動物實驗結果顯示, 吸菸產生的焦油的確會致癌出處 Hill AB. The Environment and Disease: Association or Causation? Proceedings of the Royal Society of Medicine. 1965;58:295-300. 此篇文章 2010 被 YJBM 選為 Five Classic Articles in Public Health!! 因果證據強度還是比不上用設計完美的實驗所得到的證據

Part 4 質性資料的分析質性資料特質不能作個人量化量測, 它是關於有沒有存在某種特質的資料, 例如 : 有無抽菸 / 喝酒 / 嚼檳榔依照感興趣的特質將資料分組, 例如 : 高血壓老年人觀測到的是次數用來將資料分組的表格稱為列聯表 (Contingency Table) 關心什麼? 兩個變數有沒有相關? 獨立性危險因子有疾病沒有疾病總計有暴露 a b a+b 沒有暴露 c d c+d 不同族群中某項特質的分佈是否相似? 同質性實驗組 vs 對照組治療成功的比例有差? 比例差異顯著性

分析方法樣本為獨立樣本卡方檢定 1 < 注意事項 > 2X2 列聯表, 所有格子的期望值都要大於 5 更大的列聯表, 各格的期望值不要小於 1, 且期望值小於 5 的格數不要超過 20% 如果發生上述情況, 應採用 Fisher Exact Test 樣本為配對或非獨立 McNemar s Test 2 Part 4 適用時機 :Matched Before-and-after design [ 註 ] O: 觀測值 E: 期望值 ( 在 H0 成立計算的結果 ) 發生車禍前後是否習慣性繫安全帶?

Part 4 辛普森詭論 (Simpson s Paradox) 內容 : 在某個條件下的兩組數據, 分別討論時都會滿足某種性質, 可是一旦合併考慮, 卻可能導致相反的結論 Example: 入學審核有性別歧視? (E. H. Simpson, 1951) 電機工程男女通過 30 10 拒絕 30 10 總和 60 20 + 英文男女通過 5 10 拒絕 15 30 總和 20 40 男女申請通過比例皆 50% 男女申請通過比例皆 33% 合併男女總和通過 35 20 55 拒絕 45 40 85 總和 80 60 140 男 > 女男申請通過比例 =44% 女申請通過比例 =33% 當潛在變數存在時, 觀察到的關聯有可能是誤導的, 辛普森詭論只是這項事實的一種極端形式!!

PART III. 研究結果要如何解讀?

研究結果要如何解讀? 媒體經常披露各式各樣的研究結果, 通常還加上引人注目的標題, 例如 : 咖啡喝多了對心臟不好酒喝多想護肝來杯茶咖啡日本研究指出唱歌可以抗癌低脂飲食無助防癌救心?

< 範例 > 咖啡喝多了對心臟不好? IF=6.6 臨床營養期刊說 : 一個人若每天喝超過一杯以上的咖啡, 則當事人得到心臟病的機會會比別人高上許多!! ( 希臘某大學營養學者研究結果 )

< 範例 > 咖啡喝多了對心臟不好? 約 3000 人身體健康成人 ( 無心血管疾病 ) < 問卷 > 每天喝多少咖啡? 抽血正相關咖啡喝得越多, 血液中的發炎因子含量越高!! + 目前的研究已知 : 當發炎因子多時, 代表體內的血液循環系統有問題推論咖啡喝得越多, 對心臟越不好因果

< 範例 > 咖啡喝多了對心臟不好? 要點一 : 看研究不能只看標題, 必須讀內文, 瞭解研究怎麼做的!! 要點二 : 兩件事情有正向關聯, 不代表兩者有因果關係!!

< 範例 > 低脂飲食無助防癌救心? 2006.2.9 綜合外電報導 ( 經過剪輯內容較粗略 )

< 範例 > 低脂飲食無助防癌救心? 此研究為美國國家衛生研究院婦女健康促進計畫的一部分 JAMA :February 8, 2006, Vol 295, No. 6 IF=30!! N 很大近五萬人, 長達八年追蹤蒐集的資料!!

< 範例 > 低脂飲食無助防癌救心? 目標 : 改變飲食習慣 ( 總熱量中只有 20% 來自脂肪 ) 增加蔬菜水果和穀類攝取量實驗組 19541 人 18+4*7=46 次 + 道德勸說 + < 問卷 > 每天吃了什麼食物? Self-report 對照組 29294 人營養和健康 : 美國人之飲食指南 + + 每天吃了什麼食物 < 問卷 >?

< 範例 > 低脂飲食無助防癌救心? 要點三 : 當一項研究所需數據, 必須依賴參與研究者自己提供時, 其正確性值得審慎考量!!

Review Part I. 統計學簡介統計是什麼? 統計跟醫學研究的關係? 資料蒐集 ( 母體 vs 樣本 ) Part II. 醫學研究常用統計方法敘述統計推論統計差異比較相關迴歸分析質性資料分析 Part III. 研究結果要如何解讀?

Reference 統計與生活 ( 國立台灣大學出版中心, 2010) 你不能不懂的統計常識 ( 天下文化, 2007) 簡明生物統計學 (2 nd ed.) Basic Statistics for the Health Sciences(5 th ed.) Reading Statistics and Research(5 th ed.) Understanding Statistics for Research Staff, Rachel Enriquez Statistical guidelines for contributors to medical journals Statistical errors in medical research a review of common pitfalls(2007) Applying the Right Statistics: Analyses of Measurement Studies(2003) Misusage of statistics in medical research(2007)

靜思語 : 知識要用心體會, 才能變成自己的智慧感謝聆聽 Q & A