醫療爭議審議報導雙月刊系列33

Similar documents
Microsoft Word - 94_2_stat_handout08_線性迴歸(考古題).doc

0 0 = 1 0 = 0 1 = = 1 1 = 0 0 = 1

When the rejection rule for a test at every level α can be re-written as then xxx is the p-value of the test. xxx < α, If p-value < α, then the test c

CU0594.pdf


Chapter 3 Camera Raw Step negative clarity +25 ] P / Step 4 0 ( 下一頁 ) Camera Raw Chapter 3 089

Microsoft Word - CS-981.doc

Microsoft Word - 結案報告.doc

人為疏失 人與人之間的溝通合作, 往往是事故的最終防線, 若能發揮團隊合作的功能, 則比較能克服其他因素所造成的危害

1.1 1 () 擴展學習領域 () () 力求卓越創新 發皇通識教育 厚植職場發展的競爭能力 拓展國際交流 e 把握資訊網路的科技應用 () 精緻教育的學校特色 提升行政效率 發揮有效人力的整體力量 達成精緻大學的師資結構 勵應用科技的研發能力 在策略執行上

DIY香草植物乾燥

戒菸實務個案自助手冊105年Ver.2

中華民國第 四 十 七 屆中小學科學展覽會

Microsoft Word - 94_4_stat_handout_06假設檢定_考古題.doc

生與死的尊嚴 生與死的尊嚴


1970 新技術的應用 X = 20 + B 13B δ13c X 1 X


男人的大腦 女人的大腦


現在人類獲取地球內部訊息的方法, 是從可能影響我們身家性命安全的地震, 用數學模型把地震資料轉換成地震波速度, 進而獲得地底物質密度與深度的關係 地下世界知多少 km/s g/cm 3 P Gpa km S P S 3,000 3,000 ak K 透視地底 Percy Bridgma

威 福 髮 藝 店 桃 園 市 蘆 竹 區 中 山 里 福 祿 一 街 48 號 地 下 一 樓 50,000 獨 資 李 依 純 105/04/06 府 經 登 字 第 號 宏 品 餐 飲 桃 園 市 桃 園 區 信 光 里 民

Microsoft Word - _m30.doc


理性真的普遍嗎 注意力的爭奪戰 科學發展 2012 年 12 月,480 期 13

CO 2 以鄰為壑的台灣建築產業

untitled

學測精彩析 第壹部分 ( 占 84 分 ) 楊慧媛老師聯合題 師大附中 姚翰玲老師聯合題 梁蕙蓉老師聯合題 說明 : 第 1 題皆計分 第 1 題皆是單選題, 請選出一個最適當的選項標示 在答案卡之 選擇題答案區 每題答對得 2 分, 答錯不倒扣 1 4 A B C D 圖一 答案

Microsoft PowerPoint - 遊戲企劃

第八章 審計抽樣 本章學習重點 stratified random sampling systematic sampling PPS PPS MUS 8-3 壹抽樣與審計抽樣 audit sampling 100%

二次曲線 人們對於曲線的使用及欣賞 比曲線被視為一種數學題材來探討要早 得多 各種曲線中 在日常生活常接觸的 當然比較容易引起人們的興趣 比如 投擲籃球的路徑是拋物線 盤子的形狀有圓形或橢圓形 雙曲線 是較不常見的 然而根據科學家的研究 彗星的運行軌道是雙曲線的一部 分 我們將拋物線 圓與橢圓 雙曲

Zytiga... Zytiga... Zytiga Zytiga Zytiga


Microsoft Word - Tridentine NL_C.docx

附件一:

¦ÛµM¬ì²Ä3¦¸²Õ¨÷-¾Ç´ú¤ºŁ¶«Êٱ.prn, page Normalize ( <4D F736F F D20A6DBB54DACECB2C433A6B8B2D5A8F72DBEC7B4FAA4BAADB6ABCAADB12E646F63> )

17-72c-1

Microsoft Word - ACL chapter02-5ed.docx

老人憂鬱症的認識與老人自殺問題

Microsoft Word - ok翁志文、張佳音...doc

Microsoft Word - 文件1


治療血管的雷射 port wine stain 1988 FDA KTP KTP

根據 一手住宅物業銷售條例 第 60 條所備存的成交記錄冊 Register of Transactions kept for the purpose of section 60 of the Residential Properties (First-hand Sales) Ordinance 第

一、

66 67 圓夢素人頭家 67 9 專長互補 資源共享, 為彼此加油打氣!

電子化助理規劃師鑑定及發證辦法

1

愛滋實務與治理的政治 - 綜合論壇 以及面對這一連串以 責任 為架構衍生出來的愛滋政策如何造就了台灣現在的愛滋處境

貳 肆 公司治理報告 一 組織系統 ( 一 ) 組織結構 ( 二 ) 組織系統圖 14 中華民國 98 年中華郵政年報

untitled

攜手拼出圓滿的幸福 2

Erwin Schrodinger

實驗 使用 IPv4 和 IPv6 計算摘要路由 拓樸 位址分配表 子網 IPv4 位址 IPv6 位址 HQ 的 LAN / :DB8:ACAD:E::/64 HQ 的 LAN / :DB8:ACAD:F::/64 EAS

24% 9% 9% % (20%) (13%) (10%) (5%) (5%) 32% ( ) 7% % 2.7% % 10% 220. 衞 % 9.5% %

10-2 SCJP SCJD 10.1 昇陽認證 Java 系統開發工程師 的認證程序 Java IT SCJD

香港聯合交易所有限公司 ( 聯交所 )GEM 的特色 GEM 的定位, 乃為中小型公司提供一個上市的市場, 此等公司相比起其他在主板上市的公司帶有較高投資風險 有意投資的人士應了解投資於該等公司的潛在風險, 並應經過審慎周詳的考慮後方作出投資決定 由於 GEM 上市公司普遍為中小型公司, 在 GEM

PICkit2 燒寫器編程器調試器

佛化家庭手冊 佛化家庭 一 淨化人間, 必定要淨化社會 二 淨化人間的著力點, 是從淨化家庭開始

01 用 ActionScript 3.0 開始認識 Flash CS3 Flash 是應用在網路上非常流行且高互動性的多媒體技術, 由於擁有向量圖像體積小的優點, 而且 Flash Player 也很小巧精緻, 很快的有趣的 Flash 動畫透過設計師的創意紅遍了整個網際網路 雖然很多人都對 Fl

p.2 1. a. b. c. (i) (ii)

為什麼要做佛事 一 前言

1

14: 6 不做清單上的事, 並不代表我們就可以隨心所欲 ; 我們不做, 是為了更深一層的原因 同樣, 也沒有人會因不受這些清單的捆綁, 就更能活出 豐盛的生命來 14: 15 8: : 17 在所有十誡中, 第十誡往往是最先遭破壞的一條 22: 37, 39 凡是使我們不能愛神與愛

投影片 1

X 傳統育種技術 分子育種技術 基因改良育種

EA3.pdf


Microsoft Word - ACI chapter00-1ed.docx

<3131A4EB5FA4DFAFD1AD5DAE452E696E6464>

珍惜生命 聖嚴法師與吳念真 黃春明 李明濱的對話 珍惜生命 時間 : 二 六年六月十七日地點 : 台北圓山飯店對談人 : 聖嚴法師 ( 法鼓山禪修文教體系創辦人 ) 黃春明 ( 知名作家, 國家文藝獎得主 ) 吳念真 ( 知名導演 ) 李明濱 ( 行政院衛生署自殺防治中心計畫主持人兼主任 ) 主持人

untitled

¾ú¥v¬ì²Ä8¦¸-«ü¦Ò«Êٱ.prn, page Normalize ( <4D F736F F D20BEFAA576ACECB2C438A6B82DABFCA6D2ABCAADB12E646F63> )

1



Middle East Respiratory Syndrome Coronavirus, MERS-CoV WHO Qatar 2013 MERS MERS 耗費巨大的社會成本 MERS V

Microsoft Word - 複製 -目錄-全 - Done_ _.doc

Microsoft Word - 第2章 遺傳.doc

Microsoft Word - 基礎統計講義1.docx

Microsoft PowerPoint - B9-2.pptx

10 6, 地球的熱循環

第七章行政工作 7.1 預算 法律依據 預算收入 94

....V....VII.... VIII

SW cdr

第一章  緒論

pico說明書繁體new

Transcription:

爭議相關論述 實用實證醫學, 如何判讀統計檢定 p 值的迷思 Statistical Hypothesis Test Riddle of p Value 邵文逸 財團法人醫藥品查驗中心 前 言 統計檢定和 p 值 統計檢定在當前的臨床研究中被應用的非常普遍, 檢定的結果也經常被視為該研究是否有價值的一個決定性因素 多數的讀者們習慣上以檢定 p 值小於 0.05 來選擇該研究是否有參考價值,0.05 好像一個魔術數字一樣, 掌握了一個研究的生死 雖然很多臨床研究跟統計學的專家不斷的呼籲大家不要只專注在 p 值的大小, 但是因為閱讀它很單純, 因此在溝通研究結果的時候顯得非常方便 小於 0.05 顯著, 大於 0.05 不顯著 不可否認的, 在呈現研究結果時,p 值還是受到相當高程度的重視 因此如果能夠對 p 值所代表的意義有更深入的了解, 以及知道判讀 p 值的時候需要注意些什麼, 相信可以有效的提升大家掌握研究價值的能力 這裡我們盡量避免使用統計的數理原理, 對於臨床研究設計跟統計原理介紹請大家參考之前的兩篇簡介 [1,2] 首先請思考下面兩個問題, p 值越小表示該研究的結果越好嗎? 樣本數越大, 研究的 p 值一定越小嗎? 以上兩個問題的答案都需視情況而定, 兩個問題都不是單純的 對 " 或 不對 " 要了解 p 值, 首先需知道研究跟統計分析的目的不僅僅在於分析收集到的那些有限的病人資料, 而是利用手上有限的資料來了解自然界到底發生了什麼 舉例來說, 一個新的藥品 A 被發現可能對染上疾病 X 的病人有治療的效果 理想上所謂 A 對 X 病人的療效, 就是把世界上每個角落符合疾病 X 診斷的每一位病人通通找出來, 全部給予 A 治療, 看看全部的病人裡面經過治療之後有多少病人復原了 但是這樣的作法並不切實際, 實務上只能從研究收集得到的病人做起 因此一個重要的假設是, 研究收集病人的過程是客觀的, 研究所收集的病人跟那些沒有納入研究的病人, 對於治療 A 有相同的表現 基於這樣的前提, 研究所收集到的資料可以代表我們想要研究的 全部病人 " 這個全部病人統計上稱為母群體 (population), 而研究所收集到的病人就稱作樣本 (sample) 因為每位病人都有些自己獨特的條件, 例如遺傳 生活方式 之前的治療 對治療的偏好 順從性等等, 以致每位病人被治療後的表現也多少會不同 雖然目前科技還沒有辦法透過掌握每位病人的所有特質來完美的預測每位病人治療後的結果, 我們可以了解母群體中每位病人接受治療後的都會有自己的結果, 因此母群體中這個治療的 真正效果 " 是存在的 我們用下面的簡圖來表示 : 代表治療後有效的病人, 代 醫療爭議審議報導系列 33 1

爭議相關論述 表治療沒有效的病人 當前的研究就是從左邊的母群體中, 抽選出 10 位病人, 給予治療後觀察發現有 6 位病人有效 然後根據這樣的結果推論, 這個治療 A 對疾病 X 的病人, 治療效果是 60% 母群體樣本 當我們做出 60% 治療有效 " 的結論時, 其實是對母群體病人接受治療的 真正效果 " 作出推論 (infer) 雖然推論的主要依據是研究所觀察的那 10 位病人, 從上面的簡圖我們可以了解, 這樣的研究結果 (10 位接受研究的病人當中 6 位治療有效 ), 並不是唯一可能的結果 其他還可能出現右邊虛線方塊裡的各種情況 因此即使是同樣的研究題目 類似的研究設計 也在相同的研究的母群體中進行選樣研究, 結果出現稍有差異是很正常的 當接受研究的十位病人中只有一位治療有效時, 我們就會推論該治療對這樣的病人群的治療效果為 10% 上述這些研究結果的不同, 稱為抽樣誤差 (sampling error), 抽樣誤差純粹是因為抽樣的偶然性造成, 關於抽樣誤差的說明請參考 [2] 應該沒有差異的群體, 研究結果看起來卻有差別的機會就是統計檢定的 p 值 使用分析這類資料最常用的費雪確切檢定 (Fisher's exact test) 對上述這組研究資料進行統計檢定, 結果顯示 p 值為 0.029, 小於 0.05 達到統計顯著差別, 根據這個檢定結果, 判斷 A 治療跟 B 治療效果的差別達到統計顯著, 因此大多數人就會認定 A 治療比 B 治療好 " 看到這裡, 我們發現這個結論顯然違背事實 A 治療跟 B 治療在母群體裡面的 真正治療效果 " 是一樣的 正確解釋費雪確切檢定 p 值為 0.029 的意思是 : 從這樣兩個相同的群體裡, 抽選上述樣本 ( 每組各十位病人 ), 結果出現一組只有 1 人有效而另一組卻多達 6 人有效, 有效人數差別高達至少 5 人的機率 ( 加上更極端 0 比 7 結果的機率 ) 這樣的機會雖然不高, 但確實有可能發生 治療 A 研究組 A A B 有效 6 1 無效 4 9 真正效果沒有差異, 研究結果誤判顯著差別 治療 B 研究組 B 讓我們考慮下面的情況 : 治療 A 跟治療 B 的 真正治療效果 " 在母群體裡是相同的 但因為抽樣的隨機性, 研究結果出現 A 治療組 6 人有效, 而 B 治療組只有 1 人有效, 所以結果是 A 治療 60% 有效, 比上 B 治療 10% 有效 根據這樣的結果 - 60% 比 10%, 是否可以推論 A 治療優於 B 治療呢? 當效果指的是一年存活率時, 這樣的結果看起來頗具臨床意義 不過不要忘了, 這樣的結果僅僅是因為 隨機 " 的抽樣誤差偶然出現 像這樣來自原本 p 值小, 表示該樣結果出現的頻率不高 0.029 表示大約每 34 次相同的研究, 平均會出現一次這種結果 這樣的頻率是根據母群體沒有差別的前提計算出來的, 而這樣的前提就是一般所稱的 虛無假說 "(null hypothesis) 當 p 值太小的時候, 表示在這樣的前提下, 看到這種結果的可能性不高, 因此這個前提有被重新考慮的必要, 這就是通常所說的 推翻虛無假說 " 研究者宣稱該前提不是真的, 因此 研究結果達到統計顯著 " 當研究者根 2 中華民國九十七年三月

爭議相關論述 據其所研究的 p 值推翻虛無假說這個前提, 但這個前提其實是真確的, 那研究者就犯了判斷上的錯誤 從以上推論的過程我們可以知道, 犯這種錯誤的機會其實就是這個研究的 p 值 因此如果研究結果 p 值為 0.01, 依據這個結果宣稱研究達到顯著差異, 推翻虛無假說 ", 那麼犯錯的機會就是 0.01 現在大家習慣採用 0.05 當作一個臨界, 當研究的 p 值小於這個臨界值的時候就宣稱研究結果達到統計顯著, 也就是說大家普遍同意接受 5% 犯錯的可能性 這個願意接受的犯錯可能性稱為 顯著水準 "(significant level) 超過這個水準就宣稱研究達到統計顯著 其實顯著水準是可以調整的, 如果研究者願意接受較高的犯錯可能, 那顯著水準可以提高到 0.1; 當然也可以採取比較嚴格的標準, 例如 0.01, 會降低犯錯的可能, 但同時也降低了研究結果達到統計顯著的機會 但是不管採用怎樣的數值, 重要的是這個水準必須在研究收集資料之前就決定好, 不可以等到資料收集完畢, 計算出 p 值之後才看情況決定 因此當母群體真正效果沒有差別時, 每進行 100 次相同的研究, 大約有 5 個研究會因為抽樣偶然的機會, 出現 p 值小於 0.05 的結果而被誤判為有統計顯著差異 這種誤判的機會適用在所有的統計檢定, 包括不同的統計方法 各種研究設計 也適用在各種樣本數 也就是說, 當母群體的真正治療效果沒有差別時, 不管研究選用 10 名樣本 還是選用 100,000 名樣本, 統計檢定結果因抽樣誤差偶然出現 p 值小於 0.05 的機會都維持在 0.05 研究將沒有真正差別的效果誤判為統計顯著的機會並不因樣本數或是研究設計的不同而改變, 這也就是為 準 在母群體沒有真正差別的前提下, 只要是運用正確的統計方法進行檢定,p 值不會因為樣本數的增加 或研究設計的不同而變小或變大 但是如果母群體的真正治療效果有差別, 情況就不一樣了 真正效果有差異, 研究正確判斷顯著差別 現在我們考慮另一種可能性 : 如果 A 治療在病人母群體中真正有效是 60%, 而 B 治療真正有效是 10%, 那麼研究結果出現 A 組 6 位病人有效, 且 B 組出現 1 位病人有效的機會是不是大多了呢? 確實是這樣, 當研究病人來自這樣兩群真正治療效果不一樣的母群體時, 上述研究結果出現兩組有效人數相差達到至少 5 人的機會將高達 0.62 這時根據統計檢定 p 值為 0.029, 判定差異達統計顯著, 進而推論兩個治療的真正效果不同, 這時研究者就做出了一個正確的推論了 在母群體有差別的情況下, 研究結果可以正確得到統計顯著的機會, 稱為統計的 檢力 " (power) 檢力是正確推翻虛無假說的機率 研究設計的目的之一是希望在可行的範圍內, 盡量提高檢力, 具體的策略就是設計合理的樣本數來達成 真正效果有差異, 研究結果誤判沒有顯著差別 兩個真正有差異的母群體也可能因為抽樣的機會, 產生兩組有效人數差異不多的研究結果, 例如下面表一中的三個研究結果 表一 有效人數 / 樣本數 真正效果 第一次研究 第二次研究 第三次研究 第四次研究 A 治療 60% 4 / 10 6 / 10 5 / 10 B 治療 10% 2 / 10 3 / 10 1 / 10 差異 50% 20% 30% 40% p 值 0.314 0.185 0.070 什麼幾乎所有的研究均普遍採用 0.05 當作顯著水 這三個研究雖然都是由相同的母群體中選 醫療爭議審議報導系列 33 3

爭議相關論述 出, 但只因為多了或是少了一兩位病人治療有效, 造成研究結果治療有效病人數在兩個研究之間的差異稍微看起來比較少了, 也因此統計檢定出現了不顯著的結果 當研究的樣本數少的時候, 一兩位病人結果的差異, 很容易使統計結果出現幅度較大的差別 例如,A 治療真正效果是 60%, 雖然 10 位病人接受治療最可能的結果是 6 位有效, 但只要少了一位有效, 結果就會變成 10 位當中 5 位有效, 研究結果變成 50%, 跟母群體的真正效果就差了 10% 但是, 如果研究選取 100 位病人, 雖然同樣會有因為機會的關係多或少一兩位病人有效, 造成的結果差別卻僅有 1% 或 2%, 幅度比樣本數只有 10 位的時候少多了 樣本數越大, 研究結果變動的幅度隨之縮小, 研究結果也越趨近母群體的真正效果 根據統計理論, 使用每組 100 位病人來研究 A 治療 (60% 有效 ) 跟 B 治療 (10% 有效 ) 的差別時, 幾乎百分之百會得到統計顯著差異的結果 微小的差異 並不是所有被研究的效果都像上面的例子一樣大, 讓我們看看以下的兩個治療 : 對於疾病 Y 的病人母群體, 標準治療 C 真正的效果是一年存活 20%, 新的治療方法 D 的真正存活率是 21% 即使是存活率, 從 20% 變成 21% 可能大多數人都不會覺得是很重要的改變 但是如果每組各選 10,000 名病人進行比較研究, 得到結果如下面的表二 統計檢定 p 值為 0.041 達到統計顯著, 推論兩個治療效果不一樣 這個推論其實是正確的, 因為兩個治療在母群體中的效果是真的不一樣 (20% 比上 21%), 只不過這個差別小到幾乎可以忽略, 可能不會影響臨床上處理病人的決定 因此 p 值小, 達到統計顯著差異, 並不一定表示研究的結果好, 也不一定等於被研究的治療比較優秀 一個 好研究 " 應該是針對重要問題 設計適當且執行品質優良的研究 好的研究結果 " 有助於回答問題, 提供肯定的資訊, 降低原來問題中不確定的部份 肯定的資訊可以是治療效果有不同 ( 正向結果 ), 也可能是肯定各種治療的效果差別不大 ( 負向結果 ) 例如: 原本大家對於新治療 D 是否比標準治療 C 好沒有確定的資訊可以參考, 因為系統性回顧整理當時所有的臨床試驗研究結果如表三的前四個研究, 雖然新治療 D 的治療效果似乎比原治療 C 好一些, 但所有研究的統計檢定都沒有達到顯著差異 也就是說在兩種治療沒有真正差別的前題下, 只是因為抽樣而隨機出現這些研究結果的可能性很高 因此大家對於是否該使用新治療 D 可能有較大的爭議, 因為根據所累積的資訊,D 跟 C 比較, 效果從較差到較好都有, 因此爭議較大 表三最下方的 最新研究 " 結果統計檢定發現兩種治療效果的差別達到統計顯著 因此對之前不確定的問題提供了肯定的資訊 但是這個例子的結果是兩種治療的結果差不多 在沒有這個研究結果之前, 大家對於治療效果的認定差別可能比較大 而最新的研究結果, 提供了一組比較肯定的資訊 兩個治療的效果分別是 20% 跟 21%, 就統計檢定的角度, 這個研究結果的差別是顯著的 ; 但是從臨床的角度, 只差 1% 的效果, 可能不足以令大家從原本的治療 C 更換成新治療 D, 因此這個結果沒有達到臨床上的顯著意義, 但是肯定了兩種治療差異的程度很微小 表二真正效果研究結果 : 有效人數 / 樣本數 C 治療 20% 2,000 / 10,000 D 治療 21% 2,100 / 10,000 p 值 0.041 差異 1% 1% 4 中華民國九十七年三月

爭議相關論述 表三 原治療 C 新治療 D p 值 有效 樣本數 % 有效 樣本數 % 第一個研究 3 13 23% 4 15 27% 0.588 第二個研究 3 15 20% 5 28 18% 0.583 第三個研究 25 110 23% 27 115 23% 0.510 第四個研究 61 321 19% 77 310 25% 0.083 最新研究 2,000 10,000 20% 2,100 10,000 21% 0.041 所以研究的統計顯著跟研究結果必須分開兩個階段來看, 統計檢定評估可能的不確定性, 排除隨機的不確定性可能造成的影響後, 再來看結果在臨床的使用上有什麼樣的意義 統計 p 值顯著, 不必然表示該研究結果在臨床上對病人的處理有重要的影響, 也不一定表示受到研究的治療效果一定是比較好 回到最初的兩個問題 p 值越小表示該研究的結果越好嗎? p 值越小, 虛無假設為真實的可能性越低, 推翻虛無假設可能犯錯的機會越低 因此宣稱研究有統計顯著差異的肯定程度越高 但是 p 值跟研究所要探討的臨床效果是否重要之間不是絕對的關係 一個 p 值顯著的結果, 臨床上的效果卻可能很微小 像前面所舉的例子,20% 比 21% 臨床上只是很微小的差別, 但是只要研究樣本數夠大, 統計檢定就會達到顯著 因此看到 p 值小, 還需要分別從統計推論跟臨床意義兩個角度來判讀 樣本數越大, 研究的 p 值一定越小嗎? p 值是根據母體真正效果沒有差異的 虛無假說 " 來計算, 所以 : 如果母群體真正效果沒有差異, 研究結果的 p 值將隨機出現在 0 到 1 之間, 跟樣本數大小沒有關係 可是只要母群體的真正效果有差異, 研究結果的 p 值就會隨著研究樣本數增加而越來越 小 請看以下比較 A 治療跟 B 治療的例子 : 我們做系統性回顧發現 100 個小型的研究, 這些研究每組 10 只用了名病人 ; 另外發現了 100 個大型的研究, 這些研究每組收集了 300 名病人 這些研究的 p 值會呈現怎樣的結果呢? 如果 A 治療跟 B 治療的真正效果沒有差別 : 不管是每組 10 人還是每組 300 人的研究, 我們將發現, 每 100 個研究當中大約都有 5 個研究的統計檢定 p 值會小於 0.05 這些研究的 p 值相當平均的分布在 1 跟 0 之間 如果 A 治療跟 B 治療的真正效果有差別 : 我們將發現, 每 100 個研究中, 統計檢定結果 p 值小於 0.05 的研究將多於 5 個 ; 且每組 300 人的那些研究中, 有更多的研究 p 值小於 0.05 所有研究結果的 p 值普遍分布在較小 ( 靠近 0) 的那端 當幾個相同題目的類似研究, 出現不一致的結果, 且沒有特別的理由可以解釋彼此之間的差別時, 那麼這些差異就有可能是抽樣誤差所造成 統合分析 (meta analysis) 透過整合這些研究研究降低抽樣誤差 一個研究有可能因為偶然的機會, 結果出現比較小的 p 值, 因而造成我們對研究的誤判 可是當好幾個題目相同的類似研究都出現比較小的 p 值時, 結果純粹只是因為抽樣隨機出現的可能性就降低了, 因此我們對結果判讀的肯定程度就隨著升高 這也就是為什麼一系列結果一致的研究, 所提供證據的強度較高的原因 醫療爭議審議報導系列 33 5

爭議相關論述 參考資料 [1] 邵文逸. 如何嚴謹地研判醫學文獻. 台灣醫學 2003 年 7 卷 4 期 535-542. [2] 邵文逸. 實証醫學中的統計原理. 台灣醫學 2005 年 9 卷 4 期 531-535. 6 中華民國九十七年三月