醫 藥 研 究 之 生 物 統 計 介 紹 研 究 部 R319 生 統 小 組 張 光 喜 #4081
Index 統 計 基 本 元 素 變 項 的 類 型 分 類 資 料 的 描 述 連 續 性 資 料 的 描 述 三 種 集 中 量 數 的 比 較 變 異 量 數 連 續 資 料 的 基 本 統 計 圖 常 態 分 布 的 連 續 性 資 料 常 態 分 布 常 用 的 機 率 範 圍 信 賴 區 間 其 他 描 述 性 統 計 量 偏 態 峰 度 母 群 體 與 樣 本 抽 樣 的 方 法 點 估 計 與 區 間 估 計 中 央 極 限 定 理 (central limit theorem ) 檢 定 (test) 第 一 類 誤 差, 第 二 類 誤 差 等 距 變 項 的 統 計 各 種 等 距 變 項 統 計 的 比 較 Z 與 t 配 對 t 檢 定 二 項 類 別 變 項 的 統 計 X 2 test McNemar 氏 檢 定 變 異 數 (variance) 分 析
統 計 基 本 元 素 變 異 (variety) 是 統 計 的 根 本 變 項 或 變 數 (variables): 某 一 屬 性 因 時 地 人 物 不 同 自 變 項 (independent variable, IV)= 因 =X 依 變 項 (dependent variable, DV)= 果 =Y 常 數 (constant) 變 數 (variables) Y=aX+b
變 項 的 類 型 分 類 資 料 (discrete variable) 類 別 尺 度 (nominal scale) 例 如 : 疾 病 性 別 等 序 位 尺 度 (ordinal scale) 除 了 分 類 以 外, 有 大 小 程 度 順 序 之 關 係 例 如 : 職 稱 學 歷 等 連 續 性 資 料 (continuous scale) 等 距 尺 度 (interval scale) 除 了 分 類 順 序 以 外, 代 表 相 對 距 離, 但 沒 有 絕 對 的 0 例 如 : 溫 度 等 等 比 尺 度 (ratio scale) 使 用 標 準 化 的 單 位, 有 絕 對 的 0 例 如 : 身 高 體 重 年 齡 等
分 類 資 料 的 描 述 比 例 或 百 分 比 (ratio or %)
分 類 資 料 的 描 述 1 Yahoo 新 聞 時 事 民 調
分 類 資 料 的 描 述 2 澎 湖 縣 政 府 98 年 為 民 服 務 滿 意 度 調 查
分 類 資 料 的 描 述 3
分 類 資 料 的 基 本 統 計 圖 (1~2) 柱 狀 圖 (Bar charts) 派 餅 圖 (Pie charts) 南 投 13% 縣 市 其 17% 不 它 同 縣 市 XX 癌 症 新 發 生 百 分 比 台 16% 中 市 彰 化 19% 縣 市 台 35% 中 縣
連 續 性 資 料 的 描 述 集 中 量 數 變 異 量 數
三 種 集 中 量 數 的 比 較
變 異 量 數 組 距 (range) 最 大 值 與 最 小 值 之 差, 觀 察 值 的 範 圍 變 異 數 (variance, Var) {Σ( 每 個 數 值 - 平 均 數 ) 2 }/ 個 數 標 準 差 (standard deviation, SD) ( 變 異 數 ) 標 準 誤 (standard error, SE) 標 準 差 / ( 個 數 ) ( 樣 本 平 均 值 間 的 差 別 ) 變 異 係 數 (coefficient of variance) 標 準 差 / 平 均 值 ( 主 要 比 較 不 同 變 項 或 單 位 的 變 異 程 度 ) 四 分 位 差 (inter-quartile range, IQR) 觀 察 值 由 小 到 大 排 序 後, 高 分 組 第 25%(Q3) 的 數 值 - 低 分 組 後 25%(Q1) 的 數 值
連 續 資 料 的 描 述 1
連 續 資 料 的 描 述 2
連 續 資 料 的 描 述 3
統 計 資 料 描 述 等 比 尺 度 類 別 尺 度 序 位 尺 度 類 別 尺 度 序 位 尺 度 序 位 尺 度 類 別 尺 度
連 續 資 料 的 基 本 統 計 圖 (1~2) 直 方 圖 (Histogram) 柱 狀 圖 (Bar charts)
連 續 資 料 的 基 本 統 計 圖 (3~4) 折 線 圖 (Line charts) 散 佈 圖 (Scatter/Dot plots)
連 續 資 料 的 基 本 統 計 圖 (5) 箱 型 圖 (Box plots) 最 大 值 Q 3 中 位 數, Q2 Q1 最 小 值
連 續 資 料 的 基 本 統 計 圖 (6) 莖 葉 圖 (Stem-and-Leaf Plot) ( 個 位 數 )
常 態 分 布 的 連 續 性 資 料 高 斯 分 布 (Gaussian shape) 頻 率 mean -2SD -1SD +1SD +2SD 68.27% 95.45% 以 平 均 值 為 中 心 的 對 稱 曲 線 平 均 值 = 中 位 數 = 眾 數 以 平 均 值 為 中 心, 兩 邊 加 減 1 個 標 準 差 的 區 間, 其 機 率 ( 面 積 ) 為 68.27%,, 加 減 2 個 標 準 差 的 區 間, 其 機 率 為 95.45%
常 態 分 布 常 用 的 機 率 範 圍 信 賴 區 間 (confidence interval) P ( 平 均 值 ±1 標 準 差 )=68.27% P ( 平 均 值 ±1.645 標 準 差 )=90% P ( 平 均 值 ±1.96 標 準 差 )=95% P ( 平 均 值 ±2 標 準 差 )=95.45% P ( 平 均 值 ±2.58 標 準 差 )=99% 有 95% 的 機 會, 真 正 的 值 會 落 在 這 個 範 圍 內 95% 的 信 賴 區 間
常 態 分 布 的 形 狀 平 均 數 決 定 圖 形 的 位 置, 標 準 差 決 定 圖 形 的 形 狀
其 他 描 述 性 統 計 量 偏 態 與 峰 度
偏 態 (skewness) 描 述 變 項 的 對 稱 性 右 偏 分 布 ( 正 偏 分 布 ): mean>median>mode 偏 態 >0 地 板 效 應 (floor effect) 左 偏 分 布 ( 負 偏 分 布 ): mode > median > mean 偏 態 <0 天 花 板 效 應 (ceiling effect)
峰 度 (kurtosis) 次 數 分 配 集 中 部 分 的 陡 峭 程 度 高 窄 峰 峰 度 >0 低 闊 峰 峰 度 <0 常 態 峰 峰 度 =0
偏 態 與 峰 度 之 於 常 態 分 布 一 般 來 說,-1<, 偏 態 或 峰 度 <1 超 過 這 個 範 圍 的 偏 態 或 峰 度 會 影 響 統 計 分 析 的 運 用
母 群 體 與 樣 本
母 群 體 (population) 與 樣 本 (sample) 由 樣 本 統 計 量 來 推 知 母 體 參 數 為 何 不 直 接 觀 察 母 群 體? 是 假 設 的 且 無 限 大 抽 樣 (sampling): 從 母 體 中 抽 取 有 限 的 個 體, 作 為 觀 察 與 測 量 對 象, 並 推 估 母 體 特 性 已 知 且 >0 被 抽 到 的 機 會 ( 不 一 定 相 等 ) 機 會 是 隨 機
抽 樣 的 方 法 簡 單 隨 機 抽 樣 (simple random sampling) 等 距 抽 樣 (systematic sampling) 分 層 抽 樣 (stratified sampling) 集 束 抽 樣 (cluster sampling) 多 步 驟 抽 樣 (multi-stage sampling)
非 機 率 抽 樣 依 方 便 取 得 的 方 法 電 訪 部 分 問 卷 網 路 問 卷
點 估 計 與 區 間 估 計 參 考 資 料 : 台 灣 大 學 統 計 教 學 中 心 http://www.statedu.ntu.edu.tw/chinese/index.asp
何 謂 估 計 利 用 樣 本 統 計 量 去 推 估 母 體 參 數 的 過 程 可 分 為 點 估 計 與 區 間 估 計 估 計 式 的 好 壞 評 斷 標 準 : 不 偏 性 (unbiasedness ) 有 效 性 (efficiency ) 一 致 性 (consistency )
X 估 計 式 的 好 壞 評 斷 標 準 不 偏 性 若 估 計 式 的 平 均 數 等 於 母 體 的 參 數 值, 則 為 不 偏 估 計, 例 如 以 有 效 性 估 計 式 的 平 均 平 方 差 愈 小, 則 表 示 此 估 計 式 的 有 效 性 愈 高 ( 誤 差 愈 小 ) 一 致 性 樣 本 數 趨 近 無 限 大, 估 計 值 與 母 體 參 數 的 差 異 會 趨 近 0
點 估 計 與 區 間 估 計 的 定 義 點 估 計 由 母 體 抽 取 一 組 樣 本 數 為 n 的 隨 機 樣 本, 並 從 該 樣 本 得 到 的 樣 本 統 計 量 作 為 母 體 的 估 計 值 區 間 估 計 對 未 知 的 母 體 參 數 估 計 一 個 上 下 限 的 區 間, 並 指 出 該 區 間 包 含 母 體 參 數 的 可 靠 度
中 央 極 限 定 理 (central limit theorem ) 一 母 群 體 的 平 均 數 為 μ, 標 準 差 為 σ, 取 出 樣 本 數 為 n 之 無 限 多 組 樣 本, 此 無 限 多 組 樣 本 之 平 均 數 為 X, 其 分 佈 具 有 以 下 特 性 : 樣 本 平 均 數 抽 樣 分 佈 會 趨 近 常 態 分 佈 樣 本 平 均 數 抽 樣 分 佈 之 平 均 數 會 等 於 母 群 體 平 均 數 樣 本 平 均 數 分 佈 的 標 準 差, 稱 為 標 準 誤 σ/ n 若 n 夠 大 ( 一 般 以 30 為 夠 大 ), 則 樣 本 分 布 趨 近 常 態
母 體 與 樣 本 的 關 係 圖 2 2 σ σ = σ = x x n σ n
95% 信 賴 區 間 母 體 平 均 數 μ 的 95% 信 任 區 間 σ σ P( X 1.96 µ X + 1.96 ) = n n 0.95
母 群 體 1 母 群 體 2 母 群 體 3
n, α, 及 CI 之 間 的 關 係 n C.I. 寬 度, 以 95% C.I. 為 例 : n = 10, CI 寬 度 = 1.240σ n = 100, CI 寬 度 = 0.392σ n = 1000, CI 寬 度 = 0.124σ σ σ P( X 1.96 µ X + 1.96 ) = n n 0.95
檢 定 (test) 為 了 回 答 特 定 的 一 群 生 物 或 人, 其 某 種 生 物 現 象, 是 否 和 全 部 族 群 的 該 種 生 物 現 象 相 同? 需 先 假 設 沒 有 不 同 或 相 同, 稱 為 無 效 假 設 或 無 差 異 假 設 或 虛 無 假 設 (Null hypothesis, H 0 )
虛 無 假 設 (Null hypothesis, H 0 ) 與 對 立 假 設 (alternative hypothesis, H 1 ) H 0 : 欲 檢 驗 其 正 確 性 者 H 1 : 反 應 了 執 行 檢 定 的 研 究 者 對 參 數 可 能 數 值 的 另 一 種 ( 對 立 的 ) 看 法
p 的 標 準 (α-level) 決 定 接 受 (p 大 ) 或 拒 絕 H 0 (p 小 ) 約 定 俗 成 0.10, 0.05, 0.01 一 般 最 常 使 用 可 依 拒 絕 H 0 的 後 果 來 決 定
第 一 類 誤 差 (type-i error, α-error) 第 二 類 誤 差 type-ii error, β-error) 檢 力 (power)
第 一 類 誤 差 (type-i error, α- error) 應 接 受 H 0,p 卻 <α-level ( 一 般 是 0.05) 可 以 估 計 6 個 骰 子 同 時 出 現 6,p=(1/6) 6 =2.1 10-5 推 翻 可 能 犯 的 錯 誤, 大 小 等 於 P
第 二 類 誤 差 type-ii error, β- error) 應 推 翻 H 0,p 卻 >α-level ( 一 般 是 0.05) 高 明 的 賭 徒 無 法 被 估 計 接 受 H 0 沒 有 足 夠 證 據 說 明 二 者 不 同 ( 不 得 不 說 是 二 者 沒 有 差 別 ) 檢 力 (power) 正 確 拒 絕 H 0 之 概 率 (1-β)
誤 差 機 率 與 檢 定 力 下 圖 中 紅 色 部 分 為 α-error, 藍 色 部 分 為 β-error μ1 μ2 1-β β α/2
各 種 誤 差 示 意 表 真 實 情 況 檢 定 結 果 真 假 接 受 1-α β 拒 絕 α 1-β
等 距 變 項 的 統 計 單 一 變 項 的 推 論 (σ 已 知 ) 以 二 組 樣 本 推 論 二 個 母 全 體 (σ 已 知 ) 以 一 組 樣 本 或 二 組 樣 本 推 論 一 個 或 二 個 母 全 體 (σ 未 知 ) 以 二 組 樣 本 推 論 二 個 母 全 體 之 平 均 值 (σ 未 知 )
各 種 等 距 變 項 統 計 的 比 較 單 一 變 項 的 推 論 (σ 已 知 ) 常 人 平 均 收 縮 壓 為 125 mmhg, 標 準 差 為 10mmHg, 隨 機 抽 取 DM 患 者 100 位, 其 平 均 收 縮 壓 為 130mmHg, 請 問 DM 患 者 的 收 縮 壓 是 否 異 於 常 人? 以 二 組 樣 本 推 論 二 個 母 全 體 (σ 已 知 ) 已 知 常 人 平 均 收 縮 壓 標 準 差 10 mmhg, 隨 機 抽 樣 200 位 常 人, 其 平 均 收 縮 壓 為 125 mmhg; 隨 機 抽 取 DM 患 者 100 位, 其 平 均 收 縮 壓 為 130 mmhg, 請 問 DM 患 者 的 收 縮 壓 是 否 異 於 常 人? 以 一 組 樣 本 或 二 組 樣 本 推 論 一 個 或 二 個 母 全 體 (σ 未 知 ) 已 知 常 人 平 均 收 縮 壓 125 mmhg, 隨 機 抽 取 DM 患 者 100 位, 其 平 均 收 縮 壓 為 130 mmhg, 標 準 差 為 8 mmhg, 請 問 DM 患 者 的 收 縮 壓 是 否 異 於 常 人? 以 二 組 樣 本 推 論 二 個 母 全 體 之 平 均 值 (σ 未 知 ) 隨 機 抽 樣 200 位 常 人, 其 平 均 收 縮 壓 為 125 mmhg, 標 準 差 10 mmhg; 隨 機 抽 取 DM 患 者 100 位, 其 平 均 收 縮 壓 為 130 mmhg, 標 準 差 8 mmhg, 請 問 DM 患 者 的 收 縮 壓 是 否 異 於 常 人?
Z 與 t n 越 大, 代 表 性 越 大, 對 母 數 估 計 正 確 性 愈 高 ; 當 n 120,t 與 Z 已 十 分 接 近 自 由 度 (degree of freedom, d.f.)=n-1
Paper review
配 對 t 檢 定 (paired t-test)
前 言 目 前 為 止 討 論 的 是 二 個 獨 立 樣 本 的 平 均 值 比 較 男 女 之 間 的 身 高 是 否 有 差 異 健 康 人 與 結 核 病 患 者 的 體 溫 是 否 有 差 異 所 謂 的 獨 立 樣 本, 是 指 各 組 樣 本 內 的 個 體 都 是 各 自 獨 立 不 相 干 的
配 對 t 檢 定 (paired t-test) 配 對 (paired) 樣 本, 就 是 二 組 樣 本 的 個 體 是 相 關 聯 的 比 如 : 同 一 個 體 之 二 個 部 份, 一 個 是 對 照 組 (X 1 ), 一 個 是 控 制 組 (X 2 ) 同 一 個 體 治 療 前 (X 1 ) 與 治 療 後 (X 2 ) 的 比 較 同 卵 雙 胞 胎 或 同 一 胎 動 物, 隨 機 分 配 為 實 驗 組 (X 1 ) 與 對 照 組 (X 2 ) 個 體 不 同, 但 在 可 能 影 響 測 量 結 果 的 諸 多 因 子 上, 儘 量 求 其 相 同, 然 後 隨 機 分 配 為 實 驗 組 (X 1 ) 與 對 照 組 (X 2 ) 因 此 是 將 X 1 -X 2 當 成 一 個 觀 察 值 來 做 判 斷 或 統 計 推 論
二 組 獨 立 樣 本 與 配 對 樣 本 檢 定 方 法 之 比 較 二 組 獨 立 樣 本 二 組 配 對 樣 本 較 敏 感 (p 容 易 <0.05)
Paper review
二 項 類 別 變 項 ( 比 率 變 項 ) 的 統 計 :X 2 test
X 2 test 用 來 檢 定 兩 種 類 別 變 項 間, 是 否 有 關 聯? 男 女 之 間 的 糖 尿 病 罹 患 率 是 否 不 同? ( 糖 尿 病 :AC: 126 mg/dl) H 0 : 男 女 糖 尿 病 罹 患 率 相 同 H 1 : 男 女 糖 尿 病 罹 患 率 不 同
X 2 test 之 簡 單 原 理 每 格 觀 察 值 偏 離 預 期 值 的 程 度 =(O-E)/E 避 免 負 號,X, 2 =Σ(O-E) 2 /E 2 2 列 聯 表 注 意 事 項 >25% 的 預 期 值 <5,, 須 看 Fisher s s Exact test 結 果 需 作 Yat s 校 正 (continuity correction)
假 設 成 功 機 率 0.5, 在 不 同 樣 本 數 下, 各 種 組 合 發 生 的 機 率 圖
二 項 類 別 變 項 ( 比 率 變 項 ) 的 統 計 配 對 樣 本
McNemar 氏 檢 定 類 別 變 項 ---- 類 別 變 項 兩 相 依 樣 本 僅 適 用 於 2 2 的 表 格 樣 本 是 從 母 群 體 中 隨 機 抽 樣
McNemar 氏 檢 定 實 驗 前 實 驗 後 是 否 是 A B A+B 否 C D C+D A+C B+D N H 0 : 實 驗 前 後, 選 擇 是 的 百 分 比 沒 有 改 變 H 1 : 實 驗 前 後, 選 擇 是 的 百 分 比 會 有 改 變 檢 定 統 計 量 : Χ 2 =( B-C -1) 2 /(B+C)
單 因 子 變 異 數 (variance) 分 析 One way ANOVA
變 異 數 的 重 要 性 μ A =μ B =μ 0 兩 個 樣 本 都 是 從 一 個 平 均 值 為 μ 0 的 母 全 體 抽 出
實 際 上 A 組 資 料 分 布 分 散 ;B 組 資 料 分 布 集 中 二 個 母 全 體 平 均 值 相 等 但 變 異 情 形 不 同
F 分 布 由 R.A. Fisher 首 創,G.W. Snede cor 加 以 修 改 而 成 從 變 異 數 為 σ 2 之 母 全 體, 先 抽 出 大 小 為 n 1 之 ㄧ 組 樣 本, 其 變 異 數 S 12 ; 再 抽 出 大 小 為 n 2 之 ㄧ 組 樣 本, 其 變 異 數 S 22, S 1 2 除 以 S 2 2 即 為 F 值 若 將 全 部 可 能 的 樣 本 排 列 組 合 均 抽 出 計 算, 則 可 得 到 很 多 S 12 /S 22, 也 就 是 很 多 F 值, 這 些 F 值 的 分 布 就 是 F 分 布
F 分 布 F 分 布 有 兩 個 自 由 度, 分 子 與 分 母 自 由 度 由 一 對 自 由 度 可 以 決 定 一 個 F 分 布 S 1 2 與 S 2 2 均 為 母 數 S 2 的 不 偏 估 計, 因 此 S 12 /S 2 2 之 期 望 值 為 1, 越 離 開 1 越 遠, 則 機 率 越 小
One-Way ANOVA ANOVA 是 透 過 變 異 數 之 分 析 來 檢 定 各 組 樣 本 所 代 表 之 母 全 體 平 均 值 間 是 否 不 同 為 何 不 用 t test? 如 果 有 三 組 樣 本, 則 須 執 行 3 次 t-test (1vs.2, 1vs.3, 2vs.3); 如 果 有 7 組 樣 本, 則 須 執 行 C 7 2=21 次 t-test, 不 但 複 雜, 也 增 加 α-errer 的 機 會
總 變 異 量 的 分 解
組 內 變 異 第 一 個 部 份 稱 之 為 Within Sum of Square (WSS) 亦 即 每 一 組 內 各 個 個 體 觀 察 值 與 該 組 平 均 值 差 的 平 方 和
組 間 變 異 第 二 個 部 份 稱 之 為 Between Sum of Square (BSS) 即 各 組 平 均 值 與 總 平 均 值 差 的 平 方 和, 再 乘 以 各 組 的 樣 本 數
One-Way ANOVA: F 檢 定 K: 組 數 N: 個 數 F = BSS WSS /( k 1) /( N k) = MBSS MWSS
自 變 數 = 因 =X: 欲 實 驗 或 操 作 檢 定 的 變 項 如 疾 病 性 別 等 依 變 數 = 果 =Y: 欲 觀 察 的 變 項 如 身 高 體 重 血 壓 等 資 料 收 集 母 數 分 布 非 母 數 分 布 Y: 連 續 資 料 X: 兩 組 類 別 Y: 連 續 資 料 X:3 組 或 以 上 類 別 Y: 類 別 序 位 X: 類 別 序 位 X: 不 成 對 X: 成 對 X: 不 成 對 X: 成 對 X: 不 成 對 X: 成 對 單 一 樣 本 t 檢 定 獨 立 樣 本 t 檢 定 配 對 t 檢 定 ANOVA 重 複 量 數 ANOVA 卡 方 檢 定 McNemar Kappa