广 义 估 计 方 程 在 多 元 统 计 分 析 中 的 运 用 及 检 验 效 率 评 价 毛 广 运 1*, 沈 恬 2*,Mark Changzhong Chen 3, 余 金 明 2 1. 温 州 医 学 院 (325035) 2. 复 旦 大 学 公 共 卫 生 学 院, 公 共 卫 生 安 全 教 育 部 重 点 实 验 室 (200032) 3. Dana Farber Cancer Institute, Harvard University(02115) 温 医 老 师 和 沈 恬 为 并 列 第 一 作 者 通 讯 作 者 : 余 金 明,email: jmy@fudan.edu.cn [ 提 要 ] 医 学 科 研 中 经 常 会 遇 到 对 n 个 研 究 对 象 观 测 了 m 项 指 标, 或 对 其 某 一 指 标 ( 结 局 变 量 ) 观 测 了 m 次 的 数 据 ( 或 称 重 复 测 量 数 据 ), 如 简 单 地 对 每 个 应 变 量 分 别 分 析, 既 不 能 综 合 考 虑 多 个 指 标 的 变 化, 同 时 也 增 加 了 I 类 错 误 风 险, 统 计 检 验 效 率 较 低 本 文 介 绍 如 何 使 用 广 义 估 计 方 程 (Generalized Estimate Equation, GEE) 同 时 对 多 个 应 变 量 进 行 回 归 分 析, 并 通 过 模 拟 比 较 了 单 变 量 t 检 验 分 别 分 析 多 变 量 Hotelling T 2 检 验 GEE 多 元 回 归 三 种 方 法 的 统 计 检 验 效 率 与 I 类 错 误 发 生 率 最 终 发 现 GEE 多 元 回 归 方 法 统 计 检 验 效 率 最 高 且 不 增 加 I 类 错 误 [ 关 键 词 ] 非 独 立 数 据 广 义 估 计 方 程 Hotelling T 2 检 验 检 验 效 率 I 类 错 误 医 学 科 研 中 经 常 会 遇 到 以 下 两 类 数 据 :1 观 测 了 若 干 组 别 研 究 对 象 m 项 指 标 ( 结 局 变 量 ), 如 比 较 两 种 剂 量 某 降 血 脂 药 治 疗 后 总 胆 固 醇 低 密 度 脂 蛋 白 甘 油 三 酯 的 变 化 2 对 不 同 组 别 n 个 研 究 对 象 某 一 指 标 ( 结 局 变 量 ) 观 测 了 m 次, 可 以 是 n 个 调 查 员 或 在 m 种 情 况 下 所 做 的 观 测, 如 服 用 两 种 剂 量 某 降 压 药 治 疗 后 1 2 4 6 小 时 分 别 测 量 的 血 压 值, 通 常 被 称 为 重 复 测 量 资 料, 其 中 m 次 测 量 也 可 以 称 为 m 个 结 局 变 量 重 复 测 量 值 之 间 呈 相 关 倾 向, 概 率 论 与 数 理 统 计 学 的 许 多 原 理 与 方 法 都 是 建 立 在 独 立 性 的 基 础 上, 因 而 传 统 的 方 法 不 适 合 处 理 重 复 测 量 资 料 [1-3] 目 前 针 对 这 类 资 料 的 分 析 方 法 主 要 有 单 变 量 分 别 分 析 多 变 量 Hotelling T 2 检 验 GEE 多 元 回 归 多 水 平 模 型 (Multilevel model, MLM) 等 [4] [5] 本 文 将 采 用 X&Y Soultions 软 件 公 司 设 计 的 EmpowerStats( 易 侕 统 计 ) 软 件 对 三 种 常 用 方 法 : 单 变 量 多 变 量 Hotelling T 2 检 验 和 GEE [6-7] 的 模 拟 分 析 结 果 进 行 比 较 分 析, 了 解 各 自 的 统 计 检 验 效 率 和 I 类 错 误 发 生 率 1 常 用 分 析 方 法 介 绍 1.1 单 个 逐 个 比 较 每 个 应 变 量 常 规 的 统 计 方 法 是 将 m 个 结 局 变 量 分 开 来 分 析, 即 做 m 个 单 变 量 的 分 析 在 上 例 比 较 两 种 剂 量 某 降 血 脂 药 治 疗 后 总 胆 固 醇 高 密 度 脂 蛋 白 甘 油 三 酯 的 变 化, 结 局 变 量 共 计 3 个, 需 做 3 个 或 回 归 分 析 ; 如 分 别 比 较 服 用 某 降 压 药 后 1 2 4 6 小 时 的 血 压 变 化, 需 做 4 个 或 回 归 分 析 这 种 将 多 个 因 变 量 拆 分 成 单 变 量 进 行 分 析 的 缺 点 是 既 没 有 综 合 考 虑 多 个 应 变 量 的 变 化, 同 时 也 增 加 了 I
类 错 误 的 风 险, 如 设 定 α=0.05, 则 一 次 检 验 中 犯 Ⅰ 类 错 误 的 最 大 概 率 为 5%, 三 次 检 验 累 计 犯 Ⅰ 类 错 误 的 最 大 概 率 高 达 14.26%(1-0.95 3 ) 类 似 结 局 变 量 的 个 数 越 多, 则 犯 Ⅰ 类 错 误 的 概 率 就 越 大, 统 计 检 验 效 率 亦 越 低 1.2 Hotelling T 2 检 验 同 时 比 较 多 个 应 变 量 由 于 单 个 变 量 的 多 次 会 明 显 增 加 犯 Ⅰ 类 错 误 的 风 险, 同 时 检 验 效 率 亦 较 低, 故 目 前 类 似 资 料 的 分 析 应 尽 量 避 免 采 用 单 个 变 量 的 多 次, 而 选 择 多 个 变 量 的 综 合 分 析 方 法, 同 时 对 m 个 变 量 同 时 进 行 检 验, 既 避 免 了 多 次 检 验 需 要 校 正 p 值 的 问 题, 且 同 时 综 合 考 虑 了 m 个 结 局 变 量 的 变 化, 检 验 效 率 较 高 多 个 变 量 综 合 分 析 可 选 用 的 方 法 之 一 是 Hotelling s T 2 检 验 其 原 理 与 基 本 相 似 假 定 两 样 本 两 组 均 数 分 别 为 : 计 算 统 计 量 T 2 : X { X 11, X 12,..., X 1 }, X { X 21, X 22,..., X 2 } 1 p 2 p 2 n * n T 1 2 * - ( n n ) X 1 2 X1 X2 S 1 X 1 2 S 是 合 并 的 p 个 变 量 的 方 差 与 协 方 差 矩 阵 2 T 按 下 式 转 换 成 F 值 : ( n n p 1) F 1 2 * T 2 ( n n 2)* p 1 2 p 表 示 变 量 数,n 1 n 2 分 别 是 两 组 样 本 量,F 的 分 子 自 由 度 为 p, 分 母 的 自 由 度 为 (n 1 +n 2 -p-1), 查 F 界 值 表 得 P 值 这 个 方 法 只 适 用 于 比 较 两 组 满 足 多 元 正 态 分 布 的 m 个 连 续 性 变 量 1.3 广 义 估 计 方 程 (GEE) 多 元 回 归 多 个 变 量 的 综 合 分 析 还 可 选 用 多 元 分 析 法, 同 时 对 多 个 应 变 量 进 行 统 计 分 析 如 果 把 m 个 应 变 量 分 开, 逐 个 进 行 简 单 回 归 分 析, 就 是 建 立 m 个 回 归 方 程 :Y i = A i +B i X, 这 与 逐 个 一 样, 同 样 没 有 同 时 综 合 考 虑 X 对 m 个 Y 的 作 用 而 多 元 回 归 则 可 以 把 这 m 个 简 单 回 归 方 程 合 并 成 一 个 多 元 回 归 模 型 如 果 数 据 本 身 不 是 对 同 一 个 指 标 的 多 次 测 量, 而 是 多 个 应 变 量, 只 要 这 些 应 变 量 具 有 类 似 的 特 性 变 化 方 向 一 致, 亦 可 以 将 其 看 成 是 重 复 测 量 数 据, 即 把 {Y1,Y2,, Yi} 看 成 是 对 Y 的 重 复 测 量 如 将 血 脂 中 的 总 胆 固 醇 低 密 度 脂 蛋 白 甘 油 三 酯 三 项 指 标 ; 肺 功 能 的 一 秒 肺 活 量 与 最 大 肺 活 量 ; 呼 吸 道 症 状 的 咳 嗽 咳 痰 气 喘 气 短 等, 分 别 看 成 是 不 同 的 重 复 测 量 数 据 针 对 这 类 重 复 测 量 数 据 的 分 析 步 骤 为 :
首 先 进 行 数 据 转 换 如 原 来 一 个 研 究 对 象 一 条 记 录, 有 m 个 应 变 量 (Y), 将 其 转 换 成 一 个 研 究 对 象 m 条 记 录, 每 条 一 个 应 变 量 (Y), 在 每 条 记 录 后 增 加 一 个 指 示 变 量 (I) 表 示 该 应 变 量 值 的 来 源 然 后 建 立 回 归 模 型 :Y= 0 + i *X i + I 其 中 I 是 m 个 指 示 变 量 这 个 模 型 允 许 不 同 应 变 量 的 截 距 可 以 不 同, 但 假 定 X 对 不 同 的 应 变 量 的 作 用 方 向 是 一 致 的, 且 回 归 系 数 相 近 因 为 一 般 的 线 性 回 归 与 Logistic 回 归 都 要 求 各 观 察 记 录 相 互 独 立, 即 研 究 个 体 间 无 相 关 关 系 但 此 时 同 一 个 研 究 对 象 有 着 多 条 记 录, 这 些 记 录 间 存 在 相 关 关 系, 不 符 合 独 立 性 要 求 因 此 需 要 用 广 义 估 计 方 程 (Generalized Estimate Equation, GEE) 如 果 m 个 应 变 量 的 度 量 衡 单 位 不 同, 或 在 单 个 回 归 方 程 中 的 回 归 系 数 差 异 很 大, 则 可 通 过 调 整 各 应 变 量 的 度 量 衡 单 位 或 进 行 标 准 化 等 方 法, 尽 量 使 得 所 研 究 的 危 险 因 素 对 每 个 应 变 量 的 回 归 系 数 接 近 本 法 既 适 用 于 连 续 性 变 量, 也 适 用 于 两 分 类 变 量 及 其 它 分 布 类 型 ( 需 采 用 相 应 的 函 数 ), 同 时 还 可 以 引 入 其 它 协 变 量, 控 制 其 它 因 素 的 混 杂 作 用, 因 此 GEE 模 型 在 常 用 的 分 析 方 法 中 具 有 明 显 优 势 2 GEE 多 元 回 归 分 析 具 体 步 骤 ⑴ 转 换 数 据 转 换 后 的 数 据 要 求 是 每 个 研 究 对 象 每 个 应 变 量 一 条 记 录, 如 有 n 个 研 究 对 象 m 个 观 测 指 标, 则 有 n*m 条 记 录 每 条 记 录 中 应 有 一 个 Y 变 量, 是 原 m 个 应 变 量 的 值, 用 Y ij 表 示, 及 指 示 变 量, 用 I j 表 示 i=1,2,,n;j=1,2,,m ⑵ 建 立 回 归 模 型 计 算 所 研 究 的 危 险 因 素 对 每 个 单 变 量 的 回 归 系 数 Y ij = β 01 + β 02 *(I j =2) + β 03 *(I j =3) + + β 0m *(I j =m) + β 1 *X*(I j =1) + β 2 *X*(I j =2) + + β m *X*(I j =m) + e ( 模 型 1) 其 中, i=1,2,,n;j=1,2,,m;x 表 示 危 险 因 素 ;β 01 是 第 一 个 应 变 量 (j=1) 的 截 距,β 01 +β 02 是 第 二 个 应 变 量 的 截 距,β 01 +β 03 是 第 三 个 应 变 量 的 截 距, 其 余 应 变 量 以 此 类 推 ;β 1 是 X 对 第 一 个 应 变 量 的 回 归 系 数,β 2 是 X 对 第 二 个 应 变 量 的 回 归 系 数, 其 余 应 变 量 以 此 类 推 ⑶ 简 化 上 述 模 型 1, 用 一 个 回 归 系 数 β x 代 替 β 1,β 2,,β m 如 下 : Y ij = β 01 + β 02 *(I j =2) + β 03 *(I j =3) + + β 0m *(I j =m) + β x *X + e ( 模 型 2) ⑷ 做 似 然 比 检 验 比 较 模 型 1 与 模 型 2, 计 算 X 2 值 :X 2 =2*(LLK 1 LLK 2 ), 其 中 LLK 1 为 模 型 1 的 对 数 似 然 值,LLK 2 为 模 型 2 的 对 数 似 然 值, 查 X 2 值 表, 自 由 度 为 (m-1) 如 果 检 验 结 果 没 有 显 著 性 差 异, 表 示 简 化 的 模 型 2 能 替 代 模 型 1, 这 时 就 可 以 用 一 个 回 归 系 数 β x 表 示 X 对 Y 1,Y 2,,Y m 的 影 响 作 用 上 述 模 型 1 与 模 型 2 中 的 危 险 因 素 可 以 是 两 分 类 变 量, 可 以 扩 展 到 多 分 类 变 量 与 连 续 性 变 量 由 X&Y Soultions 软 件 公 司 设 计 的 EmpowerStats( 易 侕 统 计 ) 软 件 设 计 了 专 用 模 块 自 动 完 成 上 述 步 骤, 用 户 只 需 要 输 入 要 分 析 的 应 变 量 与 危 险 因 素,EmpowerStats 软 件 自 动 编 写 R 程 序 完 成 上 述 分 析 步 骤 3 统 计 检 验 效 率 与 I 类 错 误 的 模 拟 比 较 分 析
统 计 检 验 效 率 指 能 检 测 出 客 观 存 在 的 组 间 差 异 的 能 力 临 床 研 究 中 常 常 因 为 经 费 人 力 时 间 等 原 因, 样 本 量 不 够 大, 希 望 能 用 小 的 样 本 检 出 较 小 的 差 异, 这 就 涉 及 到 提 高 统 计 检 验 效 率 的 问 题 下 面 通 过 模 拟, 对 Hotelling T 2 检 验 广 义 估 计 方 程 (GEE) 多 元 回 归 三 种 方 法 的 检 验 效 率 与 I 类 错 误 发 生 率 进 行 比 较 具 体 的 模 拟 方 法 为 : ⑴ 假 定 两 组 数 据, 各 组 500 例 ; ⑵ 分 别 假 定 两 个 应 变 量 Y1 Y2, 三 个 变 量 Y1 Y2 Y3, 四 个 变 量 Y1 Y2 Y3 Y4; ⑶ 假 定 第 一 组 Y1 Y2 Y3 Y4 的 均 数 分 别 是 2 3 4 5, 假 定 第 二 组 Y1 Y2 Y3 Y4 的 均 数 分 别 是 2.2 3.2 4.2 5.2, 以 用 于 模 拟 检 验 效 率 ; 再 假 定 第 二 组 Y1 Y2 Y3 Y4 的 均 数 与 第 一 组 相 同 以 模 拟 I 类 错 误 发 生 率 ⑷ 假 定 Y1 Y2 Y3 Y4 的 方 差 均 是 10, 分 别 假 定 协 方 差 是 2 4 6 8, 即 分 别 假 定 Y1 Y2 Y3 Y4 相 互 间 的 相 关 系 数 分 别 是 0.2 0.4 0.6 0.8; 用 随 机 抽 样 方 法, 对 上 述 各 种 组 合 情 况, 分 别 产 生 1000 个 数 据, 对 每 个 模 拟 出 来 的 数 据 进 行 单 个 变 量 的 Hotelling T 2 检 验 GEE 回 归 分 析, 统 计 1000 个 模 拟 数 据 中, p 值 小 于 0.05 的 数 据 个 数 检 验 效 率 及 I 类 错 误 模 拟 结 果 见 表 1 表 2 表 1. Hotelling T 2 检 验 GEE 回 归 分 析 与 单 个 变 量 的 的 检 验 效 率 模 拟 结 果 比 较 变 量 间 Hotelling T 2 相 关 系 数 两 个 应 变 量 (1000 个 模 拟 数 据 中 成 功 检 测 出 有 显 著 差 异 的 数 据 数 ) GEE 多 元 回 归 单 变 量 1 单 变 量 2 0.2 187 252 165 171 0.4 180 216 177 176 0.6 149 198 165 175 0.8 145 192 169 175 三 个 应 变 量 单 变 量 3 0.2 204 314 175 178 178 0.4 156 247 171 159 175 0.6 147 215 179 180 153 0.8 127 203 176 184 192 四 个 应 变 量 单 变 量 4 0.2 201 353 165 170 154 173 0.4 166 262 191 204 176 155 0.6 128 224 175 180 165 166 0.8 118 202 178 159 171 183 表 2. Hotelling T 2 检 验 GEE 回 归 分 析 与 单 个 变 量 的 的 I 类 错 误 模 拟 结 果 比 较 (1000 个 模 拟 数 据 中 错 误 检 测 出 有 显 著 差 异 的 数 据 数 ) 变 量 间 相 关 系 数 Hotelling T 2 GEE 多 元 回 归 单 变 量 * 两 个 应 变 量 0.2 41 49 90 0.4 39 43 74
0.6 53 53 94 0.8 47 58 85 三 个 应 变 量 0.2 57 52 154 0.4 47 52 131 0.6 49 40 108 0.8 50 35 87 四 个 应 变 量 0.2 51 36 155 0.4 51 57 158 0.6 50 53 140 0.8 58 61 121 * 单 变 量 : 模 拟 数 据 任 何 一 个 变 量 得 出 p<0.05 4 讨 论 与 小 结 根 据 模 拟 的 结 果 可 以 看 出, 使 用 广 义 估 计 方 程 (GEE) 进 行 多 应 变 量 回 归 分 析 的 统 计 检 验 效 率 最 高, 且 随 着 变 量 数 增 加, 检 验 的 效 率 增 加 Hotelling T 2 检 验 的 效 率 与 应 变 量 数 关 系 不 大 当 应 变 量 之 间 的 相 关 性 增 加 时,Hotelling T 2 检 验 与 GEE 多 元 回 归 两 种 方 法 的 统 计 检 验 效 率 都 会 下 降, 但 Hotelling T 2 检 验 降 低 更 明 显 随 变 量 数 的 增 加, 单 变 量 的 I 类 错 误 发 生 率 明 显 增 加, 而 GEE 多 元 回 归 与 Hotelling T 2 检 验 的 I 类 错 误 概 率 只 由 研 究 者 预 先 设 定 的 α 决 定
参 考 文 献 : 1. Diggle, PJ, Liang,KY & Zeger, St. Analysis of logitudianal data, Clarendon Press, Oxford, 1995. 2. Goldstein, H. Multilevel statistics models. 2 th Edition. Campman, London, 1995. 3. 方 积 乾, 陆 盈. 现 代 医 学 统 计 学, 人 民 卫 生 出 版 社, 北 京,2002. 4. 王 济 川, 谢 海 义, 姜 宝 法. 多 层 统 计 分 析 模 型 方 法 与 应 用, 高 等 教 育 出 版 社, 北 京,2008. 5. http://www.empowerstats.com/cn 6. A Ziegler, M Vens. Generalized Estimating Equations. Methods Inf Med, 2010.5 7. Hardin JW, Hilbe JM. Generalized Estimating Equations: Chapman & Hall/CRC; 2003.