第 32 卷 第 6 期 2015 年 11 月 Journal of University of Chinese Academy of Sciences Vol. 32 November No. 6 2015 文 章 编 号 :2095 6134(2015)06 0728 07 现 代 变 量 选 择 方 法 在 青 少 年 近 视 研 究 中 的 应 用 海 豹 1 ꎬ 李 仕 明 2 ꎬ 刘 洛 如 3 ꎬ 申 立 勇 1 1 ꎬ 张 三 国 ꎬ 李 偲 圆 2 ꎬ 李 翯 3 ꎬ 康 梦 田 2 ꎬ 孙 芸 芸 2 ꎬ 孟 博 2 1 ꎬ 张 庆 昭 (1 中 国 科 学 院 大 学 数 学 科 学 学 院 ꎬ 北 京 101408ꎻ 2 首 都 医 科 大 学 附 属 北 京 同 仁 医 院 眼 科 中 心 ꎬ 北 京 100730ꎻ 3 河 南 安 阳 市 眼 科 医 院 ꎬ 河 南 安 阳 455000) (2014 年 9 月 25 日 收 稿 ꎻ 2015 年 3 月 16 日 收 修 改 稿 ) Hai Bꎬ Li S Mꎬ Liu L Rꎬ et al. Juvenile myopia study using modern variable selection methods [ J]. Journal of University of Chinese Academy of Sciencesꎬ 2015ꎬ32(6):728 734. 摘 要 通 过 分 析 一 组 医 学 数 据 挖 掘 出 影 响 青 少 年 近 视 的 关 键 因 素 ꎬ 建 立 青 少 年 近 视 患 病 概 率 预 测 模 型. 数 据 集 主 要 由 两 部 分 组 成 : 一 是 青 少 年 眼 睛 的 医 学 测 量 数 据 ꎬ 二 是 由 生 活 学 习 习 惯 调 查 问 卷 得 到 的 数 据. 采 用 几 种 现 代 统 计 学 方 法 ꎬ 并 利 用 ROC 曲 线 得 到 较 优 的 患 病 概 率 模 型. 结 果 表 明 ꎬ 性 别 眼 轴 长 度 角 膜 曲 率 工 作 日 睡 眠 时 间 不 戴 眼 镜 远 视 力 远 距 离 调 节 反 应 等 因 素 对 青 少 年 近 视 有 重 要 的 影 响 作 用 ꎬ 并 由 此 建 立 预 测 模 型. 关 键 词 变 量 选 择 ꎻ logistic 回 归 ꎻ Lassoꎻ MCPꎻ ROC 曲 线 中 图 分 类 号 :0212 文 献 标 志 码 :A doi:10 7523 / j. issn. 2095 6134 2015 06 002 Juvenile myopia study using modern variable selection methods HAI Bao 1 ꎬ LI Shiming 2 ꎬ LIU Luoru 3 ꎬ SHEN Liyong 1 ꎬ ZHANG Sanguo 1 ꎬ LI Siyuan 2 ꎬ LI He 3 ꎬ KANG Mengtian 2 ꎬ SUN Yunyun 2 ꎬ MENG Bo 2 ꎬ ZHANG Qingzhao 1 (1 School of Mathematical Sciencesꎬ University of Chinese Academy of Sciencesꎬ Beijing 101408ꎬ Chinaꎻ 2 Beijing Tongren Eye Centerꎬ Beijing Tongren Hospitalꎬ Capital Medical Universityꎬ Beijing 100730ꎬ Chinaꎻ 3 Anyang Eye Hospitalꎬ Anyang 455000ꎬ Henanꎬ China) Abstract In this work we used some variable selection techniques to find out the relevant factors that cause adolescent myopiaꎬ and established probabilistic models for myopia prediction. The research is based on a medical dataset consisting of two parts: medical measurement data of the youths and data on daily living habits obtained by questionnaire survey. We used some modern variable selection methods and the ROC curve to evaluate different modes. The results show that genderꎬ axial lengthꎬ corneal curvatureꎬ weekday sleeping timeꎬ distance vision without glassesꎬ and remote adjustment reaction have important influences on adolescent myopia. Key words variable selectionꎻ classical logistic regressionꎻ Lassoꎻ MCPꎻ ROC curve 国 家 973 重 点 基 础 研 究 发 展 计 划 项 目 (2011CB504601) 资 助 通 信 作 者 ꎬE mail: sgzhang@ ucas. ac. cn
第 6 期 海 豹 ꎬ 等 : 现 代 变 量 选 择 方 法 在 青 少 年 近 视 研 究 中 的 应 用 729 据 权 威 部 门 统 计 ꎬ 目 前 中 国 共 有 4 亿 多 近 视 眼 患 者 ꎬ 近 视 发 病 率 达 33 3% ꎬ 其 中 青 少 年 更 是 近 视 重 灾 区 ꎬ 小 学 生 的 近 视 率 在 40% 左 右 ꎬ 初 中 生 近 视 率 在 60% 左 右 ꎬ 高 中 生 近 视 率 则 高 达 70% 以 上. 研 究 表 明 ꎬ 过 去 几 十 年 间 很 多 地 区 面 临 近 视 患 病 率 快 速 增 长 的 情 况 [1 2]. 因 此 ꎬ 影 响 青 少 年 视 力 健 康 的 因 素 至 关 重 要 ꎬ 因 为 这 将 决 定 应 该 如 何 有 效 预 防 近 视 或 者 防 止 近 视 程 度 的 增 加. 迄 今 为 止 ꎬ 很 多 国 内 外 学 者 一 直 在 研 究 影 响 [3] 青 少 年 近 视 的 因 素. Kathryn A. Rose 等 指 出 ꎬ 较 多 户 外 活 动 ( 包 括 运 动 和 休 闲 活 动 ) 的 青 少 年 具 有 较 低 的 近 视 患 病 率 ꎬ 同 时 近 距 离 工 作 较 多 并 且 户 外 活 动 少 的 青 少 年 最 容 易 近 视 ꎻ 但 是 在 一 份 纵 向 数 据 研 究 中 [4] ꎬ 近 视 和 非 近 视 的 青 少 年 之 间 的 近 距 离 工 作 量 差 距 并 不 是 很 明 显. 此 外 ꎬAmanda [5] N. French 等 在 其 分 组 研 究 中 指 出 在 较 小 的 年 龄 组 中 ꎬ 较 多 的 近 距 离 工 作 量 具 有 较 高 的 近 视 患 病 率 ꎻ 然 而 在 较 高 的 年 龄 组 中 近 距 离 工 作 量 则 不 显 著 ꎬ 并 且 父 母 双 方 近 视 的 人 数 越 多 ꎬ 则 孩 子 的 近 视 患 病 率 越 高. 研 究 还 表 明 不 同 种 族 对 近 视 程 度 也 有 影 响 ꎬ 相 同 种 族 的 青 少 年 在 不 同 的 地 区 近 视 患 病 率 也 不 同 [2ꎬ6]. 另 外 ꎬ 户 外 活 动 时 间 也 是 一 个 影 响 因 素 ꎬ 基 准 线 屈 光 度 被 认 为 是 最 重 要 的 影 响 因 素. 同 时 ꎬ 也 有 研 究 表 明 遗 传 因 素 对 近 视 也 有 影 响 [7 8]. 年 龄 种 族 母 亲 怀 孕 期 间 是 否 吸 烟 脑 瘫 和 唐 氏 综 合 症 也 是 影 响 青 少 年 视 力 的 因 素 [9]. 在 国 内 ꎬ 通 过 纵 向 数 据 获 得 青 少 年 近 视 的 患 病 和 发 病 情 况 ꎬ 并 分 析 近 视 相 关 的 影 响 因 素 [10]. 目 前 为 止 ꎬ 国 内 尚 无 基 于 本 国 数 据 进 行 视 力 影 响 因 素 变 量 选 择 的 研 究. 在 以 往 近 视 因 素 的 研 究 中 [3ꎬ5ꎬ9] ꎬ 大 多 利 用 边 际 相 关 性 以 及 向 前 ( 向 后 ) 选 择 等 传 统 变 量 选 择 方 法. 此 种 方 法 操 作 起 来 简 单 ꎬ 但 存 在 一 些 问 题 : 首 先 ꎬ 经 常 会 发 生 重 要 变 量 与 响 应 变 量 的 边 际 相 关 系 数 很 小 ꎬ 这 样 会 导 致 选 择 出 来 的 模 型 错 误 ꎻ 其 次 ꎬ 传 统 变 量 选 择 方 法 是 不 连 续 的 ꎬ 稳 定 性 不 强 ꎬ 数 据 的 微 小 扰 动 可 能 导 致 选 择 的 结 果 差 异 很 大. 相 反 ꎬ 本 文 所 使 用 的 几 种 现 代 变 量 选 择 方 法 很 好 地 克 服 了 传 统 方 法 的 缺 陷 ꎬ 先 用 几 种 现 代 统 计 学 方 法 建 立 预 测 模 型 ꎬ 通 过 和 传 统 的 方 法 建 立 的 模 型 相 比 较 ꎬ 得 到 最 优 模 型. 1 数 据 来 源 采 用 随 机 整 群 抽 样 方 法. 以 学 校 为 单 位 ꎬ 在 河 南 安 阳 城 区 随 机 抽 取 4 所 初 中 [11] ꎬ 对 学 生 进 行 详 细 眼 部 检 查 和 问 卷 调 查. 眼 部 检 查 过 程 中 ꎬ 采 用 1% 环 戊 通 和 美 多 丽 散 瞳 ꎬ 电 脑 验 光 获 得 屈 光 度 值 并 计 算 等 效 球 镜 度 ꎬ 近 视 定 义 为 等 效 球 镜 - 0 5Dꎬ 非 接 触 光 学 测 量 仪 Lenstar LS900 获 取 眼 轴 长 度 角 膜 曲 率 和 前 房 深 度 等. 经 过 数 据 初 步 处 理 之 后 ꎬ 得 到 的 完 整 的 数 据 集 共 有 1 481 个 观 测 ꎬ46 个 变 量 ꎬ 其 中 17 个 连 续 变 量 ꎬ4 个 0 ~ 1 变 量 ꎬ25 个 多 元 属 性 变 量. 例 如 GENDER 表 示 性 别 ꎬ RAXISLEG 表 示 眼 轴 长 度 ꎬ st1 工 作 日 睡 眠 时 间 等 等 ꎬ 更 详 细 的 变 量 标 签 见 附 录. 考 虑 到 各 变 量 的 数 量 级 差 距 较 大 ꎬ 在 数 据 初 步 处 理 过 程 中 已 将 连 续 变 量 标 准 化. 2 方 法 介 绍 本 文 首 先 运 用 传 统 的 Logistic 回 归 的 P 值 检 验 法 ( 对 照 组 )ꎻ 其 次 ꎬ 由 于 数 据 集 中 有 不 少 多 元 属 性 变 量 转 化 为 哑 变 量 ꎬ 需 要 将 它 们 分 为 一 组 ꎬ 故 可 以 用 现 代 变 量 选 择 方 法 Group Lasso 和 Group MCP 选 择 变 量 ꎻ 同 时 ꎬ 若 每 组 有 多 个 变 量 ꎬ 用 上 述 方 法 不 能 实 现 组 内 挑 选 变 量 ꎬ 这 时 采 用 Composite MCP 方 法 建 立 模 型. 这 些 方 法 有 着 各 自 不 同 的 特 点. 传 统 Logistic 回 归 方 法 简 单 易 执 行 ꎬ 原 理 简 单 ꎻGroup Lasso 和 Group MCP 通 过 惩 罚 函 数 项 ꎬ 适 当 调 节 参 数 ꎬ 可 以 组 间 挑 选 变 量 ꎻcomposite MCP 是 Group MCP 的 推 广 ꎬ 该 方 法 可 以 进 行 双 层 变 量 选 择 组 内 和 组 间 ꎬ 应 用 范 围 更 为 广 泛. 2 1 变 量 选 择 方 法 介 绍 鉴 于 数 据 集 的 响 应 变 量 为 二 值 变 量 ꎬ 可 以 用 传 统 的 Logistic 回 归 模 型. 设 响 应 变 量 为 Y = (y 1 ꎬy 2 ꎬ ꎬy n ) T ꎬp 个 自 变 量 分 别 记 为 x 1 ꎬx 2 ꎬ ꎬ x p ꎬ 记 x = (1ꎬx 1 ꎬx 2 ꎬ ꎬx p ) T ꎬ 在 p 个 自 变 量 的 作 用 下 出 现 成 功 的 条 件 概 率 记 为 P{Y = 1 x}ꎬ 那 么 Logistic 模 型 如 下 P{Y = 1 x} = e xt β 1 + e xt β [0ꎬ1]ꎬ 其 中 ꎬ β = (β 0 ꎬβ 1 ꎬβ 2 ꎬ ꎬβ p ) T ꎬβ 0 为 常 数 项 ꎬ β 1 ꎬ β 2 ꎬ ꎬβ p 为 Logistic 回 归 系 数. 根 据 给 定 的 观 测 ꎬ 可 以 计 算 出 该 学 生 近 视 的 概 率 ꎬ 然 后 通 过 设 定 阈 值 ( 一 般 取 0 5)ꎬ 来 判 定 是 否 近 视. 2 1 1 多 元 Logistic 回 归 的 P 值 判 别 法 该 方 法 和 医 学 上 变 量 选 择 方 法 一 致 ꎬ 通 常 根
730 第 32 卷 据 变 量 P 值 ꎬ 逐 步 筛 选 变 量 ( 向 后 选 择 法 ). 首 先 ꎬ 让 所 有 的 变 量 都 进 入 Logistic 回 归 模 型 ꎬ 然 后 找 出 P 值 最 大 的 变 量 ꎬ 然 后 将 其 删 除 ꎬ 再 重 新 建 立 Logistic 回 归 模 型 ꎬ 接 着 再 删 除 P 值 最 大 的 变 量 ꎬ 依 次 类 推 ꎬ 直 至 所 有 的 变 量 都 显 著. 一 般 给 定 显 著 性 水 平 α( 通 常 取 0 05)ꎬ 当 所 有 变 量 的 P 都 满 足 P < α 时 ꎬ 算 法 结 束 ꎬ 最 终 得 到 的 变 量 作 为 变 量 选 择 的 结 果 ꎬ 建 立 Logistic 回 归 模 型. 2 1 2 Group Lasso 和 Group MCP 数 据 集 中 存 在 一 些 属 性 变 量 ꎬ 在 计 算 时 需 要 引 入 哑 变 量. 因 此 在 进 行 变 量 选 择 时 必 须 要 保 证 某 属 性 变 量 的 一 个 哑 变 量 进 入 模 型 ꎬ 则 该 变 量 的 其 余 哑 变 量 也 必 须 进 入 模 型. 因 此 将 各 属 性 变 量 的 哑 变 量 分 别 分 为 一 组 ꎬ 以 保 证 同 进 同 出 模 型. 分 组 之 后 ꎬ 本 文 采 用 2 种 不 同 的 方 法 来 进 行 变 量 选 择. 1) Group Lasso 1996 年 ꎬTibshirani [12] 提 出 Lasso 方 法 ꎬ 该 方 法 的 线 性 模 型 如 下 min 1 β { 2n Y - Xβ 2 2 + λ β 1 }ꎬ (1) 设 数 据 集 有 n 个 观 测 ꎬp 个 属 性 ꎬX 为 设 计 矩 阵. Lasso 方 法 是 在 回 归 系 数 的 绝 对 值 之 和 小 于 一 个 常 数 的 约 束 条 件 下 ꎬ 使 残 差 平 方 和 最 小 化 ꎬ 从 而 使 得 某 些 自 变 量 的 回 归 系 数 为 0ꎬ 得 到 解 释 力 较 强 的 模 型. 该 方 法 优 点 是 速 度 快 连 续 ꎬ 缺 点 不 是 无 偏 估 计. 上 述 方 法 不 涉 及 分 组 问 题 ꎬ 如 果 自 变 量 分 成 m 个 不 同 的 组 ꎬ 可 以 通 过 选 择 若 干 组 达 到 变 量 选 择 的 目 的 ꎬ 这 就 是 Group Lasso [13] ꎬ 其 线 性 模 型 如 下 min β { 1 2n Y - m λ m X (l) β (l) 2 2 p l β (l) 2} ꎬ (2) 其 中 ꎬ β (l) 表 示 第 l 组 的 回 归 系 数 ꎬp l 为 β (l) 的 长 度 ꎬX (l) 是 β (l) 对 应 的 设 计 矩 阵 ꎬλ 为 调 节 参 数. 该 优 化 问 题 是 通 过 最 小 化 一 个 损 失 + 惩 罚 的 函 数 问 题 来 解 决. 线 性 模 型 对 应 的 损 失 函 数 是 残 差 平 方 和 项 ꎬ 而 我 们 的 数 据 的 响 应 变 量 是 二 元 属 性 变 量 ꎬ 把 残 差 平 方 和 项 作 为 其 损 失 函 数 已 不 再 合 适 ꎬ 于 是 引 入 Logistic 模 型 的 对 数 似 然 函 数 L(β) 作 为 + 其 损 失 函 数 [14] ꎬ 即 min β { - 1 n L(β) + λ m p l β (l) 2 }ꎬ L(β) = n i = 1 m y i X (l) i β (l) - n log(1 + e m X (l) i β (l) )ꎬ i = 1 (3) 其 中 ꎬ X (l) i 表 示 X (l) 的 第 i 行. 需 要 指 出 的 是 ꎬGroup Lasso 方 法 是 Lasso 方 法 的 推 广 ꎬ 应 用 范 围 更 为 广 泛. 如 果 Group Lasso 中 的 每 组 只 有 一 个 变 量 ꎬ Group Lasso 则 退 化 为 Lasso 方 法. 鉴 于 响 应 变 量 是 二 元 属 性 变 量 ꎬ 本 文 只 用 到 各 方 法 的 Logistic 模 型 形 式 ꎬ 故 后 面 的 group MCP 和 composite MCP 模 型 只 介 绍 其 Logistic 模 型 ꎬ 而 线 性 模 型 则 不 再 介 绍. 2)Group MCP [15] MCP ( minimax concave penalty ) 方 法 和 Lasso 类 似 ꎬ 通 过 不 同 的 惩 罚 函 数 ꎬ 来 进 行 变 量 选 择. MCP 方 法 具 有 连 续 性 ꎬ 稀 疏 性 及 无 偏 性. Group MCP [16] 的 Logistic 模 型 如 下 : min β { - 1 n L(β) + m f λꎬγ ( p l β (l) 2 ) }ꎬ t f λꎬγ (t) = λ (1 - x / γλ) + dx 0 = λt - t2 / 2γꎬ 若 t γλꎻ { (4) γλ 2 / 2ꎬ 若 t > γλ. 该 惩 罚 函 数 具 有 连 续 导 数 f λꎬγ (t) = λ - t / γꎬ 若 t γλꎻ { 0ꎬ 若 t > γλ. 设 数 据 共 有 m 个 组 ꎬ 第 l 组 共 有 K l 个 变 量 ꎻλ 0 为 调 节 参 数 ꎬL(β) 式 同 (3)ꎬ 参 数 γ > 0ꎬ 在 变 量 标 准 化 的 情 况 下 [16] ꎬ 一 般 取 γ = 3. 2 1 3 Composite MCP 按 照 2 1 2 的 分 组 方 法 ꎬ 数 据 分 的 组 数 多 且 组 内 无 法 变 量 选 择. 从 另 一 个 角 度 考 虑 分 组 问 题 ꎬ 根 据 定 性 分 析 ꎬ 将 变 量 分 为 7 组 ꎬ 分 别 为 遗 传 因 素 个 体 参 数 近 距 离 工 作 量 户 外 活 动 量 用 眼 习 惯 生 活 环 境 和 饮 食 习 惯. 由 于 每 组 内 变 量 的 重 要 程 度 不 尽 相 同 ꎬ 若 按 照 2 1 2 的 方 法 ꎬ 则 会 将 一 些 不 重 要 的 变 量 纳 入 模 型 ꎬ 故 在 选 择 分 组 后 ꎬ 最 好 能 在 挑 选 的 组 内 进 行 二 次 筛 选 ꎬ 剔 除 一 些 不 重 要 的 变 量 ꎬ 从 而 达 到 组 内 变 量 选 择 的 效 果. 量 选 择. [17] Composite MCP 方 法 可 以 进 行 双 重 变
第 6 期 海 豹 ꎬ 等 : 现 代 变 量 选 择 方 法 在 青 少 年 近 视 研 究 中 的 应 用 731 它 的 Logistic 模 型 如 下 min β - 1 n L(β) + m f λꎬa ( K l { f λꎬγ ( β lk )) }ꎬ k = 1 (5) 设 β lk 表 示 第 l 组 的 第 k 个 变 量 的 回 归 系 数 ꎬλ 0ꎬf λꎬγ (t)ꎬl(β)ꎬk l 同 式 (3) 式 (4)ꎬa = K l γλ / 2 为 外 部 调 节 参 数 ꎬ 参 数 γ > 0ꎬ 通 常 情 况 下 取 γ = 3. 上 面 介 绍 了 4 种 具 体 的 建 模 方 法 ꎬ 响 应 变 量 都 是 二 元 变 量 ꎬ 因 此 可 以 用 ROC 曲 线 评 价 模 型 的 好 坏. 2 2 ROC 曲 线 [18] ROC 曲 线 即 接 受 者 操 作 特 征 曲 线 (receiver operating characteristic curve)ꎬ 是 一 种 坐 标 图 式 的 判 断 一 个 二 元 分 类 器 性 能 的 分 析 工 具. ROC 曲 线 定 义 Y 轴 为 灵 敏 度 ( sensitivity) 或 者 真 阳 性 率 (TPRꎬ 真 阳 性 率 指 在 所 有 实 际 为 阳 性 的 样 本 中 ꎬ 被 正 确 地 判 断 为 阳 性 之 比 率 )ꎬ 同 时 定 义 X 轴 为 1 - 特 异 度 (1 - specificity) 或 者 假 阳 性 率 (FPRꎬ 假 阳 性 率 指 在 所 有 实 际 为 阴 性 的 样 本 中 ꎬ 被 错 误 地 判 断 为 阳 性 之 比 率 ). 对 于 一 个 二 元 分 类 器 ꎬ 当 给 定 一 个 阈 值 时 ꎬ 将 得 到 一 个 具 体 的 ( FRPꎬTPR) 数 据 对 ꎬ 将 其 和 ROC 曲 线 中 的 一 个 点 对 应 起 来 ꎻ 当 选 取 一 组 不 同 的 阈 值 时 ꎬ 可 以 得 到 ROC 曲 线 中 的 一 系 列 点 ꎬ 并 将 这 些 点 按 顺 序 连 接 起 来 ꎬ 得 到 一 条 ROC 曲 线. 判 断 一 个 分 类 器 好 坏 的 标 准 是 ROC 曲 线 下 的 面 积 ( AUCꎬthe area under the curve). 当 分 类 器 趋 于 完 美 分 类 器 时 ꎬ 每 个 点 ( FRPꎬTPR) 都 会 向 ( 0ꎬ 1 ) 靠 近 ꎬ 所 以 当 AUC 面 积 越 大 ꎬ 分 类 器 越 好. 本 文 将 该 数 据 量 的 90% (1 332) 用 来 建 立 模 型 ꎬ10% (149) 用 来 绘 制 对 应 模 型 的 ROC 曲 线 ꎬ 然 后 通 过 比 较 几 种 不 同 模 型 的 AUCꎬ 从 而 选 出 较 优 的 模 型 分 类 器. 3 实 验 结 果 及 分 析 3 1 传 统 Logistic 回 归 模 型 的 P 值 筛 选 法 该 方 法 即 向 后 选 择 变 量 法 ꎬ 鉴 于 篇 幅 问 题 ꎬ 向 前 和 逐 步 选 择 变 量 法 未 列 出. 第 一 步 ꎬ 计 算 运 用 Logistic 回 归 模 型 ꎬ 计 算 所 有 自 变 量 的 P 值 ꎬ 其 中 属 性 变 量 FAST 的 P = 0 999 3ꎬ 故 先 将 该 变 量 去 掉 ꎻ 第 二 步 ꎬ 重 新 建 立 模 型 ꎬ 得 到 具 有 最 大 P 值 (0 977 6) 的 变 量 AMBꎬ 将 其 删 除 ꎻ 以 此 类 推 ꎬ 直 至 所 有 留 下 来 的 变 量 的 P 值 显 著 (P < 0 05)ꎬ 最 终 得 到 的 变 量 如 表 1. Table 1 Parameter 表 1 变 量 选 择 信 息 The information of variable selection Estimate Standad error Wald Chi Squae Pr > ChiSq Intercept 2 30 0 72 10 16 0 001 4 GENDER - 0 96 0 30 10 49 0 001 2 DRNBASE 2 58 0 30 72 17 < 0 000 1 NRNBASE - 0 67 0 34 3 85 0 049 6 RCORCU 1 49 0 23 41 46 < 0 000 1 RAXISLEG 2 69 0 35 57 60 < 0 000 1 RPR - 1 11 0 21 26 70 < 0 000 1 YTR - 1 73 0 24 51 36 < 0 000 1 st1-0 33 0 14 5 60 0 0179 TUTOR1 0 1 84 0 71 6 80 0 009 1 TUTOR1 1 1 50 0 72 4 38 0 036 4 最 终 得 到 9 个 显 著 变 量 ꎬ 分 别 是 GENDER DRNBASE NRNBASE RCORCU RAXISLEG RPR YTR st1 和 TUTOR1ꎬ 根 据 表 1 可 以 建 立 青 少 年 近 视 概 率 P 与 上 述 变 量 的 模 型 ꎬ 其 中 TUTOR1 为 属 性 变 量 ꎬTUTOR1 = 0 表 示 没 有 参 加 户 外 类 型 辅 导 班 ꎬTUTOR1 = 1 表 示 参 加 户 外 类 型 辅 导 班 ꎬTUTOR1 = 2 表 示 不 确 定 是 否 参 加 此 类 辅 导 班 ꎬ 则 有 下 面 的 预 测 模 型 : f 1 (x) = 2 30-0 96 GENDER + 2 58 DRMBASE - 0 67 NRNBASE + 1 49 RCORCU + 2 69 RAXISLEG - 1 11 RPR - 1 73 YTR - 0 33 st1 + 1 84 I ( TUTOR1 = 0) + 1 50 I(TUTOR1 = 1) 则 P = e f 1 (x) / (1 + e f 1 (x) )ꎬ 其 中 I( ) 为 示 性 函 数. 3 2 Group Lasso 和 Group MCP 模 型 将 属 性 变 量 转 化 的 哑 变 量 分 为 一 组 和 连 续 变 量 共 得 到 46 组 变 量. 下 述 2 种 方 法 ꎬ 都 是 运 用 交 叉 验 证 的 方 法 ꎬ 通 过 调 整 λꎬ 找 出 使 得 交 叉 验 证 错 误 达 到 最 小 的 λꎬ 从 而 选 出 最 优 的 模 型. 3 2 1 Group Lasso 该 方 法 共 选 择 20 组 ( 其 中 8 组 哑 变 量 )ꎬ 共 36 个 变 量 ꎬ 分 别 为 : GENDER RANTECHA RNCONPRE IFTAI BULB DRNBASE RCORCU RAXISLEG RPR JTR YTR st1 TUTOR1 TUTOR2 READN1 JUICE FAST COLA SUNP DAI. 交 叉 验 证 选 择 过 程 如 图 1ꎬ 横 坐 标 表 示 调 节
732 第 32 卷 参 数 λ 的 对 数 值 ꎬ 纵 坐 标 表 示 交 叉 验 证 错 误. 每 个 λ 对 应 一 个 交 叉 验 证 错 误 和 变 量 选 择 的 组 数 ꎬ 例 如 当 λ = 0 005 6 时 ꎬ 交 叉 验 证 错 误 最 小 为 0 33ꎬ 此 时 选 择 了 20 组 变 量. 框 内 曲 线 的 放 大. Fig. 2 图 2 各 模 型 的 ROC 曲 线 比 较 图 The ROC curve comparison among the models 图 1 通 过 交 叉 验 证 错 误 率 选 择 组 数 的 过 程 Fig. 1 The process of group selection by cross validation of error rates 3 2 2 Group MCP 与 Group Lasso 方 法 相 比 ꎬGroup MCP 采 用 不 同 的 惩 罚 函 数. 运 用 与 3 2 1 中 相 同 的 原 则 ꎬ 根 据 交 叉 验 证 错 误 选 择 最 佳 模 型. 最 优 模 型 在 λ = 0 010 8 处 取 得 最 小 交 叉 验 证 错 误 0 33ꎬ 进 入 模 型 的 变 量 有 8 组 ꎬ 分 别 为 GENDER DRNBASE RCORCU RAXISLEG RPR YTR st1 和 TUTOR1ꎬ 具 体 模 型 如 下 f 2 (x) = 2 23-0 86 GENDER + 2 20 DRNBASE + 1 35 RCORCU + 2 42 RAXISLEG - 0 99 RPR - 1 70 YTR - 0 29 st1 + 1 73 I(TUTOR1 = 0) + 1 41 I(TUTOR1 = 1)ꎬ 则 P = e f 2 (x) / (1 + e f 2 (x) ). 3 3 Composite MCP 模 型 该 方 法 既 考 虑 组 间 稀 疏 ꎬ 又 考 虑 组 内 稀 疏. 这 种 方 法 是 3 2 2 的 方 法 的 拓 展 ꎬ 具 有 更 好 的 应 用. 根 据 最 小 交 叉 验 证 错 误 原 则 ꎬ 最 优 模 型 选 择 2 个 组 ꎬ 共 7 个 变 量 ꎬ 此 时 λ = 0 014 4ꎬ 7 个 变 量 分 别 为 GENDER DRNBASE RCORCU RAXISLEG RPR YTR st1ꎬ 在 模 型 中 对 应 的 回 归 系 数 分 别 为 2 23( 常 数 项 ) - 0 86 2 20 1 35 2 42-0 99-1 70-0 29. 3 4 各 模 型 ROC 曲 线 比 较 各 模 型 的 ROC 曲 线 如 图 2ꎬ 图 3 是 图 2 中 方 图 3 图 2 中 方 框 内 图 形 的 放 大 Fig. 3 Enlarged view of the box in Fig. 2 各 模 型 ROC 曲 线 的 AUC 信 息 如 表 2. 表 2 各 模 型 的 AUC 信 息 Table 2 The AUC information of the models 模 型 名 称 AUC AUC 95% 置 信 区 间 Logistic 0 973 1 [0 946 3ꎬ0 999 9] grlasso 0 973 5 [0 948 4ꎬ0 998 6] grmcp 0 973 1 [0 948 4ꎬ0 998 6] cmcp 0 973 7 [0 948 8ꎬ0 998 6] 通 过 表 2 中 AUC 大 小 的 比 较 ꎬ 现 代 统 计 方 法 的 结 果 都 不 比 传 统 Logistic 回 归 模 型 差. 其 中 CMCP 模 型 的 AUC 最 大 ꎬ 共 选 择 了 7 个 变 量 ꎬ 所 以 应 把 该 模 型 作 为 最 佳 模 型 ꎬ 用 来 作 为 判 断 青 少 年 近 视 患 病 率 的 标 准. 4 结 论 和 讨 论 各 个 变 量 在 4 个 模 型 中 出 现 的 频 率 直 方 图 如 图 4. 经 比 较 发 现 ꎬ 共 有 7 个 变 量 出 现 在 4 个
第 6 期 海 豹 ꎬ 等 : 现 代 变 量 选 择 方 法 在 青 少 年 近 视 研 究 中 的 应 用 733 模 型 中 ꎬ 并 且 正 好 是 Composite MCP 方 法 选 择 的 变 量 ꎬ 可 见 这 7 个 变 量 是 影 响 青 少 年 近 视 的 重 要 因 素 ꎬ 这 些 变 量 分 别 为 性 别 ( GENDER) ꎬ 眼 轴 长 度 ( RAXISLEG) ꎬ 角 膜 曲 率 ( RCORCU) ꎬ 工 作 日 睡 眠 时 间 ( st1 ) ꎬ 不 戴 眼 镜 远 视 力 ( DRNBASE) ꎬ 散 瞳 前 电 脑 验 光 度 数 ( RPR) ꎬ 远 距 离 调 节 反 应 ( YTR). 图 4 各 变 量 选 择 方 法 的 频 率 统 计 Fig. 4 Frequency statistics of variable selection methods 从 各 模 型 的 AUC 来 看 ꎬ 其 AUC 都 比 较 大 ꎬ 接 近 于 1ꎬ 这 说 明 各 模 型 所 选 的 变 量 都 有 一 定 的 参 考 价 值. 从 上 面 的 变 量 可 以 看 出 ꎬ 青 少 年 应 该 注 意 平 时 的 睡 眠 时 间 ꎬ 尽 量 不 要 熬 夜 ꎬ 这 样 有 利 于 近 视 的 预 防 及 减 缓. 从 图 4 可 以 看 出 ꎬ 是 否 参 加 户 外 类 辅 导 班 ( TUTOR1) 出 现 在 3 个 模 型 中 ꎬ 该 变 量 也 可 以 参 考 ꎬ 可 以 认 为 该 变 量 是 影 响 近 视 的 一 般 因 素 ꎬ 在 平 时 也 应 该 注 意 ꎻ 同 时 ꎬ 虽 然 有 些 变 量 只 进 入 一 个 模 型 ꎬ 例 如 父 母 戴 眼 镜 的 人 数 (DAI)ꎬ 在 一 些 研 究 中 [5] ꎬ 该 变 量 是 一 个 显 著 的 影 响 因 素 ꎬ 我 们 可 以 作 为 参 考 ꎻ 还 有 一 些 变 量 例 如 是 否 使 用 台 灯 (IFTAI)ꎬ 使 用 何 种 灯 泡 ( BULB)ꎬ 虽 然 最 终 没 有 选 择 这 些 变 量 ꎬ 但 是 这 些 变 量 和 青 少 年 的 学 习 生 活 息 息 相 关 ꎬ 也 应 给 予 关 注 ꎻ 在 饮 食 方 面 ꎬ 对 于 果 汁 类 ꎬ 快 餐 类 ꎬ 碳 酸 饮 料 类 食 品 可 能 也 是 影 响 青 少 年 视 力 的 次 要 因 素. 综 上 所 述 ꎬ 影 响 近 视 的 因 素 是 多 方 面 的 ꎬ 要 想 有 效 的 预 防 近 视 或 者 减 缓 近 视 的 发 展 ꎬ 青 少 年 要 养 成 良 好 的 学 习 生 活 习 惯 ꎬ 例 如 合 理 安 排 作 息 时 间 ꎬ 注 意 饮 食 等. 参 考 文 献 [ 1 ] Morgan I Gꎬ Ohno Matsui Kꎬ Saw S M. Myopia [ J]. The Lancetꎬ 2012ꎬ 379(9827): 1 739 1 748. [ 2 ] Saw S Mꎬ Goh P Pꎬ Cheng Aꎬ et al. Ethnicity specific prevalences of refractive errors vary in Asian children in neighbouring Malaysia and Singapore[ J]. British journal of ophthalmologyꎬ 2006ꎬ 90(10): 1 230 1 235. [ 3 ] Rose K Aꎬ Morgan I Gꎬ Ip Jꎬ et al. Outdoor activity reduces the prevalence of myopia in children [ J]. Ophthalmologyꎬ 2008ꎬ 115(8): 1 279 1 285. [ 4 ] Jones Jordan L Aꎬ Mitchell G Lꎬ Cotter S Aꎬ et al. CLEERE Study Group. Visual activity before and after the onset of juvenile myopia[ J]. Invest Ophthalmol Vis Sci ꎬ 2011ꎬ 52: 1 841 1 850. [ 5 ] French A Nꎬ Morgan I Gꎬ Mitchell Pꎬ et al. Risk factors for incident myopia in Australian schoolchildren: the Sydney adolescent vascular and eye study[ J]. Ophthalmologyꎬ 2013ꎬ 120(10): 2 100 2 108. [ 6 ] Rose K Aꎬ Morgan I Gꎬ Smith Wꎬ et al. Myopiaꎬ lifestyleꎬ and schooling in students of Chinese ethnicity in Singapore and Sydney[ J]. Archives of ophthalmologyꎬ 2008ꎬ 126(4): 527 530. [ 7 ] Mutti D Oꎬ Mitchell G Lꎬ Moeschberger M Lꎬ et al. Parental myopiaꎬ near workꎬ school achievementꎬ and children s refractive error [ J ]. Investigative ophthalmology & visual scienceꎬ 2002ꎬ 43(12): 3 633 3 640. [ 8 ] Ip J Mꎬ Huynh S Cꎬ Robaei Dꎬ et al. Ethnic differences in refraction and ocular biometry in a population based sample of 11 15 year old Australian children[ J]. Eyeꎬ 2008ꎬ 22(5): 649 656. [ 9 ] Borchert M Sꎬ Varma Rꎬ Cotter S Aꎬ et al. Risk factors for hyperopia and myopia in preschool children: the multi ethnic pediatric eye disease and Baltimore pediatric eye disease studies[ J]. Ophthalmologyꎬ 2011ꎬ 118(10): 1 966 1 973. [10] Li S Mꎬ Liu L Rꎬ Li S Yꎬ et al. Designꎬ methodology and baseline data of a school based cohort study in central China: the Anyang childhood eye study [ J ]. Ophthalmic Epidemiologyꎬ 2013ꎬ 20:348 359. [11] 李 翯 ꎬ 李 仕 明 ꎬ 刘 洛 如 ꎬ 等. 河 南 安 阳 初 中 学 生 眼 屈 光 度 及 生 物 学 参 数 分 布 [J]. 中 华 医 学 杂 志 ꎬ2014ꎬ94( 17):1 284 1 288. [12] Tibshirani R. Regression shrinkage and selection via the lasso [ J ]. Journal of the Royal Statistical Society. Series B ( Methodological) ꎬ 1996: 267 288. [13] Yuan Mꎬ Lin Y. Model selection and estimation in regression with grouped variables [ J]. Journal of the Royal Statistical Society: Series B ( Statistical Methodology) ꎬ 2006ꎬ 68 (1): 49 67. [14] Meier Lꎬ Van De Geer Sꎬ Bühlmann P. The group lasso for logistic regression [ J ]. Journal of the Royal Statistical Society: Series B ( Statistical Methodology) ꎬ 2008ꎬ 70 (1): 53 71. [15] Zhang C H. Penalized linear unbiased selection [ J ]. Department of Statisticsꎬ Rutgers Universityꎬ 2007: 2 007 2 003. [16] Breheny Pꎬ Huang J. Penalized methods for bi level variable
734 第 32 卷 selection[ J ]. Statistics and its Interfaceꎬ 2009ꎬ 2 ( 3 ): 369 380. [17] Huang Jꎬ Breheny Pꎬ Ma S. A selective review of group selection in high dimensional models[ J]. Statistical Scienceꎬ 2012ꎬ 27: 481 499. [18] Zhou X Hꎬ McClish D Kꎬ Obuchowski N A. 诊 断 医 学 统 计 学 [M]. 北 京 : 人 民 卫 生 出 版 社 ꎬ2005:13. 附 录 各 变 量 对 应 的 标 签 : 变 量 标 签 RA 是 否 近 视 GENDER 性 别 RAXISLEG 右 眼 眼 轴 RANTECHA 右 眼 前 房 深 度 RNCONPRE 右 眼 眼 压 均 值 HEIGHT 身 高 WEIGHT 体 重 YOU3 独 立 阅 读 年 龄 ETEST 是 否 定 期 做 眼 科 检 查 AMB 是 否 有 弱 视 DIST 读 书 时 脸 到 书 本 的 距 离 COSTM 是 否 有 歪 头 看 字 的 习 惯 FTP 写 字 时 手 指 尖 距 离 笔 尖 的 距 离 CTT 看 电 视 时 离 电 视 机 的 距 离 REST 连 续 读 书 多 久 停 下 来 休 息 一 会 TUTOR1 是 否 参 加 户 外 运 动 类 辅 导 班 TUTOR2 是 否 参 加 室 内 学 习 类 辅 导 班 READN1 每 周 阅 读 多 少 页 IFTAI 读 书 时 ꎬ 是 否 采 用 台 灯 BULB 读 书 时 ꎬ 用 哪 种 照 明 灯 泡 TWORK 连 续 不 断 地 近 距 离 工 作 多 长 时 间 才 停 下 来 休 息 一 会 TUTOR 是 否 有 家 教 音 乐 课 美 术 课 辅 导 班 EYE 是 否 做 眼 保 健 操 FEEL 按 摩 时 是 否 有 酸 胀 感 觉 JUICE 过 去 4 周 内 ꎬ 喝 100% 水 果 汁 频 率 REDM 过 去 4 周 内 ꎬ 吃 红 肉 频 率 BEAN 过 去 4 周 内 ꎬ 吃 豆 类 食 品 频 率 FRIES 过 去 4 周 内 ꎬ 吃 膨 化 食 品 频 率 FAST 过 去 4 周 内 ꎬ 吃 快 餐 频 率 SUGAR 过 去 4 周 内 ꎬ 吃 糖 果 频 率 ICECRM 过 去 4 周 内 ꎬ 吃 甜 食 频 率 COLA 过 去 4 周 内 ꎬ 喝 碳 酸 饮 料 频 率 DRINK 过 去 4 周 内 ꎬ 喝 运 动 饮 料 频 率 DRTEA 过 去 4 周 内 ꎬ 喝 茶 频 率 SUNP 暑 假 ꎬ 使 用 防 晒 霜 频 率 DRNBASE 不 戴 眼 镜 远 视 力 NRNBASE 不 戴 眼 镜 近 视 力 RPR 散 瞳 前 电 脑 验 光 JTR 近 距 离 调 节 反 应 YTR 远 距 离 调 节 反 应 RCORCU 角 膜 曲 率 DAI 父 母 带 眼 镜 的 人 数 ACI 上 学 期 间 近 距 离 工 作 量 BCI 上 学 期 间 远 距 离 活 动 量 CCI 假 期 间 近 距 离 工 作 量 DCI 假 期 远 距 离 活 动 量 st1 工 作 日 睡 眠 时 间 附 录 中 共 有 46 个 变 量 ꎬ 二 元 属 性 变 量 有 RAꎬ GENDERꎬIFTAIꎬBULBꎬTUTORꎻ 三 元 属 性 变 量 有 ETESTꎬ AMBꎬ COSTMꎬ TUTOR1ꎬ TUTOR2ꎬ READN1ꎬEYEꎬDAIꎻ 四 元 属 性 变 量 有 FEELꎻ 五 元 属 性 变 量 有 SUNPꎬJUICEꎬREDMꎬBEANꎬFRIESꎬ FASTꎬSUGARꎬ ICECRMꎬ COLAꎬ DRINKꎬ DRTEAꎬ DISTꎬ FTPꎬ CTTꎻ 七 元 属 性 变 量 有 RESTꎬ TWORK. 连 续 变 量 共 17 个 ꎬRAXISLEG 单 位 mmꎬ 取 值 范 围 [18 98ꎬ28 09]ꎻ RANTECHA 单 位 mmꎬ 取 值 范 围 [ 2 06ꎬ 4 49 ]ꎻ RNCONPRE 单 位 mmhgꎬ 取 值 范 围 [6ꎬ28]ꎻ HEIGHT 单 位 cmꎬ 取 值 范 围 [ 115ꎬ 179 ]ꎻ WEIGHT 单 位 kgꎬ 取 值 范 围 [20ꎬ 85 ]ꎻ YOU3 单 位 aꎬ 取 值 范 围 [ 3ꎬ 12 ]ꎻ DRNBASE 取 值 范 围 为 [ - 0 22ꎬ1 ]ꎻ NRNBASE 取 值 范 围 [ - 0 30ꎬ 1 ]ꎻ RPR 的 取 值 范 围 为 [ - 8 875ꎬ6 125]ꎻJTR 的 取 值 范 围 为 [ - 8 93ꎬ 3 57 ]ꎻ YTR 取 值 范 围 [ - 7 955ꎬ 5 225 ]ꎻ RCORCU 单 位 mmꎬ 取 值 范 围 [38 615ꎬ48 99 ]ꎻ ACI 单 位 hꎬ 取 值 范 围 [20 75ꎬ137 67]ꎻBCI 单 位 hꎬ 取 值 范 围 [8 5ꎬ225]ꎻ CCI 单 位 hꎬ 取 值 范 围 [24 67ꎬ177 38]ꎻDCI 单 位 hꎬ 取 值 范 围 [16 25ꎬ 225 5]ꎻst1 单 位 hꎬ 取 值 范 围 [4ꎬ18 5].