第 12 卷 第 3 期 2 1 4 年 9 月 生 物 信 息 学 Chinese Journal of Bioinformatics Vol.12 No.3 Sep.,214 doi:1 3969 / j.issn.1672-5565.214.3.1 癌 症 相 关 的 DNA 甲 基 化 连 锁 区 域 王 丽 波, 王 芳, 张 岩 ( 哈 尔 滨 医 科 大 学 生 物 信 息 科 学 与 技 术 学 院, 黑 龙 江 哈 尔 滨 1586) 摘 要 :DNA 甲 基 化 是 重 要 的 表 观 遗 传 标 记 之 一, 在 转 录 调 控 中 起 直 接 作 用 DNA 甲 基 化 的 异 常 与 癌 症 的 发 生 发 展 密 切 相 关 高 通 量 测 序 使 得 在 单 碱 基 分 辨 率 下 检 测 全 基 因 组 的 DNA 甲 基 化 水 平 成 为 可 能 本 文 基 于 临 近 CpGs 位 点 甲 基 化 水 平 的 相 关 性 挖 掘 DNA 甲 基 化 连 锁 区 域 结 果 发 现 DNA 甲 基 化 连 锁 区 域 的 甲 基 化 水 平 和 模 式 在 癌 症 中 存 在 异 常, 而 且 显 著 富 集 到 分 化 / 发 育 相 关 的 生 物 学 功 能 DNA 甲 基 化 连 锁 区 域 的 挖 掘 有 助 于 对 具 有 生 物 学 功 能 的 表 观 遗 传 标 记 的 进 一 步 理 解, 有 助 于 对 癌 症 诊 断 的 表 观 遗 传 标 记 的 挖 掘 关 键 词 :DNA 甲 基 化 ; 连 锁 不 平 衡 ; 癌 症 ; 相 关 系 数 中 图 分 类 号 :R978 1+6 文 献 标 志 码 :A 文 章 编 号 :1672-5565(214) -3-213-5 DNA methylation linkage disequilibrium block are associated with cancer WANG Libo, WANG Fang, ZHANG Yan ( Department of Bioinformatics, Harbin Medical University, Harbin 1586, China) Abstract:DNA methylation is one of the important epigenetic markers which plays a direct role in transcriptional regulation. Abnormal of DNA methylation is closely associated with cancer development. High throughput sequencing technology has made it possible to measure genome wide DNA methylation level based on single base resolution. We identified DNA methylation linkage disequilibrium blocks that showed strong correlation of DNA methylation between adjacent CpGs. We found that the methylation levels and patterns of block in cancer were significantly different from normal, and enriched in differentiation / development biological functions. The identification of DNA methylation block will help further understanding of epigenetic makers having biological functions, and even the mining of epigenetic biomarkers for cancer diagnosis. Keywords:DNA methylation; Linkage disequilibrium; ; Correlation coefficient DNA 甲 基 化 是 表 观 遗 传 的 重 要 修 饰 之 一, 并 被 广 泛 研 究 DNA 甲 基 化 一 般 发 生 于 CG 相 连 的 二 核 苷 酸 部 位 (CpGs), 通 过 改 变 染 色 质 结 构 DNA 构 造 和 稳 定 性 等 对 基 因 表 达 具 有 重 要 的 调 控 作 用 [1] 随 着 表 遗 传 学 的 发 展, 人 们 认 识 到 肿 瘤 不 仅 是 遗 传 性 疾 病, 同 时 也 是 由 DNA 甲 基 化 异 常 引 起 的 基 因 调 控 失 常 的 表 观 遗 传 性 疾 病 [2] 人 类 基 因 组 DNA 存 在 广 泛 的 甲 基 化 修 饰 在 早 期 发 育 阶 段, 甲 基 化 和 去 甲 基 化 的 交 替 进 行 是 细 胞 得 以 生 长 和 分 化 的 关 键 程 序, 且 在 细 胞 正 常 发 育 以 及 保 持 基 因 组 稳 定 性 中 起 着 至 关 重 要 的 作 用 正 常 细 胞 内, 启 动 子 区 的 CPG 岛 呈 非 甲 基 化 状 态, 而 大 部 分 散 在 分 布 的 CpG 岛 二 核 苷 酸 多 发 生 甲 基 化 [3] 肿 瘤 中 常 伴 随 基 因 组 整 体 甲 基 化 水 平 降 低 和 某 些 基 因 CpG 岛 区 域 甲 基 化 水 平 异 常 升 高 ( 如 抑 癌 基 因 ), 并 且 这 两 种 变 化 可 在 一 种 肿 瘤 中 同 时 发 生 基 因 组 整 体 甲 基 化 水 平 降 低 可 导 致 原 癌 基 因 活 化 等, 进 一 步 促 进 了 肿 瘤 的 发 生 基 因 启 动 子 区 的 CpG 岛 发 生 异 常 高 甲 基 化 可 导 致 基 因 转 录 沉 默, 使 重 要 基 因 如 抑 癌 基 因 等 表 达 极 度 降 低 或 不 表 达, 进 而 也 促 进 了 肿 瘤 细 胞 的 形 收 稿 日 期 :213-11-1; 修 回 日 期 :213-11-22 基 金 项 目 : 哈 尔 滨 医 科 大 学 大 学 生 创 业 基 金 资 助 作 者 简 介 : 王 丽 波, 女, 本 科 生, 研 究 方 向 : 计 算 表 观 遗 传 学 ;E mail: wanglibo93@ gmail.com. 通 信 作 者 : 张 岩, 女, 博 士, 教 授, 研 究 方 向 : 计 算 表 观 遗 传 学 ;E mail: yanyou1225@ 163.com. 王 芳, 女, 硕 士, 讲 师, 研 究 方 向 : 计 算 表 观 遗 传 学 ;E mail: wangfang@ ems.hrbmu.edu.cn.
214 生 物 信 息 学 第 12 卷 成 [4-5] P16INK4a 是 一 种 细 胞 周 期 调 控 蛋 白, 通 过 与 细 胞 周 期 蛋 白 依 赖 激 酶 CDK4 及 CDK6 结 合 而 抑 制 后 者 的 蛋 白 激 酶 活 性, 从 而 抑 制 细 胞 的 增 殖 而 P16INK4a 基 因 启 动 子 5 端 的 CpG 岛 甲 基 化 或 外 显 子 1α 的 CpG 甲 基 化 可 导 致 p16 表 达 缺 失, 从 而 导 致 该 基 因 的 失 活, 促 进 了 癌 症 的 形 成, 这 一 基 因 的 灭 活 主 要 与 胃 癌 的 发 生 相 关 [6] 随 着 高 通 量 测 序 技 术 的 发 展, 单 碱 基 分 辨 率 下 检 测 DNA 甲 基 化 的 水 平 已 经 得 以 实 现, 促 进 了 全 基 因 组 范 围 更 高 精 度 甲 基 化 水 平 和 模 式 的 分 析 重 亚 硫 酸 氢 钠 测 序 技 术 的 短 序 列 片 段 中 包 含 多 个 CpG 位 点, 而 且 这 些 位 点 之 间 的 甲 基 化 水 平 高 度 连 锁, 即 其 中 一 个 CpG 位 点 的 甲 基 化 改 变 能 够 通 过 另 一 CpG 位 点 的 甲 基 化 变 化 来 解 释 [7] 本 文 基 于 临 近 CpG 位 点 之 间 的 DNA 甲 基 化 水 平 高 度 相 关 这 一 假 设, 挖 掘 DNA 甲 基 化 连 锁 区 域 有 助 于 挖 掘 基 因 组 中 有 功 能 的 甲 基 化 区 域, 进 一 步 理 解 这 些 区 域 在 癌 症 中 的 改 变 模 式, 有 助 于 挖 掘 癌 症 的 表 观 遗 传 学 诊 断 标 记 1 材 料 和 方 法 1 1 材 料 UCSC 的 encode 数 据 库 中 (http:/ / genome.ucsc. edu / ENCODE / datamatrix / encodedatamatrixhuman. html) 下 载 RRBS 的 DNA 基 甲 基 化 数 据, 包 括 52 个 正 常 样 本 ( 胚 胎 干 细 胞 成 纤 维 细 胞 主 动 脉 平 滑 肌 细 胞 肾 脑 血 肝 肺 胰 腺 心 脏 胎 盘 骨 骼 肌 皮 肤 胃 睾 丸 子 宫 B- 淋 巴 细 胞 星 形 胶 质 细 胞 成 骨 细 胞 ) 和 23 个 癌 症 样 本 ( 白 血 病 肺 癌 组 织 子 宫 颈 癌 肝 癌 乳 腺 腺 癌 神 经 母 细 胞 瘤 大 肠 腺 癌 子 宫 内 膜 腺 癌 前 列 腺 癌 胚 胎 性 癌 卵 巢 腺 癌 胰 腺 癌 脑 肿 瘤 神 经 细 胞 株 ) [8] 在 每 个 样 本 中 将 多 次 的 生 物 学 重 复 进 行 合 并, 同 一 个 CG 位 点 的 甲 基 化 水 平 取 均 值 统 计 所 有 CG 位 点 所 在 的 参 考 基 因 组 位 置 (Hg19) 覆 盖 度 以 及 相 应 的 DNA 甲 基 化 水 平 1 2 1 2 1 方 法 皮 尔 森 相 关 系 数 的 计 算 根 据 CpG 位 点 所 在 的 参 考 基 因 组 的 位 置 从 小 到 大 进 行 排 序, 然 后 分 别 提 取 每 个 CpG 位 点 对 应 的 正 常 和 癌 症 样 本 中 的 甲 基 化 水 平, 分 别 构 成 正 常 和 癌 症 的 DNA 甲 基 化 水 平 向 量 在 正 常 和 癌 症 样 本 中, 基 于 pearson 相 关 系 数 计 算 临 近 一 个 CpG 位 点 之 间 的 相 关 系 数, 公 式 如 下 : r = n (x i -x - )(y i -y - ) (1) n (x i -x - ) 2 n (y i -y - ) 2 其 中,n 代 表 正 常 ( 癌 症 ) 样 本 的 个 数 ;x i 和 y i 分 别 代 表 第 i 个 正 常 ( 癌 症 ) 样 本 中 CpG 位 点 及 下 一 个 CpG 的 甲 基 化 水 平 ;x - 和 y - 分 别 代 表 正 常 ( 癌 症 ) 样 本 中 两 个 CpG 位 点 DNA 甲 基 化 水 平 的 均 值 1 2.2 相 关 系 数 阈 值 的 确 定 为 了 确 定 临 近 CpG 位 点 之 间 相 关 系 数 的 阈 值, 本 文 从 基 因 组 中 随 机 抽 取 两 个 CpG 点 按 照 上 述 公 式 计 算 其 相 关 系 数 定 义 错 误 发 现 率 (FDR) 的 公 式 如 下 : FDR = #(r random>r ) #(r observe ) >r (2) 其 中, 分 子 表 示 随 机 情 况 下 相 关 系 数 大 于 r 的 数 目 ; 分 母 表 示 真 实 情 况 下 相 关 系 数 大 于 r 的 数 目 根 据 FDR = 1 确 定 相 关 系 数 的 阈 值 当 CpG 对 之 间 的 相 关 系 数 高 于 此 阈 值 时 则 认 为 二 者 的 DNA 甲 基 化 水 平 连 锁, 否 则 为 不 相 关 大 量 的 含 有 少 量 CpG 位 点 的 区 域 被 获 得 这 些 含 有 少 量 的 CG 位 点 的 区 域, 临 近 之 间 的 相 关 性 与 样 本 数 量 的 偶 然 因 素 相 关, 尤 其 是 含 有 两 个 CG 位 点 的 区 域 我 们 认 为 只 有 多 个 CG 位 点 相 邻 并 且 具 有 高 度 连 锁 的 甲 基 化 模 式 的 区 域 才 具 有 调 控 的 功 能 为 了 确 定 区 域 内 含 有 的 CG 位 点 的 数 目 的 阈 值, 打 乱 了 临 近 CpG 位 点 的 样 本 标 签, 重 新 计 算 r 值 然 后 根 据 阈 值 筛 选 DNA 甲 基 化 区 域, 得 到 随 机 情 况 下 DNA 甲 基 化 block 所 含 有 的 CG 位 点 的 数 目 的 零 分 布 1 2 3 DNA 甲 基 化 连 锁 区 域 的 定 义 如 果 临 近 的 CpG 位 点 之 间 甲 基 化 水 平 的 相 关 系 数 大 于 阈 值, 则 将 CpG 连 接 然 后 向 下 一 个 CpG 位 点 延 伸, 直 到 相 关 系 数 小 于 阈 值 则 延 伸 停 止 该 区 域 被 定 义 为 DNA 甲 基 化 连 锁 区 域 计 算 该 区 域 中 所 有 CpG 位 点 在 所 有 样 本 中 的 甲 基 化 水 平 的 均 值, 定 义 为 DNA 甲 基 化 连 锁 区 域 的 甲 基 化 水 平 2 结 果 分 析 2 1 DNA 甲 基 化 连 锁 区 域 的 挖 掘 本 文 分 别 从 正 常 样 本 和 疾 病 样 本 中 获 得 92 825,92 516 个 CpG 位 点, 全 基 因 上 临 近 CpG 位 点 之 间 的 距 离 分 布 显 示 大 部 分 CpG 位 点 之 间 的 距 离 不 超 过 1 bp 分 别 计 算 临 近 位 点 的 皮 尔 森 相 关 系 数, 根 据 FDR = 1 确 定 皮 尔 森 相 关 系 数 平 方 的 阈 值 为 75 如 果 临 近 的 CpG 位 点 之 间 的 相 关 系 数 超 过 阈 值 则 将 其 相 连 并 向 下 延 伸, 直 到 相 关 系 数 的 平 方 小 于 75 为 止, 得 到 的 区 域 被 认 为 是 DNA 甲 基 化 连 锁 区 域 最 终,737 个 DNA 甲 基 化 连 锁 区 域 在 正 常 样 本 中 获 得,3 384 个 DNA 甲 基 化 连
第 3 期 王 丽 波, 等 : 癌 症 相 关 的 DNA 甲 基 化 连 锁 区 域 215 锁 区 域 在 癌 症 样 本 中 获 得 DNA 甲 基 化 连 锁 区 域 发 现 在 正 常 样 本 和 癌 症 样 本 中 甲 基 化 连 锁 区 域 的 长 度 没 有 差 别 ( 见 图 1A), 但 是 区 域 内 所 含 的 CG 位 点 的 数 目 平 均 甲 基 化 水 平 以 及 R 2 存 在 显 著 差 异 ( 见 图 1B,1C,1D), 而 且 区 域 内 的 R 2 并 没 有 随 着 区 域 长 度 的 增 加 而 降 低 ( 见 图 1D) 意 味 着 在 癌 症 中 临 近 的 CpG 位 点 之 间 倾 向 更 强 的 连 锁 程 度, 而 且 这 种 DNA 甲 基 化 连 锁 区 域 倾 向 于 发 生 在 CpG 密 集 的 区 域 倾 向 发 生 高 甲 基 化 变 异, 暗 示 着 连 锁 区 域 内 的 CpG 位 点 可 能 共 同 发 生 异 常 导 致 癌 症 的 发 生 1 A 4 B Length(bp) 8 6 4 2 NumberofCpGs 3 2 1.8 C 15 D Density.6.4.2 Density 1 5 2 4 6 8 1 DNAmethyation.75.8.85.9.95 1. R2.93.92.91.9.89.88.87.86.85 E.84 2 3 4 5 6 7 8 Lengthofblock 图 1 DNA 甲 基 化 连 锁 区 域 的 特 征 Fig. 1 Characteristic of DNA methylation block 注 :A: 全 基 因 组 内 临 近 的 CpG 位 点 之 间 的 距 离 ;B:DNA 甲 基 化 连 锁 区 域 长 度 的 分 布 ;C:DNA 甲 基 化 连 锁 区 域 内 CG 位 点 的 数 目 ;D:DNA 甲 基 化 连 锁 区 域 内 甲 基 化 水 平 的 分 布 ;E:DNA 甲 基 化 连 锁 区 域 长 度 与 R 2 的 关 系 Notes:A:Distance of adjacent CGs in genome wide;b:length distribution of DNA methylation block;c: Number of CGs in DNA methylation block; D: Distribution of DNA methylation in DNA methylation block;e: Relationship between R 2 and length of block.
216 生 物 信 息 学 第 12 卷 2 2 DNA 甲 基 化 连 锁 区 域 的 生 物 学 意 义 为 了 进 一 步 研 究 DNA 甲 基 化 连 锁 区 域 的 生 物 学 功 能 及 意 义, 分 别 将 正 常 样 本 和 癌 症 样 本 的 DNA 甲 基 化 连 锁 区 域 进 行 基 因 本 体 论 ( GO) 的 功 能 富 集 分 析 如 果 一 个 DNA 甲 基 化 连 锁 区 域 的 上 下 游 5 bp 范 围 内 存 在 基 因, 则 该 基 因 被 认 为 是 DNA 甲 基 化 连 锁 区 域 的 相 关 基 因 我 们 在 正 常 样 本 中 找 到 617 个 相 关 基 因, 在 癌 症 样 本 中 找 到 2 575 个 相 关 基 因 将 DNA 甲 基 化 连 锁 区 域 的 相 关 基 因 采 用 DAVID 工 具 (http: / / david.abcc.ncifcrf.gov / ) 进 行 基 因 功 能 富 集 分 析, 多 重 检 验 矫 正 之 后 的 显 著 性 水 平 定 义 为 1 癌 症 样 本 和 正 常 样 本 中 显 著 性 水 平 最 高 的 前 1 个 功 能 ( 见 图 2A,B), 结 果 显 示 正 常 和 癌 症 的 DNA 甲 基 化 连 锁 区 域 都 富 集 到 分 化 \ 发 育 以 及 表 达 调 控 的 功 能, 尤 其 是 在 癌 症 中 与 神 经 元 的 发 育 和 分 化 相 关 此 外, 癌 症 中 DNA 甲 基 化 连 锁 区 域 的 KEGG 富 集 分 析 显 示 富 集 到 癌 症 通 路 和 细 胞 形 成 通 路 ( 见 图 2C) 结 果 表 明, 癌 症 中 DNA 甲 基 化 连 锁 区 域 可 能 促 使 癌 症 的 发 生 embryonicorganmorphogenesis anterior/posteriorpaternformation embryonicdevelopmentendinginbirthoregghatching embryonicorgandevelopment regionalizationofrnametabolicproces regulationoftranscription,dna-dependent regulationoftranscription embryonicmorphogenesis patrenspecificationproces A embryonicdevelopmentendinginbirthoregghatching regulationoftranscription regulationoftranscriptionfromrnapolymeraseⅡproces neurondevelopment paternspecificationproces regionalization enbryonicmorphogenesis regulationoftranscription,dna-dependent regulationofrnametabolicproces neurondiferentiation B ErbBsignalingpathway Melanoma Focaladhesion Melanogenesis Adherensjunction Hedgehogsignalingpathway Regulationofactincytoskeleton Basalcelcarcinoma Pathwaysincancer Axonguidance C 图 2 DNA 甲 基 化 连 锁 区 域 的 功 能 富 集 Fig.2 Functional enrichment of DNA methylation block 注 :A: 正 常 的 GO 富 集 结 果 ;B: 癌 症 的 GO 富 集 结 果 ;C: 癌 症 的 KEGG 富 集 结 果 ;x 轴 表 示 富 集 分 析 的 P 值 以 1 为 底 的 负 对 数 Notes:A:GO enrichment results of normal;b:go enrichment results of cancer;c:kegg enrichment results of cancer. 2 3 DNA 甲 基 化 连 锁 区 域 在 癌 症 中 的 异 常 模 式 DNA 甲 基 化 连 锁 区 域 尽 管 在 正 常 样 本 和 癌 症 样 本 中 均 存 在 很 强 的 连 锁 程 度, 但 是 在 两 类 样 本 中 呈 现 的 不 同 甲 基 化 水 平 和 模 式 以 HIC1 基 因 为 例, 该 基 因 对 生 长 调 节 和 肿 瘤 的 抑 制 具 有 重 要 作 用 位 于 该 基 因 中 超 甲 基 化 区 域 的 缺 失 与 肿 瘤 Miller Dieker 综 合 征 存 在 至 关 重 要 的 联 系 图 3 显 示, 在 本 研 究 中 该 基 因 位 于 chromosome 17p13 3 区 域, 在 正 常 样 本 和 癌 症 样 本 中 存 在 DNA 甲 基 化 连 锁 区 域 该 连 锁 区 域 在 正 常 和 癌 症 样 本 中 均 呈 现 了 紧 密 的 连 锁 程 度 (r 2 = 78, 798), 然 而 该 区 域 在 两 类 样 本 中 的 甲 基 化 模 式 存 在 显 著 差 异 该 区 域 的 甲 基 化 水 平 在 癌 症 样 本 中 显 著 高 于 正 常 样 本, 而 且 连 锁 程 度 的 变 异 小 于 正 常 样 本 这 意 味 着 该 连 锁 区 域 的 异 常 甲 基 化 可 能 与 癌 症 相 关, 甚 至 可 以 作 为 癌 症 的 表 观 遗 传 诊 断 标 记
第 3 期 王 丽 波, 等 : 癌 症 相 关 的 DNA 甲 基 化 连 锁 区 域 217 HIC1 thelocationoflinkageregion txstart:1958392 196675 1961524 txend:1962981 1 9 8 7 6 5 4 正 常 癌 症 3 2 1 CG1 CG7 CG13 CG19 CG25 CG31 CG37 CG43 CG49 CG55 CG61 CG67 CG73 图 3 位 于 HIC1 基 因 内 的 DNA 甲 基 化 连 锁 区 域 Fig.3 DNA methylation block located within HIC1 gene 3 结 论 近 年 来, 随 着 表 观 遗 传 学 的 发 展, 越 来 越 多 的 研 究 表 明 DNA 甲 基 化 的 异 常 与 癌 症 的 发 生 发 展 密 切 相 关 本 文 的 结 果 显 示 DNA 甲 基 化 连 锁 区 域 与 癌 症 的 关 联 不 仅 仅 体 现 在 甲 基 化 水 平 上 而 且 体 现 在 甲 基 化 模 式 上 挖 掘 DNA 甲 基 化 连 锁 区 域 有 助 于 挖 掘 基 因 组 中 有 功 能 的 甲 基 化 区 域, 而 这 些 区 域 在 癌 症 中 的 改 变 模 式 有 助 于 挖 掘 癌 症 的 表 观 遗 传 学 诊 断 标 记 希 望 能 为 研 究 者 开 启 一 个 新 的 角 度 去 探 索 DNA 的 甲 基 化 水 平 与 癌 症 发 生 的 联 系, 进 而 对 疾 病 能 够 更 好 的 进 行 诊 断 和 治 疗 参 考 文 献 (References) [1] CHRISTOPHER G B, SARAH F, CECILIA M L, et al. Integrated genetic and epigenetic analysis identifies haplotype specific methylation in the FTO type 2 diabetes and obesity susceptibility locus [J]. PLoS One, 21, 5 (11): e144. [2] LUDVÍKOV M, PESTA M, HOLUBEC L J, et al. New aspects of tumor pathobiology [J]. Ceskoslovensk Patologie, 29, 45(4): 94. [3] BANERJEE, HIRENDRA N, MUKESH V. Epigenetic mechanisms in cancer [J]. Biomarkers, 29, 3 ( 4): 397-41. [4] QURESHI, SOHAIL A, MUHAMMED U B,et al. Utility of DNA methylation markers for diagnosing cancer [ J]. International Journal of Surgery, 21,8(3): 194-198. [5] 吴 川 清, 陶 凯 雄. 内 皮 素 B 受 体 基 因 甲 基 化 与 肿 瘤 关 系 的 研 究 进 展 [J]. 世 界 华 人 消 化 杂 志, 21, 18 (23): 2448-2452. WU Chuanqing,TAO Kaixiong.Research progress of endothe lin B receptor gene methylation and cancer [J]. World Jour nal of Gastroenterology, 21, 18(23): 2448-2452. [6] MERLO, ADRIAN,JAMES G H, et al. 5 CpG island methylation is associated with transcriptional silencing of the tumour suppressor p16 / CDKN2 / MTS1 in human cancers [ J]. Nature Medicine, 1995,1(7): 686-692. [7] SHOEMAKER, ROBERT, DENG Jie, et al. Allele spe cific methylation is prevalent and is contributed by CpG SNPs in the human genome [ J]. Genome Research, 21, 2(7): 883-889. [8] ROSENBLOOM, KATE R, TIMOTHY R D, et al. ENCODE whole genome data in the UCSC genome browser [ J]. Nucleic Acids Research, 21, 38 ( suppl 1): D62-D625.