大 数 据 容 灾 备 份 技 术 挑 战 和 增 量 备 份 解 决 方 案 1. 中 兴 通 讯 股 份 有 限 公 司 南 京 210012;2. 清 华 大 学 计 算 机 科 学 与 技 术 系 北 京 100084 摘 要 关 键 词 doi: 10.11959/j.issn.2096-0271.2015033 Challenge and Solution of Big Data Backup and Recovery Luo Shengmei 1,2, Li Ming 1, Ye Yuwen 1 1. ZTE Corporation, Nanjing 210012, China; 2. Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China Abstract Big data has become the focus of the social attention, it will raise a new competition in science and technology and comprehensive national strength, especially in the disaster recovery and backup data. Therefore, based on the analysis of the current industrial status and the requirements about big data disaster recovery and backup, the advantage and disadvantage of several typical technology solutions were discussed, then a better incremental backup data recovery solution was proposed. This solution can support minute RPO, and meet current requirements about the disaster recovery and backup data. Key words big data, backup, recovery, service continuity 2015033-1
STUDY 研 究 1 引 言 随 着 移 动 互 联 网 信 息 技 术 的 演 进 和 社 会 的 发 展, 人 类 在 生 产 和 生 活 中 会 产 生 更 多 更 复 杂 的 数 据 据 IDC 报 告 显 示,2020 年 全 球 企 业 数 据 总 量 将 从 目 前 的 1.2 ZB 增 加 到 35 ZB 从 一 般 意 义 上 讲, 这 种 量 级 和 复 杂 度 的 数 据, 业 界 称 为 大 数 据 大 数 据 是 人 类 社 会 重 要 的 信 息 资 产, 在 科 技 发 展 和 生 活 生 产 中 起 到 非 常 重 要 的 作 用, 已 成 为 当 前 社 会 各 界 关 注 的 焦 点, 是 当 前 世 界 各 国 新 一 轮 的 科 技 竞 争 和 综 合 国 力 较 量 的 重 要 体 现 近 些 年 来 飓 风 地 震 海 啸 火 灾 等 自 然 灾 害 频 发, 电 脑 病 毒 泛 滥 黑 客 攻 击 猖 獗 等 日 益 严 重 的 互 联 网 危 机, 已 让 无 数 企 业 遭 受 了 数 据 丢 失 所 带 来 的 沉 重 打 击 多 个 研 究 机 构 提 供 的 数 据 表 明, 公 司 数 据 丢 失 将 对 公 司 带 来 严 重 影 响, 甚 至 导 致 公 司 倒 闭 来 自 IDC 的 统 计 数 据 显 示,1990-2000 年 发 生 灾 难 导 致 数 据 丢 失 的 公 司 生 存 下 来 的 仅 有 16%, 美 国 明 尼 苏 达 大 学 研 究 报 告 显 示, 发 生 数 据 丢 失 的 公 司 如 果 无 法 快 速 恢 复 数 据, 近 3/4 的 公 司 业 务 将 停 [1] 顿, 近 2/5 的 公 司 将 倒 闭 由 此 可 见, 数 据 是 企 业 最 宝 贵 的 资 产, 是 企 业 生 存 的 基 础, 也 是 企 业 核 心 竞 争 力 的 重 要 组 成 部 分, 一 旦 丢 失, 其 产 生 的 后 果 可 能 是 灾 难 性 的, 甚 至 会 引 发 社 会 性 问 题, 所 以 大 数 据 的 安 全 备 份 和 容 灾 就 显 得 尤 为 重 要 2 大 数 据 容 灾 备 份 2.1 容 灾 备 份 现 状 容 灾 备 份 系 统 的 目 的 在 于 保 证 系 统 数 据 可 靠 和 服 务 的 在 线 性, 即 当 主 用 系 统 发 生 故 障 时, 仍 能 提 供 数 据 和 服 务, 保 证 系 统 业 务 不 受 影 响 灾 备 领 域 国 际 和 国 内 都 制 定 了 相 关 标 准, 国 际 标 准 中 SHARE78 具 有 较 大 影 响 力, 针 对 灾 难 恢 复 定 义 了 Tier-0 至 Tier6/7 共 7 个 层 次 我 国 的 国 家 标 准 GB20988-2007-T 信 息 安 全 技 术 信 息 系 统 灾 难 恢 复 规 范 [2] 对 容 灾 备 份 进 行 了 标 准 化, 与 SHARE78 的 7 个 层 次 具 备 对 应 关 系, 并 进 一 步 细 化 了 具 体 要 求 在 设 计 容 灾 系 统 时, 容 灾 要 达 到 什 么 样 的 目 标 和 层 次, 需 要 用 一 些 定 量 的 指 标 来 衡 量, 这 就 是 灾 难 恢 复 能 力 指 标, 具 体 介 绍 如 下 RTO(recovery time object, 恢 复 时 间 目 标 ): 指 信 息 系 统 从 灾 难 状 态 恢 复 到 可 运 行 状 态 所 需 要 的 时 间, 用 来 衡 量 容 灾 系 统 的 业 务 恢 复 能 力 RPO(recovery point time, 恢 复 点 时 间 ): 指 业 务 系 统 所 允 许 的 在 灾 难 过 程 中 的 最 大 数 据 量 丢 失, 用 来 衡 量 容 灾 系 统 的 数 据 冗 余 备 份 能 力 NRO(network recovery object, 网 络 恢 复 时 间 目 标 ): 指 在 灾 难 发 生 后 网 络 恢 复 或 切 换 到 灾 备 中 心 的 时 间, 通 常 网 络 要 先 于 应 用 恢 复 才 有 意 义, 但 应 用 恢 复 后 才 能 提 供 业 务 访 问 某 行 业 灾 难 恢 复 等 级 对 应 的 能 力 指 标 见 表 1 数 据 的 备 份 策 略 一 般 分 为 全 量 备 份 (full backup) 差 异 备 份 (differential backup) 和 增 量 备 份 (incremental back up) 全 量 备 份 : 间 隔 一 段 时 间 就 对 整 个 系 统 进 行 全 面 备 份, 包 括 系 统 和 数 据 差 异 备 份 : 针 对 前 一 次 完 全 备 份 后 发 生 变 化 的 所 有 信 息 进 行 备 份 2015033-2
增 量 备 份 : 针 对 前 一 次 备 份 后 所 有 发 生 变 化 的 信 息 进 行 备 份, 增 量 备 份 方 式 备 份 的 数 据 量 最 小, 但 恢 复 时 要 利 用 全 备 份 的 数 据, 并 叠 加 以 前 的 增 量 备 份, 数 据 恢 复 时 间 也 最 长 无 论 哪 种 备 份 策 略, 在 一 个 备 份 周 期 内 都 首 先 要 进 行 一 次 完 全 备 份, 然 后 再 选 择 进 行 增 量 备 份 或 者 累 计 备 份 通 常 在 数 据 更 新 不 太 频 繁 且 数 据 量 不 太 大 的 情 况 [2] 表 1 RTO/RPO 与 灾 难 恢 复 能 力 等 级 的 关 系 灾 难 恢 复 能 力 等 级 RTO RPO 1 2 天 以 上 1 天 至 7 天 2 24 h 以 上 1 天 至 7 天 3 12 h 以 上 数 小 时 至 1 天 4 数 小 时 至 2 天 数 小 时 至 1 天 5 数 分 钟 至 2 天 0~30 min 6 数 分 钟 0 下, 可 以 选 用 累 计 备 份 的 方 式 若 数 据 量 更 新 很 频 繁, 更 新 量 又 很 大, 那 么 备 份 周 期 后 几 次 的 累 计 备 份 数 据 量 就 很 大, 这 时 使 用 累 计 备 份 就 不 太 经 济, 可 以 考 虑 增 量 备 份 或 者 增 量 备 份 和 累 计 备 份 相 结 合 的 方 式, 也 可 以 考 虑 缩 短 备 份 周 期 备 份 系 统 结 构 一 般 包 括 DAS-base 备 份 LAN-base 备 份 LAN-free 备 份 和 Server-free 备 份, 如 图 1 所 示 (1)DAS-base 备 份 是 利 用 服 务 器 自 带 的 磁 带 机 或 备 份 硬 盘 手 工 进 行 数 据 备 份 优 点 是 维 护 简 单, 数 据 传 输 速 度 快 ; 缺 点 是 可 管 理 的 存 储 设 备 较 少, 对 大 数 据 量 备 份 场 景 或 者 实 时 数 据 备 份 场 景 不 适 用 (2)LAN-base 备 份 是 专 门 使 用 一 台 服 务 器 作 为 备 份 管 理 服 务 器, 通 过 备 份 管 理 服 务 器 实 施 系 统 的 专 用 备 份 操 作 优 点 图 1 常 见 备 份 系 统 架 构 2015033-3
STUDY 研 究 是 投 资 经 济 磁 带 库 共 享 集 中 备 份 管 理 ; 缺 点 是 网 络 传 输 压 力 大, 对 备 份 数 据 量 大 / 备 份 频 率 高 的 场 景 不 适 用 (3)LAN-free 备 份 是 将 备 份 设 备 连 接 到 SAN(storage area network, 存 储 区 域 网 络 ) 上, 数 据 无 须 通 过 局 域 网 而 直 接 进 行 备 份, 局 域 网 只 承 担 各 服 务 器 之 间 的 通 信 任 务, 实 现 了 控 制 流 与 数 据 流 分 离 优 点 是 数 据 备 份 统 一 管 理 备 份 速 度 快 网 络 传 输 压 力 小 磁 带 库 资 源 共 享 ; 缺 点 是 恢 复 操 作 繁 琐 实 施 复 杂 投 资 较 高, 不 适 用 于 少 量 文 件 备 份 场 景 (4)Server-free 备 份 不 需 要 在 服 务 器 中 缓 存 数 据, 显 著 减 少 对 主 机 C P U 占 用, 采 用 N D M P( 网 络 数 据 管 理 协 议 ) 应 用 是 实 现 方 式 之 一 优 点 是 数 据 备 份 和 恢 复 时 间 短 网 络 传 输 压 力 小 便 于 统 一 管 理 和 备 份 资 源 共 享, 但 由 于 需 要 特 定 的 备 份 应 用 软 件 进 行 管 理, 需 要 考 虑 厂 商 的 兼 容 性 问 题, 实 施 起 来 比 较 复 杂, 成 本 也 较 高 2.2 大 数 据 容 灾 备 份 特 征 与 挑 战 大 数 据 同 过 去 的 海 量 数 据 有 所 区 别, 其 4V 特 征 (volume variety value velocity) 体 现 了 量 大 多 样 密 度 低 速 度 快 的 特 点, 采 用 磁 带 复 制 方 式 不 现 实 传 统 备 份 产 品 不 适 用 于 大 数 据 领 域 传 统 备 份 产 品 大 多 基 于 主 机 网 络 或 者 磁 阵, 都 是 单 机 备 份 系 统, 而 云 存 储 现 有 的 数 据 多 副 本 和 EC 技 术 应 用 都 只 能 保 证 单 数 据 中 心 内 的 数 据 可 靠 性, 不 提 供 数 据 备 份 能 力 HDFS 的 数 据 节 点 (DataNode) 采 用 多 副 本 纠 删 码 (erasure coding,ec) 等 高 可 用 (high availability,ha) 技 术, 可 以 提 供 数 据 高 可 靠 性 HDFS 的 主 从 和 单 个 元 数 据 节 点 (NameNode) 设 计 方 式 使 得 元 数 据 节 点 成 为 单 点 故 障,HDFS 的 HA 发 展 经 历 了 3 个 过 程 (1) 借 助 分 布 式 块 复 制 设 备 (distributed replicated block device,drbd) 心 跳 服 务 (heartbeat)ha 组 件 实 现 主 备 切 换 使 用 DRBD 实 现 两 台 物 理 机 器 之 间 块 设 备 的 同 步, 即 通 过 网 络 实 现 raid1, 辅 以 heartbeat HA 实 现 两 台 机 器 动 态 角 色 切 换, 对 外 使 用 虚 拟 IP 地 址 来 统 一 配 置 (2) 主 元 数 据 节 点 (Primary NameNode) 与 备 元 数 据 节 点 (Standby NameNode) 之 间 通 过 网 络 文 件 系 统 (network file system,nfs) 来 共 享 FsEdits FsImage 文 件, 这 样 主 备 NameNode 之 间 就 拥 有 了 一 致 的 目 录 树 和 block 信 息 DataNode 向 两 个 NameNode 上 报 块 信 息, 辅 以 虚 拟 IP 地 址, 可 以 较 好 地 达 到 主 备 NameNode 快 速 热 切 换 的 目 的 (3) 基 于 Paxos 算 法 实 现 的 HDFS HA 方 案 基 本 原 理 是 用 2N+1 台 JournalNode 存 储 EditLog, 每 次 写 数 据 操 作 有 大 多 数 ( N+1) 返 回 成 功 时, 即 认 为 该 次 写 成 功, 数 据 不 会 丢 失 虽 然 基 于 HDFS 的 大 数 据 系 统 解 决 了 HA 问 题, 但 是 异 地 备 份 和 容 灾 仍 存 在 问 题 所 以, 需 要 有 一 种 容 量 更 大 安 全 性 更 高 数 据 存 储 及 恢 复 更 快 的 容 灾 备 份 解 决 方 案 来 满 足 实 际 应 用 需 求 2.3 大 数 据 容 灾 备 份 解 决 方 案 系 统 容 灾 备 份 是 一 项 系 统 工 程, 一 般 要 从 灾 备 中 心 基 础 设 施 数 据 备 份 系 统 备 用 数 据 处 理 系 统 备 用 网 络 系 统 灾 难 恢 复 预 案 运 维 管 理 能 力 以 及 技 术 支 持 能 力 7 个 要 素 进 行 统 筹 考 虑 本 文 主 要 从 数 据 备 份 系 统 以 及 备 用 数 据 处 理 系 统 角 度 描 述 一 种 可 行 的 灾 备 方 案, 该 容 灾 备 份 方 案 是 基 于 HDFS 的 增 量 2015033-4
数 据 备 份 恢 复 方 案, 是 具 备 分 钟 级 R P O 的 HDFS 远 程 备 份 系 统, 提 供 数 据 一 致 性 备 份 以 及 高 效 备 份 恢 复 机 制, 如 图 2 所 示 为 了 实 现 大 数 据 的 增 量 备 份 与 恢 复, 系 统 可 配 置 备 份 服 务 器 地 址 和 备 份 时 间 间 隔, 可 在 任 意 时 刻 输 入 备 份 命 令 开 始 进 行 备 份, 并 可 在 指 定 的 时 间 间 隔 进 行 快 速 增 量 备 份, 数 据 块 备 份 过 程 中 能 够 通 过 重 复 数 据 删 除 减 少 网 络 传 输, 支 持 对 任 意 版 本 的 数 据 快 速 恢 复, 可 以 指 定 目 录 备 份, 并 支 持 多 源 端 备 份 大 数 据 容 灾 备 份 总 体 架 构 如 图 3 所 示 HDFS 上 存 储 的 数 据 包 括 元 数 据 和 业 务 数 据, 分 别 存 储 在 NameNode 和 DataNode 上 为 实 现 基 于 HDFS 的 增 量 备 份 与 恢 复, 生 产 系 统 即 源 端 的 NameNode 和 DataNode 需 要 针 对 备 份 与 恢 复 进 行 改 造 详 细 结 构 如 图 4 所 示 NameNode 包 括 对 元 数 据 的 内 容 检 测 备 份 存 储 备 份 过 滤 备 份 传 输 以 及 备 份 恢 复 DataNode 负 责 发 送 和 接 收 要 备 份 / 恢 复 的 块 数 据,DataNode 包 括 如 下 模 块 备 份 传 输 : 根 据 NameNode 指 令 将 块 数 据 传 送 到 备 份 服 务 器 备 份 删 冗 : 计 算 块 数 据 的 散 列 值 传 输 加 密 : 对 需 要 传 输 的 数 据 进 行 图 2 基 于 HDFS 的 远 程 容 灾 备 份 系 统 图 3 大 数 据 容 灾 备 份 总 体 架 构 2015033-5
STUDY 研 究 加 密, 加 密 算 法 为 DES 算 法 备 份 恢 复 : 从 备 份 端 恢 复 数 据 备 份 端 对 备 份 数 据 进 行 删 冗 处 理, 减 少 传 输 过 程 的 数 据 量, 提 升 备 份 性 能, 传 输 前 进 行 数 据 加 密, 保 证 数 据 传 输 安 全 备 份 端 模 块 架 构 如 图 5 所 示 备 份 服 务 器 模 块 组 成 功 能 如 下 备 份 接 收 : 接 收 源 端 发 送 的 备 份 数 据 传 输 解 密 : 对 备 份 数 据 进 行 DES 解 密 备 份 删 冗 : 建 立 备 份 端 块 数 据 散 列 池, 并 比 对 源 端 发 送 的 散 列 值 是 否 存 在 于 此 散 列 值, 若 是, 指 示 源 端 不 必 发 送 数 据 版 本 管 理 : 对 源 端 的 多 次 备 份 区 分 不 同 版 本 号, 并 加 以 时 间 戳 标 志 备 份 存 储 : 将 备 份 历 史 数 据 存 入 文 件 系 统 合 成 备 份 : 合 成 最 新 备 份 版 本 备 份 恢 复 : 向 恢 复 端 发 送 指 定 版 本 的 元 数 据 和 数 据 备 份 数 据 传 输 前, 传 输 删 冗 大 幅 降 低 冗 余 备 份 数 据 传 输 量,DataNode 切 分 数 据 块 并 计 算 每 个 块 的 散 列 值, 备 份 端 保 存 历 史 散 列 池 同 时, 采 用 数 据 加 密 保 证 数 据 传 输 安 全 详 细 流 程 实 现 如 图 6 所 示 3 结 束 语 图 4 源 端 模 块 组 成 图 5 备 份 端 模 块 组 成 在 大 数 据 时 代, 数 据 是 企 业 最 重 要 的 资 产, 确 保 数 据 在 环 境 异 常 情 况 下 的 可 靠 图 6 数 据 备 份 流 程 2015033-6
性 和 可 用 性 是 目 前 技 术 研 究 和 产 业 应 用 的 重 点 方 向 本 文 通 过 大 数 据 容 灾 备 份 现 状 分 析, 结 合 行 业 对 大 数 据 容 灾 备 份 需 求, 讨 论 了 几 种 典 型 的 技 术 解 决 方 案 及 其 优 缺 点, 提 出 了 一 种 基 于 HDFS 的 增 量 数 据 备 份 恢 复 方 案, 具 备 分 钟 级 RPO 的 系 统 远 程 备 份 特 性, 可 以 较 好 地 解 决 目 前 大 数 据 容 灾 备 份 项 目 建 设 规 划 面 临 的 实 际 需 求 随 着 大 数 据 技 术 的 发 展 以 及 应 用 需 求 的 不 断 变 化, 对 大 数 据 容 灾 备 份 的 方 案 也 会 提 出 更 高 的 要 求, 需 要 持 续 性 地 针 对 业 务 需 求 应 用 场 景 和 运 维 成 本 进 行 针 对 性 的 设 计 和 实 现 参 考 文 献 [1] 姚 文 斌, 伍 淳 华. 中 国 灾 备 标 准 和 产 业 发 展 现 状. 中 兴 通 讯 技 术, 2010, 16(5) Yao W B, Wu C H. Development of standards and industry of disaster backup and recovery in China. ZTE Communications, 2010, 16(5) [2] GBT 20988-2007. 信 息 安 全 技 术 信 息 系 统 灾 难 恢 复 规 范, 2007 GBT 20988-2007. Information Security Technology Disaster Recovery Specifications for Information Systems, 2007 作 者 简 介 罗 圣 美, 男, 中 兴 通 讯 股 份 有 限 公 司 首 席 架 构 师, 目 前 主 要 从 事 云 计 算 和 大 数 据 技 术 研 究 工 作 担 任 2 项 863 计 划 和 国 家 科 技 重 大 专 项 课 题 组 长, 荣 获 省 部 级 科 学 技 术 进 步 奖 励 3 项, 拥 有 20 多 项 发 明 专 利, 并 在 国 内 外 核 心 期 刊 发 表 30 多 篇 学 术 论 文 李 明, 男, 中 兴 通 讯 股 份 有 限 公 司 产 品 经 理, 目 前 主 要 从 事 云 存 储 大 数 据 和 分 布 式 数 据 库 的 研 究 和 管 理 工 作 参 加 1 项 国 家 科 技 重 大 项 目, 申 请 发 明 专 利 5 项, 在 多 媒 体 应 用 和 大 数 据 领 域 发 表 论 文 2 篇 叶 郁 文, 男, 中 兴 通 讯 股 份 有 限 公 司 产 品 规 划 部 长 目 前 主 要 从 事 大 数 据 存 储 和 应 用 研 究, 荣 获 国 家 科 技 发 明 奖 1 项, 参 与 2 项 国 家 科 技 重 大 专 项 课 题 研 究, 申 请 发 明 专 利 8 项, 发 表 论 文 4 篇 收 稿 日 期 :2 015-0 8-2 4 基 金 项 目 : 国 家 科 技 重 大 专 项 基 金 资 助 项 目 (No.2013ZX03002004) Foundation Item: The National Science and Technology Major Project (No.2013ZX03002004) 论 文 引 用 格 式 : 罗 圣 美, 李 明, 叶 郁 文. 大 数 据 容 灾 备 份 技 术 挑 战 和 增 量 备 份 解 决 方 案. 大 数 据, 2015033 Luo S M, Li M, Ye Y W. Challenge and solution of big data backup and recovery. Big Data Research, 2015033 2015033-7