EMC NetWorker 版本 8.2 服务器灾难恢复和可用性最佳做法指南 302-000-693 REV 01
版权所有 1990-2014 EMC Corporation 保留所有权利 中国印刷 发布日期 6 月, 2014 EMC 确信本出版物在发布之日内容准确无误 本出版物中的信息可随时更改而不另行通知 本出版物的内容按 原样 提供 EMC CORPORATION 对本出版物的内容不提供任何形式的陈述或担保, 明确拒绝对有特定目的的适销性或适用性进行默示担保 EMC² EMC 和 EMC 徽标是 EMC Corporation 在美国和其他国家 / 地区的注册商标或商标 此处使用的所有其他商标均为其各自所有者的资产 有关产品系列的最新法规文档, 请访问 EMC 在线支持 (https://spport.emc.com) 易安信电脑系统 ( 中国 ) 有限公司中国北京朝阳区霄云路 38 号现代汽车大厦 15 层邮编 :100027 电话 :(8610)8438 6000 传真 :(8610)8453 8174 售前服务热线 :400 650 6006 网站 :http://china.emc.com 2 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
目录 前言 5 第 1 章 简介 9 NetWorker 服务器灾难恢复路线图...10 第 2 章 NetWorker 服务器的可用性和恢复选项 11 引导数据库和索引... 12 引导数据库存储集...12 客户端文件索引存储集...12 引导数据库建议和做法...12 如何获得引导数据库... 13 收集关键信息... 13 硬件信息... 13 软件信息... 13 灾难恢复情形综述... 14 基本灾难恢复 ( 同一主机 )... 14 高级灾难恢复 ( 不同的主机 )...15 进行 NetWorker 服务器灾难恢复的基本准备... 15 第 3 章 数据存储和设备 17 功能和注意事项...18 NetWorker 元数据存储...18 多路径访问和故障切换...18 存储设备和介质... 18 连接方法... 18 可靠性和依赖关系... 19 第 4 章 灾难恢复使用情形 21 基本灾难恢复情形... 22 基本的灾难恢复注意事项... 23 更多高级灾难恢复考虑事项... 25 群集解决方案... 27 磁盘备份...27 索引或配置损坏...29 SAN 存储损坏或丢失... 29 丢失一台服务器 一个 Data Domain 系统或一个站点... 29 复制解决方案... 29 NetWorker 服务器的复制... 30 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南 3
目录 4 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
前言 作为改进其产品线的一项措施,EMC 会定期发布其软件和硬件产品的修订版 因此, 本文档中介绍的一些功能可能不被当前使用的软件或硬件的所有版本支持 产品发行说明提供了有关产品功能的最新信息 如果某产品不能正常运作或其功能与本文档的描述不符, 请与您的 EMC 技术支持专业人员联系 本文档在发布时准确无误 请访问 EMC 在线支持网站 (https://spport.emc.com) 以确保您使用的是本文档的最新版本 用途本文档介绍了如何设计和规划 NetWorker 灾难恢复, 但是它不提供具体的灾难恢复说明 EMC NetWorker SolVe Desktop ( 以前的 NetWorker Procedre Generator (NPG) ) 的 灾难恢复 部分提供了针对您的环境定制的逐步灾难恢复说明 您可以从 EMC 在线支持网站 https://spport.emc.com/prodcts/1095 的 Tools and Utilities 部分下载 EMC NetWorker SolVe Desktop 目标受众本指南是 NetWorker 文档资料集的一部分, 供负责在网络上建立和维护备份的系统管理员使用 本指南对负责监视日常备份的操作员也很有帮助 修订历史下表说明本文档的修订历史 表 1 修订历史 修订本日期描述 01 2014 年 6 月 18 日本文档第一版, 针对 EMC NetWorker 8.2 相关文档以下 EMC 出版物提供了详细信息 : NetWorker 8.1 管理指南 介绍如何配置和维护 NetWorker 软件 EMC NetWorker Avamar 设备集成指南 提供有关如何在 NetWorker 环境中使用 Avamar 设备的规划和配置信息 NetWorker 8.0 安装指南 提供有关如何在所有支持的操作系统上针对客户端 存储节点和服务器安装 卸载和更新 NetWorker 软件的信息 EMC NetWorker 群集安装指南 介绍如何在群集服务器和客户端上安装和管理 NetWorker 软件 从先前版本进行 EMC NetWorker 更新的指南 介绍了如何从先前安装的版本更新 NetWorker 软件 NetWorker 8.0 发行指南 包含有关最新 NetWorker 软件版本的新功能和变更 已修复问题 已知限制 环境和系统要求的信息 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南 5
前言 NetWorker 8.0 命令参考指南 提供有关 NetWorker 命令和选项的参考信息 EMC NetWorker 克隆集成指南 包含有关使用 NetWorker NMM 和 NMDA 克隆功能的规划 做法和配置信息 NetWorker Data Domain 重复数据消除设备集成指南 提供有关如何在 NetWorker 环境中使用 Data Domain 设备进行重复数据消除备份和存储的规划和配置信息 EMC NetWorker 灾难恢复指南 包含有关做好灾难准备和恢复 NetWorker 服务器 存储节点和客户端的信息 EMC NetWorker 错误消息指南 提供有关常见 NetWorker 错误消息的信息 NetWorker 8.0 许可指南 提供有关如何许可 NetWorker 产品和功能的信息 NetWorker 8.0 性能优化规划指南 包含 NetWorker 环境的基本性能调整 规划和优化信息 EMC NetWorker Management Console 联机帮助 介绍在 NetWorker Management Console 和 NetWorker 管理 窗口中执行的日常管理任务 要查看帮助, 请单击主菜单中的帮助 EMC NetWorker User 联机帮助 NetWorker User 程序是 Windows 客户端界面 介绍如何使用 NetWorker User 程序 ( 连接到 NetWorker 服务器的 Windows 客户端界面 ) 通过网络备份 恢复 归档和检索文件 EMC NetWorker 在线软件兼容性指南 提供了 EMC 信息保护软件各版本支持的客户端 服务器和存储节点操作系统的列表 您可以访问 EMC 在线支持网站 https://spport.emc.com 上提供的 在线软件兼容性指南 请在 按产品支持 页面, 使用 查找产品 来搜索 NetWorker, 然后选择 安装 许可和配置 链接 EMC NetWorker 安全配置指南 概要介绍了 NetWorker 中可用的安全配置设置 安全部署以及确保产品安全操作所需的物理安全控件 适用于 NAS 设备的 EMC NetWorker 快照管理集成指南 介绍如何对使用复制技术在 NAS 设备上创建的生产数据快照拷贝执行目录操作和管理 NetWorker VMware 版本集成指南 介绍如何在集成的 EMC NetWorker 环境中规划和配置 VMware 与 vstorage API for Data Protection (VADP) EMC NetWorker SolVe Desktop( 以前称为 NetWorker Procedre Generator (NPG)) EMC NetWorker SolVe Desktop (NPG) 是独立的 Windows 应用程序, 可为客户 支持人员与现场工作人员执行的高要求任务生成精确的 用户主导的步骤 利用 NPG, 每个过程都是根据可由用户选择的提示定制并生成的 此生成的过程 : 收集 NetWorker 产品指南中的最重要部分 在单个文档中与专家建议结合使用 以标准化格式提供内容 要访问 EMC NetWorker SolVe Desktop, 请登录 :http://spport.emc.com 您必须拥有有效的服务协议才能使用此站点 技术说明 / 白皮书技术说明和白皮书从技术角度深入介绍可解决关键业务问题或满足相关要求的产品 技术说明和白皮书的类型包括技术和业务注意事项 应用的技术 详细评述以及最佳做法规划 6 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
前言 本文档中使用的特殊注意事项约定 EMC 对特殊注意事项使用下列约定 论述不会造成人身伤害的实践 提供重要但不会造成危险的信息 印刷约定 EMC 在本文档中使用以下字体样式约定 : 粗体 用于表示界面元素名称, 如窗口名称 对话框 按钮 字段 选项卡名称 键名和菜单路径等用户专门选择或单击的内容 斜体 用于表示文本中引用的出版物的完整标题 Monospace 用于表示 : 系统代码 系统输出, 例如错误消息或脚本 路径名称 文件名 提示和语法 命令和选项 等宽斜体 用于变量 等宽黑体 用于用户输入 [ ] 方括号内是可选值 竖线表示备用选项, 即竖线表示 或 { } 大括号括起用户必须指定的内容, 如 x 或 y 或 z... 省略号表示示例中省略的不重要的信息 从何处获得帮助可以按如下方式获取 EMC 支持 产品和许可信息 : 产品信息有关文档 发行说明 软件更新或关于 EMC 产品的信息, 请访问 EMC 在线支持, 网址为 :https://spport.emc.com 技术支持访问 EMC 在线支持网站并单击 服务中心 您将看到多个与 EMC 技术支持联系的选项 请注意, 要打开服务请求, 您必须具有有效的支持协议 有关如何获取有效支持协议或如何解决您的帐户问题的详细信息, 请与 EMC 销售代表联系 在线社区访问 EMC 社区网络 (https://commnity.emc.com), 了解有关产品支持和解决方案的对等联系人 对话和内容 针对所有 EMC 产品, 与客户 合作伙伴和经认证的专家进行交互式在线讨论 客户意见和建议您的意见和建议可以帮助我们继续提高用户出版物的准确性 组织结构和整体质量 请将对本文档的意见发送到 DPAD.Doc.Feedback@emc.com EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南 7
前言 8 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
第 1 章 简介 本章包含以下几个部分 : NetWorker 服务器灾难恢复路线图...10 简介 9
简介 NetWorker 服务器灾难恢复路线图 本指南可帮助您进行灾难恢复规划, 它不提供详细的逐步灾难恢复说明 NetWorker SolVe Desktop 的 灾难恢复 部分提供了针对您的环境定制的逐步灾难恢复说明 您可以从 EMC 在线支持网站下载 NetWorker SolVe Desktop 下图列出了在执行 NetWorker 服务器的灾难恢复过程时需要遵循的高级步骤 图 1 灾难恢复路线路 10 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
第 2 章 NetWorker 服务器的可用性和恢复选项 本部分概括介绍了可用于保护和恢复 NetWorker 服务器的各种选项 本章包含以下几个部分 : 引导数据库和索引... 12 收集关键信息... 13 灾难恢复情形综述... 14 NetWorker 服务器的可用性和恢复选项 11
NetWorker 服务器的可用性和恢复选项 引导数据库和索引 备份关键配置信息是恢复 NetWorker 服务器的核心所在 这些配置信息存储在 NetWorker 服务器上的各个位置, 并且会随着不同客户端 设备和卷的使用 更新或变化而发生变化 保护此类已存储数据的两个主要备份组件是引导数据库存储集和客户端文件索引存储集 引导数据库存储集 引导数据库是由备份服务器生成的一个特殊存储集 引导数据库备份包含有关 NetWorker 客户端 设备和卷的当前状态和配置的重要信息, 以及有关备份和恢复操作的其他重要信息 引导包含 NetWorker 服务器上的三个组件 : NetWorker 服务器上的介质数据库 NetWorker 服务器上包含作业数据库的资源数据库 服务器索引 引导数据库备份通常在每次备份或存储组完成后发生, 而且通常比较小 备份此存储集是确保能以安全和一致的方式捕获配置信息的唯一方法 无论使用哪种其他保护方法, 都需要保持此存储集的可用性, 以确保成功进行 NetWorker 服务器灾难恢复 客户端文件索引存储集 引导数据库建议和做法 当针对客户端的计划备份中的所有存储集都完成后,NetWorker 软件会将该客户端特定的备份信息保存到该客户端的文件索引中 每个客户端都有一个客户端文件索引目录, 该目录存储在 NetWorker 服务器的 nsr/index 目录中 客户端文件索引充当备份数据的记录, 支持简单恢复, 还可以浏览并恢复数据 客户端文件索引由许多单独的文件和目录组成, 其大小取决于备份的客户端数据的量 每个客户端文件索引都包含以下信息 : 已针对客户端执行的备份 备份级别和备份类型 文件属性 并非任何时候恢复数据时都需要客户端文件索引 您应当备份客户端文件索引并确保可通过使用相应的引导数据库信息对其进行恢复 客户端文件索引的可用性会大大影响灾难恢复后对备份和恢复服务的完整还原 您还可以使用客户端文件索引来确定将 NetWorker 服务器恢复到完全正常状态所需的时间 您可以使用 nsrck 命令从索引备份中重建客户端的客户端文件索引 默认情况下, 如果 NetWorker 服务器是某个活动组的成员, 则引导数据库备份将在存储组备份完成后进行 如果 NetWorker 服务器不是某个活动组的成员, 则引导数据库备份将在每个存储组的所有备份均完成后才进行 为确保捕获最新的 NetWorker 服务器配置信息, 请 : 维护一份引导数据库的记录以用作参考 该记录应该是单独的, 并且独立于备份服务器或其任何组件 您可以保留引导数据库记录的电子邮件或打印副本 在引导数据库记录中提供以下信息 : 12 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
NetWorker 服务器的可用性和恢复选项 引导数据库备份的日期和时间 存放引导数据库存储集的卷和位置 引导数据库的存储集 ID 引导数据库存储集在卷上的启动文件和记录编号 定期执行引导数据库备份, 可在存储组中的所有存储集完成后执行, 或者至少每 12 小时执行一次 定期克隆引导数据库卷, 以确保单个介质故障或丢失不会影响 NetWorker 服务器的恢复 将引导数据库存储集写入 NetWorker 服务器本地设备 将引导数据库存储集写入单独的专用介质中 请勿将引导数据库存储集与客户端备份数据相混淆 此步骤可加速恢复过程并确保 NetWorker 服务器的恢复不依赖于可能包含不恰当的策略或保护的客户端数据卷 确保在发生洪水 火灾或停电等本地灾难时, 介质的位置不会影响对引导数据库数据的访问 虽然引导数据库数据的本地拷贝很有用, 但还是应当维护这些信息的多个拷贝 如何获得引导数据库 您可以通过以下方法获得引导数据库记录 将引导数据库通知配置为发送有关引导数据库记录的电子邮件或打印引导数据库记录副本 使用 mminfo -B 命令 检查存储组完成报告 此报告列出了在存储组备份期间生成存储集时的引导数据库记录 收集关键信息 硬件信息 软件信息 为了协助快速进行灾难恢复, 请维护有关每个硬件 软件 网络 设备和介质组件的准确记录 维护以下硬件信息并确保保持最新 : 卷或文件系统配置 完全限定域名 IP 地址和主机名 域名服务器 (DNS) 网关 Active Directory 或域服务器的参考 硬盘配置 介质设备名称和路径 硬件供应商联系信息和合同编号 每个系统的每个硬件 ( 无论活动还是非活动 ) 的配置信息 维护以下软件信息并确保保持最新 : 原始操作系统介质和修补程序的副本及其所在位置 如何获得引导数据库 13
NetWorker 服务器的可用性和恢复选项 软件启用码和授权码软件供应商联系信息和合同编号所安装的操作系统版本和修补程序操作系统配置灾难发生时可用于恢复计算机的应急媒体针对每个 NetWorker 服务器的 NetWorker 引导数据库信息内核配置和位置设备驱动程序包含所有 Windows 卷装入点和 UNC 路径的列表 灾难恢复情形综述 基本灾难恢复 ( 同一主机 ) 可能会遇到以下灾难恢复情形 每种情形都需要一组不同的恢复步骤, 其规划或恢复可能更简单, 也可能更难 NPG 提供了有关如何在不同的操作系统平台上使用 NetWorker 软件进行灾难恢复的逐步指导 在最简单的一种情形中, 同一物理服务器仍然存在, 仅对原始配置或周边环境进行了很少的更改或没有进行任何更改 这种情形在发生磁盘或电源设备等单个组件故障 ( 其中的基本操作系统可能已删除或损坏 ) 时很常见 在这种情况下, 需要重新安装软件 在更复杂的情形中, 例如发生因洪水或火灾而导致整个房间或整个建筑物被毁坏的重大事件 在这种情况下, 同一硬件可能已经不可用并且周边环境也可能遭到破坏或发生变化 恢复过程会更加复杂, 需要修改某些要素或排列优先级 以下各节重点介绍了恢复 NetWorker 服务器时的注意事项 将 NetWorker 服务器恢复到同一主机是最简单的灾难恢复方式 对于所有的 NetWorker 部署都应规划这种基本级别的恢复并使其保持就绪 在此灾难恢复情形中, 目标是 : 尽快将 NetWorker 服务器恢复到服务器出现故障前的已知最新正常点 确保原始恢复介质可用 确保原始恢复设备可用 确保 SAN IP 和存储单元等原始环境没有发生变化 如果满足以下条件, 则恢复操作很简单 : 有恰当的引导数据库和索引备份 配置详细信息没有发生大的变化, 并且已知或已记录下来 能够访问恢复所需的介质和设备 备份管理员具有执行恢复任务所需的相应知识和技能 NetWorker 8.1 及更高版本包含一个名为 nsrdr 的命令行向导程序, 它可以自动执行 NetWorker 服务器的介质数据库 资源文件和客户端文件索引的恢复操作 NetWorker 管理指南 提供了更多详细信息 在某些情况下, 物理主机可能会受制于可能导致灾难恢复无法执行或无法完整执行的外部问题 这种情形可能需要执行手动操作, 才能确保有适当的可用连接或备用连接 这种情况可能不需要恢复引导数据库或客户端文件索引 要在临时更改后将服务器恢复到原始状态, 您需要知道原始配置 14 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
NetWorker 服务器的可用性和恢复选项 高级灾难恢复 ( 不同的主机 ) 相对于执行到同一主机的基本灾难恢复而言, 将 NetWorker 服务器恢复到不同的主机会更加复杂 恢复到不同主机所需的精力和技能远比恢复到同一主机的基本灾难恢复要大 恢复到不同主机通常需要额外的信息或资源加上相应的技能组合才能执行并完成恢复任务 虽然发生整个建筑物或站点损坏的可能性比较小, 但恢复 NetWorker 服务器所需的精力和速度对发生事故后恢复或维护关键业务服务有着直接影响 业务关键服务可能也会受到影响, 并且需要进行依赖于 NetWorker 服务器提供的备份和恢复服务的灾难恢复或故障切换过程 因此, 在任何灾难恢复或业务连续性规划中包含一个高级灾难恢复方案都是至关重要的 虽然目标与恢复到同一主机的基本灾难恢复相同, 但在此情形中 : NetWorker 服务器硬件可能会不同, 其连接性和配置也可能与原来的不同 仅恢复引导数据库和客户端索引的操作可能不会那么容易或快速 在备份和恢复服务可用之前, 可能还需要对配置进行额外的更改 不能假定可以立即访问原始恢复介质和设备 该环境可能会有所不同, 因此 SAN IP 和存储单元可能会与原始服务器不匹配 可能还需要执行额外的步骤才能使 NetWorker 服务器可用 需要适当的引导数据库和索引备份保持可用, 但它们可以是原始存储集的拷贝 可能还需要执行额外的步骤才能访问存储集备份 进行 NetWorker 服务器灾难恢复的基本准备 要最大程度地增加成功进行 NetWorker 服务器灾难恢复的机会, 必须满足以下最低要求 : 定期备份引导数据库, 至少每 12 小时备份一次 定期备份服务器操作系统配置 备份所有客户端的客户端文件索引 可以在备份引导数据库之前或之后为所有客户端索引执行单独的专门备份 此步骤提供了一个综合的灾难恢复备份解决方案 监控和记录每个引导数据库备份的状态和内容, 并将其存储在独立于 NetWorker 服务器的物理位置 使用一个专门的池进行引导数据库备份 克隆引导数据库备份 记录和维护 SAN IP 和所有存储组件的连接性和详细信息 高级灾难恢复 ( 不同的主机 ) 15
NetWorker 服务器的可用性和恢复选项 16 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
第 3 章 数据存储和设备 本章包含以下几个部分 : 功能和注意事项...18 NetWorker 元数据存储...18 多路径访问和故障切换...18 可靠性和依赖关系... 19 数据存储和设备 17
数据存储和设备 功能和注意事项 NetWorker 元数据存储 多路径访问和故障切换 成功的灾难规划和恢复依赖于存放数据的介质的可用性以及读取这些数据的设备的可用性 在某些情况下, 可以将灾难本地化, 连接可能仍然可用 其他更为严重或灾难性的事件会影响 Worker server 所依赖的环境 这种情形可能会使设备无法运行或阻止访问设备或介质 可以使用许多策略来应对这些情形, 包括 : 配备多台设备和多份数据拷贝 确保备用设备 介质或路径在很短时间内便可供使用 这些恢复策略使您能够在最短的中断时间 花费最少的力气和猜测工作完成恢复 在其正常的生命期间对存储或数据进行保护有助于防止灾难情况的发生 这些步骤还有助于提高灾难恢复的速度和可靠性 为了帮助提高备份服务器的速度 可靠性 可扩展性和性能, 请 : 将关键配置信息和索引数据存放在单独的 LUN 上, 以避免操作系统损坏问题并提高整体系统性能 在受 RAID 保护的存储系统或外部存储系统上宿主 LUN, 以提高这些数据的性能 可靠性和可恢复能力 确保有适当的存储空间 确保存储收到保护并在最优级别发挥功能 考虑使用这些数据的复制或快照等高级保护技术, 因为这些技术可提供额外的保护 对于任何用于存储引导数据库信息的存储设备, 考虑以下几个部分概述的信息 存储设备和介质 连接方法 由于部署存储设备的恢复能力和易用性不同, 因此所使用的灾难恢复策略也应当进行更改以适应实际情况 例如, 获取和移动单个磁带设备的功能比获取和移动虚拟磁带库 (VTL) 要简单, 因为在 VTL 中, 安装和配置可能需要耗费相当长的时间和精力 对于传统磁带, 您可以使用手动加载的单一磁带放送机 它可以位于与物理服务器相同的硬件旁边或内部 在某些情况下, 这可能是包含多个设备的自动加载器, 也可能是一个用来装载和卸载介质的自动化机械臂 对于 VTL 或磁盘系统等其他存储设备, 该设备可能是一个包含 CPU 内存 网络和多个磁盘单元的装置 连接方法各不相同, 具体取决于是简单的独立磁带设备的电缆还是多个 IP 或 SAN 连接 如果需要的连接不可用, 则即使有可用的设备或介质也没什么用 以下组件的可用性是灾难恢复规划的重要环节 : 备用电缆 18 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
数据存储和设备 备用端口和路线 可恢复的网络 配置具有双端口的设备以进行多路径访问 使设备在多个位置可用 可靠性和依赖关系 在某些情况下, 可用为设备配置双端口或对备份应用程序和设备透明的多路径访问 但是, 对于其他一些设备, 可能很难进行这种配置 与在进行灾难恢复时创建或配置备用端口或备用主机名称和路线相比, 将配置和准备可用的备用端口或备用主机名和路线作为一个灾难恢复规划步骤要简单得多 大部分生产商都不支持双路径磁带设备或磁带库控制端口, 或者实施限制导致这些选项不可行 但您可以保留备用端口并准备可用的备用或备份路径连接 在某些情况下, 您可能需要使设备在多个位置可用, 然后移动备份或将数据指向相应的设备 此方案可提供更快更强健的备份服务 但这些配置往往比较复杂, 配置 维护或进行故障排查时可能会比较困难 在这些情况下, 往往需要选择是主动使用和将设备配置为可正常使用, 还是选择将设备置于备用状态, 仅在进行灾难恢复时使用 正常使用是指在正常的非灾难恢复操作期间在所有位置主动使用设备 这可能会使配置变得更加复杂并带来运行和故障排查等方面的挑战 但是, 它的确提供了能够使用设备的优势, 并确保在需要时设备随时可用 备用使用是指使设备保持在备用状态且在正常运行时不使用它 这可以简化配置, 但是设备可能会在需要时处于不工作状态 这种配置也是一种低效使用资源的方式, 因为在正常运行过程中不会用到这些设备 设备故障切换 在正常使用和备用两种方案中, 设备故障切换都是一个经常容易出错的环节, 可能需要一些动手干预 其中有些问题很容易解决, 但还是应该把它们记录下来, 理解它们并进行实际练习 对灾难恢复进行规划时, 请注意以下各项 : 设备服务路径可能会不同, 会发生更改, 或者消失 这些都可能会影响配置, 并且需要执行额外的步骤才能更正 设备名称应该体现位置或用途 这样可更方便地进行故障排查, 灾难恢复过程的执行也更可靠 检查设备状态和可用性 不常用的设备在最需要的时候往往最有可能出现问题 将恢复能力设计到备份设备中是一种很好的做法, 而且这样无需包括闲置设备 不过, 虽然这种解决方案能提供更好的投资回报并增加允许备份操作时的可用容量和性能, 但设计恢复能力也会使解决方案的配置和管理变得更加复杂 使用群集和复制技术来提高备份环境中的恢复能力, 同时降低复杂程度 在灾难恢复规划中实施群集和复制技术将 :: 有助于管理和自动化不同的原始, 例如磁盘存储和网络连接 确保磁盘存储和网络连接等资源可在正确的硬件上使用 对于正在运行的软件服务, 确保资源和配置恰当 备份和恢复服务的可靠性取决于各个组件的可靠性, 而与选择的软件 设备和灾难恢复方法无关 在设计有恢复能力的备份和恢复服务时, 请 : 可靠性和依赖关系 19
数据存储和设备 选择满足服务性能和运行预期的设备 可以使用多个设备和多条路径来提高可靠性和可用性 虽然这有助于消除单点故障, 但它无法排除所有单点故障, 因为没有哪项服务时完全可靠的 充分考虑各种灾难恢复情形的谨慎设计有助于识别和消除大部分常见的单点故障 考虑服务的预期使用周期和所使用的组件的可靠性 某些设备不能连续运行, 或者在性能或功能上存在限制 超期使用某些设备 ( 例如物理磁带设备 ) 可能会影响它们的可靠性 磁盘阵列 重复数据消除系统或 VTL 可能也需要维护期, 在维护期期间, 无法执行备份或备份执行速度和比率降低 考虑定期维护 可能会发生需要对服务进行某些中断性维护的问题 自动将服务和服务的子组件脱机 进行故障切换或自动恢复的能力也可以确保不但能够进行服务维护, 而且能够以最短的服务中断来执行 需要使用软件修补程序和更新, 以确保最佳性能 可靠性和支持 20 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
第 4 章 灾难恢复使用情形 本章包含以下几个部分 : 基本灾难恢复情形... 22 基本的灾难恢复注意事项... 23 更多高级灾难恢复考虑事项... 25 群集解决方案... 27 磁盘备份...27 索引或配置损坏...29 SAN 存储损坏或丢失... 29 丢失一台服务器 一个 Data Domain 系统或一个站点... 29 复制解决方案... 29 灾难恢复使用情形 21
灾难恢复使用情形 基本灾难恢复情形 本部分介绍了基本的 NetWorker 实施, 以突出重要的灾难恢复关键领域 下图提供了一个适用于小型办公室的基本 NetWorker 解决方案示例 如果服务器的功能足够强大, 存储和连接的规模适当, 则可以保护 100 个客户端和多个业务系统 在此示例中,NetWorker 服务器配置提供了很小的恢复能力, 并且突显了很多可能会使恢复变得很困难甚至不可能的灾难恢复问题 NetWorker 服务器 : 具有单个以太网连接, 因此是一个单点故障 使用内部磁盘, 因此是一个单点故障 没有镜像或存储复制 局限在某个房间或数据中心的单个位置上, 因此是一个单点故障 没有配置也没有监控引导数据库电子邮件, 因此引导数据库备份电子邮件丢失 引导数据库和索引备份被写入单个磁带中, 里面有三年的备份内容 没有对卷进行更改或克隆, 因此是一个单点故障 出于灾难恢复目的每三个月创建引导数据库的单个拷贝, 并将其存放在另一栋建筑物中办公室行政秘书的桌上 但是, 秘书不知道该磁带的用途, 而把它锁在距离主建筑物几英里以外的办公桌抽屉里, 因此这是一个单点故障 基本 NetWorker 解决方案不幸的是, 在此示例中, 对 NetWorker 服务器的管理很糟糕, 对服务器基本没有采取什么保护措施 在此示例中, 以下问题可能会阻碍灾难恢复 : 22 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
灾难恢复使用情形 备份环境中缺乏恢复能力或冗余 NetWorker 服务器是单一系统, 它使用 RAID 保护存储, 但位于本地并通过直连方式进行连接 磁带设备也一样, 它们位于靠近系统的一个小型自动加载器中 站点受损可能导致磁带设备 服务器和存储同时受损 此情形中的客户只有一间数据室, 因此使用另一个站点是不可行的 客户不会从该站点挪走磁带 客户每个月对磁带进行一次循环, 但这仅限于对关键系统的小量月度备份, 大部分磁带仍然在站点里 已将引导数据库备份配置为每天运行, 并将其写入索引和引导数据库磁带 该磁带会进行更换, 但是由于人员变动和增加的工作量, 该磁带经常被搁置数周 当发生更改时, 会标记新的磁带, 而旧磁带会交给办公室行政秘书进行存放 但是, 秘书不知道该磁带的用途, 而把它锁在距离主建筑物几英里以外的办公桌抽屉里 已将引导数据库通知配置为通过电子邮件发送 不幸的是, 没有人监管这个电子邮件别名 引导数据库通知电子邮件发生故障已有数月时间, 但没有一个人知道这个情况 在发生重大灾难时, 本示例中的公司会发现恢复其数据和系统是一件非常非常困难的事 虽然部分数据是离线保存的, 但是其恢复能力将取决于 NetWorker 服务器和基础架构是否可用 也许能够快速找到硬件组件, 但能否将 NetWorker 服务器恢复到其先前的状态仍然是一个很大的挑战 可以使用办公室行政秘书办公桌抽屉里的引导数据库磁带, 而且该磁带可能最近才发生了更改 能否使用该磁带取决于有人知道磁带在哪里, 应该去问谁, 并且能找到办公室行政秘书打开抽屉并拿到磁带 遗憾的是, 由于没有任何引导数据库记录, 只能扫描整个磁带以在新的 NetWorker 服务器上重建记录, 而这是一个相当耗时的过程 由于磁带存放在一个有温度波动的地方, 因此可能会发生读取错误, 并可能导致无法进行恢复 虽然这种情形看起来很极端, 但它突显了在没有周密考虑的情况下, 灾难恢复情形会给企业带来多大的影响 如果以下步骤已经就绪, 那么恢复过程将会更加容易更加快速 : 定期更换引导数据库磁带 对引导数据库和客户端文件索引进行克隆拷贝 保存引导数据库通知 基本的灾难恢复注意事项 尽管有些数据可能已经永久丢失, 但只要关键数据还在, 便可以恢复业务 虽然配备另一个具有可恢复链路的站点或进行远程存储不太现实, 但通过采用一些简单的方法配上良好的管理, 恢复情形会容易很多也快很多 我们已经考虑了一个糟糕的示例, 下面的示例将为我们提供有关改进了的灾难恢复保护的信息 下面列出了一些提高 NetWorker 服务器可用性的步骤, 它们操作简单并且经济高效 : 多路径对于网络连接和存储连接都很常见, 它们可以帮助减少因连接故障或故障 NIC 或 HBA 而引发故障的可能性 大多数存储系统都使用 RAID 来防止一个或多个磁盘故障对系统产生影响 这些存储系统的规模可大可小, 无论预算如何都可以采用 虽然持续的维护和管理可能会产生一些费用, 但实施这些步骤本身应视为一种无成本选择 但是, 这些选项非常简单而且经济高效, 还会对灾难恢复所需要的速度和方便性产生巨大影响 下图重点介绍了一些可用来提高 NetWorker 服务器的可用性和灾难恢复能力的基本步骤 还显示了一个用于备份和恢复的单一站点 基本的灾难恢复注意事项 23
灾难恢复使用情形 此示例显示了如何对备份环境进行优化来减少单点故障, 并在需要进行灾难恢复时提高恢复的速度和能力 : 每天对引导数据库和索引备份进行克隆 从站点撤离引导数据库和索引备份克隆拷贝, 并将其存放到安全的远程位置 配置具有自动故障切换功能的双路径以太网并通过交换机进行管理 这提供了单个可恢复 IP 连接 捕获电子邮件通知并将其存放到多个位置, 并可以从归档中调出使用 每天对备份服务和备份操作进行监控, 以发现非致命错误和警告 使用其存储阵列能提供 RAID 保护 复制和快照功能的双路径 SAN 标准灾难恢复部署在此示例中, 已对备份环境进行了优化, 可通过以下方式改善灾难恢复性能 : 通过添加一些额外的网络和 SAN 链路, 使同一台 NetWorker 服务器具有更强的恢复能力并且功能更加强大 存储受 RAID 保护, 并且可通过快照 复制和镜像提供其他保护 将电子邮件通知发送到一个允许对其进行远程访问的别名 对电子邮件进行保存和监控 对日志进行监控以发现错误, 以便尽早检测到问题 因为只有一个可用站点, 所以每天将磁带撤离站点 将磁带存放在安全和可控的位置 对部分数据进行克隆, 以确保有多个拷贝 此步骤有助于恢复并减少介质故障或丢失的风险 每天对引导数据库进行克隆, 以确保始终存在两个拷贝 24 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
灾难恢复使用情形 更多高级灾难恢复考虑事项 本部分列出了其他一些提高恢复能力并提供更高级别的保护或恢复速度的选项 在很多情况下, 采用前面一节的建议即可提供充分的保护并允许以可靠的方式在合理的时间段内恢复备份服务 而对其他一些情况, 这些建议可能无法提供足够的保护, 或者不能提供企业需要的恢复速度和恢复能力的解决方案 改善可恢复性和恢复能力的最佳方法之一是引入第二个站点 这种做法允许在两个位置提供基础架构和数据, 这有助于减少单一站点中的问题带来的影响或减少一个站点内单个组件问题带来的影响 单个 NetWorker 服务器配置为用于两个站点下图提供了一个配置为使用两个站点的单 NetWorker 服务器的基本布局示例, 其中 : 采用相同的关键基础架构, 例如 SAN 和网络 基础架构配置为使用双路径 可以复制存储来提供在第二个站点复制 NetWorker 配置的能力 使用磁带设备来存储引导数据库和索引备份 这些设备位于不同的建筑物中 为了大幅缩短恢复时间, 可以对索引存储进行复制或使其可供第二个站点使用 要进一步减少备份和恢复服务的不可用性, 可以添加另一台 NetWorker 服务器并对其进行群集, 使其具有高可用性 更多高级灾难恢复考虑事项 25
灾难恢复使用情形 在本例中显示的结果如下 : 其中一个站点有一台非活动或备用服务器, 该服务器只有在需要时才会处于活动状态 但有一种相似的配置也可以允许群集解决方案, 其中两个站点都各有一个节点, 该节点配置了可运行的群集服务 在此示例中, 由于磁带自动加载器位于一个站点, 因此是一个单点故障 虽然采用第二个自动加载器会有帮助, 但会增加配置的复杂性 在本环境中, 采用结合了重复数据消除功能的磁盘备份解决方案是更好的选择 使用此配置或者任何一种必须保护生产备份服务器的配置都会面临的一项挑战是, 以一致的方式捕获系统的能力 随着备份和恢复操作的发生, 服务器的状态和备份配置文件都处于不断变化的状态 可靠地捕获这些信息的唯一方法是使用内置的引导数据库备份进程 虽然可以复制配置文件, 但此操作可能会导致出现故障一致性状态 引导数据库备份是确保数据能够恢复的唯一方法 在此配置中, 可以使用 SAN 存储为 AFTD 设备提供空间 它们可用于引导数据库备份并被克隆到第二个站点以确保有可用的一致拷贝 26 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
灾难恢复使用情形 群集解决方案 下图阐释了在具有两个站点并且每个站点都有一个使用相同硬件的物理节点的情况下, 如何使优势最大化 在此示例中, 这些节点群集在一起, 以提供可在任一站点保持活动的高可用性服务 但是, 磁带设备配置比较复杂, 对于捕获具有一致状态的系统配置可能有一定的难度 图 2 群集环境中的 NetWorker 服务器 磁盘备份 基于磁盘备份的解决方案简化了配置, 并且有助于提高捕获具有一致状态的系统配置的能力 虽然这个图形看起来更复杂, 但它提供了有效的解决方案来帮助最大程度降低配置复杂程度, 并帮助在其中一个站点发生灾难时保持快速方便地进行故障切换 采用磁盘备份解决方案的 NetWorker 服务器下图提供了与前面的示例相似的群集解决方案示例, 在该示例中, 将一个包含两个节点的群集配置为托管可在任一站点运行的 NetWorker 服务 虽然这个示例看起来有点极端, 但是它能满足很多灾难恢复情形的要求 群集解决方案 27
灾难恢复使用情形 在本例中显示的结果如下 : 主要的备份存储设备已替换为 Data Domain 系统, 后者允许使用 AFTD 或 DD Boost 设备来实现磁盘备份功能 客户端文件索引信息 介质数据库和各种配置文件都位于 SAN 存储上, 再通过 SAN 呈交给相应的节点 在站点间复制 SAN 存储 这些步骤确保即使发生站点丢失的情况, 存储也仍然可用 还有在磁带上长期存储保留数据的要求 可以通过使用辅助站点来满足此要求 此站点中的本地存储节点可以使用一个磁带单元来实现磁带输出目的 将每周的引导数据库和索引备份拷贝克隆到磁带并送离现场 会将引导数据库和索引备份同时克隆到两个 Data Domain 系统, 以确保它们在两个站点均可用 将引导数据库和索引定期备份到 AFTD 设备 此步骤确保在发生故障切换时环境可以保持一致, 并保护备份服务 28 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
灾难恢复使用情形 索引或配置损坏 SAN 存储损坏或丢失 如果由于故障或人为错误导致介质数据库或配置区域损坏, 在 AFTD 上备份引导数据库和索引备份使您可以进行快速即时的恢复 在 AFTD 上备份引导数据库和索引备份允许您进行快速即时的恢复 注意, 配置损坏可能使对 DD Boost 设备的访问变得困难, 而重新配置 AFTD 设备的操作相对容易 如果 SAN 存储丢失或损坏, 您可以 : 重新配置 DD Boost 设备 配置磁带设备, 因为您在两个 Data Domain 系统和自动转换器上都有引导数据库备份 丢失一台服务器 一个 Data Domain 系统或一个站点 如果服务器 Data Domain 系统或站点丢失, 不会导致备份和恢复服务丢失 如果站点或单个服务器丢失是由网络 电源或冷却事件造成的, 则另一个站点应当允许备份服务在短暂的延迟以允许故障切换后保持正常运行 丢失可能是暂时的, 在这种情况下, 可能无需执行额外的恢复操作 您可以恢复复制或进行故障切换, 以便在问题解决后仍然使用主站点 如果两个站点的距离在几英里以内, 则可以使用磁带输出和离线存储 复制解决方案 不同的供应商以不同的方式使用 复制 这个术语 供应商之间的复制解决方案很少相同, 通常提供微妙的不同功能, 或者要求使用不同的参数才能正确运行 本部分不会试图涵盖所有的技术 供应商或模式, 而旨在为可以采用哪些复制 镜像和快照功能进行 NetWorker 服务器灾难恢复提供一些背景信息 在使用 NetWorker 服务器会不断读取 更改或更新的任何类型的复制技术时, 都请考虑以下操作 : 以事件和错误更新日志 更新客户端文件索引, 以反映新的备份或删除已达到其浏览或保留策略的备份 更新介质数据库, 以反映每个卷在使用时的位置和状态 创建 删除或更改存储集信息 更新通用配置, 以反映 NetWorker 服务器 其存储节点和客户端的当前状态 所有这些变更都会导致磁盘上发生许多 IO 操作 有必要考虑一下, 任何影响 IO 速度或可靠性的操作都会影响 NetWorker 服务器或灾难恢复操作的性能或可靠性 复制 镜像或快照等所有 IO 操作都需要某种截取元素来捕获所请求的 IO 捕获此 IO 后, 很容易判断该 IO 是写操作 更改操作还是读取操作 写操作需要的关注度最大, 因为这些操作需要更新磁盘并且需要确认写操作是否成功 如果磁盘在本地, 则此活动可能只需要很短的额外时间, 采用更加高级的阵列技术时尤其如此 但是, 如果更新需要对相隔一定距离的两个不同的系统进行更改, 则发送和确认更改的时间可能会很长 索引或配置损坏 29
灾难恢复使用情形 NetWorker 服务器的复制 NetWorker 服务器的复合主机 ID 本部分介绍复制用于承载 NetWorker 服务器的存储时支持的情形 复制通常与群集配合使用, 或者在以下情形中单独使用 : 两个单独的主机可以用作 NetWorker 服务器, 其中一个服务器是主动服务器, 另一个服务器准备好在主服务器发生故障时启动 NetWorker 服务 有关具体的性能要求, 请参见 NetWorker 性能和优化规划指南 为了避免 NetWorker 服务器故障切换到从属主机时重新承载 NetWorker 许可证, 可使用复合主机 ID 复合主机 ID 是为主动和被动节点创建单个 ID 的一种方式, 以便使用单个许可证 任何主动 - 被动情形都支持复合主机 ID, 不管是在群集 NetWorker 服务器环境中还是在复制 NetWorker 服务器环境中 NetWorker 群集集成指南 介绍了如何设置复合主机 ID 要避免在故障切换时出现连接相关问题, 请确保数据区中的所有 NetWorker 客户端在其 servers 文件中有两个 NetWorker 服务器节点 同步复制技术 任何同步复制都会显著增加延迟, 这是由 NetWorker 服务器产生的 IO 性质决定的 ( 大量的小规模随机 IO, 其中 98% 的写入不足 1 Kb) 即使少量增加磁盘请求服务时间, 也会对 NetWorker 服务器性能产生显著影响, 甚至可能导致服务器可靠性问题 因此, 只有已证明同步复制不会导致服务时间显著增加的解决方案才能获得 EMC 鉴定 此注意事项适用于所有基于阵列的同步复制技术, 例如基于本地 FC 的 SAN 云上的 EMC Symmetrix VMAX SRDF/S 或 EMC VNX MirrorView/S 如果同步复制拓扑中存在基于 IP 的链路或 SAN 路由, 则需要使用 RPQ( 产品鉴定请求 ) 来验证性能影响 要求 RPQ 的配置示例 : 通过基于 IP 的复制副本 (FCoE FCIP 以太网等 ) 的 SRDF/S 或 MirrorView/S 通过基于 FC 的复制副本 (SAN 路由 DWDM 等 ) 的 SRDF/S 或 MirrorView/S 异步复制技术 网络连接存储 如果用于复制的链路有足够的带宽, 使复制能连续进行, 不会因为负载而重新启动, 则支持任何基于硬件的异步或准同步复制 在重新启动复制期间, 将目标端视为不同步, 因此不支持在这些时间内的存储故障切换 此注意事项适用于任何异步复制技术, 如通过任何类型的链路的 SRDF/A 或 MirrorView/A NetWorker 服务器数据库可以位于从 NAS 文件服务器提供的 NFS (Unix/Linx) 或 CIFS (Windows) 共享上, 前提是到文件服务器和 NAS 存储的连接满足 NetWorker 性能优化和规划指南 中记录的性能要求 必须考虑 CIFS/NFS 共享, 因为与本地或 SAN 存储相比, 它们通常有较高的延迟 如果 CIFS/NFS 共享满足 NetWorker 服务器的最低要求, 则支持使用 NAS 文件服务器的本机复制技术进行复制 30 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南
灾难恢复使用情形 地理复制技术 基于主机的复制技术 用于地理群集 ( 如 SRDF/CE) 的任何基于阵列的复制解决方案都应按情形逐个鉴定, 因为使用情形差异太大, 无法提供通用的鉴定表 通常, 它们的可支持性类似于异步复制情形, 因此, 如果复制是连续的, 则无需因为链路可靠性或带宽不足而重新启动, 都支持复制 基于主机的复制也称为基于软件的复制, 即在主机上运行的软件 任何基于软件的 NetWorker 服务器数据库远程镜像或复制都无法鉴定, 因为存在 IO 延迟的严重影响以及与某些筛选器级别的驱动程序的已知兼容性问题 其中包括 Symantec Veritas VxVM 远程复制副本或 EMC RepliStor 之类解决方案 NetWorker 服务器的复制 31
灾难恢复使用情形 32 EMC NetWorker 8.2 服务器灾难恢复和可用性最佳做法指南