Microsoft Word - 网络存储导论 doc

Size: px

Start display at page:

Download "Microsoft Word - 网络存储导论 doc"

栽柴
5 years ago
Views:

1 网络存储导论时成阁 Mobile Phone: 年 6 月 22 日于上海寓所 0

2 版权声明本书描述和分析的内容可能涉及到但不限于 : 资讯数据文本产品图片音像录像软件声音图表等信息 ( 以下简称资料 ), 来源主要是作者通过实践经验的积累和公开技术技术资料的分析, 本书也主动收录部分资料, 但不拥有资料中的任何权益 ( 包括知识产权 ), 不代表同意其介绍或描述, 也不构成任何投资或商务建议, 仅为提供更多信息和促进学术交流以及工程实现本书尽可能对资料的来源作者或提供者做出明确描述, 但并不负责检视资料中的所有内容因此, 本书对资料所涉及的正确性版权所属或是合法性如何, 并不负担任何责任本书有权但没有义务提高所提供资料的质量, 以及改正或更新当前在资料中的任何错误对于任何包含经由连接下载或从任何与本书有关的服务 ( 以下简称服务 ) 所获得的资料, 不作任何明示或暗示的保证其内容的真实性可靠性和准确性并且, 对于您使用服务而展示购买或获得的任何资料, 本书也不负担对品质保证的责任您需要接受并承认因为参考或信任任何资料所产生的风险自行承担本书对于因为服务或资料所产生的任何直接间接和附带的损害概不负责本书尊重他人的所有权益 ( 包括知识产权 ), 同时也要求使用者也尊重本书作者的所有权益本书所有的引用 " 资料 ", 其版权均归原作者所有, 附带版权声明的 " 资料 ", 其版权以附带的版权声明为准本书无意从任何公司组织或个人的权益中谋利, 如果您认为您的作品被非法重制或权益收到了损害, 请通知作者更正, 作者会及时处理本书适用于法律法规规定的其它有关免责规定作者保留所有权益, 2005 年 6 月 22 日 1

3 网络存储导论第一部分基础知识 - 海量存储与数据备份...5 第一章 RAID 与大容量存储 RAID 概念 RAID-0 等级 RAID-1 等级 RAID-2 等级 RAID-3 等级 RAID-4 等级 RAID5 等级第二章磁盘存储阵列磁盘阵列原理磁盘阵列的额外容错功能多数据流对磁盘阵列系统性能的影响相关磁盘阵列存储术语第三章 FC 交换机和 SAN 存储与网络存储网络基础体系结构基础 TCP/IP,Ethernet 和存储网络相结合的多层环境 Cisco 推动的新一代多层智能化存储网络存储网络的未来发展如何建造企业 SAN 系统小结 : 全面集成第四章备份带库磁带库基础磁带库的发展磁带库评估磁带库是存储的基础第二部分高级知识 : 数据系统整合第五章数据分级存储分级存储的必要性分级存储的优点分级存储的存储方式分级存储的管理信息生命周期管理分级存储案例 : 电视台的具体应用第六章数据迁移数据迁移的概念数据迁移的特点数据迁移的三种方法数据迁移的实现第七章系统灾难备份

4 7.1 容灾技术的意义容灾技术的分类容灾方法的具体分析容灾技术性能总结和对照广域网络的高可用技术 ( 软件容灾方式 ) 第八章系统恢复灾难后信息安全的恢复规划 WAN 考虑因素第九章 IP SAN 系统设计 iscsi 技术与应用 IP SAN 存储方案举例 IP SAN 容灾及备份方案 IP 存储发展第三部分应用知识第十章一般 SAN 系统搭建大型企业综合存储系统券商容灾系统移动业务逻辑独立的存储系统不成功的 SAN 应用第十一章数据中心设计概述需求分析和设计目标系统设计原则系统方案设计第十二章海量存储系统设计海量数据存储系统架构方案备份系统设计海量存储系统扩展能力分析第十三章容灾系统设计容灾方法的具体分析采用 SAN 进行远程容灾的实现第四部分存储产业的组织和推动力第十四章国际存储技术组织简介 SNIA 互联网工程任务组 (IETF) 第十五章现有设备厂商简介 HDS 公司的 HDS 9900V McData 产品介绍 IBM 存储产品解决方案 IBM TotalStorage 企业存储解决方案... 错误! 未定义书签 15.4 Netapp 产品分析磁带库产品介绍第十六章专用术语参考表 SAN 专用术语 NAS 技术术语

5 4

6 第一部分基础知识 - 海量存储与数据备份第一章 RAID 与大容量存储 1.1 RAID 概念 RAID 的英文全称为 Redundant Array of Inexpensive( 或 Independent) Disks, 而不是某些词典中所说的 Redundant Access Independent Disks 中文名称是廉价( 独立 ) 磁盘冗余阵列 RAID 的初衷主要是为了大型服务器提供高端的存储功能和冗余的数据安全在系统中, RAID 被看作是一个逻辑分区, 但是它是由多个硬盘组成的 ( 最少两块 ) 它通过在多个硬盘上同时存储和读取数据来大幅提高存储系统的数据吞吐量 (Throughput), 而且在很多 RAID 模式中都有较为完备的相互校验 / 恢复的措施, 甚至是直接相互的镜像备份, 从而大大提高了 RAID 系统的容错度, 提高了系统的稳定冗余性, 这也是 Redundant 一词的由来 RAID 以前一直是 SCSI 领域的独有产品, 因为它当时的技术与成本也限制了其在低端市场的发展今天, 随着 RAID 技术的日益成熟与厂商的不断努力, 存储工程师已经能够享受到相对成本低廉得多的 IDE-RAID 系统, 虽然稳定与可靠性还不可能与 SCSI-RAID 相比, 但它相对于单个硬盘的性能优势对广大玩家是一个不小的诱惑事实上, 对于日常的低强度操作, IDE-RAID 已足能胜任了与 Modem 一样,RAID 也有全软半软半硬与全硬之分, 全软 RAID 就是指 RAID 的所有功能都是操作系统 (OS) 与 CPU 来完成, 没有第三方的控制 / 处理 ( 业界称其为 RAID 协处理器 RAID Co-Processor) 与 I/O 芯片这样, 有关 RAID 的所有任务的处理都由 CPU 来完成, 可想而知这是效率最低的一种 RAID 半软半硬 RAID 则主要缺乏自己的 I/O 处理芯片, 所以这方面的工作仍要由 CPU 与驱动程序来完成而且, 半软半硬 RAID 所采用的 RAID 控制 / 处理芯片的能力一般都比较弱, 不能支持高的 RAID 等级全硬的 RAID 则全面具备了自己的 RAID 控制 / 处理与 I/O 处理芯片, 甚至还有阵列缓冲 (Array Buffer), 对 CPU 的占用率以及整体性能是这三种类型中最优势的, 但设备成本也是三种类型中最高的早期市场上所出现的使用 HighPoint HPT 以及 PROMISE 芯片的 IDE RAID 卡与集成它们的主板都是半软半硬的 RAID, 并不是真正的硬 RAID, 因为它们没有自己专用的 I/O 处理器而且, 这两个公司的 RAID 5

7 控制 / 处理芯片的能力较弱, 不能完成复杂的处理任务, 因此还不支持 RAID 5 等级著名的 6

8 Adpatec 公司所出品的 AAA-UDMA RAID 卡则是全硬 RAID 的代表之作, 其上有专用的高级 RAID Co-Processor 和 Intel 960 专用 I/O 处理器, 完全支持 RAID 5 等级, 是目前最高级的 IDE-RAID 产品表 1 就是典型的软件 RAID 与硬 RAID 在行业应用中的比较 RAID 发展至今共有 10 个主要的等级, 下面就将依次介绍 1.2 RAID-0 等级 RAID0 全称叫做 Striped Disk Array without Fault Tolerance( 没有容错设计的条带磁盘阵列 ) 图中一个圆柱就是一块磁盘( 以下均是 ), 它们并联在一起从图中可以看出,RAID 0 在存储数据时由 RAID 控制器 ( 硬件或软件 ) 分割成大小相同的数据条, 同时写入阵列中的磁盘如果发挥一下想象力, 你会觉得数据象一条带子横跨过所有的阵列磁盘, 每个磁盘上的条带深度则是一样的至于每个条带的深度则要看所采用的 RAID 类型, 在 NT 系统的软 RAID 0 等级中, 每个条带深度只有 64KB 一种选项, 而在硬 RAID 0 等级, 可以提供以及 128KB 等多种深度参数 Striped 是 RAID 的一种典型方式, 在很多 RAID 术语解释中, 都把 Striped 指向 RAID 0 在读取时, 也是顺序从阵列磁盘中读取后再由 RAID 控制器进行组合图 1-1 RAID-0 结构图解再传送给系统, 这也是 RAID 的一个最重要的特点这样, 数据就等于并行的写入和读取, 从而非常有助于提高存储系统的性能对于两个硬盘的 RAID 0 系统, 提高一倍的读写性能可能有些夸张, 毕竟要考虑到也同时缯加的数据分割与组合等与 RAID 相关的操作处理时间, 但比单个硬盘提高 50% 的性能是完全可以的不过,RAID 0 还不能算是真正的 RAID, 因为它没有数据冗余能力由于没有备份或校验恢复设计, 在 RAID 0 阵列中任何一个硬盘损坏就可导致整个阵列数据的损坏, 因为数据都是分布存储的下面总结一下 RAID 0 的特点 : 7

9 图 1-2 RAID0 的特点 1.3 RAID-1 等级图 1-3 RAID-1 结构图解 Mirroring and Duplexing( 相互镜像 ) 对比 RAID 0 等级, 存储工程师能发现硬盘的内容是两两相同的这就是镜像两个硬盘的内容完全一样, 这等于内容彼此备份比如阵列中有两个硬盘, 在写入时,RAID 控制器并不是将数据分成条带而是将数据同时写入两个硬盘这样, 其中任何一个硬盘的数据出现问题, 可以马上从另一个硬盘中进行恢复注意, 这两个硬盘并不是主从关系, 也就是说是相互镜像 / 恢复的 8

10 RAID 1 已经可以算是一种真正的 RAID 系统, 它提供了强有力的数据容错能力, 但这是由一个硬盘的代价所带来的效果, 而这个硬盘并不能增加整个阵列的有效容量下面总结一下 RAID 1 的特点 : 图 1-4 RAID1 的特点 1.4 RAID-2 等级 Hamming Code ECC( 汉明码错误检测与修正 ) 图 1-5 针对 4 位数据的汉明码编码示意图 9

11 现在存储工程师要接触到 RAID 系统中最为复杂的等级之一 RAID 2 之所以复杂就是因为它采用了早期的错误检测与修正技术汉明码 (Hamming Code) 校验技术因此在介绍 RAID 2 之前有必要讲讲汉明码的原理汉明码的原理 : 汉明码是一个在原有数据中插入若干校验码来进行错误检查和纠正的编码技术以典型的 4 位数据编码为例, 汉明码将加入 3 个校验码, 从而使实际传输的数据位达到 7 个 ( 位 ), 它们的位置如果把上图中的位置横过来就是 : 注 :Dx 中的 x 是 2 的整数幂 ( 下面的幂都是指整数幂 ) 结果, 多少幂取决于码位,D1 是 0 次幂,D8 是 3 次幂, 想想二进制编码就知道了图 1-6 汉明码原理现以数据码 1101 为例讲讲汉明码的编码原理, 此时 D8=1 D4=1 D2=0 D1=1, 在 P1 编码时, 先将 D8 D4 D1 的二进制码相加, 结果为奇数 3, 汉明码对奇数结果编码为 1, 偶数结果为 0, 因此 P1 值为 1,D8+D2+D1=2, 为偶数, 那么 P2 值为 0,D4+D2+D1=2, 为偶数, P3 值为 0 这样, 参照上文的位置表, 汉明码处理的结果就是在这个 4 位数据码的例子中, 存储工程师可以发现每个汉明码都是以三个数据码为基准进行编码的图示就是它们的对应表 ( 图 1-6 ): 从编码形式上, 存储工程师可以发现汉明码是一个校验很严谨的编码方式在这个例子中, 通过对 4 个数据位的 3 个位的 3 次组合检测来达到具体码位的校验与修正目的 ( 不过只允许一个位出错, 两个出错就无法检查出来了, 这从下面的纠错例子中就能体现出来 ) 在校验时则把每个汉明码与各自对应的数据位值相加, 如果结果为偶数 ( 纠错代码为 0) 就是正确, 如果为奇数 ( 纠错代码为 1) 则说明当前汉明码所对应的三个数据位中有错误, 此时再通过其他两个汉明码各自的运算来确定具体是哪个位出了问题 10

12 还是刚才的 1101 的例子, 正确的编码应该是 , 如果第三个数据位在传输途中因干扰而变成了 1, 就成了检测时,P1+D8+D4+D1 的结果是偶数 4, 第一位纠错代码为 0, 正确 P1+D8+D2+D1 的结果是奇数 3, 第二位纠错代码为 1, 有错误 P3+D4+D2+D1 的结果是奇数 3, 第三但纠错代码代码为 1, 有错误那么具体是哪个位有错误呢? 三个纠错代码从高到低排列为二进制编码 110, 换算成十进制就是 6, 也就是说第 6 位数据错了, 而数据第三位在汉明码编码后的位置正好是第 6 位那么汉明码的数量与数据位的数量之间有何比例呢? 上面的例子中数据位是 4 位, 加上 3 位汉明码是 7 位, 而 2 的 3 次幂是 8 这其中就存在一个规律, 即 2P P+D+1, 其中 P 代表汉明码的个数,D 代表数据位的个数, 比如 4 位数据, 加上 1 就是 5, 而能大于 5 的 2 的幂数就是 3 (23=8,22=4) 这样, 存储工程师就能算出任何数据位时所需要的汉明码位数 :7 位数据时需要 4 位汉明码 (24>4+7+1),64 位数据时就需要 7 位汉明码 (27>64+7+1), 大家可以依此推算此时, 它们的编码规也与 4 位时不一样了另外, 汉明码加插的位置也是有规律的以四位数据为例, 第一个是汉明码是第一位, 第二个是第二位, 第三个是第四位,1 2 4 都是 2 的整数幂结果, 而这个幂次数是从 0 开始的整数这样存储工程师可以推断出来, 汉明码的插入位置为 1(20) 2(21) 4(22) 8(23) 16(24) 32(25) 说完汉明码, 下面就开始介绍 RAID 2 等级 RAID 2 等级介绍 : 图 1-7 RAID-2 结构图解由于汉明码是位为基础进行校验的, 那么在 RAID2 中, 一个硬盘在一个时间只存取一位的信息没错, 就是这么恐怖如图中所示, 左边的为数据阵列, 阵列中的每个硬盘一次只存储 11

13 一个位的数据同理, 右边的阵列 ( 存储工程师称之为校验阵列 ) 则是存储相应的汉明码, 也是一位一个硬盘所以 RAID 2 中的硬盘数量取决于所设定的数据存储宽度如果是 4 位的数据宽度 ( 这由用户决定 ), 那么就需要 4 个数据硬盘和 3 个汉明码校验硬盘, 如果是 64 位的位宽呢? 从上文介绍的计算方法中, 就可以算出来, 数据阵列需要 64 块硬盘, 校验阵列需要 7 块硬盘在写入时,RAID 2 在写入数据位同时还要计算出它们的汉明码并写入校验阵列, 读取时也要对数据即时地进行校验, 最后再发向系统通过上文的介绍, 存储工程师知道汉明码只能纠正一个位的错误, 所以 RAID 2 也只能允许一个硬盘出问题, 如果两个或以上的硬盘出问题, RAID 2 的数据就将受到破坏但由于数据是以位为单位并行传输, 所以传输率也相当快 RAID 2 是早期为了能进行即时的数据校验而研制的一种技术 ( 这在当时的 RAID 0 1 等级中是无法做到的 ), 从它的设计上看也是主要为了即时校验以保证数据安全, 针对了当时对数据即时安全性非常敏感的领域, 如服务器金融服务等但由于花费太大 ( 其实, 从上面的分析中可以看出如果数据位宽越大, 用于校验阵列的相对投资就会越小, 就如上面的 4:3 与 64:7), 成本昂贵, 目前已基本不再使用, 转而以更高级的即时检验 RAID 所代替, 如 RAID 3 5 等图 1-8 RAID 2 特点现在让存储工程师总结一下 RAID 2 的特点 : 1.5 RAID-3 等级 Parallel transfer with parity( 并行传输及校验 ) 12

14 RAID 2 等级的缺点相信大家已经很明白了, 虽然能进行即时的 ECC, 但成本极为昂贵为此, 一种更为先进的即时 ECC 的 RAID 等级诞生, 这就是 RAID 3 RAID 3 是在 RAID 2 基础上发展而来的, 主要的变化是用相对简单的异或逻辑运算 (XOR, exclusive OR) 校验代替了相对复杂的汉明码校验, 从而也大幅降低了成本 XOR 的校验原理如下图 1-9: 这里的 A 与 B 值就代表了两个位, 从中可以发现,A 与 B 一样时,XOR 结果为 0,A 与 B 图 1-9 XOR 的校验原理不一样时,XOR 结果就是 1, 而且知道 XOR 结果和 A 与 B 中的任何一个数值, 就可以反推出另一个数值比如 A 为 1,XOR 结果为 1, 那么 B 肯定为 0, 如果 XOR 结果为 0, 那么 B 肯定为 1 这就是 XOR 编码与校验的基本原理 RAID 3 的结构图如下 : 图 1-10 RAID-3 结构图解从图中可以发现, 校验盘只有一个, 而数据与 RAID 0 一样是分成条带 (Stripe) 存入数据阵列中, 这个条带的深度的单位为字节而不再是 bit 了在数据存入时, 数据阵列中处于同一等级的条带的 XOR 校验编码被即时写在校验盘相应的位置, 所以彼此不会干扰混乱读取时, 则 13

在调出条带的同时检查校验盘中相应的 XOR 编码, 进行即时的 ECC 由于在读写时与 RAID 0 很相似, 所以 RAID 3 具有很高的数据传输效率 RAID 3 在 RAID 2 基础上成功地进行结构与运算的简化, 曾受到广泛的欢迎, 并大量应用直到更为先进高效的 RAID 5 出现后,RAID 3 才开始慢慢退出市场下面让存储工程师总结一下 RAID 3 的特点 : 注 :

15 在调出条带的同时检查校验盘中相应的 XOR 编码, 进行即时的 ECC 由于在读写时与 RAID 0 很相似, 所以 RAID 3 具有很高的数据传输效率 RAID 3 在 RAID 2 基础上成功地进行结构与运算的简化, 曾受到广泛的欢迎, 并大量应用直到更为先进高效的 RAID 5 出现后,RAID 3 才开始慢慢退出市场下面让存储工程师总结一下 RAID 3 的特点 : 注 : 主轴同步是指阵列中所有硬盘的主轴马达同步图 1-11 RAID 3 的特点 1.6 RAID-4 等级 Independent Data disks with shared Parity disk( 独立的数据硬盘与共享的校验硬盘 ) RAID 3 英文定义是 Parallel transfer with parity, 即并行传输及校验与之相比,RAID 4 则是一种相对独立的形式, 这也是它与 RAID 3 的最大不同图 1-12 RAID-4 图解 14

16 与 RAID 3 相比, 存储工程师发现关键之处是把条带改成了块即 RAID 4 是按数据块为单位存储的, 那么数据块应该怎么理解呢? 简单的话, 一个数据块是一个完整的数据集合, 比如一个文件就是一个典型的数据块 RAID 4 这样按块存储可以保证块的完整, 不受因分条带存储在其他硬盘上而可能产生的不利影响 ( 比如当其他多个硬盘损坏时, 数据就完了 ) 不过, 在不同硬盘上的同级数据块也都通过 XOR 进行校验, 结果保存在单独的校验盘所谓同级的概念就是指在每个硬盘中同一柱面同一扇区位置的数据算是同级在写入时,RAID 就是按这个方法把各硬盘上同级数据的校验统一写入校验盘, 等读取时再即时进行校验因此即使是当前硬盘上的数据块损坏, 也可以通过 XOR 校验值和其他硬盘上的同级数据进行恢复由于 RAID 4 在写入时要等一个硬盘写完后才能写一下个, 并且还要写入校验数据所以写入效率比较差, 读取时也是一个硬盘一个硬盘的读, 但校验迅速, 所以相对速度更快总之,RAID 图 1-13 RAID-4 特点 4 并不为速度而设计下面存储工程师总结一下 RAID 4 的特点 : 1.7 RAID5 等级 RAID5 和 RAID4 相似但避免了 RAID4 的瓶颈, 方法是不用校验磁盘而将校验数据以循环的方式放在每一个磁盘中,RAID5 的控制比较复杂, 尤其是利用硬件对磁盘阵列的控制, 因为这种方式的应用比其他的 RAID level 要掌握更多的事情, 有更多的输出 / 入需求, 既要速度快, 又要处理数据, 计算校验值, 做错误校正等, 所以价格较高, 其应用最好是 OLTP, 至于用于大型文件, 不见得有最佳的性能 RAID5 在不停机及容错的表现都很好, 但如有磁盘故障, 对性能的影响较大, 大容量的快取内存有助于维持性能, 但在 OLTP 的应用上, 因为每一笔数据或记录 (record) 都很小, 对磁盘的存取频繁, 故有一定程度的影响某一磁盘故障时, 读取该磁盘的数据需把共用同一校验值 15

17 分段的所有数据及校验值读出来, 再把故障磁盘的数据计算出来 ; 写入时, 除了要重覆读取的程序外, 还要再做校验值的计算, 然后写入更新的数据及校验值 ; 等换上新的磁盘, 系统要计算整个磁盘阵列的数据以回复故障磁盘的数据, 时间要很长, 如系统的工作负载很重的话, 有很多输出 / 入的需求在排队等候时, 会把系统的性能拉下来但如使用硬件磁盘阵列的话, 其性能就可以得到大幅度的改进, 因为硬件磁盘阵列如 Arena 系列本身有内置的 CPU 与主机系统并行运作, 所有存取磁盘的输出入工作都在磁盘阵列本身完成, 不花费主机的时间, 配合磁盘阵列的快取内存的使用, 可以提高系统的整体性能, 而优越的 SCSI 控制更能增加数据的传输速率, 即使在磁盘故障的情况下, 主机系统的性能也不会有明显的降低 RAID5 要做的事情太多, 所以价格较贵, 不适于小系统, 但如果是大系统使用大的磁盘阵列的话,RAID5 却是最便宜的方案这一点后续章节将详尽介绍 16

18 第二章磁盘存储阵列如何增加磁盘的存取 (access) 速度, 如何防止数据因磁盘的故障而失落及如何有效的利用磁盘空间, 一直是电脑专业人员和用户的困忧 ; 而大容量磁盘的价格非常昂贵, 对用户形成很大的负担磁盘阵列技术的产生一举解决了这些问题过去十年来,CPU 的处理速度几乎是几何级数的跃升, 内存 (memory) 的存取速度亦大幅增加, 而数据储存装置主要是磁盘 (hard disk) 的存取速度相较之下, 较为缓慢整个 I/O 吞吐量不能和系统匹配, 形成电脑系统的瓶颈, 拉低了电脑系统的整体性能 (throughout) 若不能有效的提升磁盘的存取速度,CPU 内存及磁盘间的不平衡将使 CPU 及内存的改进形成浪费目前改进磁盘存取速度的方式主要有两种一是磁盘快取控制 (disk cache controller), 它将从磁盘读取的数据存在快取内存 (cache memory) 中以减少磁盘存取的次数, 数据的读写都在快取内存中进行, 大幅增加存取的速度, 如要读取的数据不在快取内存中, 或要写数据到磁盘时, 才做磁盘的存取动作这种方式在单工期环境 (single-tasking envioronment) 如 DOS 之下, 对大量数据的存取有很好的性能 ( 量小且频繁的存取则不然 ), 但在多工 (multi-tasking) 环境之下 ( 因为要不停的作数据交换 (swapping) 的动作 ) 或数据库 (database) 的存取 ( 因每一记录都很小 ) 就不能显示其性能这种方式没有任何安全保障其一是使用磁盘阵列的技术磁盘阵列是把多个磁盘组成一个阵列, 当作单一磁盘使用, 它将数据以分段 (striping) 的方式储存在不同的磁盘中, 存取数据时, 阵列中的相关磁盘一起动作, 大幅减低数据的存取时间, 同时有更佳的空间利用率磁盘阵列所利用的不同的技术, 称为 RAID level, 不同的 level 针对不同的系统及应用, 以解决数据安全的问题一般高性能的磁盘阵列都是以硬件的形式来达成, 进一步的把磁盘快取控制及磁盘阵列结合在一个控制器 (RAID controler) 或控制卡上, 针对不同的用户解决人们对磁盘输出 / 入系统的四大要求 : (1) 增加存取速度 (2) 容错 (fault tolerance), 即安全性 (3) 有效的利用磁盘空间 (4) 尽量的平衡 CPU, 内存及磁盘的性能差异, 提高电脑的整体工作性能 17

19 2.1 磁盘阵列原理 1987 年, 加州伯克利大学的一位人员发表了名为 \" 磁盘阵列研究 \" 的论文, 正式提到了 RAID 也就是磁盘阵列, 论文提出廉价的 5.25 及 3.5 的硬盘也能如大机器上的 8 盘能提供大容量高性能和数据的一致性, 并详述了 RAID1 至 5 的技术磁盘阵列针对不同的应用使用的不同技术, 称为 RAID level,raid 是 Redundant Array of Inexpensive Disks 的缩写, 而每一 level 代表一种技术, 目前业界公认的标准是 RAID0~RAID5 这个 level 并不代表技术的高低,level5 并不高于 level3,level1 也不低于 level4, 至于要选择哪一种 RAID level 的产品, 纯视用户的操作环境 (operating environment) 及应用 (application) 而定, 与 level 的高低没有必然的关系 RAID0 没有安全的保障, 但其快速, 所以适合高速 I/O 的系统 ;RAID1 适用于需安全性又要兼顾速度的系统,RAID2 及 RAID3 适用于大型电脑及影像 CAD/CAM 等处理 ;RAID5 多用于 OLTP, 因有金融机构及大型数据处理中心的迫切需要, 故使用较多而较有名气, 但也因此形成很多人对磁盘阵列的误解, 以为磁盘阵列非要 RAID5 不可 ;RAID4 较少使用, 和 RAID5 有其共同之处, 但 RAID4 适合大量数据的存取其他如 RAID6, RAID7, 乃至 RAID 等, 都是厂商各做各的, 并无一致的标准, 在此不作说明总而言之,RAID0 及 RAID1 最适合 PC 服务器及图形工作站的用户, 提供最佳的性能及最便宜的价格, 以低成本符合市场的需求 RAID2 及 RAID3 适用于大档案且输入输出需求不频繁的应用如影像处理及 CAD/CAM 等 ; 而 RAID5 则适用于银行金融股市数据库等大型数据处理中心的 OLTP 应用 ;RAID4 与 RAID5 有相同的特性及用方式, 但其较适用于大型文件的读取 2.2 磁盘阵列的额外容错功能事实上容错功能已成为磁盘阵列最受青睐的特性, 为了加强容错的功能以及使系统在磁盘故障的情况下能迅速的重建数据, 以维持系统的性能, 一般的磁盘阵列系统都可使用热备份 (hot spare or hot standby drive) 的功能, 所谓热备份是在建立 (configure) 磁盘阵列系统的时候, 将其中一磁盘指定为后备磁盘, 此一磁盘在平常并不操作, 但若阵列中某一磁盘发生故障时, 磁盘阵列即以后备磁盘取代故障磁盘, 并自动将故障磁盘的数据重建 (rebuild) 在后备磁盘之上, 因为反应快速, 加上快取内存减少了磁盘的存取, 所以数据重建很快即可完成, 对系统的性能影响不大对于要求不停机的大型数据处理中心或控制中心而言, 热备份更是一项重要的功能, 因为可避免晚间或无人守护时发生磁盘故障所引起的种种不便 18

20 备份盘又有热备份与温备份之分, 热备份盘和温备份盘的不同在于热备份盘和阵列一起运转, 一有故障时马上备援, 而温备份盘虽然带电但并不运转, 需要备援时才启动两者分别在是否运转及启动的时间, 但温备份盘因不运转, 理论上有较长的寿命另一个额外的容错功能是坏扇区转移 (bad sector reassignment) 坏扇区是磁盘故障的主要原因, 通常磁盘在读写时发生坏扇区的情况即表示此磁盘故障, 不能再作读写, 甚至有很多系统会因为不能完成读写的动作而死机, 但若因为某一扇区的损坏而使工作不能完成或要更换磁盘, 则使得系统性能大打折扣, 而系统的维护成本也未免太高了, 坏扇区转移是当磁盘阵列系统发现磁盘有坏扇区时, 以另一空白且无故障的扇区取代该扇区, 以延长磁盘的使用寿命, 减少坏磁盘的发生率以及系统的维护成本所以坏扇区转移功能使磁盘阵列具有更好的容错性, 同时使整个系统有最好的成本效益比其他如可外接电池备援磁盘阵列的快取内存, 以避免突然断电时数据尚未写回磁盘而丢失 ; 或在 RAID1 时作写入一致性的检查等, 虽是小技术, 但亦不可忽视 2.3 多数据流对磁盘阵列系统性能的影响单主机连接情况下的磁盘阵列存储系统性能一般在单主机连接的情况下, 磁盘或磁盘阵列拥有最好的性能由于目前几乎所有的操作系统都是基于本身独自占有的文件系统, 即文件系统只能被一个单一的操作系统所独有, 所以操作系统或基于操作系统的应用软件可以在对存储系统进行数据读写的时候, 针对磁盘存储系统的读写特点, 无论操作系统还是应用软件都会对读写方式做最优化处理, 以减少磁盘的物理寻道次数, 降低磁盘的机械反应时间每个程序进程的数据请求对其它的数据请求来说是不确定的, 但由于操作系统本身的对数据访问的管理和控制, 所有出自该操作系统的数据请求都被操作系统做了有序化处理, 因此对于磁盘或磁盘阵列来说, 数据读写请求是被优化过的, 或者说在经过优化以后没有任何变化, 这个时候存储系统拥有最佳的性能作为磁盘阵列, 虽然在操作系统和各个磁盘驱动器之间增加了一层 RAID 控制器, 但目前所有的 RAID 控制器本身只作为对磁盘容错的管理和校验的计算等一些必要的操作, 并不对数据请求做合并重新排序和优化处理, 因为它的设计出发点是建立在单个主机连接的已经经过操作系统优化的和排序的数据请求的基础之上, 它所拥有的缓存也只有直接缓存和计算缓存的功能, 不对数据做排队处理, 只是将主机端口过来的数据按着先进先计算先出的方式通过 CPU 19

21 计算校验以后写入磁盘缓存的性能虽然非常快, 但其容量相对于多媒体数据来说并不足够大, 在很快写满缓存以后, 速度立即衰减到实际操作磁盘的速度所以 RAID 控制器的功能只是将许多磁盘组成一个或多个大的容错的磁盘, 并且利用每个磁盘上的缓存的缓冲存储功能提高整体的数据读写速度,RAID 控制器的读缓存可以在短时间内再次读取同一数据的情况下明显提高磁盘阵列的读性能整个磁盘阵列的实际的最高读写速度受到主机通道带宽控制器 CPU 的校验计算和系统控制能力 (RAID 引擎 ) 磁盘通道带宽和磁盘性能 ( 每个磁盘有自己的最高性能, 这里指多个磁盘总的实际性能 ) 中的最低值的限制另外, 操作系统的数据请求的优化基础与 RAID 格式不匹配, 也会对磁盘阵列的性能造成很大的影响, 如 I/O 请求的数据块大小与 RAID 的数据段大小不匹配等多主机同时访问下, 传统磁盘阵列存储系统的性能变化首先分析在视音频应用环境中来自不同主机的多个媒体流对小规模磁盘阵列存储系统性能的影响小规模磁盘阵列存储系统一般拥有单个或一对冗余的磁盘阵列控制器, 所能连接的磁盘的数量较少, 具有基本的容错和管理功能, 结构相对简单在存储区域网络的多主机共享存储环境中, 虽然每台主机对自己所发出的数据请求做了排序和优化, 但各个主机之间的数据流对共享的存储系统来说是无序的, 导致了更多的磁盘重新寻道次数更多的数据段头尾信息和更多的数据碎片读出合并校验计算和再写入过程这样导致存储的性能比单主机连接时下降许多, 主机连接得越多, 磁盘系统的性能下降的幅度就越大图 2-1 显示了一个磁盘阵列在多主机同时访问的环境中的测试结果, 多主机的同时访问造成磁盘阵列总性能的衰减一般情况下, 不同磁盘阵列不同的磁盘阵列设置和使用不同种类的磁盘驱动器, 测试结果会稍有不同, 但都不可避免地出现性能明显衰减的状况其次, 分析在视音频应用环境中来自不同主机的多个媒体流对大规模磁盘阵列存储系统性能的影响所谓大规模磁盘阵列存储系统, 一般是指在一个存储系统中使用总线结构或交叉点交换结构将多个存储子系统 ( 磁盘阵列 ) 连接起来, 并在总线中或交换结构中使用大容量的缓存和用于更多主机连接的类似于通道集线器或交换机的主机连接模块, 最后通过复杂的存储管理软件组合成的大型的存储系统这种存储系统可以提供比单个小的磁盘阵列更大的容量和更高的性 20

22 能象采用总线结构的 EMC 的 Symmetrix 系统在单个磁盘阵列的性能只能达到 25 至 50M 字节 / 秒时, 它的最高性能就可以到 100M 字节 / 秒, 甚至在使用 RAID10( 磁盘镜像 ) 时最高可到 200 至 300M 字节 / 秒象采用总线结构和交叉点交换结构 ( 最新的系统 ) 日立的两种存储系统, 也可以到类似于 Symmetrix RAID10 的实际性能一般在这类存储系统中缓存对性能都有巨大的贡献, 但只有在事务处理应用和类似于邮电计费的应用中才起作用几十 G 字节的缓存可以存储数小时的事务处理数据, 系统可以从容地在空闲时将数据写入磁盘, 物理卷的非常小的数据段设置也足以说明这类存储系统只适合于事务处理类应用对于多媒体数据来说几十 G 字节的缓存相当于几十秒或几分钟的数据量, 缓存图 2-1 在多主机的数据流同时访问时小规模磁盘阵列总性能的衰减写满以后将考验系统直接从磁盘上访问数据的能力而一般的这类系统虽然拥有几十个 100M 字节 / 秒带宽的光纤通道主机连接端口, 但内部集成的多个磁盘阵列子系统与一般的用于事务处理的磁盘阵列并没有什么不同, 磁盘阵列子系统的一个控制器的一个逻辑单元的性能在只有一个主机访问这个逻辑单元的情况下可以有 25 至 50M 字节左右的实际性能在多主机访问同一个逻辑单元的情况下, 由于在所有的这些系统中没有数据重新排序和优化功能 ( 总线结构和交叉点交换结构决定了这一点 ), 所以同样会产生较大的性能影响但这种性能衰减与小规模的磁盘阵列的性能衰减有所不同由于在这种大规模磁盘阵列存储系统内部包括了相对独立的多个磁盘阵列子系统 ( 例如四个或八个 ), 每个磁盘阵列子系统由一对磁盘控制器组成, 在不同的主机访问不同的磁盘阵列子系统时各自的性能不受影响, 只受到系统总线带宽的限制所以在多主机的数据流访问平均分布在不同的存储子系统中时, 它的多主机的支持能力可以是小规模磁盘阵列系统的几倍 21

23 在这种大规模磁盘阵列存储系统中, 一个逻辑单元只能建立在单个磁盘子系统中, 由于单个磁盘阵列子系统的内部串行结构, 决定了一个逻辑单元只能通过一个串行路径来提供给用户, 所以大规模磁盘阵列存储系统并不能提高单个逻辑单元的性能单个逻辑单元的性能很低, 一般只有 25 至 50M 字节 / 秒的实际性能但在事务处理类应用中这种结构大大提高了性能, 因为在这类应用中可以根据事务处理的特点, 每个事务处理数据都非常小, 但数量庞大有一定的统计规律性, 可以利用数据库将同时到来的事务处理数据分类, 将它们尽量平均分布在不同的磁盘子系统中, 同时利用磁盘子系统外部的大容量缓存, 可以大大地提高整个存储系统的性能而对于视音频数据流的应用, 用户数据访问的单个数据流一般都很大, 但访问次数相对较小, 即使有一定的规律性也有可能发生对不同逻辑单元的需求不均衡的现象, 这样极易造成某个逻辑单元阻塞或性能明显下降所以这种大规模磁盘阵列存储系统并不适合使用于视音频和多媒体的应用领域第三, 在视音频应用环境中来自不同主机的多个媒体流对 NAS 存储系统性能的影响 NAS 存储系统是建立在传统 RAID 技术的基础上, 发挥单个主机连接时磁盘阵列系统拥有最好的性能的特点, 使用 NFS 和 CIFS 协议将瘦服务器连接的存储系统通过以太网共享给外部的用户由于瘦服务器削减了与存储管理和数据通讯无关的各种功能, 优化了 TCP/IP 协议的数据传输能力, 同时使用多个 ( 目前最多十个 ) 并行的 TCP/IP 数据传输, 使单个 NAS 存储系统的最大共享速度可以达到 60M 字节 / 秒左右在多主机连接的环境中, 由于使用的是以太网的连接, 来自不同主机的数据进入瘦服务器以后通过瘦服务器的操作系统或数据管理应用软件的管理和重新排序后以最优的方式写入磁盘系统, 这样一来磁盘系统本身没有明显的性能衰减这也是 NAS 存储能在目前得到相当的发展的一个主要的原因之一, 它的特点使它适合应用于需要数据共享的应用环境当中但是,NAS 有很多特点限制了它在视音频和多媒体应用领域的应用一个独立的数据流只能使用一个 TCP/IP 传输流, 不能使用两个或两个以上的 TCP/IP 流来将一个媒体流分成几部分同时传输这样一来, 由于单个 TCP/IP 流由其协议的限制最多可以到 6M 字节 / 秒左右, 造成对媒体流大小的限制同时大多数媒体流具有实时性, 而 TCP/IP 的打包传输特点不能提供一个持续稳定的传输, 会导致媒体流的掉帧的或质量的下降 NAS 的共享能力只有 60M 字节 / 秒, 而对于实时性很强的媒体流类型应用来说, 有效的共享能力可能只有 30 至 40M 字节 / 秒, 这种有限的共享能力对存储工程师目前的需求来说是远远不够的在媒体流应用中, 如果用户的需求超过 NAS 存储所能提供的共享能力时, 将导致对每一个用户的服务质量下降在使用多个 NAS 系统时, 由于视音频数据流的应用的特点, 用户数据访问的数据流一般都很大, 但访问次数相对较小, 即使有一定的规律性也有可能发生对不同 NAS 系统的需求不均衡的现象, 这样极 22

24 易造成某个 NAS 系统阻塞所以 NAS 存储系统也同样不适合使用于视音频和多媒体的共享应用领域以下举例分析产品 1:DataDirect Networks 公司的 SAN DataDirector DataDirect Networks 公司的 SAN DataDirector 存储区域网络设备是一个全新的存储系统概念它无论对单台主机有序的数据访问还是来自多台主机的不确定的数据访问, 它都拥有同样的高性能 : 单台 SDD 实际的写性能可以到 760M 字节 / 秒, 实际的读性能可以到 800M 字节 / 秒, 单个逻辑单元的性能可以到 650 至 700M 字节 / 秒这样高的性能来自于它的独特的对存储区域网络的多主机环境进行专门设计的并行体系结构, 它不只是一个高性能的存储系统, 它还是一个存储区域网络的基础结构设备多 CPU 的并行处理技术, 尤其是其中的软件技术一直当今世界计算机应用领域的一大难题不同种类的 CPU 对于不同种类用途的并行处理能力是不同的,DataDirect Networks 公司采用独特的软硬件技术率先将适用于 IO 处理的 RISC CPU 的并行处理技术应用于存储和存储区域网络管理系统当中, 彻底改变了总线结构和交叉点交换结构在这一领域的跟不上发展需求的现状 DataDirect Networks 公司的 SAN DataDirector 存储区域网络设备拥有八个用于连接主机或连接存储区域网络连接设备的主机接口和二十个用于可以连接高达 1250 块磁盘驱动器的磁盘接口在每一个端口上都有一个用于与其它端口进行并行处理的 GALEFORCe 特定用途集成电路在这二十八个 GALEFORCe 特定用途集成电路中, 每个包含一个 RISC 处理器, 用于控制和区分命令路径和数据路径, 向主机以及存储器提供高速的数据传输路径巨大的并行处理缓存池与 DMA 之间的高速数据信息包传送机制和这些特定用途集成电路的结合, 为所有的主机提供了通过缓存池对所有的存储进行直接的和并行的访问能力由于所有的数据访问都要经过缓存,SDD 的并行处理机制将无论是来自单台主机的有序数据访问请求还是来自多台主机的不确定的数据访问请求都进行重新排队和有序化,SDD 的并行处理机制为来自所有端口的数据进行统一排序提供了基础同时 SDD 的 GALEFORCe 特定用途集成电路不只在互相之间做功能强大的并行处理, 而且还利用磁盘驱动器提供的软件接口, 跟所有的与 SDD 磁盘端口相连接的磁盘驱动器的内置处理器进行并行处理, 通过磁盘驱动器内置处理器对数据请求命令再次排序并且充分有效地利用磁盘的自带缓存这种独特的 SDD 与所有磁盘驱动器的一体化并行处理, 最大限度地充分地最小化了驱动器的寻道次数, 将磁盘驱动器的机械反应时间降到最低 SDD 不但没有在多主机访问时产生性能衰减, 而且还利用多台主机的并发数据访问发挥出它的单台主机无法用到的极高的性能 23

SDD 独有的另外一个突破性的技术是 directraid 技术, 它对系统性能的贡献与 SDD 的并行处理技术同样重要 directraid 技术结合并行处理技术征服了传统 RAID 技术的单数据流限制, 使多个校验组数据流可以在一个 directraid 中并行存在, 多个校验磁盘同时运行, 在提供无缝的数据保护的同时不引起丝毫的性能衰减它的重建操作只需要传统 RAID

25 SDD 独有的另外一个突破性的技术是 directraid 技术, 它对系统性能的贡献与 SDD 的并行处理技术同样重要 directraid 技术结合并行处理技术征服了传统 RAID 技术的单数据流限制, 使多个校验组数据流可以在一个 directraid 中并行存在, 多个校验磁盘同时运行, 在提供无缝的数据保护的同时不引起丝毫的性能衰减它的重建操作只需要传统 RAID 技术的三分之一的时间, 消除了传统 RAID 技术在重建时停止工作或性能明显下降的现象这种将冗余组和逻辑单元之间关系虚拟化的 directraid 技术在首先提供了比传统 RAID 技术的更高的数据保护功能以外, 它为存储工程师带来了比传统的 RAID 系统高数十倍的单逻辑单元并发数据访问性能, 使单逻辑单元的数据访问能力可以达到 650 至 700M 字节 / 秒, 并且这个性能在多主机的情况下没有衰减这种非常高的单逻辑单元性能解决了在视音频和多媒体的共享应用环境中的对某一个逻辑单元数据的需求不均衡的现象造成的阻塞问题, 消除了人工负载均衡的难题 DataDirect Networks 公司的 SAN DataDirector 存储区域网络设备是目前世界上拥有最高性能价格比的存储系统, 是适用于大规模视音频媒体流共享应用领域的存储系统中的最佳选择举例 2:HDS 公司的 Lightning9960 存储系统分析 : Lightning9960 的体系结构 : 图 2-2 Lightning9960 磁盘阵列系统的体系结构 ( 图中只给出数据通路的结构图 ) 24

26 Lightning9960 的体系结构如图一所示, 主机接口最大可以使用四个 CHIP 对, 每个 CHIP 对由两个可以互相备份 ( 每个主机必须通过两个光纤通道适配器同时与两个 CHIP 的一个口连接 ) 的 CHIP 组成, 每个 CHIP 拥有四个光纤通道 (ESCON 接口在本文中将不涉及, 但并不影响存储工程师对性能的讨论 ) 主机接口和两个用于与内部两个交换机连接的光纤通道接口, 四个 CHIP 对共有 32 个光纤通道主机接口和 16 个光纤通道的与内部交换机相连接的接口在 Lightning9960 的中间采用两个 Crossbar 交换机, 每个交换机都与每个 CHIP 每个缓存块和每个磁盘阵列控制器的光纤通道相连接 Lightning9960 最多有四块 8GB 的缓存, 缓存是 CHIP 与控制器之间数据的必经缓冲区, 它与交换机之间共有 16 个光纤通道连接 ( 图中只画出了 8 个 ) 在体系结构的最下面是四对磁盘阵列控制器, 每对控制器有四个连接交换机的通道和 8 个用于连接磁盘驱动器的磁盘通道控制器对中的不同控制器的两个磁盘通道同时连接到双端口磁盘的两个端口上提供备份连接, 所以每对控制器实际有 4 个独立的磁盘通道 Lightning9960 的数据通道带宽 : 从 Lightning9960 的结构图中可以计算出每部分的带宽是 :32 个光纤通道主机端口总带宽为 3200MB/ 秒 ;CHIP 与交换机之间的总带宽为 1600MB/ 秒 ; 在交换机到缓存之间的总带宽为 1600MB/ 秒 ; 在缓存到交换机之间的总带宽为 1600MB/ 秒 ( 缓存和交换机之间是双向传输所以此项带宽与上一项带宽互相不影响 ); 交换机到磁盘阵列控制器的总带宽为 1600MB/ 秒 ; 内部磁盘通道的总带宽为 1200MB/ 秒 ( 因为每对磁盘阵列控制器的四个磁盘通道中在做 RAID5 时有一个通道的带宽被用来做校验 ) 由于所有以上的带宽都是串行结构, 所以 Lightning9960 的数据通道实际总带宽受到链路中最小值 1200MB/ 秒的限制但数据通道带宽并不等于整个系统的实际性能, 实际的性能将受到每个磁盘阵列控制器 (ACP) 的 RAID 引擎系统整个体系结构和应用环境的影响, 下面将讨论在应用中的实际性能 Lightning9960 的实际性能 : Lightning9960 存储系统中每个磁盘阵列的性能由于受到每个磁盘阵列控制器 (ACP) 的 RAID 引擎的限制, 单个控制器的性能只有 60MB/ 秒左右, 而且无论使用控制器的一个通道还是两个通道结果都是同样的, 这个结果是在单主机有序的数据请求下的实际结果所有的 Lightning9960 中的 8 个控制器, 在每个控制器都在单主机访问的情况下, 总的最大的实际性能为 480MB/ 秒左右而在存储区域网络的实际应用环境中, 数据访问来自多个主机, 在这种情况下,Lightning9960 的实际性能将迅速衰减, 如果不确定的数据请求来自 8 台主机以上, 总性能将衰减到 100 到 200MB/ 秒左右但在 Lightning9960 存储系统中, 有 8 个用于主机连接的 CHIP, 它为系统在多主机连接情况下的实际性能的提高做了巨大的贡献由于每个 CHIP 可以将与它连接的所有的不同主机来的 I/O 请求重新排队, 这样一来, 从每个 CHIP 进入系统中的数据请求 25

27 变成有序的 I/O 请求, 使整个系统的在无论连接多少个主机时, 不确定的数据流只有 8 个来自不同 CHIP 的数据流, 优化了系统的性能在只有 8 个不确定的数据流的情况下, 存储工程师来讨论一下 Lightning9960 存储系统的实际性能对单一控制器的逻辑单元来说, 对它的数据访问有可能只来自一个 CHIP 也有可能来自多个 CHIP( 最多 8 个 ), 外部连接的主机越多来自多个 CHIP 的可能性越大而对于存储工程师目前视音频媒体流应用中, 共享的主机数量一般在几十个到几百个左右, 在这种情况下, 对单一控制器的逻辑单元的数据访问来自多个 CHIP 的可能性较大, 假如对某一控制器的逻辑单元的数据访问来自 6 个左右的 CHIP, 那么总的实际系统性能将在 200MB/ 秒左右在 Lightning9960 存储系统中单个 CHIP 对数据请求的排序, 在一定程度上优化了系统的实际性能, 但多个 CHIP 之间没有进行统一排序使本系统的实际性能并没有得到很大提高在多媒体共享应用中,Lightning9960 存储系统中的单个逻辑单元的性能限制是一个非常严重的缺陷, 单个逻辑单元的最大性能只有 60MB/ 秒, 而在处理同时来自不同 CHIP 的数据请求时, 性能将急剧下降, 有可能只有 20MB/ 秒左右综上所述, 从实际性能和单逻辑单元两方面来看,Lightning9960 存储系统适合用于对并发流实际带宽要求不是很高的视音频流共享应用领域但在事务处理类应用领域, 因为大容量的缓存可以存储数小时的数据, 以及在这里没有讨论的比其他系统更强大的用于传输配置信息和控制信息的具有 64 个入口的共享存储器 (shared memory), 使 Lightning9960 存储系统在该领域有非常好的 I/O 处理性能表现, 实际的 I/O 处理能力可以到个 I/Os 左右 2.4 相关磁盘阵列存储术语为了便于读者阅读本书的后续章节, 这里给出了一部分必要的磁盘阵列存储术语为了保持章节的紧凑性, 其具体技术细节不再进行介绍 SCSI 就是 Small Computer System Interface( 小型计算机系统接口 ), 它最早研制于 1979, 是为小型机研制出的一种接口技术, 但随着电脑技术的发展, 现在它被完全移植到了普通 PC 上 ATA(AT 嵌入式接口 ) 即俗称的 IDE, 设计该接口的目的就是为了将 1984 年制造的 AT 计算机中的总线直接与结合在一起的驱动器和控制器相连 ATA 中的 AT 就来源于首次使用 ISA 总线的 AT 计算机 26

28 ATA 从最早的 ATA-1 开始, 已经经历了从 ATA-1 ATA-2 ATA-3 Ultra ATA Ultra ATA/33 Ultra ATA/66 Ultra ATA/100 Ultra ATA/133 的发展历程 Serial ATA( 串行 ATA) 采用的是串行数据传输方式, 每一个时钟周期只传输一位数据 ATA 硬盘一直都采用并行传输模式, 线路间的信号会互相干扰, 在高速数据传输过程中, 影响系统的稳定性由于串行传输方式不会遇到信号串扰问题, 所以要提高传输速度只需要提高工作频率即可 Serial ATA 只需 4 线电缆 SATA 采用的是点对点的传输方式, 使得用户在使用 SATA 硬盘时不再需要设置硬盘的主从盘, 而直接每个硬盘对应一个数据通道直接连接系统 SATA1.0 的标准规定, 硬盘的接口传输速率为 150MB/s,SATA 可扩展到 2X 和 4X 的规格, 相应的传输速率则分别提升至了 300MB/s 和 600MB/s SATA 硬盘还可以实现热插拔功能, 不过目前为止还没有操作系统支持这项功能, 人们还要等到微软的下一代操作系统 Windows Longhorn 面世后才能享受到这项功能带来的便利 NAS(Network Attached Storage- 网络附加存储 ) 即将存储设备通过标准的网络拓扑结构 ( 例如以太网 ), 连接到一群计算机上 NAS 是部件级的存储方法, 它的重点在于帮助工作组和部门级机构解决迅速增加存储容量的需求 DAS(Direct Attached Storage- 直接附加存储 ) 是指将存储设备通过 SCSI 接口或光纤通道直接连接到一台计算机上 DAS 产品包括存储器件和集成在一起的简易服务器, 可用于实现涉及文件存取及管理的所有功能 SAN(Storage Area Network- 存储局域网络 ) 通过光纤通道连接到一群计算机上在该网络中提供了多主机连接, 但并非通过标准的网络拓扑 SAN 专注于企业级存储的特有问题, 主要用于存储量大的工作环境 Array: 阵列磁盘阵列模式是把几个磁盘的存储空间整合起来, 形成一个大的单一连续的存储空间 RAID 控制器利用它的 SCSI 通道可以把多个磁盘组合成一个磁盘阵列简单的说, 阵列就是由多个磁盘组成, 并行工作的磁盘系统需要注意的是作为热备用的磁盘是不能添加到阵列中的 27

29 Array Spanning: 阵列跨越阵列跨越是把 2 个,3 个或 4 个磁盘阵列中的存储空间进行再次整合, 形成一个具有单一连续存储空间的逻辑驱动器的过程 RAID 控制器可以跨越连续的几个阵列, 但每个阵列必需由相同数量的磁盘组成, 并且这几个阵列必需具有相同的 RAID 级别就是说, 跨越阵列是对已经形成了的几个阵列进行再一次的组合,RAID 1,RAID 3 和 RAID 5 跨越阵列后分别形成了 RAID 10,RAID 30 和 RAID 50 Cache Policy: 高速缓存策略 RAID 控制器具有两种高速缓存策略, 分别为 Cached I/O( 缓存 I/O) 和 Direct I/O( 直接 I/O) 缓存 I/O 总是采用读取和写入策略, 读取的时候常常是随意的进行缓存直接 I/O 在读取新的数据时总是采用直接从磁盘读出的方法, 如果一个数据单元被反复地读取, 那么将选择一种适中的读取策略, 并且读取的数据将被缓存起来只有当读取的数据重复地被访问时, 数据才会进入缓存, 而在完全随机读取状态下, 是不会有数据进入缓存的 Capacity Expansion: 容量扩展在 RAID 控制器的快速配置工具中, 设置虚拟容量选项为可用时, 控制器将建立虚拟磁盘空间, 然后卷能通过重构把增加的物理磁盘扩展到虚拟空间中去重构操作只能在单一阵列中的唯一逻辑驱动器上才可以运行, 你不能在跨越阵列中使用在线扩容 Channel: 通道在两个磁盘控制器之间传送数据和控制信息的电通路 Format: 格式化在物理驱动器 ( 硬盘 ) 的所有数据区上写零的操作过程, 格式化是一种纯物理操作, 同时对硬盘介质做一致性检测, 并且标记出不可读和坏的扇区由于大部分硬盘在出厂时已经格式化过, 所以只有在硬盘介质产生错误时才需要进行格式化 Hot Spare: 热备用当一个正在使用的磁盘发生故障后, 一个空闲加电并待机的磁盘将马上代替此故障盘, 此方法就是热备用热备用磁盘上不存储任何的用户数据, 最多可以有 8 个磁盘作为热备用磁 28

30 盘一个热备用磁盘可以专属于一个单一的冗余阵列或者它也可以是整个阵列热备用磁盘池中的一部分而在某个特定的阵列中, 只能有一个热备用磁盘当磁盘发生故障时, 控制器的固件能自动的用热备用磁盘代替故障磁盘, 并通过算法把原来储存在故障磁盘上的数据重建到热备用磁盘上数据只能从带有冗余的逻辑驱动器上进行重建 ( 除了 RAID 0 以外 ), 并且热备用磁盘必须有足够多的容量系统管理员可以更换发生故障的磁盘, 并把更换后的磁盘指定为新的热备用磁盘 Hot swap Disk Module: 热交换磁盘模式热交换模式允许系统管理员在服务器不断电和不中止网络服务的情况下更换发生故障的磁盘驱动器由于所有的供电和电缆连线都集成在服务器的底板上, 所以热交换模式可以直接把磁盘从驱动器笼子的插槽中拔除, 操作非常简单然后把替换的热交换磁盘插入到插槽中即可热交换技术仅仅在 RAID 1,3,5,10,30 和 50 的配置情况下才可以工作 I2O(Intelligent Input/Output): 智能输入输出智能输入输出是一种工业标准, 输入输出子系统的体系结构完全独立于网络操作系统, 并不需要外部设备的支持 I2O 使用的驱动程序可以分为操作系统服务模块 (operating system services module,osms) 和硬件驱动模块 (hardware device modules,hdms) Initialization: 初始化在逻辑驱动器的数据区上写零的操作过程, 并且生成相应的奇偶位, 使逻辑驱动器处于就绪状态初始化将删除以前的数据并产生奇偶校验, 所以逻辑驱动器在此过程中将一并进行一致性检测没有经过初始化的阵列是不能使用的, 因为还没有生成奇偶区, 阵列会产生一致性检测错误 IOP(I/O Processor): 输入输出处理器输入输出处理器是 RAID 控制器的指令中心, 实现包括命令处理,PCI 和 SCSI 总线的数据传输,RAID 的处理, 磁盘驱动器重建, 高速缓存的管理和错误恢复等功能 Logical Drive: 逻辑驱动器 29

31 阵列中的虚拟驱动器, 它可以占用一个以上的物理磁盘逻辑驱动器把阵列或跨越阵列中的磁盘分割成了连续的存储空间, 而这些存储空间分布在阵列中的所有磁盘上 RAID 控制器能设置最多 8 个不同容量大小的逻辑驱动器, 而每个阵列中至少要设置一个逻辑驱动器输入输出操作只能在逻辑驱动器处于在线的状态下才运行 Logical Volume: 逻辑卷由逻辑磁盘形成的虚拟盘, 也可称为磁盘分区 Mirroring: 镜像冗余的一种类型, 一个磁盘上的数据在另一个磁盘上存在一个完全相同的副本即为镜像 RAID 1 和 RAID 10 使用的就是镜像 Parity: 奇偶校验位在数据存储和传输中, 字节中额外增加一个比特位, 用来检验错误它常常是从两个或更多的原始数据中产生一个冗余数据, 冗余数据可以从一个原始数据中进行重建不过, 奇偶校验数据并不是对原始数据的完全复制在 RAID 中, 这种方法可以应用到阵列中的所有磁盘驱动器上奇偶校验位还可以组成专用的奇偶校验方式, 在专用奇偶校验中, 奇偶校验数据可分布在系统中所有的磁盘上如果一个磁盘发生故障, 可以通过其它磁盘上的数据和奇偶校验数据重建出这个故障磁盘上的数据 Snapshot: 快照快照 (Snapshot) 是静态映像 (Frozen Image) 的备份技术, 是一种保留某一时刻文件系统映像的技术, 其核心是对备份和恢复过程采取即时 (point-in-time) 数据拷贝的方式 Snapshot 可以很快的产生多个当前数据的快照, 这些快照可用于数据备份, 数据分析, 数据恢复, 以及提供给其它程序数据等与备份软件系统镜像软件系统相比, 它具有自己的特色 : 如可以避免大数据量备份时长时间无法提供服务的问题, 可以实现数据的即时恢复, 实时数据分析等特有功能 Power Fail Safeguard: 掉电保护当此项设置为可用时, 在重构过程中 ( 非重建 ), 所有的数据将一直保存在磁盘上, 直到重构完成后才删除这样如果在重构过程中发生掉电, 将不会发生数据丢失的危险情况 30

32 第三章 FC 交换机和 SAN 3.1 存储与网络由于计算机技术不断向更便宜, 更有效的方向发展, 早期的主机式计算机也从大型的中心式系统演化为便捷的, 企业级的服务器同时, 网络技术也对计算机平台的演化产生了相应的影响随着这两项技术的逐渐成熟, 以及对计算机处理能力和相关数据需求的不断增长, 更快, 可达性更好的存储技术将得到更多的市场驱动, 存储网络也因此而到来在过去的 10 至 15 年中, 商业的模式发生了重大的改变这其中, 基于因特网的商业模式的爆炸性增长给信息的获取和存储技术带来了新的挑战不断增长的对存储能力的需求使许多 IT 组织不堪重负, 因此, 发展一种具有成本效益的和可管理的先进存储方式就成为必然 3.2 存储网络基础 SCSI SCSI 是连接存储设备与服务器的最通用的方法 SCSI 产生于 1979 年, 是支持一到两个磁盘的 8-bit 的并行总线接口这一协议不断发展, 直至成为其他存储相关技术的基础今天, 串行 SCSI 成为了存储设备领域里, 具有层结构和良好体系结构的协议族美国国家信息技术委员会所制定的 T10 标准, 也就是 SAM-2, 为 SCSI 的实现提供了一个层次化的模型这一框架包括 SCSI 驱动器软件, 物理互联, 命令实现以及存储管理这些内容在一起为 SCSI 的互操作性和可扩展性提供了可能它支持多驱动器类型, 排队, 多任务, 缓存, 自动驱动器 ID 识别, 双向接口操作等内容 SCSI-3 命令集将逻辑层转化为基于包的格式, 从而为网络传输提供了可能目前对串行 SCSI 有多种实现, 包括 Fibre Channel, Apple's Firewire, SSA 等最近又有 iscsi SCSI 标准共提供了三种可能的电气配置 : 低成本的单端可选配置, 适用于临近设备的连接, 距离最大为 6 米 ; 较昂贵的 HVD, 可支持 25 米距离, 具有较好的抗噪声性能 ; 31

33 最近提出的 LVD, 支持 SCSI-3, 作用距离可达 12 米随着基于因特网的应用的不断增长, 不断加速的信息需求使得存储容量的增长速度超过了服务器处理能力的增长速度一方面是服务器有限的内部存储极限, 另一方面是不断增长的存储内容, 这就要求服务器的存储 " 外部化 ", 以适应新的应用的要求然而随着存储容量的不断增长和服务器的不断发展, 在单一的服务器上实现同时对应用环境和存储环境管理就成为了一项新的挑战将服务器和存储器分开虽然有助于提高这方面的管理能力, 但是 SCSI 的 25 米极限, 以及它的速度和共享能力, 还是一个重要问题 TCP/IP TCP 协议和 IP 协议共同构成了通信协议族这组协议是因特网获得成功的主要因素一方面它们的扩展性很强, 可以实现巨大的网络, 另一方面 TCP/IP 也在因特网不同的使用者之间实现了安全和可靠的信息共享由于这些特性的存在, 使得因特网成为了一个真正的开放性网络, 它可以支持数以百万计的家庭, 学校, 政府, 公司直至世界的遥远角落由于 TCP/IP 能够支持大量的网络技术, 所以它完全有能力成为全球存储网络的基础 Ethernet Ethernet 是今天局域网领域得到最广泛使用的技术它是 IEEE802.3 标准最早是 Xerox 公司所开发因为它是桌面电脑互联的最佳技术, 所以得到 Intel 公司和 Digital 公司的进一步开发它的发展经历了 10Mbps 到 100Mbps 再到 1000Mbps 的过程现在,10Gbps 的 Ethernet 也即将问世 10Gbps 的 Ethernet 和 TCP/IP 的组合为存储网络应用的实现提供了引人注目的解决方案 Fibre Channel 大多数的存储域网络 (Storage-Area Networks) 都是基于一个叫 Fibre Channel(FC) 的体系结构 FC 的发展是为了解决服务器和存储设备之间通信的诸多要求的这些要求包括速度, 容量, 可靠性等等目前它能够实现 1Gbps 及 2Gbps 的速率它可以实现 100MB/sec 半工和 200MB/sec 全工的持续吞吐量 32

34 3.3 体系结构基础直连式存储 (Direct Attached Storage) 由于早期的网路十分简单, 所以直连式存储得到发展到了二十世纪八十年代, 计算由大型的集中式系统发展到灵活的客户端服务器分布式模型正是尚处在初级阶段的局域网推动了这一转变连接服务器的存储 (Server-Attached Storage) 和直连存储类似, 但使用的却是分布式的方法, 并仰赖与局域网的连接得以实现随着计算能力, 内存, 存储密度和网络带宽的进一步增长, 越来越多的数据被存储在个人计算机和工作站中分布式的计算和存储的增长对存储技术提出了更高的要求今天, 所有的存储操作都要通过 CPU 的 I/O 操作来完成由于使用 DAS, 存储设备与主机的操作系统紧密相连, 其典型的管理结构是基于 SCSI 的并行总线式结构存储共享是受限的, 原因是存储是直接依附在服务器上的从另一方面看, 系统也因此背上了沉重的负担因为 CPU 必须同时完成磁盘存取和应用运行的双重任务, 所以不利于 CPU 的指令周期的优化网络存储设备 (Network Attached Storage) 局域网在技术上得以广泛实施, 在多个文件服务器之间实现了互联, 为实现文件共享而建立一个统一的框架随着计算机的激增, 大量的不兼容性导致数据的获取日趋复杂因此采用广泛使用的局域网加工作站族的方法就对文件共享, 互操作性和节约成本有很大的意义 NAS 包括一个特殊的文件服务器和存储 NAS 服务器上采用优化的文件系统, 并且安装有预配置的存储设备由于 NAS 是连接在局域网上的, 所以客户端可以通过 NAS 系统, 与存储设备交互数据另外,NAS 直接运行文件系统协议, 诸如 NFS,CIFS 等客户端系统可以通过磁盘映射和数据源建立虚拟连接存储网络 (Storage Area Networks) 一个存储网络是一个用在服务器和存储资源之间的, 专用的, 高性能的网络体系它为了实现大量原始数据的传输而进行了专门的优化因此, 可以把 SAN 看成是对 SCSI 协议在长距离应用上的扩展 33

SAN 使用的典型协议组是 SCSI 和 Fibre Channel(SCSI-FCP) Fibre Channel 特别适合这项应用, 原因在于一方面它可以传输大块数据 ( 这点类似于 SCSI), 另一方面它能够实现远距离传输 ( 这点又与 SCSI 不同 ) SAN 的市场主要集中在高端的, 企业级的存储应用上这些应用对于性能, 冗余度和可获得性都有很高的要求 3.

35 SAN 使用的典型协议组是 SCSI 和 Fibre Channel(SCSI-FCP) Fibre Channel 特别适合这项应用, 原因在于一方面它可以传输大块数据 ( 这点类似于 SCSI), 另一方面它能够实现远距离传输 ( 这点又与 SCSI 不同 ) SAN 的市场主要集中在高端的, 企业级的存储应用上这些应用对于性能, 冗余度和可获得性都有很高的要求 SAN 与 NAS 区别和联系图 3-1 网络存储的附加影响当对 SAN 和 NAS 进行比较时, 这两种相互竞争的技术实际上是互补的 SAN 和 NAS 是在不同用户需求的驱动下的独立事件 SAN 是以数据为中心的, 而 NAS 是以网络为中心的概括来说,SANs 具有高带宽块状数据传输的优势, 而 NAS 则更加适合文件系统级别上的数据访问用户可以部署 SAN 运行关键应用, 比如数据库备份等, 以进行数据的集中存取与管理 ; 而 NAS 支持若干客户端之间或者服务器与客户端之间的文件共享, 所以用户可使用 NAS 作为日常办公中需要经常交换小文件的地方, 比如文件服务器存储网页等越来越多的设计是使用 SAN 的存储系统作为所有数据的集中管理和备份, 而需要文件级的共享即 File system I/O 则使用 NAS 的前端 ( 所谓前端, 即只有 CPU 及 OS,OS 可以是 windows 或 Unix 的内核或简化版, 不包含盘体装载数据 ), 后端还是会集中到 SAN 的磁盘阵列中采取数据, 提供高性能大容量的存储设备 34

NAS 和 SAN 在以下方面提供互补 : (1) NAS 产品可以放置在特定的 SAN 网络中, 为文件传输提供优化的性能 (2) SAN 可以扩展为包括 IP 和其他非存储关联的网络协议从总体拥有成本 (TCO) 方面来分析,DAS 由于单独部署的原因造成了总体拥有成本居高不下, 部署 SAN 可以显著地节用户的投资成本, 而 Cisco 的多层 SAN 更可帮助客户再降低 30 %

36 NAS 和 SAN 在以下方面提供互补 : (1) NAS 产品可以放置在特定的 SAN 网络中, 为文件传输提供优化的性能 (2) SAN 可以扩展为包括 IP 和其他非存储关联的网络协议从总体拥有成本 (TCO) 方面来分析,DAS 由于单独部署的原因造成了总体拥有成本居高不下, 部署 SAN 可以显著地节用户的投资成本, 而 Cisco 的多层 SAN 更可帮助客户再降低 30 % 的总体拥有成本, 同时还提升了高可用性存储虚拟化和复制能力等功能存储网络的演化就是基于 DAS,NAS 和 SAN 中最佳要素的融合, 从而来满足以因特网为中心的商业对存储提出的越来越高的要求图 3-2 多种存储技术图示 3.4 TCP/IP,Ethernet 和存储网络相结合的多层环境 iscsi iscsi 正是集合了 Ethernet 和 IP 的开放性,NAS 的文件级存取, 基于 SAN 的块级存取这四方面优点的混合产物随着当今 IP 和 Ethernet 的激增, 用户可以采用与构建因特网相同的基础来支持他们对存储网络的需求服务器可以在运行 TCP/IP 的以太网卡上安装开放的 iscsi 驱 35

37 动, 从而能够存取位于 Fibre-channel 上的 SAN 中的数据块当今的用户可以利用基于 TCP/IP 的 Ethernet 来无限制的扩大他们的存储容量和带宽 iscsi 正是网络条件下的 SCSI-3 协议 iscsi 为满足 IT 专业人员的特殊需求提供多种可能的拓扑它可以部署为私有的, 存储中心网通过使用 Ethernet, 它还可以增加 IPSec 和防火墙以提高信息的安全它也可以被设计成聚合的存储网络, 既可以作为私人企业的解决方案也可以在公众网上以 VPN 的形式出现理论上说, 用户可以构建任何大小的网络以适应各种各样不同的需求, 以降低用户在存储网络上的总体拥有成本 (TCO) FCIP FCIP(Fibre Channel over IP) 是在 TCP/IP 上用管道技术来实现 Fibre Channel 的受推荐标准它采用封装技术将 Fibre Channel 协议封装在 IP 包中, 以使它能够通过 IP 网已经拥有 Fibre Channel 网的用户可以通过调节他们已经存在的 SAN 以使它们能够扩展到城域网和广域网 FCIP 正是这样一种将多个 Fibre Channel 孤岛连接起来的手段举个例子,FCIP 可以用来连接地理上分开的 Fibre Channel 存储阵列, 并实现数据的同步更新这样一旦有数据遭到破坏, 系统立即可以通过 FCIP 链路获得远端的热备份数据这样做的好处是使数据具有灾难恢复功能, 而这一点对于有些商业数据又是必不可少的 SAN 的应用存储网络发展的主要推动力来自于它所产生的应用这些应用在性能上, 存储管理上和在可扩展性上都有一定的能力下面是其中的一些应用 : (1) 数据共享 -- 由于存储设备的中心化, 大量的文件服务器可以低成本的存取和共享信息, 而同时也不会使系统性能有明显的下降 (2) 存储共享 -- 两个或多个服务器可以共享一个存储单元, 这个存储单元在物理上可以被分成多个部分, 而每个部分又连接在特定的服务器上 (3) 数据备份 -- 通常的数据备份都要依赖于共同的局域网或广域网设备通过使用 SAN, 这些操作可以独立于原来的网络, 从而能够提高操作的性能 36

38 (4) 灾难恢复 -- 传统上, 当灾难发生时, 使用的是磁带实现数据恢复通过使用 SAN, 可以采用多种手段实现数据的自动备份而且这种备份是热备份形式, 也就是说, 一旦数据出错, 立即可以获得该数据的镜像内容将存储网络拓展到 MAN 这里以 Cisco 完整光多服务边缘和传输 (COMET) 计划为例 COMET 可以提供一整套全面的光网解决方案, 它们可以利用各种可以支持语音视频数据和存储应用的创新技术, 将用户的网络基础设施拓展到 LAN MAN 和 WAN COMET 可以通过一个高速的低延时的光学基础设施, 支持各种存储网络应用, 例如灾难恢复数据复制存储整合存储外包和 SAN 互联思科的密集波分复用 (DWDM) 技术可以在一对光纤上支持 32 个波长, 从而可以满足 SAN 和 MAN 的迅速增长的需求 Cisco DWDM 多服务平台可以在一个智能化的光传输基础设施上, 集成网络存储和传统应用经过认证, 思科的 DWDM 产品可以在主要的存储和管理网络服务环境中进行互操作, 并且能够兼容多个厂商的技术, 其中包括 EMC IBM HPQ 和 MFN 此外, 新一代 SONET 平台可以在城市运营商网络中为存储应用提供传输服务 3.5 新一代多层智能化存储网络多层智能化存储网络可以降低目前要求最严格的存储环境的总体运营成本 (TCO) 通过将业界最强大最灵活的硬件架构与多层的网络和存储管理智能结合在一起, 可以帮助客户建设高可用的可扩展的存储网络, 并为其提供先进的安全性和统一的管理多层智能化存储网络可以提供各种智能化网络功能, 例如多协议 / 多传输集成, 虚拟 SAN(VSAN), 全面的安全性, 先进的流量管理, 完善的诊断功能, 以及统一的 SAN 管理 37

多层智能化存储网络完全是为了实现高可用性而设计的除了满足用户对于无中断软件升级和所有关键性硬件组件的冗余的基本需求以外, 多层智能化存储网络的软件架构还可以提供图 3-3 Cisoco 的端到端存储网络方案前所未有的高可用性多层智能化存储网络要求 Supervisor 模块具有自动重启发生故障的进程的独特功能, 这使得它变得非常强大在某个 Supervisor 模块重启时 (

39 多层智能化存储网络完全是为了实现高可用性而设计的除了满足用户对于无中断软件升级和所有关键性硬件组件的冗余的基本需求以外, 多层智能化存储网络的软件架构还可以提供图 3-3 Cisoco 的端到端存储网络方案前所未有的高可用性多层智能化存储网络要求 Supervisor 模块具有自动重启发生故障的进程的独特功能, 这使得它变得非常强大在某个 Supervisor 模块重启时 ( 尽管这种情况很少发生 ), 在主 Supervisor 模块和备份 Supervisor 模块之间的完全同步可以确保在不中断数据传输的情况下进行全状态故障恢复多层智能化存储网络将高可用性提高到了一个新的水平, 确保了可以超过目前要求最严格的 % 正常运行时间的超高可用性环境图 3-3 给出了 Cisco 公司的端到端网络方案单一交换架构存储网络的扩展性用户可以利用业界最强大性能最高的 ISL 链路在交换层部署高可用性端口通道功能让用户最多可以将 16 条物理链路集成到一个逻辑链路中这个逻辑链路可以包括设备中的任何端口, 从而确保了在某个端口 ASIC 或者模块发生故障时, 该逻辑链路仍然可以继续使用在任何一条物理链路发生故障时, 该逻辑链路能够继续运行, 而不会导致重置此外, 交换结构最 38

40 短路径优先 (FSPF) 的多路径功能可以为在 16 个等长的路径上进行负载均衡提供智能, 并能在某个交换机发生故障时动态地重新设置数据传输的路由采用 VSAN 技术多层智能化存储网络在业界首次采用了虚拟 SAN(VSAN) 技术这种技术可以在一个单一的 SAN 结构中创建多个基于硬件的独立环境, 从而提高 SAN 的使用效率每个 VSAN 都可以作为一个常规的 SAN 进行单独分区, 并拥有它自己的交换服务, 从而提高可扩展性和恢复能力 VSAN 不仅可以将 SAN 基础设施的成本分摊得更低, 还可以确保数据传输的绝对隔离和安全, 保持对各个 VSAN 的配置的独立控制有助于加强投资保护的多协议智能多层智能化存储网络所特有的交换架构让它可以无缝地集成新的传输协议, 以获得最大限度的灵活性从光纤通道 iscsi 和 FCIP 开始, 多层智能化存储网络是一个强大的多协议平台, 可以用于部署成本最优化的存储网络现在, 用户可以通过部署 2Gbps 光纤通道使用高性能的应用, 利用基于以太网的 iscsi 以低廉的成本连接到共享的存储空间, 以及用 FCIP 在数据中心之间建立连接多层智能化存储网络采用了独特的设计, 可以支持未来的存储协议, 因而用户可以无缝地移植到新的技术, 同时保留一套统一的功能服务和管理工具全面的安全性为了满足人们对于在存储网络中实现无懈可击的安全性的需求, 多层智能化存储网络针对所有可能的被攻击点采用了广泛的安全措施为了防范未经授权的管理访问, 多层智能化存储网络采用了 SSH RADIUS SNMPv3 和角色访问控制 (Role-based Access Control) 等技术为了防止攻击威胁到控制流量的安全, 多层智能化存储网络还采用了光纤通道安全 (FC-SP) 协议 FC-SP 可以在整个交换结构中提供保密性数据源认证和面向无连接的完整性多层智能化存储网络用 VSAN 技术确保了数据传输的安全, 以隔离同一交换结构中的不同数据传输, 并利用硬分区和软分区技术来满足 VSAN 中的传输隔离要求基于硬件的 ACL 可以提供更加精确的高级安全选项多层智能化存储网络可以利用思科在保障全球数据网络中最敏感数据的安全方面所积累的经验, 提供业界最安全的存储网络平台 39

41 3.5.5 先进的诊断和故障修复工具多层智能化存储网络的多层智能包括多种先进的网络分析和调试工具为了在大规模的存储网络中进行故障管理, 多层智能化存储网络利用 "FC Traceroute" 等命令来获取数据流的详细路径和时限, 并利用交换端口分析工具 (SPAN) 有效地捕获网络流量在捕获到流量之后, 就可以利用 Cisco Fabric Analyzer( 一种内嵌的光纤通道分析工具 ) 管理流量此外, 多层智能化存储网络还集成了 "Call Home"( 自动通报 ) 功能, 以提高可靠性, 加快解决问题的速度并降低服务成本多层智能化存储网络可以为诊断和分析企业的存储网络提供最全面的工具集便于管理要实现存储网络的潜在能力就意味着要提供相应的管理功能为了满足所有用户的需求, 多层智能化存储网络可以提供三种主要的管理模式 : 命令行界面 (CLI), 图形界面 Cisco Fabric Manager, 以及与第三方存储管理工具集成多层智能化存储网络为用户提供了一个统一的接近的命令行界面 CLI CLI 的语法与广为人知的 Cisco IOS CLI 的语法相同, 因而非常便于学习, 并可以提供广泛的管理功能 CLI 是一个非常有效和直接的界面, 可以为企业内部的管理员提供优化的功能 Cisco Fabric Manager 是一个反应迅速的并便于使用的 Java 应用, 可以简化对多个交换机和交换结构的管理 Cisco Fabric Manager 可以帮助管理员执行关键性的任务, 例如拓扑发现, 结构配置和验证, 设置, 监控, 以及解决故障等所有功能都可以通过一个安全的界面获得, 从而让用户可以从任何地点进行远程管理 Cisco Fabric Manager 可以独立使用, 也可以结合第三方管理应用使用为了集成第三方管理工具和用户自行开发的管理工具, 思科提供了一个范围广泛的 API 3.6 存储网络的未来发展在 DAS,SAS(Server Attached Storage),SAN 和 NAS 之间的区别正在变得模糊所有的技术在用户的存储需求下接受挑战传统的客户端服务器的计算模式将会演化成具有任意连接性 40

的全球存储网络在那种情况下, 数据的利用率会得到提高分布式数据也会得到更加优化的存储和其他领先技术一样, 存储网络市场也会得益于 Cisco 所热切推动的现有技术和创新技术的发展与融合另一方面, 提高了的物理上的连通性, 并没有本质上改变在多个服务器之间共享数据的困难所以多层智能化存储网络为嵌入各种智能化存储服务 ( 例如基于网络的虚拟化和复制 ) 提供一个开放的平台

42 的全球存储网络在那种情况下, 数据的利用率会得到提高分布式数据也会得到更加优化的存储和其他领先技术一样, 存储网络市场也会得益于 Cisco 所热切推动的现有技术和创新技术的发展与融合另一方面, 提高了的物理上的连通性, 并没有本质上改变在多个服务器之间共享数据的困难所以多层智能化存储网络为嵌入各种智能化存储服务 ( 例如基于网络的虚拟化和复制 ) 提供一个开放的平台多层智能化存储网络用一种层次化的方式来实现网络和存储智能, 为存储网络的发展开辟了一个新的纪元只有采用了存储虚拟化的技术, 才能真正屏蔽具体存储设备的物理细节, 为用户提供统一图 3-4 网络存储设施演化集中的存储管理采用存储虚拟化技术, 用户可以实现存储网络的共用设施目标 : 存储管理的自动化与智能化在虚拟存储环境下, 所有的存储资源在逻辑上被映射为一个整体, 对用户来说是单一视图的透明存储, 而单个存储设备的容量速度等物理特性却被屏蔽掉了无论后台的物理存储是什么设备, 服务器及其应用系统看到的都是客户非常熟悉的存储设备的逻辑映像系统管理员不必关心自己的后台存储, 只须专注于管理存储空间本身, 所有的存储管理操作, 如系统升级 41

43 改变 RAID 级别初始化逻辑卷建立和分配虚拟磁盘存储空间扩容等比从前的任何存储技术都更容易, 存储管理变得轻松无比与现有的 SAN 相比, 存储管理的复杂性大大降低了提高存储效率主要表现在消除被束缚的容量整体使用率达到更高的水平虚拟化存储技术解决了这种存储空间使用上的浪费, 它把系统中各个分散的存储空间整合起来, 形成一个连续编址的逻辑存储空间, 突破了单个物理磁盘的容量限制, 客户几乎可以 100% 地使用磁盘容量, 而且由于存储池扩展时能自动重新分配数据和利用高效的快照技术降低容量需求, 从而极大地提高了存储资源的利用率减少总体拥有成本 (TCO), 增加投资回报 (ROI) 由于历史的原因, 许多企业不得不面对各种各样的异构环境, 包括不同操作平台的服务器和不同厂商不同型号的存储设备采用存储虚拟化技术, 可以支持物理磁盘空间动态扩展, 这样用户现有的设备不必抛弃, 可以融入到系统中来, 保障了用户的已有投资 ; 从而降低了用户 TCO, 实现了存储容量的动态扩展, 增加了用户的 ROI 3.7 如何建造企业 SAN 系统寻求从 SAN 中获益的 IT 经理面临多种选择 : 市场上的光纤信道交换产品种类繁多, 作为一个用户, 怎样才能找到建设存储环境的最佳构件呢? 最佳构件即是 : 由它最终建成的基础设施能给予应用系统充分支持, 并能随业务需要灵活扩展企业认识到 SAN 的益处后, 会要求把越来越多的服务器和存储设备纳入 SAN 同时, 对数据存储和使用需求的惊人增长, 也将导致通过 SAN 传递的数量大大增加企业只有谨慎地选择 SAN 基础设施, 才能确保他们的网络日后方便经济且灵活地扩展, 同时保证性能和数据的可用性 42

44 3.7.1 SAN 应用系统评估为了能设计出最合适的 SAN 拓扑布局, 企业必须准确定义 SAN 将要支持的应用环境这是最重要可能也是最困难的一步, 因为全面的评估不仅要考虑到应用系统目前的性质, 而且需要对未来作出预测只有基础设施能依照应用系统的动态情况定制, 网络才能发挥最大的效益每个企业的数据环境都有其特性, 以不变应万变的方式不适用于存储网络通过全面评估操作环境, 一个企业可以找到其挑选交换产品的最佳标准, 并依照当前和未来需要定制 SAN 拓扑结构如果想从一开始就设计出理想的 SAN 拓扑结构, 需要分析所支持的应用系统在数据整合和灾难恢复等多个方面如何影响整个数据环境必须要评估的主要属性包括 : 应用要求数据存储要求备份和灾难恢复战略网络连接要求服务器连接要求应用要求宕机冗余必须确定应用系统现在和未来的宕机冗余, 这样就可以根据应用系统的可用性要求设计相关网络需要充分估计应用系统的宕机成本和对业务连续性的影响, 以便清楚了解是否需要高可用性解决方案性能必须从数据吞吐量和最大可容许延时方面定义应用系统的性能要求许多应用系统对网络延时十分敏感, 促进了低延时网络的设计增长由于应用扩展导致的网络增长必须予以充分的估计需要从几方面估计增长需要, 如用户数量服务器数量和每应用系统的存储连接数量等每个因素都要考虑到额外的网络连接和这些连接的必需性能, 并对之进行评估为新用户 ( 如在线存取供应商和用户 ) 提供应用系统接入的计划也应列入考虑新用户的增长会影响要存储的数据量网络连接的数量和传输额外数据所需的带宽数据存储要求 43

45 数据位置了解数据量和数据的位置很关键数据是放在统一的存储库中, 还是分布在存储小区内? 存储据点之间的电缆距离和和服务器连接必需要纳入考虑长途连接 ( 大于 10 公里 ) 会有些特别的连接要求, 如支持长途连接的 Switch 光纤信号转发器和桥接等数据量需要存取的数据量是决定网络带宽和存储网络连接数量的关键因素存储阵列的规模和性能特点将决定支持阵列的必要网络连接数量此外, 每个存储端口支持 ( 扇出比例 ) 的服务器数量由存储制造商确定, 以避免网络堵塞和瓶颈数据和存取共享另一项必须完成的评估是 : 数据在多长时间内如何被存取和共享? 在大多数 SAN 应用中, 数据通常是在服务器和存储器之间共享, 而不是在服务器之间或存储器之间共享增加备份镜像和其它应用系统, 会导致任意网络连接增多备份和灾难恢复战略集中式离网少服务器备份是促使企业实施 SAN 的主要因素关于备份如何生成的评估也是必要的, 因为它将决定连接范围和吞吐量大小集中式备份战略要求设计完备的 SAN 为了使战略成功, 从备份设备到每一个存储设备之间都应该有一条高速高可用性的数据路径网络连接要求端口计数要求评估支持现有和未来增长所需网络连接数是十分重要的如果在部署初期没有考虑增长因素, 事后不断追加网络规模和重新配置会浪费大量资源, 并增加宕机时间在最初设计中如果没有包括完备的扩展战略, 在实际应用中不断扩展的网络会出现传输量不平衡的现象, 并最终影响整个网络的性能和可用性网络传输模式为统一存储而实施的 SAN 与为少服务器备份应用而实施的 SAN 的传输模式很不同服务器和存储设备之间的新连接需要考虑额外的端口计量如果忽略了这一点, SAN 没有为传输量的增长做好准备, 当数据在全网范围内传输时, 很有可能产生瓶颈带宽要求当初步的网络拓扑设计成熟后, 网络中应有特定区域支持高带宽功能例如, 几个只需低带宽的服务器组成的工作组环境可以被集合到一个网络交换连接中相比之下, 存储和高端服务器需要特别配备的 ( 而且可能是多个 ) 网络连接, 以确保所需带宽的可用性服务器连接要求 44

46 每个服务器的 SAN 连接要求需要从带宽性能和可用性等方面确定, 目的是了解每一种连接在正常和高峰传输环境中的不同要求, 这样, 不论网络活动有多繁忙, 网络连接都能够支持运行需要此外, 服务器如何摆放 ( 单独还是成组 ) 将决定每个站点的交换端口数量需要在网络的主要属性被确定之后, 就要评估和选择建造 SAN 的构件了只需要较小型 SAN 的应用系统, 通常用一种 Switch 构成即可, 这样实施较为简便要连接的存储器和服务器较少 ( 少于 50) 时, 一到数个 Switch 足以支持环境需要如果是支持大型企业应用, 就需要多类型 Switch 每种 Switch 在基础设施中承担不同的任务有些 Switch 承担到存储库的主要连接, 因此需要非常高的可用性其它 Switch 用于支持服务器集群的整合, 只需要高性能和较少端口数量另外, 我们设计存储网络系统时, 还需要考虑如下几个因素 : Switch 类型广义来说, 有三种光纤信道 Switch:Director 网络 Switch 和判优环路 Switch( 或称环路 Switch) 企业不能想当然, 以为所有厂商的产品都相同某个厂商的 Director 完全有可能是另一厂商的网络 Switch Director Director 是一个多端口高带宽网络 Switch, 用于提供最高的可用性 Director 中某个部件的失灵不会影响正常应用, 对 SAN 性能和可用性都无影响 Director 有全冗余热插拔部件 ( 电源冷却处理器和交换部件 ), 能将宕机时间最小化此外,Director 支持在线错误探查隔离修理和恢复 Director 提供 % 的可用性, 或每年少于 5 分钟的宕机时间 Director 的高端口数和无堵塞结构使它能提供高性能带宽, 允许所有端口同时交流, 并能保持性能不变, 没有额外延时 Director 主要用于下列应用系统中 : 不允许宕机的关键任务系统企业 SAN 骨干网, 是自身的关键任务资源, 提供永远畅通的数据传输路径应用密集型系统, 必须保证任意端口间的高带宽通信一个 Director 结构包括内置冗余, 即使部件失灵, 也能确保数据流的连续性网络 Switch: 网络 Switch 用于在 Switch 所有端口间高速传输数据, 不受任何干扰和阻碍与 Director 类似, 网络 Switch 定义一条通过其它 Switch 的数据传输路径, 编织 Switch 构成 45

47 的网路, 这些网路对连接设备来说是透明的这种 Switch 是一大类, 各个厂商的产品及其属性 ( 冗余端口数目等 ) 有很大不同 McDATA 提供的 16 和 32 端口网络 Switch 包含冗余电源和冷却功能单个网络 Switch 提供 99.9% 的可用性年平均宕机时间 8.8 小时网络 Switch 通常担任小型 SAN 中的骨干承重墙, 在较大的企业 SAN 中, 它可作为整合点网络 Switch 主要用于下列应用系统中 : 部门级连接分布式存储占主导地位的应用小型 SAN 的标准构件环路 Switch: 判优环路 (FC-AL)Switch 的连接成本最低, 适用于低带宽设备, 并支持磁带等传统判优环路设备环路 Switch 自身不能构成完整网络, 它们是用于扩展原有网络的连接设备 McDATA 的 ES-1000 环路 Switch 的独特之处在于它包含一个内置的网络端口这样, 它只需一个专用连接设备与网络 Switch 相连, 就能很方便地被纳入较大的 SAN 大多数环路 Switch 支持环路内端口之间的同步全速数据传输但是, 如果出现多个连接争抢一个端口的情况, 环路内就会出现竞争由于这个问题, 大多数环路 Switch 都保持较少的端口数量 (8), 将带宽竞争控制在最小程度环路 Switch 主要用于下列应用系统中 : 适用于低带宽设备的低成本网络连接 NT 服务器整合磁带整合交换网络和传统环路的连接不同类型 Switch 对比不同类型 Switch 在可用性性能可扩展性和成本等方面均有不同下面就这些方面做一些对比对比证明没有一种 Switch 可以在所有应用中都有最佳表现每种 Switch 都有独特的功能特性因此, 它们分别适用不同的应用可用性可用性用于衡量 Switch 正常运行时间, 也用于衡量满足应用系统和基础网络需要的能力由于 SAN 提供用户 ( 或应用系统 ) 和信息间的唯一存取路径, 因此每条路径的可用性至关重要 46

48 Switch 的可用性是以正常运行时间所占百分比来表示的, 数值通常在每年 99%( 宕机时间 3.6 天 ) 到 %( 宕机时间少于 5 分钟 ) 之间高可用性网络由 Director 和冗余网络 Switch 支持购买哪种 Switch 可以很容易地通过计算宕机成本和随之导致的业务损失来衡量 Director 单一 Director 提供的可用性最高, 达 % 如果有全冗余部件, 一次故障不会造成任何连接损失所有部件均可热插拔, 因此替换起来非常方便迅速不同 Director 端口插板通常采用双路径服务器和存储连接, 以便将连接可用性最大化网络 Switch 单一网络 Switch 的可用性最高可达 99.9%( 年平均宕机时间 8.8 小时 ), 取决于不同厂商的功能设置有些部件故障是可以在线排除的, 例如替换风扇或电源其它部件故障可能导致 Switch 下线中断连接或需要替换替换一台 Switch 至少需要 1 小时所有主机和存储设备均通过双路径连接到冗余网络 Switch 后, 网络 Switch 组成的网络可用性可以高达 99.99%( 年宕机时间少于 53 分钟 ) 不过要求各主机都安装路径恢复软件由于配置不同, 一台 Switch 出现故障, 仍然可能造成性能问题, 如网络瓶颈增多和延时为保持 99.99% 的可用性, 现场需要一台备用 Switch, 这样如果主 Switch 出现故障, 宕机时间可以缩短到最短环路 Switch 如果附带冗余电源和冷却装置, 单一环路 Switch 的可用性最高可达 99.9%( 年平均宕机时间 8.8 小时 ) 这些产品主要用于工作组区域连接如果将所有设备双路径连接到冗余环路 Switch, 环路 Switch 的可用性可达到 99.99% 确定业务所需最低可用性是正确选择产品的重要基础在有些环境中, 可用性是最重要的目标, 因此选用高可用性 Director 物有所值其它环境对可用性的要求没有这么高对于工作组和部门级办公应用来说, 一定时间的宕机是可以容忍的, 所以网络 Switch 和环路 Switch 已能够满足需要性能无论是只安装一台 Switch, 还是要建立完整网络, 这个问题都不能回避 Switch 的性能特性取决于 Switch 的结构结构性能实际上取决于整体网络设计和网络内的传输模式 Director 和网络 Switch 单一 Director 或 Switch 的性能取决于其结构大多数 Director 和网络 Switch( 如 McDATA 的产品 ) 都提供高性能所有端口上任意设备的连接不论 Switch 上别处的传输情况如何, 都能保证每个端口的完美性能表现但是, 市场上也有一些产品提供高端口数量, 但不提供高性能的任意连接这类产品实际上是一些小 Switch 的集合, 它们相互连接起来, 象一个大 Switch 的样子 47

49 环路 Switch Switch 上的各个端口分享带宽, 而所有端口都通过一个通用连接反向连入整体网络这种 Switch 提供低成本低带宽的连接对于不需要高性能的应用, 或者没有 I/O 功能, 因而不能高速运行的主机, 这是一个不错的选择当多个 Switch 连接起来构成一个大网络后, 性能评估变得更加复杂, 因为 Switch 间的链接 (ISL) 很容易成为网络瓶颈, 即堵塞当一个链接上用户过多, 就会导致性能下降和延时 ( 从源点往目的地发送信息所需时间 ) 加长由于许多需要存取数据的应用系统对延时非常敏感, 堵塞就成为一个需要解决的重要问题必须采取措施确保所有设备在所有潜在数据传输路径上反向通讯时不受带宽限制, 甚至在部件发生故障时也不会受到影响必须审慎确定 ISL 数量, 确保它们不会成为瓶颈还需进一步考虑, 某一部件发生故障后, 正常运行的连接势必承担更多的传输量, 在这种情况下,SAN 会受到什么影响为了充分发挥网络作用, 尽量减少 ISL 数量非常重要减少 ISL 的最好办法是在 SAN 中采用端口数量多的 Director 和 Switch, 由于所有端口都可进行任意设备无障碍通信, 因此可以减少 Switch 的数目在设计阶段, 企业必须将预计的 SAN 规模 ( 用户端口数 ) 与 Switch 规模相匹配例如, 一个预计有 64 个用户端口的 SAN 可以采用 16/24/32 或 64 端口的 Switch 作为构件但是如果采用 16 端口 Switch 建设 SAN, 其性能和未来的扩展能力都不理想可用性最高性能最好的解决方案是单一 64 端口 Director 扩展性扩展性指的是 SAN 能以对业务损害最小的方式增大规模 Director 和网络 Switch 都支持网络连接, 并可通过增加 Switch 扩展网络在原有 SAN 设计中就考虑进增长因素, 并将需增加的 Switch 数量控制在最少是提高可扩展性的关键这之所以成其问题是因为当 Switch 一台台被加进网络时, 新 Switch 上的端口以及原有 Switch 上的端口必须重新分配到 Switch 的多个链路上如果加进网络的是端口数量少的 Switch, 就意味着要不断添加新的 Switch, 势必降低网络中可用端口的数量 Director 由于采用的是底盘式设计, 因此 Director 比较独特企业可以购买只带有部分端口插板的 Director, 然后随业务增长逐渐加大容量, 同时不影响正常运作此外, 由于 Director 的端口较多, 不需要频繁增加新的 Switch 网络 Switch 在网络 Switch 中, 所有端口都被固定在一块母板上, 所以不能分开购买, 尽管企业一开始可能用不了那么多端口与 Director 一样, 端口数越多, 为系统扩展而增加 Switch 的频率就越低 48

50 环路 Switch 在单一环路 Switch 中, 增加端口会降低其它所有端口的性能, 因为环路 Switch 中所有端口共享带宽尽管光纤信道环路最多可容纳 126 个环路连接, 能保证正常性能的实际连接数要小得多通常, 每个端口只负责一个节点因此要扩展系统就需增加新的环路 Switch 每台新的环路 Switch 都需要额外占用一个 Director 或网络 Switch 端口成本所有网络基础设施的采购, 成本都是最重要的考虑因素不同 Switch 具有不同功能和不同成本必须在网络层就进行初步成本估算, 因为 SAN 的整体拥有成本 (TCO) 是最重要的衡量尺度, 相比之下, 特定 Switch 的费用是微不足道的 SAN 的管理成本也必须考虑到由端口少的 Switch 组成的大型网络的管理成本要高于由多端口 Director 和 Switch 组成的小型网络的管理成本不同型号 Switch 的区别就在于每端口的价格其实, 只要运行环境合适, 每种 Switch 都能提供低成本连接例如, 比起网络型 Switch 结构,Director 在大型高可用性网络中的运行成本更低廉相反, 在较小的部门环境,16 端口或 32 端口的网络 Switch 就已足够 Director 由于 Director 支持 % 可用性, 所以其端口成本较其他 Switch 高另外, Director 的端口比网络和环路 Switch 多, 其总成本也高于其他 Switch 网络 Switch 网络 Switch 的成本根据产品性能设置和端口数量不同而有很大的区别拥有冗余电源和冷却性能的网络 Switch, 每端口价格比没有这些性能的 Switch 要高得多环路 Switch 此类 Switch 连接成本最低, 是网络 Switch 的一半如上所述, 每端口成本降低, 其连接性能更低不同性能和规模的 SAN, 交换总成本差别很大由于每多出一个 ISL 就需要两个端口, 所以 ISL 使用得越多, 用于节点连接的端口就越少网络扩展的同时, 可用端口比例也降低, 这种情况常常发生在 Switch 端口较少的网络里, 因为 ISL 占去了较大比例的端口容量企业存储网络系统管理评估不同 SAN 交换机都要考虑管理问题需要对管理能力进行 SAN 交换机和网络级两级评估在多种 SAN 设备环境中, 仅对 SAN 交换机作个别评估, 而忽略它们在网络中的互连, 以及它们是否支持强大的网络管理模式, 这种评估是毫无意义的随着网络的不断扩展, 管理重点从 Switch 转移到网络, 管理问题变得重要起来 SAN 交换机管理侧重 Switch 配置和流量监控该功能有助于用户评估端口的应用情况和 Switch 的总容量 49

51 网络管理则侧重于全网运行, 而非某个 Switch 为此, 网络管理需要从每个 Switch 中获取详尽信息, 以评估整个网络运行状况网络故障隔离和恢复也是网络管理的重点网络管理员在发现和确定网络问题基本成因上花费的时间, 往往比恢复和修补的时间更多使用 McDATA 公司网络连接管理 (EFCM) 软件, 各种类型的 McDATA Switch 可以集中管理, 单点控制, 大大简化了监控和故障排除因为利用单个网络管理应用程序管理不同供应商 Switch 是相当复杂的, 所以必须考虑到供应商产品的特点, 结果是 : 多供应商网络中, 用户要管理异构 SAN, 要使用多种管理工具, 导致管理变得更加复杂, 成本也更高 3.8 小结 : 全面集成企业 SAN 的建设首先需要全面评估 SAN 即将支持的应用系统定义网络主要属性后, 根据应用, 度身制作 SAN 当一个基本网络拓扑结构形成后, 其中的每个区域的可用性性能可扩展性和成本需求都可以被检测到企业根据上述信息, 选择适当的 Switch 构件, 每种类型 Switch 都将在网络中发挥特定作用 Director 在关键任务环境中运行, 以保证可用信息的连续性作为 SAN 的关键构件,Director 提供性能优异的任意设备连接, 同时作为企业存储库的中心存取点网络 Switch 不仅为部门和作为 SAN 一部分的工作组提供灵活的构件, 还是 Director 主干上的汇聚点由于各种网络 Switch 端口数目各不相同 (McDATA 提供 8 端口 16 端口 24 端口和 32 端口模式 ), 因此可以选择最适合自身连接环境的网络构件对于不能使用网络 Switch 端口所有带宽的网络设备, 环路 Switch 提供低成本网络构件, 或支持唯一判优环路连接网络初始设计选用最合适的 Switch 网络构件, 以支持设计性能和可用性目标另外, 网络必须能够随着业务的需要而扩容, 并且无需升级现有基础设施, 也不必遭受宕机之苦在设计阶段, 企业必须创建一个网络拓扑, 将信息孤岛带来的负面影响最小化信息孤岛给网络增添了延时和阻塞点, 增加了网络的复杂性, 降低了网络的性能和可用性企业还需考虑每种产品管理工具的选择标准 Switch 和网络管理的有效性对管理更大构件具有关键作用所选管理工具应该允许用户通过一个中心点监控整个网络此外, 它还应帮助客户从整体上优化网络的可用性和性能, 而不是只能管理网络内部的单个 Switch 50

52 第四章备份带库 4.1 磁带库基础一个简单的问题 : 用户的数据最终存在哪里? 有人认为是磁盘, 有人认为是光盘, 当然更多人则认为是磁带的确如此, 世界上所有数据最终会有超过 90% 存储在磁带上而产生这些数据磁带并管理它们的正是磁带库尽管有人认为磁带库在进行数据存储时有过多的机械操作, 因而带来了故障隐患, 磁带性能上也存在劣势, 在最近一段时期更是受到了磁盘备份的巨大冲击, 但是, 磁带存储还是由于其本身固有的特质确保青春不老早期的磁带库主要用于离线存储, 但随着市场应用环境的变化及新数据存储的需求, 磁带库逐渐成为存储领域最重要的设备之一磁带库凭借可靠的数据存储能力及海量的备份能力, 从早期独立的备份设备成长为存储备份的主力磁带库自动高速备份和恢复 SAN 和 NAS 磁盘阵列中数据的作用已不可替代对于海量多媒体数据的应用环境, 现代磁带技术在多媒体数据归档长期保存应用环境中的可靠性成熟度和性价比已经得到公认 1. 磁带库的机械手机械手是磁带库中的核心部件, 是决定磁带库性能稳定性的关键, 也是磁带库中最昂贵的部件之一各厂商在机械手的设计上各有千秋, 其中 StorageTek 公司采用获得专利的圆柱设计, 极具特色, 在减少机械手移动距离提高磁带库总体性能的同时提高了整个磁带库系统的可靠性其他大多数厂商采用的则是 X 轴 -Y 轴的方式 2. 磁带库分区所谓磁带库分区就是将磁带库中的磁带驱动器和插槽分配给不同的平台, 这些驱动器及插槽只能被分配的主机使用但机械臂可以控制所有的驱动器及插槽, 并被所有的主机控制控制顺序遵循先来先控制的原则磁带库分区的前提条件是此磁带机是多通道结构 3. 磁带库连接 51

53 当一个磁带库的容量性能达不到用户的需求时, 可以将数个甚至数十个磁带库连接起来, 从而可以形成一个超大规模的磁带库系统一个磁带库中的磁带可以自动地传送给其他的磁带库, 在磁带库之间进行磁带交换时需要使用机械装置来完成 4. 广泛兼容的连接性广泛的连接方式可以使得磁带库能够灵活地应用于各类存储环境, 磁带库一般支持 SCSI FC 交换网络和 FC 环路网络, 今后还将支持以千兆以太网为基础的 iscsi 等存储网络协议, 以及类似 InfiniBand 等新兴存储总线技术 5. 多类型磁带机支持毫无疑问, 磁带机是磁带库中最核心最关键的部件, 经过数十年的发展, 如今的磁带机技术各具特点, 为用户的不同存储需求提供了不同的选择大型机自动磁带库一般采用专有磁带技术 (STK IBM 等 ), 然而, 在大型机磁带库中有时也会出现混装多厂商磁带机的情况目前, 开放系统磁带库大都能够同时支持主流磁带机技术 (DLT?D 数字线性磁带 LTO?D 线性磁带开放协议 DAT?D 数字影像磁带及 AIT?D 先进智能磁带等 ), 并且可以在同一个磁带库中进行混装 6. 海纳百川的容量一个磁带库的总容量大小是由最大槽数和每盘磁带容量共同决定的 ( 非压缩总容量 = 每盘磁带非压缩容量最大槽数 ) 通常, 磁带库按照容量大小分成三个级别 : 初级中级和高级其中, 初级磁带库的容量在几百 GB 至几 TB, 中级磁带库的容量在几 TB 至几十 TB, 而高级磁带库的容量在几十 TB 至几百 TB 甚至更高当然这只是较为粗略的划分, 随着磁带技术的发展, 尤其是每盘磁带存储容量的逐渐攀升, 磁带库容量也会相应发生变化 7. 稳步提高的性能由磁带机与磁带库共同决定, 包括机械手的磁带装载时间以及磁带机性能随着磁带机技术的不断发展, 磁带传输速率得到很大提升, 磁带库厂商对机械手的不断改进缩小了磁带的平均装载时间, 再加上与存储软件的更好配合, 所有这些都使得磁带库性能稳步提高 8. 逐渐进步的可靠性 52

磁带库的分类从应用的角度, 磁带库大体上可以分为两类 : 大型机自动磁带库和开放系统磁带库前者使用专有技术的磁带机, 后者大多使用开放式磁带机, 也有为了提高整体磁带库性能而采用专有技术磁带机和开放式磁带机混装的情况

54 图 4-1 磁带库备份原理硬件冗余技术充分应用到了磁带库中, 包括冗余电源冗余风扇等, 从去年开始, 有些厂商为了获得更高的可靠性而采用了冗余的机械手设计另外, 多磁带机之间可以做冗余,RAIT(Redundant Array of Inexpensive Tape) 是相对硬盘的 RAID 而来, 它主要是将多个相同的磁带机做成一个阵列, 一方面可以提高备份的性能, 另一方面又可以提高磁带的容错性图 4-2 各种磁带库技术特点 9. 磁带库的分类从应用的角度, 磁带库大体上可以分为两类 : 大型机自动磁带库和开放系统磁带库前者使用专有技术的磁带机, 后者大多使用开放式磁带机, 也有为了提高整体磁带库性能而采用专有技术磁带机和开放式磁带机混装的情况大型机磁带库之间与其服务的大型机直接连接, 而开放系统磁带库既可以直接与服务器连接, 也可以连接到存储区域网 (SAN) 之中在一个典型的 SAN 中, 磁带库是必不可少的设备, 如下图 ( 图 4-3 ) 所示 53

55 4.2 磁带库的发展磁带库之所以能够长盛不衰, 不断的发展与进步是其中的关键曾经很长一段时间, 磁带库就是多个磁带机的物理集合, 许多工作都需要人工的干预, 因此当时磁带库只能作为离线设备, 它的发展也受到了极大的限制在上个世纪 80 年代, 磁带库的发展获得了巨大进步, 各种管理功能的集成使得磁带库真正发展成为能够完成关键任务的近线存储, 磁带库也受到了前所未有的重视又经过近二十年的发展, 如今, 磁带库在存储领域的地位已经举足轻重仅在去年一年, 图 4-3 一个典型存储网络磁带库领域就产生了许多令人欣喜的变化, 相信这些变化会给磁带库带来一个充满希望的明天 1. 虚拟磁带库近期出现了一种改变磁带存储系统的技术?D 虚拟带库虚拟带库将磁盘空间模拟成磁带, 在传统的磁带备份系统中, 数据直接从应用系统传输到磁带中, 使用虚拟带库以后, 数据首先备份到虚拟带库即磁盘中, 然后由虚拟带库再备份到磁带上对于应用系统来说, 就像直接备份到磁带一样将虚拟磁带库集成到现有的磁带库系统中具有很多优势首先, 由于它利用了基于硬盘的技术, 因此每一位担心不能在维护窗口时间内完成备份的人都有喜欢它的理由其次, 任何一位拥有备份和恢复软件巨额投资的经理, 无需改变已有的处理过程就可以使用这种速度更快的 54

56 技术此外, 由于备份数据可以在任何时间从虚拟磁带传送到物理磁带媒介, 因此, 空出了虚拟硬盘供下一轮备份 2. 磁带库的智能化在关于未来磁带库产品的发展趋势时, 许多分析人士都认为, 磁带库将变得更智能所谓磁带库的智能化就是充分发挥软件的功能, 加强磁带库的管理以及连接性能, 使得数据备份更安全更可靠智能化是分层次的, 并不是硬件设备的完全自动化比如,ADIC 所倡导的智能化是基于存储硬件设备的, 将以前用软件实现的某些功能转移到硬件上来, 从而减轻用户应用系统管理数据的负担智能化的磁带库具有按需提供容量的功能, 用户根据业务增长的需要可随时扩充容量, 而只要使用软件密钥激活即可而智能存储对于用户意味着更低的总体拥有成本更高的性能更高的可靠性更加简便的管理和无缝的互操作性 3.WORM: 将来的必选件现在, 不仅磁盘阵列厂商开始将 WORM(Write Once Read Many) 技术作为新产品的卖点, 磁带厂商也开始将目光投向 WORM Sony 公司在 2003 年 12 月发布的 SAIT 磁带机中, 已经提供了 WORM 功能,IBM 发布 3592 磁带机时也声称将在 2004 年提供 WORM 功能所有这些都使得磁带库在广阔的固定内容存储领域占有了一席之地未来,WORM 功能也许会成为磁带库设备的必备功能 4.iSCSI 分析机构 Linley 近期对网络存储市场进行调查研究后指出, 光纤通道在 2007 年将被基于其主要竞争技术 iscsi 的 IP SAN 超过 iscsi 旺盛的生命力可见一斑对于具有如此美好前途的新技术, 磁带库当然不会拒绝早在 2003 年四月份 Spectra Logic 就推出了支持 iscsi 的磁带库, 如今有越来越多的磁带库厂商都支持 iscsi 4.3 磁带库评估如前文所述, 磁带库主要分为大型机磁带库和开放系统磁带库对于大型机磁带库系统而言, 一方面可供用户选择的方案并不是很多, 另一方面需要针对用户大型机系统的实际情况进行考虑由于大型机磁带库定位于关键业务, 用户对价格方面并不是特别敏感, 而性能则成为重要的考虑因素下面主要讨论的开放系统磁带库系统 55

57 对于开放系统磁带库而言, 用户要进行比较全面的考虑, 包括大负载备份最大的不停顿运行时间最小的人工干预可升级性可恢复性以及可扩展性服务能力等诸多方面升级及兼容性问题用户在选购磁带库时应考虑未来几年数据量大幅增长的趋势据有关专家预测, 在未来的三年中, 数据量将可能增加五倍因此, 用户在选购时应特别注意选择技术有发展前途的产品, 即容量增大, 速度更快, 而且最重要的是要与过去和未来的产品兼容随着备份需要的增长轻松地调整磁带槽和驱动器的数量部件产品寿命寿命越长的产品客户的使用成本越低就磁带库产品而言, 其重要部件?D?D 驱动器及磁带的寿命都很关键磁带机的寿命以磁头为主, 现有磁头的寿命在 1 万 -3 万小时之间而磁带的寿命以磁带经过磁头的次数计算, 目前磁带的寿命在 5000~ 次之间磁带机性能能否充分发挥这种特性应具有数据缓冲功能, 可以预先向 FC 主机后存储设备发送数据传输请求, 保证稳定的数据流输入到磁带机中, 使磁带机保持连续不停顿的读写操作这个特点不仅可以提高数据备份性能, 而且由于减少磁带启动停止次数减轻了磁头和磁带的磨损, 从而提高磁带机磁头和磁带本身的寿命数据链路调节功能该特性可以主动发送 SAN 网络探测信号, 了解在进行大规模数据备份前, 在主机磁盘和磁带库之间的 SAN 网络路径是否畅通如果有任何意外 ( 如 SAN 网络重新配置网线中断等 ), 则可以及时通知管理员解决问题, 保证数据备份的正常进行 4.4 磁带库是存储的基础高楼大厦是否坚固是由埋入地下的基础决定的, 而在存储领域里, 磁带库就起着类似地基的作用许多负责存储的 IT 经理讲, 经过多年的发展, 如今的磁带库可以满足用户许多基本的存储需求 : 首先可以对大量数据进行备份和归档, 在灾难发生时还可以进行恢复 ; 对于性能要求不是特别严格的大多数用户来说, 磁带库的近线存储能力基本能够满足业务上的需求因此, 每个用户都应该注重磁带存储, 比如, 如何使磁带库系统更好地与业务系统配合, 如何确定更为科学的备份策略等, 都需要在长时间的实践工作中摸索, 以达到更好的存储效果良好的存储管理不是仅仅通过应用先进的技术与产品就能够轻易获得的磁带库的更新换代时间较长, 而且一旦使用一种技术的磁带, 经过长时期的积累会得到数量巨大的数据磁带, 万一这种技术被淘汰, 处理这些数据或者向新型技术的数据迁移是一项非 56

58 常复杂的任务所以, 用户在购买磁带库时要目光长远一些而在市场上, 技术的更新换代持续发展能力都对磁带存储厂商至关重要备份是存储的基础, 把这个基础工作做好就能够为业务发展提供坚实的保障, 在此基础之上才能够做好构建更多与用户新业务联系密切的高端存储, 才能够为用户带来更大价值希望用户把磁带存储这个基础打好, 打牢 57

59 第二部分高级知识 : 数据系统整合第五章数据分级存储数据分级存储, 是指数据客体存放在不同级别的存储设备 ( 磁盘磁盘阵列光盘库磁带库 ) 中, 通过分级存储管理软件实现数据客体在存储设备之间的自动迁移数据迁移的规则是可以人为控制的, 通常是根据数据的访问频率保留时间容量性能要求等因素确定的最佳存储策略在分级数据存储结构中, 磁带库等成本较低的存储资源用来存放访问频率较低的信息, 而磁盘或磁盘阵列等成本高速度快的设备, 用来存储经常访问的重要信息数据分级存储的工作原理是基于数据访问的局部性通过将不经常访问的数据自动移到存储层次中较低的层次, 释放出较高成本的存储空间给更频繁访问的数据, 可以获得更好的总体性价比 5.1 分级存储的必要性 IT 企业总是要面对增长起来无休无止的数据量各种应用都在创建越来越大的文件用户也很少删除数据和存档, 这就导致要访问旧一些的文件已经变得非常困难因此, 目前的潮流是购买更多的软件然而, 这种解决方案产生了非常复杂和笨拙的存储环境, 不仅需要更多的维护和管理, 而且需要更多的金钱来维持事实上, 数据具有生命周期, 不同的时期有其存在的不同意义在数据刚生成的数日内, 访问频率最高, 为企业产生效益和收入, 带来的价值也最高 ; 随着时间的推移, 访问频率降低, 数据的价值也随之下降, 低访问频率的数据量远远超过高访问频率的数据量, 如果全部用企业级存储产品来存储所有数据, 费用非常高, 也没有必要不同生命周期的数据, 由于提供给企业不同的服务目的, 企业应考虑如何以最低的成本获得最高的价值, 而不是采用以往单纯的 " 购买更多磁盘 " 的解决方式和态度, 徒增存储费用和管理复杂程度总之, 企业业务数据从产生到存储利用归档, 最后超过存储期限被删除, 数据被读取的频率会逐渐下降, 数据存储的位置也应该随之变化, 以提高存储设备的使用率, 降低存储成 58

60 本因此有必要进行分级存储, 企业在存储其关键业务数据时, 采用昂贵的存储技术和方式, 如 RAID 磁盘复制定时拷贝多级备份等, 确保数据高可用 ; 当数据已经不再为企业带来效益时, 将这类数据迁移到较便宜的存储介质上 ; 最后, 当数据 " 老化 " 到不再被访问时, 应考虑将其删除或者迁移, 如果是法律要求或政府规定等要保留多年的数据, 应将其迁移到近线磁带库或者离线存储介质上进行归档, 既安全又节省费用同时, 信息量的急剧增长, 也使存储管理复杂性增加, 数据的分级存储也是简化存储管理的需要通过设定优化的数据迁移规则, 能使重要数据和常用数据在最短的时间内访问到, 使极少使用的数据备份在廉价的海量存储器中 5.2 分级存储的优点数据分级存储之所以重要, 是因为它既能最大限度地满足用户需求, 又可使存储成本最小化数据分级存储的优点具体表现在 : 1. 减少总体存储成本不经常访问的数据驻留在较低成本的存储器中, 可综合发挥磁盘驱动器的性能优势与磁带的成本优势 2. 性能优化分级存储可使不同性价比的存储设备发挥最大的综合效益 3. 改善数据可用性分级存储把很少使用的历史数据迁移到辅助存储器中, 或归档到离线存储池中, 这样就无需反复保存, 减少了存储的时间 ; 同时提高了在线数据的可用性, 使磁盘的可用空间维持在系统要求的水平上透明 4. 数据迁移对应用透明进行分级存储后, 数据移动到另外的存储器时, 应用程序不需要改变, 使数据迁移对应用 59

61 5.3 分级存储的存储方式传统的数据存储一般分为在线 (On-line) 存储及离线 (Off-line) 存储两级存储方式所谓在线存储就是指将数据存放在磁盘系统上, 而离线则是指将数据备份到磁带上但随着数据量的猛增, 这种只使用在线和离线两级存储的策略已经不能适应企业的需求近线存储市场近来成为热点, 出现了一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备, 作为近线存储设备在线存储总体上讲, 在线存储多采用高速磁盘阵列等存储设备, 存取速度快, 当然价格昂贵在线存储一般采用高端存储系统和技术如 :SAN 点对点直连技术 S2A 等高端存储系统具有一些 " 高端 " 属性, 比如, 高容量高性能高可用性冗余性等, 现在存储工程师看到, 这些特点已经不再是高端特有的了, 许多中端产品也大都采取了这些设计 SAN 技术的高性能依赖于三个重要领域的性能支持 : 存储容量计算能力和传输能力在传统 SAN 存储系统中, 存储容量这一环节由于存储介质技术的快速发展已经得到了很好的解决存储容量通过多磁盘容量的叠加已经能够达到数千 TB 的水平而在计算能力与传输能力两个环节上, 传统 SAN 却存在很多先天的弱点最近在高端存储领域出现了两种新技术 -- 点对点直连技术与并行存储技术具体如下 : 点对点直连技术是 EMC 近期推出的一种全新的点到点互联架构, 在性能方面, 由于它采用了点对点对接, 消除了总线或交换机方式造成的延迟, 专用的数据通道意味着不会出现交换机竞争的情况, 减少数据从存储位置传输到目标位置的延迟它还具有 32 个独立高速缓存区, 而且每个高速缓存区都具有独立的逻辑访问, 可以为用户提供更强大的处理和访问能力 S2A 是 DataDirect Networks 公司推出的并行存储技术 S2A 没有采用传统的光纤通道交换机的交叉矩阵交换机制, 它所采用的高度并行端口技术消除了交换机制所带来的不可避免的时间延迟, 能够持续不变地提供充满端口带宽的数据吞吐量 S2A 控制器内部的四个主机通道之间采用虚拟的并行体系结构, 通过提供并行处理和并行数据读写的途径, 使得在多主机的存储区域网络环境中具有非常高的不受多主机环境影响的使用性能离线存储离线存储采用磁带作为存储介质, 其访问速度低, 但能实现海量存储, 同时价格低廉 60

62 以前用户有这样的想法 : 反正数据存放在磁带上面, 性能都不高, 只要在灾难发生时能够使用它们将需要的数据恢复回来就可以了其实, 这是很不正确的要知道, 用户的数据越来越多, 原有的数据也不能丢弃, 当这些数据逐年累积以后管理它们就成了一件十分困难的事情, 而且还要进行磁带定期维护的工作因此, 许多磁带库厂商在这方面进行了加强, 提供了完整的数据生命周期管理, 专为数据密集型 SAN 环境而设计, 尤其适用于高强度大容量的数据访问和数据存储, 减少了管理 SAN 数据的时间和成本, 从数据生成到其生命周期结束, 其中的每一步骤都提供了相应的功能这也说明磁带库管理更注重 " 智能 " 近线存储随着用户需求的日益细分, 人们越来越发现原有的两级模式 ( 在线与离线 ) 已经不能很好地满足用户的存储需求, 在这两个 " 极端 " 之间有大量的空白, 于是就产生了近线存储的概念近线存储的概念一产生就得到了厂商与用户的赞同, 定位于此领域的产品很快就纷纷出现, 形成了近一时期最为活跃的中间层 NetApp 推出的 R100 近线存储设备, 获得巨大成功, 仅 1 年时间在全球就拥有了 100 多个用户, 总部署容量超过 3PB Quantum 推出的基于磁盘的产品 DX30, 能够模拟各类磁带库, 保留了与存储管理软件的兼容性, 而又具有比磁带库更高的速度, 用户可以先将数据备份到 DX30 中, 然后再转移到磁带上以磁带产品知名的 StorageTek 公司在业界较早提出了数据生命周期管理的概念, 并拥有针对数据的不同生命周期提供的相应的解决方案, 包括磁带设备和磁盘系统及软件产品, 以帮助用户 " 将适当的数据, 在适当的时间, 存储到适当的设备上 " Legato 公司备份软件的最新版 NetWorker7.0, 引入了磁盘备份与磁带备份相结合的新方式, 通过磁盘备份可以为用户提供更多性能优势采用磁盘进行备份避免了一些磁带备份的弊端 : 磁带只能进行顺序读写, 而且每盘磁带都需要完全倒回才可取出, 加载卸载时间很长磁盘备份解决方案还完全包括了 " 虚拟带库 " 的功能, 而且可以在读一部分内容的同时进行写另一部分内容, 因而可以实现了在设备进行备份时的恢复搬移 / 克隆操作 61

63 5.4 分级存储的管理存储实现分级以后, 在线近线与离线存储存放的数据价值不同, 在同一级别存储内部 ( 比如在线和离线存储 ), 存放的数据也应该不同, 实现每一级别内的 " 分级存储 " 如何将各个级别存储中数据统一管理起来便成了最为关键的问题分级存储管理 (Hierarchical Storage Management,HSM) 起源于 1978 年, 首先使用于大型机系统近 10 年来,HSM 被广泛应用于开放系统的 Unix 和 Windows 平台分级存储管理是一种将离线存储与在线存储融合的技术它将高速高容量的非在线存储设备作为磁盘设备的下一级设备, 然后将磁盘中常用的数据按指定的策略自动迁移到磁带库等二级大容量存储设备上当需要使用这些数据时, 分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上对于用户来说, 上述数据迁移操作完全是透明的, 只是在访问磁盘的速度上略有怠慢, 而在逻辑磁盘的容量上明显感觉大大提高了通俗地讲, 数据迁移是一种可以把大量不经常访问的数据存放在磁带库光盘库等离线介质上, 只在磁盘阵列上保存少量访问频率高的数据的技术当那些磁带等介质上数据被访问时, 系统自动地把这些数据回迁到磁盘阵列中 ; 同样, 磁盘阵列中很久未访问的数据被自动迁移到磁带介质上, 从而大大降低投入和管理成本 HSM 应用也具备监测磁盘容量并在关键容量情况下作出反应的能力这种软件经过配置后可以为某个卷设定一个最小的剩余空间, 如 20% 如果软件发现该卷的剩余容量已经不足 20%, 数据就会被从该卷移动至备用存储介质这样便可以立即释放空间, 管理员也可以在今后有空闲时再来解决空间的问题由此可见, 分级存储管理更多从降低成本不影响数据应用效果的角度解决数据的存储问题事实上, 降低成本提高效率已成为 IT 厂商追逐技术进步的一个目标近线存储就是这种进步的产物伴随单盘成本的下降, 近线存储市场渐热, 有业内专家预测, 不久的将来, 近线存储技术将取代数据迁移技术, 用户将以模拟海量空间的更为安全可靠的磁盘介质保存历史数据而成熟完善的数据迁移软件技术将更为恰到好处的融入到近线存储设备中, 为近线存储技术的发展起到推波助澜的作用 5.5 信息生命周期管理现在着重介绍与分级存储管理密切相关信息生命周期管理 62

64 目前, 许多厂商和用户都认为, 数据是具有生命周期的 Legato 公司将信息生命周期划分为 7 个阶段, 包括了数据从产生直至灭亡的全部过程具体为 : 业务需求采集 / 组织保护 / 恢复复制 / 镜像共享迁移 / 归档删除由于是一个 " 周期 " 的管理, 因此, 在这个周期的每个环节都要有相应的产品来满足需求, 包括系统咨询信息采集数据保护迁移归档等等产品在一定的时期, 用户可能只会应用到其中的某个或某几个环节, 但是, 把整个信息系统作为一个整体来管理是一个必然的趋势信息生命周期管理 (Information Lifecycle Management,ILM) 是 StorageTek 公司针对不断变化的存储环境推出的先进存储管理理念 ILM 不是某个硬件或软件产品, 而是评估和管理信息的存储方式它教育客户平衡信息价值和管理费用, 根据数据对企业生存的关键性以及企业发展带来的价值决定存储费用信息从产生到使用直到灭亡, 其全部过程都需要进行管理, 因此, 信息生命周期管理是用户发展到一定阶段的存储需求, 只不过它是一种很复杂的需求, 具体来说, 就是如何建立一个更完整更具有价值的信息系统, 能够完全满足用户对于数据的以下五种需求 : 随时访问按时间恢复方便的共享所有数据受到适当的保护以及按照一定的时间规定 ( 比如法律规定 ) 管理数据 ILM 的核心是理解信息在其不同生命阶段中对企业的不同价值, 帮助企业从战略高度来管理信息那么, 管理信息和管理存储设备有何不同? 从管理设备的角度出发,CIO 会不切实际地期望不断降低存储费用, 同时要求高性能随着数据量的不断增加, 可用的磁盘容量不断减少, 企业不得不无计划被动地增加存储, 导致系统环境越来越复杂, 难以管理从管理信息的角度出发, 企业会根据信息生命周期的特点, 将其存储在与自身价值相符并与拥有者所需要的交流方式和服务方式相符的不同层次的架构里, 通过有计划主动地增加存储, 不断降低复杂性并增加整个存储系统的可用容量 ILM 通过存储保护管理集成四个组成部分实现信息管理费用与业务需求之间的平衡, 从而达到降低企业的风险和费用的目的因此, ILM 使企业实现了 " 适当的信息, 在适当的时间, 以适当的费用, 存储在适当的设备上 " 它从以下三个方面提升企业业务运营: (1) 帮助企业管理不断发展产生的变化和遇到的困难, 为企业降低风险 ; (2) 提高企业的运行效率, 降低运营费用, 提高经济收益 ; (3) 帮助企业更好地管理资源, 在市场上具有更好的竞争优势 63

65 5.6 分级存储案例 : 电视台的具体应用凡是拥有巨大数据量的用户都可以从应用分级存储中获得更大利益, 尤其是电信气象地震以及图像处理 ( 电视台 ) 等领域以电信行业为例, 在线业务系统需要在线存储 ; 有些业务需要查询客户 3 个月或 6 个月以前的信息记录, 近线存储就很适合 ; 更久的信息同样不能删除, 这就需要离线存储同时, 随着业务的不断进行又会产生新的数据, 如何将在线近线以及离线的数据统一管理好需要利用分级存储管理和信息生命周期管理技术随着电视技术的发展, 存储技术在电视领域得到了广泛应用存储技术贯穿了电视节目的拍摄制作播出及存储等整个流程特别, 随着电视事业的飞速发展, 大量的专题片系列片等自办节目越来越多, 节目的制作成本也越来越高, 但节目经费非常有限, 拍摄制作周期越来越短, 因此, 素材资源的再利用就显得尤其重要同一个素材很可能会被循环再用, 重复使用多次媒体资产在信息咨询时代, 对于电视台, 最重要的媒体实体就是历年来存储的视音频资料即电视节目, 它已成为极具增值效益的一种无形资产实现电视节目的良性管理将为资产持有者节约成本的同时, 带来可观的经济效益在物理层次上, 电视台视音频素材的存储也有三种模式即 : 在线存储近线存储和离线存储电视台的在线存储设备永久连接在非线性编辑系统硬盘播出系统等计算机系统中, 并随时保持可实时快速访问的状态在线存储设备通常具有很高的访问速度和良好的反应能力, 适合访问要求频繁, 并且对反应和数据传输都要求较高的应用在电视台实际应用中在线存储设备一般采用 SCSI 磁盘阵列光纤磁盘阵列等, 用于存储即将用于制作编辑播出的视音频素材电视台的离线存储设备或存储介质平时没有装在线性编辑系统硬盘播出系统等计算机系统中, 在存取数据时需要将存储设备或存储介质临时性地装载或连接到线性编辑系统硬盘播出系统等计算机系统中, 当数据访问完成时可以脱开连接一旦断开之后, 就可以更换存储介质离线存储通常价格比较低廉, 如磁带磁带库或光盘库等, 可以将总的存储做得很大但是由于离线到在线的存储介质的装载过程很长, 所以离线存储一般用来存储不常用的冷数据包括制作年代较远的新闻片专题片纪录片资料片等近线存储介于在线存储和离线存储之间, 既可以做到较大的存储容量, 又可以获得较快的存取速度近线存储设备一般采用自动化的数据流磁带或者光盘塔近线存储设备用于存储和 64

66 在线设备发生频繁读写交换的数据包括近段时间采集的视音频素材或近段时间制作的新闻片专题片纪录片资料片等在线近线离线三种存储体相互配合, 在电视台媒体资产管理系统的管理软件定义的迁移策略控制下, 既可保证资料的访问速度, 又可扩充系统的存储容量第六章数据迁移数据迁移是数据系统整合中保证系统平滑升级和更新的关键部分在信息化建设过程中, 随着技术的发展, 原有的信息系统不断被功能更强大的新系统所取代从两层结构到三层结构, 从 Client/Server 到 Browser/Server 在新旧系统的切换过程中, 必然要面临一个数据迁移的问题 6.1 数据迁移的概念原有的旧系统从启用到被新系统取代, 在其使用期间往往积累了大量珍贵的历史数据, 其中许多历史数据都是新系统顺利启用所必须的另外, 这些历史数据也是进行决策分析的重要依据数据迁移, 就是将这些历史数据进行清洗转换, 并装载到新系统中的过程数据迁移主要适用于一套旧系统切换到另一套新系统, 或多套旧系统切换到同一套新系统时, 需要将旧系统中的历史数据转换到新系统中的情况银行电信税务工商保险以及销售等领域发生系统切换时, 一般都需要进行数据迁移对于多对一的情况, 例如由于信息化建设的先后, 造成有多个不同的系统同时运行, 但相互间不能做到有效信息共享, 所以就需要一套新系统包容几套旧系统的问题数据迁移对系统切换乃至新系统的运行有着十分重要的意义数据迁移的质量不光是新系统成功上线的重要前提, 同时也是新系统今后稳定运行的有力保障如果数据迁移失败, 新系统将不能正常启用 ; 如果数据迁移的质量较差, 没能屏蔽全部的垃圾数据, 对新系统将会造成很大的隐患, 新系统一旦访问这些垃圾数据, 可能会由这些垃圾数据产生新的错误数据, 严重时还会导致系统异常相反, 成功的数据迁移可以有效地保障新系统的顺利运行, 能够继承珍贵的历史数据因为无论对于一个公司还是一个部门, 历史数据无疑都是十分珍贵的一种资源例如公司的客户信息银行的存款记录税务部门的纳税资料等 65

67 6.2 数据迁移的特点系统切换时的数据迁移不同于从生产系统 OLTP (On-line Transaction Processing), 到数据仓库 DW(Data Warehouse) 的数据抽取后者主要将生产系统在上次抽取后所发生的数据变化同步到数据仓库, 这种同步在每个抽取周期都进行, 一般以天为单位而数据迁移是将需要的历史数据一次或几次转换到新的生产系统, 其最主要的特点是需要在短时间内完成大批量数据的抽取清洗和装载数据迁移的内容是整个数据迁移的基础, 需要从信息系统规划的角度统一考虑划分内容时, 可以从横向的时间和纵向的模块两个角度去考虑横向划分以产生数据的时间为划分依据, 需要考虑比较久远的历史数据如何迁移的问题由于信息技术的发展, 以及存储工程师对计算机依赖性的增强, 新系统每天往往需要比旧系统存储更多的信息, 同时为了解决数据量高增长带来的性能瓶颈, 新系统一般只保留一定时期的数据, 比如 1 年, 而把超过保存周期的数据, 即 1 年以前的数据转移到数据仓库中, 以便用于决策分析对于这种新系统的数据迁移, 主要迁移 1 年以内的数据,1 年以前的历史数据需要另外考虑纵向划分以处理数据的功能模块为划分依据, 需要考虑在新系统中没有被包含的功能模块, 其所涉及数据的处理问题这类数据由于无法建立映射关系, 一般不需要迁移到新系统中但对于模块间偶合度比较紧密的旧系统, 在纵向划分时需要注意数据的完整性 6.3 数据迁移的三种方法数据迁移可以采取不同的方法进行, 归纳起来主要有三种方法, 即系统切换前通过工具迁移系统切换前采用手工录入系统切换后通过新系统生成系统切换前通过工具迁移在系统切换前, 利用 ETL(Extract Transform Load) 工具把旧系统中的历史数据抽取转换, 并装载到新系统中去其中 ETL 工具可以购买成熟的产品, 也可以是自主开发的程序这种方法是数据迁移最主要, 也是最快捷的方法其实施的前提是, 历史数据可用并且能够映射到新系统中 66

68 系统切换前采用手工录入在系统切换前, 组织相关人员把需要的数据手工录入到新系统中这种方法消耗的人力物力比较大, 同时出错率也比较高主要是一些无法转换到新系统中的数据, 和新系统启用时必需要而旧系统无法提供的数据采用这种方法, 可作为第一种方法的有益补充系统切换后通过新系统生成在系统切换后, 通过新系统的相关功能, 或为此专门开发的配套程序生成所需要的数据通常根据已经迁移到新系统中的数据来生成所需的信息其实施的前提是, 这些数据能够通过其它数据产生数据迁移的策略数据迁移的策略是指采用什么方式进行数据的迁移结合不同的迁移方法, 主要有一次迁移分次迁移先录后迁先迁后补等几种方式可供选择一次迁移一次迁移是通过数据迁移工具或迁移程序, 将需要的历史数据一次性全部迁移到新系统中一次迁移的优点是迁移实施的过程短, 相对分次迁移, 迁移时涉及的问题少, 风险相对比较低其缺点工作强度比较大, 由于实施迁移的人员需要一直监控迁移的过程, 如果迁移所需的时间比较长, 工作人员会很疲劳一次迁移的前提是新旧系统数据库差异不大, 允许的宕机时间内可以完成所有数据量的迁移分次迁移分次迁移是通过数据迁移工具或迁移程序, 将需要的历史数据分几次迁移到新系统中分次迁移可以将任务分开, 有效地解决了数据量大和宕机时间短之间的矛盾但是分次切换导致数据多次合并, 增加了出错的概率, 同时为了保持整体数据的一致性, 分次迁移时需要对先切换的数据进行同步, 增加了迁移的复杂度分次迁移一般在系统切换前先迁移将静态数据和变化不频繁的数据, 例如代码用户信息等, 然后在系统切换时迁移动态数据, 例如交易信息, 对于静态数据迁移之后发生的数据变更, 可以每天同步到新系统中, 也可以在系统切换时通过增量的方式一次同步到新系统中先录后迁先录后迁是在系统切换前, 先通过手工把一些数据录入到新系统中, 系统切换时再迁移其它的历史数据先录后迁主要针对新旧系统数据结构存在特定差异的情况, 即对于新系统启用 67

69 时必需的期初数据, 无法从现有的历史数据中得到对于这部分期初数据, 就可以在系统切换前通过手工录入先迁后补先迁后补是指在系统切换前通过数据迁移工具或迁移程序, 将原始数据迁移到新系统中, 然后通过新系统的相关功能, 或为此专门编写的配套程序, 根据已经迁移到新系统中的原始数据, 生成所需要的结果数据先迁后补可以减少迁移的数据量 6.4 数据迁移的实现数据迁移的实现可以分为三个阶段 : 数据迁移前的准备数据迁移的实施和数据迁移后的校验由于数据迁移的特点, 大量的工作都需要在准备阶段完成, 充分而周到的准备工作是完成数据迁移的主要基础具体而言, 要进行待迁移数据源的详细说明, 包括数据的存放方式数据量数据的时间跨度, 建立新旧系统数据库的数据字典, 对旧系统的历史数据进行质量分析, 新旧系统数据结构的差异分析 ; 新旧系统代码数据的差异分析 ; 建立新老系统数据库表的映射关系, 对无法映射字段的处理方法, 开发部属 ETL 工具, 编写数据转换的测试计划和校验程序, 制定数据转换的应急措施其中, 数据迁移的实施是实现数据迁移的三个阶段中最重要的环节它要求制定数据转换的详细实施步骤流程 ; 准备数据迁移环境 ; 业务上的准备, 结束未处理完的业务事项, 或将其告一段落 ; 对数据迁移涉及的技术都得到测试 ; 最后实施数据迁移数据迁移后的校验是对迁移工作的检查, 数据校验的结果是判断新系统能否正式启用的重要依据可以通过质量检查工具或编写检查程序进行数据校验, 通过试运行新系统的功能模块, 特别是查询报表功能, 检查数据的准确性数据迁移的技术准备数据转换与迁移通常包括多项工作 : 旧系统数据字典整理旧系统数据质量分析新系统数据字典整理新旧系统数据差异分析建立新旧系统数据之间的影射关系开发部署数据转换与迁移程序制定数据转换与迁移过程中的应急方案实施旧系统数据到新系统的转换与迁移工作检查转换与迁移后数据的完整性与正确性 68

70 数据转换与迁移程序, 即 ETL 的过程大致可以分为抽取转换装载三个步骤数据抽取转换是根据新旧系统数据库的映射关系进行的, 而数据差异分析是建立映射关系的前提, 这其中还包括对代码数据的差异分析转换步骤一般还要包含数据清洗的过程, 数据清洗主要是针对源数据库中, 对出现二义性重复不完整违反业务或逻辑规则等问题的数据进行相应的清洗操作, 在清洗之前需要进行数据质量分析, 以找出存在问题的数据, 否则数据清洗将无从谈起数据装载是通过装载工具或自行编写的 SQL 程序将抽取转换后的结果数据加载到目标数据库中对数据的检查数据格式检查 : 检查数据的格式是否一致和可用, 目标数据要求为 number 型数据长度检查 : 检查数据的有效长度对于 char 类型的字段转换到 varchar 类型中, 需要特别关注区间范围检查 : 检查数据是否包含在定义的最大值和最小值的区间中 ; 例如年龄为 300, 或录入日期在空值默认值检查 : 检查新旧系统定义的空值默认值是否相同, 不同数据库系统对空值的定义可能不同, 需要特别关注完整性检查 : 检查数据的关联完整性如记录引用的代码值是否存在, 特别需要注意的是有些系统在使用一段时间后, 为了提高效率而去掉了外键约束一致性检查 : 检查逻辑上是否存在违反一致性的数据, 特别是存在分别提交操作的系统数据迁移工具的选择数据迁移程序的开发部署主要有两种选择, 即自主开发程序或购买成熟的产品这两种选择都有各自不同的特点, 选择时还要根据具体情况进行分析纵观目前国内一些大型项目, 在数据迁移时多是采用相对成熟的 ETL 产品可以看到这些项目有一些共同特点, 主要包括 : 迁移时有大量的历史数据允许的宕机时间很短面对大量的客户或用户存在第三方系统接入一旦失败所产生的影响面将很广同时也应该看到, 自主开发程序也被广泛地采用相关的 ETL 产品目前, 许多数据库厂商都提供数据抽取工具, 如 Informix 的 InfoMover Microsoft SQL Server 7 的 DTS 和 Oracle 的 Oracle Warehouse Builder 等, 这些工具在一定范围内解决了数据的提取和 69

71 转换但这些工具基本都不能自动完成数据的抽取, 用户还需利用这些工具编写适当的转换程序例如 Oracle 的 Oracle Warehouse Builder 数据抽取工具, 简称 OWB, 提供的功能包括 : 模型构造和设计 ; 数据提取移动和装载 ; 元数据管理等但 OWB 提供的流程繁琐, 维护很困难, 不易于使用在第三方产品中,Ascential Software 公司的 DataStage 是一套相对比较完善的产品 DataStage 可以从多个不同的业务系统中, 从多个平台的数据源中抽取数据, 完成转换和清洗, 装载到各种系统里面其中每步都可以在图形化工具里完成, 同样可以灵活的被外部系统调度, 提供专门的设计工具来设计转换规则和清洗规则等, 实现了增量抽取任务调度等多种复杂而实用的功能其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现, 复杂转换可以通过编写脚本或结合其他语言的扩展来实现, 并且 DataStage 提供调试环境, 可以极大地提高开发和调试抽取转换程序的效率数据抽取和转换的准备数据抽取前, 需要作大量的准备工作具体如下 : 1 针对目标数据库中的每张数据表, 根据映射关系中记录的转换加工描述, 建立抽取函数该映射关系为前期数据差异分析的结果抽取函数的命名规则为 :F_ 目标数据表名 _E 2 根据抽取函数的 SQL 语句进行优化可以采用的优化方式为 : 调整 SORT_AREA_SIZE 和 HASH_AREA_SIZE 等参数设置启动并行查询采用提示指定优化器创建临时表对源数据表作 ANALYZES 增加索引 3 建立调度控制表, 包括 ETL 函数定义表 ( 记录抽取函数转换函数清洗函数和装载函数的名称和参数 ) 抽取调度表( 记录待调度的抽取函数 ) 装载调度表( 记录待调度的装载信息 ) 抽取日志表( 记录各个抽取函数调度的起始时间和结束时间以及抽取的正确或错误信息 ) 装载日志表( 记录各个装载过程调度的起始时间和结束时间以及装载过程执行的正确或错误信息 ) 4 建立调度控制程序, 该调度控制程序根据抽取调度表动态调度抽取函数, 并将抽取的数据保存入平面文件平面文件的命名规则为 : 目标数据表名.txt 数据转换的工作在 ETL 过程中主要体现为对源数据的清洗和代码数据的转换数据清洗主要用于清洗源数据中的垃圾数据, 可以分为抽取前清洗抽取中清洗抽取后清洗 ETL 对源 70

72 数据主要采用抽取前清洗对代码表的转换可以考虑在抽取前转换和在抽取过程中进行转换具体如下 : 1 针对 ETL 涉及的源数据库中数据表, 根据数据质量分析的结果, 建立数据抽取前的清洗函数该清洗函数可由调度控制程序在数据抽取前进行统一调度, 也可分散到各个抽取函数中调度清洗函数的命名规则为 :F_ 源数据表名 _T_C 2 针对 ETL 涉及的源数据库中数据表, 根据代码数据差异分析的结果, 对需要转换的代码数据值, 如果数据长度无变化或变化不大, 考虑对源数据表中引用的代码在抽取前进行转换抽取前转换需要建立代码转换函数代码转换函数由调度控制程序在数据抽取前进行统一调度代码转换函数的命名规则为 :F_ 源数据表名 _T_DM 3 对新旧代码编码规则差异较大的代码, 考虑在抽取过程中进行转换根据代码数据差异分析的结果, 调整所有涉及该代码数据的抽取函数数据迁移后的校验在数据迁移完成后, 需要对迁移后的数据进行校验数据迁移后的校验是对迁移质量的检查, 同时数据校验的结果也是判断新系统能否正式启用的重要依据可以通过两种方式对迁移后的数据进行校验对迁移后的数据进行质量分析, 可以通过数据质量检查工具, 或编写有针对性的检查程序进行对迁移后数据的校验有别于迁移前历史数据的质量分析, 主要是检查指标的不同迁移后数据校验的指标主要包括五方面 : 完整性检查, 引用的外键是否存在 ; 一致性检查, 相同含义的数据在不同位置的值是否一致 ; 总分平衡检查, 例如欠税指标的总和与分部门分户不同粒度的合计对比 ; 记录条数检查, 检查新旧数据库对应的记录条数是否一致 ; 特殊样本数据的检查, 检查同一样本在新旧数据库中是否一致新旧系统查询数据对比检查, 通过新旧系统各自的查询工具, 对相同指标的数据进行查询, 并比较最终的查询结果 ; 先将新系统的数据恢复到旧系统迁移前一天的状态, 然后将最后一天发生在旧系统上的业务全部补录到新系统, 检查有无异常, 并和旧系统比较最终产生的结果 71

73 第七章系统灾难备份 7.1 容灾技术的意义当应用系统的一个完整环境因灾难性事件 ( 如火灾地震等 ) 遭到破坏时, 为了迅速恢复应用系统的数据环境, 立即恢复应用系统的运行, 保证系统的可用性, 这就需要异地灾难备份系统 ( 也称容灾系统 ) 可以说, 对于关键事物的处理系统, 如联通的各项业务系统 ( 客户服务计费 IDC 等 ), 建立最高级别的安全体系, 也是提高服务质量在竞争中立于不败之地的重要举措长期以来, 对企业而言, 建立一套可行的容灾系统相当困难, 主要是高昂的成本和技术实现的复杂度鉴于此, 从可行性而言, 必须具有良好的性能价格比建立异地容灾系统, 即指建立远程的数据中心, 通过配置远程容灾系统将本地数据实时进行远程复制, 同时实现本地系统故障时应用系统的远程启动, 确保系统的不中断运行建立异地容灾中心的优势在于 : 强大的一级灾难抗御能力有效防止物理设备损伤产生的灾难后果提供 % 的安全机制实时数据复制提供强大的数据交换能力随着数据安全技术的发展,Cluster(HA) 的技术越来越成熟,Cluster 的部署越来越普及, Cluster 技术确实解决了用户系统的高可用性问题, 为业务的良性发展提供了稳定的基石随着业务的发展, 商业环境对服务供应商提出的要求也越来越苛刻, 这必将使应用系统及其数据对高可用性的要求走上一个新的台阶一个本地 Cluster 系统理论上可以提供 99.99% 以上的系统高可用性, 但一旦发生火灾自然灾害人为破坏等意外事件, 服务商将如何应对呢? 如果没有必要的准备和应对手段, 这样的一次意外对服务上来说将是灾难性的对于 IT 部门来讲, 要提高自己的抗灾能力, 其必要的技术就是建立起一个容灾系统 72

74 7.2 容灾技术的分类一个容灾系统的实现可以采用不同的技术, 一种技术是 : 采用硬件进行远程数据复制, 存储工程师称为硬件复制技术这种技术的提供者是一些存储设备厂商数据的复制完全通过专用线路实现物理存储设备之间的交换另一种技术是 : 采用软件系统实现远程的实时数据复制, 并且实现远程的全程高可用体系 ( 远程监控和切换 ) 这种技术的代表如 VERITAS 等一些著名存储软件厂商存储工程师在下面的章节会对以上两种技术进行详细的论述容灾系统的归类在另一个方面要由其最终达到的效果来决定从其对系统的保护程度来分, 存储工程师可以将容灾系统分为 : 数据容灾和应用容灾所谓数据容灾, 就是指建立一个异地的数据系统, 该系统是本地关键应用数据的一个实时复制在本地数据及整个应用系统出现灾难时, 系统至少在异地保存有一份可用的关键业务的数据该数据可以是与本地生产数据的完全实时复制, 也可以比本地数据略微落后, 但一定是可用的所谓应用容灾, 是在数据容灾的基础上, 在异地建立一套完整的与本地生产系统相当的备份应用系统 ( 可以是互为备份 ) 建立这样一个系统相对比较复杂, 不仅需要一份可用的数据复制, 还要有包括网络主机应用甚至 IP 等资源, 以及各资源之间的良好协调应用容灾应该说是真正意义上的容灾系统存储工程师先讨论一下数据容灾数据容灾 ( 硬件容灾方案和软件容灾方案均包括 ), 又称为异地数据复制技术, 按照其实现的技术方式来说, 主要可以分为同步传输方式和异步传输方式 ( 各厂商在技术用语上可能有所不同而根据容灾的距离, 数据容灾又可以分成远程数据容灾和近程数据容灾方式下面, 存储工程师将主要按同步传输方式和异步传输方式对数据容灾展开讨论, 其中也会涉及到远程容灾和近程容灾的概念, 并作相应的分析同步传输的数据复制有关同步数据容灾, 在传统意义上讲, 就是通过容灾软件 ( 可以含在硬件系统内 ), 将本地生产数据通过某种机制复制到异地从广义上讲, 同步数据容灾是指在异地建立起一套与本地数据实时同步的异地数据 73

图 7-1 同步数据的一个实例从上图可以看出, 采用同步传输方式进行异地数据容灾的过程包括 : 1. 本地主机系统发出第一个 I/O 请求 A; 2. 主机会对本地磁盘系统发出 I/O 请求 ; 3. 本地磁盘系统完成 I/O 操作, 并通知本地主机 I/O 完成 ; 4. 在往本地 I/O 的同时, 本地系统 ( 主机或磁盘系统 ) 会向异地系统发出 I/O 请求 A; 5.

75 图 7-1 同步数据的一个实例从上图可以看出, 采用同步传输方式进行异地数据容灾的过程包括 : 1. 本地主机系统发出第一个 I/O 请求 A; 2. 主机会对本地磁盘系统发出 I/O 请求 ; 3. 本地磁盘系统完成 I/O 操作, 并通知本地主机 I/O 完成 ; 4. 在往本地 I/O 的同时, 本地系统 ( 主机或磁盘系统 ) 会向异地系统发出 I/O 请求 A; 5. 异地系统完全 I/O 操作, 并通知本地系统 I/O 完成 6. 本地主机系统得到 I/O 完成的确认, 然后, 发出第二个 I/O 请求 B 不同的异地数据复制技术的实现方式是不同的, 包括 : 基于主机逻辑卷层的同步数据复制方式 ( 软件复制方式 ); 基于磁盘系统 I/O 控制器的同步数据复制方式 ( 硬件复制方式 ); 首先, 描述基于主机逻辑卷的同步数据复制方式 74

基于主机逻辑卷的同步数据复制方式以 VERITAS Volume Replicator(VVR) 为代表,VVR 是集成于 VERITAS Volume Manager( 逻辑卷管理 ) 的远程数据复制软件, 它可以运行于同步模式和异步模式在同步模式下, 其实现原理如下图 : 图 7-2 基于逻辑卷的数据复制实例当主机发起一个 I/O 请求 A 之后, 必然通过逻辑卷层,

76 基于主机逻辑卷的同步数据复制方式以 VERITAS Volume Replicator(VVR) 为代表,VVR 是集成于 VERITAS Volume Manager( 逻辑卷管理 ) 的远程数据复制软件, 它可以运行于同步模式和异步模式在同步模式下, 其实现原理如下图 : 图 7-2 基于逻辑卷的数据复制实例当主机发起一个 I/O 请求 A 之后, 必然通过逻辑卷层, 逻辑卷管理层在向本地硬盘发出 I/O 请求的同时, 将同时通过 TCP/IP 网络向异地系统发出 I/O 请求其实现过程如下 : 1. 本地主机系统发出第一个 I/O 请求 A; 2. 主机逻辑卷层会对本地磁盘系统发出 I/O 请求 ; 3. 本地磁盘系统完成 I/O 操作, 并通知本地逻辑卷 I/O 完成 ; 4. 在往本地磁盘系统 I/O 的同时, 本地主机系统逻辑卷会向异地系统发出 I/O 请求 A; 5. 异地系统完成 I/O 操作, 并通知本地主机系统 I/O 完成 6. 本地主机系统得到 I/O 完成的确认, 然后, 发出第二个 I/O 请求 B 其次, 考察基于磁盘系统的同步数据复制功能基于磁盘系统的同步数据复制功能实现异地数据容灾, 如 SRDF 和 PPRC 这两个软件运行的平台是磁盘系统, 部署这样的系统必须要求在两端采用相同种类的磁盘系统 75

其同步数据复制的实现原理如下图 : 图 7-3 基于磁盘系统的数据复制实例当主机发出一个 I/O 请求 A 之后,I/O 进入磁盘控制器该控制器在接到 I/O 请求后, 一方面会写入本地磁盘, 同时利用另一个控制器 ( 或称通道 ), 通过专用通道 ( 如 :ESCON) FC 光纤通道 (IP over FC) 或者租用线路, 将数据从本地磁盘系统同步的复制到异地磁盘系统其实现过程如下

77 其同步数据复制的实现原理如下图 : 图 7-3 基于磁盘系统的数据复制实例当主机发出一个 I/O 请求 A 之后,I/O 进入磁盘控制器该控制器在接到 I/O 请求后, 一方面会写入本地磁盘, 同时利用另一个控制器 ( 或称通道 ), 通过专用通道 ( 如 :ESCON) FC 光纤通道 (IP over FC) 或者租用线路, 将数据从本地磁盘系统同步的复制到异地磁盘系统其实现过程如下 : 1. 本地主机系统发出第一个 I/O 请求 A; 2. 主机对本地磁盘系统发出 I/O 请求 ; 3. 在往本地磁盘系统 I/O 的同时, 本地磁盘系统会向异地磁盘系统发出 I/O 请求 A; 4. 本地磁盘系统完成 I/O 操作 ; 5. 异地系统完成 I/O 操作, 并通知本地磁盘系统 I/O 完成 6. 本地次盘系统向主机确认 I/O 完成, 然后, 主机系统发出第二个 I/O 请求 B 同步数据容灾的性能分析利用同步传输方式建立异地数据容灾, 可以保证在本地系统出现灾难时, 异地存在一份与本地数据完全一致的数据备份 ( 具有完整的一致性 ) 但利用同步传输方式建立这样一个系统, 必须考虑性能这个因素 76

78 采用同步数据传输方式时, 从前面的描述来看, 本地系统必须等到数据成功的写到异地系统, 才能进行下一个 I/O 操作一个 I/O 通过远程链路写到异地系统, 涉及到 3 个技术参数 : 带宽距离和中间设备及协议转换的时延带宽本地 I/O 的带宽是 100MB/ 秒 (SAN 网络中 ), 在 I/O 流量很大的情况下, 如果与远程的 I/O 带宽相对 100MB/ 秒 == 800Mbit/ 秒窄得多的话, 如 E1:2Mbit/ 秒 ;E3:45Mbit/ 秒, 将会明显拖慢生产系统的 I/O, 从而影响系统性能距离光和电波在线路上传输的速度是 30 万公里 / 秒, 当距离很长时, 这种线路上的延时将会变得很明显例如 : 一个异地容灾系统的距离是 1000KM, 其数据库写盘的数据块大小是 10KB ( 一次 I/O 的数据量 ), 那么 : 本地 I/O 时 (100 米距离内 ): 光电在线路上的延时 = 0.1km/300,000km*2 次 / 一个来回 = 0.67 * 10-6 秒 1 秒钟内允许 I/O 次 = 1/(0.67 * 10-6 )= 1.5 * 10-6 次 1 秒钟允许的 I/O 量 = 10KB * 1.5 * 10-6 = 15GB 此数字远远超过光纤通道带宽本身, 也就是说, 光电在 100 米距离的线路上的延时对性能的影响可以忽略不计异地 I/O 的 (1000 公里 ): 光电在线路上的延时 = 1000km/300,000km*2 次 = 1/150 秒 1 秒钟内允许 I/O 次 = 1/(1/150 )= 150 次 1 秒钟允许的 I/O 量 = 10KB * 150 = 1.5MB 此数据表明, 在 1000 公里距离上, 允许的最大 I/O 量在不存在带宽限制时, 已经远远低于本地 I/O 的能力 ( 注 : 上面分析还未考虑中间设备及协议转换的延时 ) 中间链路设备和协议转换的时延 77

79 中间链路设备和协议转换的方式的不同, 时延不同, 对性能的影响也不同在对性能影响的分析中, 这个因数也应计算在内目前不同异地数据复制技术所依赖的介质和协议不同, 存储工程师将介质协议和大概时延例表如下, 这里提供的数据只精确到数量级, 仅供参考, 实际数据应该向设备供应商索取表 7-1 数据线路处理时延估计链路设备和协议带宽支持的距离设备和协议转换时延租用线路任意不受限制约 1ms ESCON 136Mbit 66 公里 < 100us LAN 1000Mbit 10 公里 < 100us ATM 655Mbit 不受限制 < 100us IP over FC 800Mbit 60 公里 < 100us FC 800Mbit 60 公里 < 10us 下面是一个线路时延分析对照表, 供参考表 7-2 数据传输距离时延距离 1000KM 100KM 10KM 线路时延 / 次 I/O 6ms 600us 60us 支持的链路和协议本地磁盘 I/O 能力租用线路 ATM 租用线路 ATM 10KB/ms 租用线路 ATM ESCON LAN IP over FC FC 在 1000 公里和 100 公里距离上, 采用租用线路和 ATM, 允许的最大 I/O 能力 ( 假定带宽足够, 数据块大小以 10KB 为例 ): 表 7-3 线路系统考察 1000 公里 100 公里租用线路 ATM 租用线路 ATM 线路时延 / 次 I/O 6ms 6ms 600us 600us 设备和协议时延 > 1ms < 100us > 1ms < 100us 每个 I/O 响应时间 > 8ms > 7ms > 2.6ms 1.7ms 不适合用同步传输方式备注不适合用同步传输在 10 公里距离上, 采用各种传输协议允许的最大 I/O 能力, 数据块大小以 10KB 为例 ( 假定带宽足够 ): 78

80 表 7-4 等距离条件下的时间延时 10 公里租用线路 ATM/LAN ESCON,IP over FC FC 线路时延 / 次 60us 60us 60us 60us 设备协议时延 > 1ms < 100us < 100us < 10us I/O 次数 / 秒 I/O MB/ 秒备注适合用同步传输异步数据复制方式从前面的分析来看, 同步数据容灾一般只能在较短距离内部署 (10KM-100KM), 大于这个距离, 就没有实际应用价值了因为即使在 1000KM 距离上,4.5MB 的速率即使将数据复制到异地, 每个 I/O 的响应时间也会超过 10ms, 这种响应速度太慢异步数据容灾是在线路带宽和距离能保证完成数据复制过程, 同时, 异地数据复制不影响生产系统的性能这样的要求下提出来的考虑异步数据容灾, 应该注意到以下几个技术条件和事实 1. 带宽必须能保证将本地生产数据基本上完全复制到异地容灾端, 还要考虑距离对传输能力的影响 2. 按照前面的估算 : 在 1000 公里范围内, 一条带宽足够的线路能支持的 I/O 流量最大为 ( 数据块大小 10KM ):1.4MB 3600 秒 24 小时 =120GB/ 天 3. 异地容灾远端数据会比本地生产端数据落后一定时间, 这个时间随采用的技术, 带宽距离数据流特点的不同而不同一般而言, 软件方式的数据复制技术具有完整的数据包的排队和断点重发机制, 在灾难情况下可以保证灾难时间点的数据一致性 4. 异步容灾基本不影响本地系统性能与同步传输方式相比, 异步传输方式对带宽和距离的要求低很多, 它只要求在某个时间段内能将数据全部复制到异地即可, 同时异步传输方式也不会明显影响应用系统的性能其缺点是在本地生产数据发生灾难时, 异地系统上的数据可能会短暂损失 ( 如果广域网速率较低, 交易未完整发送的话 ), 但不影响一致性 ( 类似本地数据库主机的异常关机 ) 79

81 通过异步传输模式进行异地数据复制的技术, 包括 : 1. 基于主机逻辑卷的数据复制方式 2. 基于磁盘系统 I/O 控制器的数据复制方式基于主机逻辑卷 (Volume) 的数据复制方式首先申明 : 针对这种方式, 这以 VERITAS VVR 为例, 但并不表示所有基于主机进行复制的其它软件采用同样方式, 也不保证其它软件是有应用价值的 VERITAS VVR (Volume Replicator) 通过基于 Volume 和 Log 的复制技术, 保证在任何时刻本地系统发生自然灾难时, 在异地的数据仍是可用的 VERITAS VVR 在异步模式下采用了 Log 技术来跟踪未及时复制的数据块, 这个 Log 是一个先到先服务的堆栈, 每一笔 I/O 处理都会首先被放进这个 Log, 并按到达先后顺序被复制到异地服务器系统下图是其工作的结构原理图 7-4 基于逻辑卷的异步数据复制从上图, 存储工程师可以看到整个 I/O 和复制的过程如下 : 1. 本地主机系统发出第一个 I/O 请求 A 到逻辑卷 ; 2. 逻辑卷对本地磁盘系统发出 I/O 请求 ; 80

82 3. 在往本地磁盘系统 I/O 的同时, 逻辑卷向本地磁盘系统上的 VVR Log 发出相同的写请求 ; 4. 本地磁盘系统完成 I/O 操作 ; 并通知逻辑卷 I/O 完成 ; 5. VVR 完成针对这个 I/O 的远程操作, 并通知逻辑卷 ; 6. 逻辑卷向主机确认 I/O 完成服务器的另一个进程 :VVR 的进程, 负责将 Log 队列中的 I/O 复制到异地服务器这个过程和上面的 I/O 过程在时间上无关如上图中的标记 : I 和 II I: 本地 VVR 进程从 Log 队列中取出最先到达的 I/O, 复制到异地服务器 II: 异地服务器接收到本地服务器 VVR 发出的 I/O 请求, 将相应数据写到异地磁盘系统, 然后, 通知本地系统 VVR 进程, 要求下一个 I/O 这里, 跟踪未及时复制的数据块的 Log 技术是保证异地数据可用的必要条件一个数据库的 I/O 是有严格顺序的, 这个顺序是保证数据库完整性的必要条件, 一个完整性被破坏的数据库一般是不可用的, 比如根本无法启动打开该数据库, 且是无法修复的本地数据库的完整性是由数据库本身来维护的当一个数据库被实时复制到异地时, 要保证异地数据库的完整性, 必然保证在异地磁盘 I/O 上的 I/O 顺序和本地 I/O 顺序完全相同, 否则, 异地数据库的完整性就无法保证 VERITAS VVR 采用的 I/O 控制机制是支持先到先服务的 Log 技术, 因此, 不管异地数据比本地数据落后多少时间, 都能保证异地数据库数据的一致性比如 : 本地系统在 12:00 时发生自然灾难, 由于部分数据未被及时复制到异地, 如有 10 分钟的数据未完成复制, 那么在异地系统上存在 11:50 分钟以前的所有数据, 且这个数据库是可用的目前的基于磁盘系统的异地数据复制技术采用 Bitmap 技术和 Timestamp 技术, 这两种技术都不能保证本地向异地复制数据的顺序严格和本地 I/O 的顺序相同, 所以, 这两种方式都不能保证异地数据库的完整性 Bitmap( 位图 ) 技术记录未被及时复制的数据块的方法是 : 对于每个数据块 ( 如 32KB) 用一个 Bit 来对应, 某一个 Bit 被置为 1 时, 表示其对应的数据块已被修改过, 正在等待处理 ( 这里是等待被复制 ) 由此可以看出, 当有一块以上的数据块未被及时复制时, 系统并无法确 81

83 认哪一块数据块应该先复制到异地, 所以, 系统将任选一块, 即不按到达的时间先后进行复制可以看出, 这种方式不能根本保证异地数据库数据的完整性一致性 Timestamp 方式是对每个未及时传送的数据块盖上一个时间戳从表面上看, 由于时间戳的关系, 好像能确定一个数据块被修改的时间顺序了其实不然 : 当一个未被及时复制的数据块被第 2 次修改, 并盖上新的时间戳时, 数据复制的顺序就被破坏了例如 : 现在有 10 块数据块未被复制, 编号 ; 这时, 第 3 块数据被再次修改, 并被盖上一个新的时间戳 11 ; 这时, 系统会按这样的次序进行复制 : 1 2 ( 没有 3) 存储工程师可以看到, 在复制进行到 4~10 之间时, 异地数据的完整性被破坏事实上, 在一个运行繁忙的系统中, 出现这种情况机率极高, 甚至每时每刻都处在这种状态之下所以, 本着严格的, 对系统可用性负责任的态度, 可以认为 Timestamp 的技术虽然比 Bitmap 技术有一定优势, 但实际上也无法保证异地数据的完整性和可用性 Bitmap 和 Timestamp 方式的技术弱点 : 没有 log; 作为磁盘系统内置的数据复制功能, 传统的磁盘管理模式没有考虑在磁盘系统内部开辟出一个磁盘块给磁盘系统控制器本身使用, 所以, 磁盘系统无法采用 log 模式进行异步数据复制磁盘系统保留异步传输模式的目的 : 复制, 但不是容灾复制 ; 数据复制的目的不仅仅是容灾数据容灾要求两地时时保持连接, 数据复制过程在任一时间都在进行 ( 除非有线路或设备故障 ) 而非容灾性复制只要求在某一个时间段里将数据复制到异地, 复制告一段落后 ( 在某一时刻完全同步 ), 复制工作会暂停这种复制可能是为一个特殊目的只做一次, 如在线业务迁移 ; 也可能每天或每月追加一次这样, 在异地就会存在一份最大损失数据量为 1 天或 1 个月的生产数据复制品, 其对数据的保障能力, 如同磁盘备份这种方式复制数据的目的包括 :1) 在异地保存一份备份数据 ( 如同磁带备份异地保存 ) 2) 在线业务迁移, 当信息中心或其中的一个服务要迁移到另一个地方, 又希望少停机 ( 实际上也可用磁带备份和恢复来实现 ) 3) 利用与磁盘快照技术结合, 为异地开发中心提供一个与生产数据尽量相同的测试数据源当然, 也可用于其它可能的目的综上所述, 可以看出, 虽然基于磁盘系统的异地数据复制功能有异步传输模式, 但实际上并不支持异步数据容灾, 只有像 VERITAS Volume Replicator 这样基于先进先出的 Log 技术的解决方案才真正支持异步数据容灾 82

84 7.3 容灾方法的具体分析灾难备份需求的衡量指标对于大多数企业而言, 提到灾难备份, 最直接的反映就是增加预算, 购买更多的主机, 存储设备以及相应软件虽然这是实施灾难备份项目的一个必要步骤, 但是, 从灾备方案应是风险和成本相应平衡的出发点来综合考虑, 实施灾难备份项目的第一步应该从分析评估以确定灾难灾难备份需求目标开始 RTO (Recovery Time Objective) RTO,Recovery Time Objective, 是指灾难发生后, 从 I/T 系统当机导致业务停顿之刻开始, 到 IT 系统恢复至可以支持各部门运作, 业务恢复运营之时, 此两点之间的时间段称为 RTO 一般而言,RTO 时间越短, 即意味要求在更短的时间内恢复至可使用状态虽然从管理的角度而言,RTO 时间越短越好, 但是, 这同时也意味着更多成本的投入, 即可能需要购买更快的存储设备或高可用性软件对于不同行业的企业来说, 其 RTO 目标一般是不相同的即使是在同一行业, 各企业因业务发展规模的不同, 其 RTO 目标也会不尽相同 RTO 目标的确定可以用下图来说明 : 7-5 投入 / 收益示意图 83

85 如上所说,RTO 目标越短, 成本投入也越大另一方面, 各企业都有其在该发展阶段的单位时间赢利指数, 该指数是通过业务冲击分析 (BIA-Business Impact Analysis) 咨询服务, 以交谈问答和咨询的方式得到确定的在确定了企业的单位时间赢利指数后, 就可以计算出业务停顿随时间而造成的损失大小如上图, 结合这两条曲线关系, 存储工程师将可以找到对该企业而言比较适合的 RTO 目标, 即在该目标定义下, 用于灾难备份的投入应不大与对应的业务损失 RPO (Recovery Point Objective) RPO,Recovery Point Objective, 是指从系统和应用数据而言, 要实现能够恢复至可以支持各部门业务运作, 系统及生产数据应恢复到怎样的更新程度这种更新程度可以是上一周的备份数据, 也可以是上一次交易的实时数据与 RTO 目标不同,RPO 目标的确定不是依赖于企业业务规模, 而是决定于企业业务的性质和业务操作依赖于数据的程度因此,RPO 目标对相同行业的企业而言会有些接近, 而对于不同行业的企业来说仍可能会有较大差距 RPO 目标仍是以咨询的方式, 通过与各业务部门主管的交流, 了解业务流程和 IT 应用的关系, 以及通过回答问卷的方式, 确定能够支持该企业核心业务的 RPO 目标重要系统灾难备份主要的实现方法在目前的技术条件下, 重要系统灾难备份主要的实现方法主要有一下几种 : 1 基于应用本身的容灾应用直接指向 2 个同时运作的数据中心, 在任意一个中心活动情况下继续工作 2 基于文件 / 数据库日志通过复制数据库日志和数据文件方式, 从生产中心向容灾中心进行数据容灾 3 基于复制磁盘容灾通过复制磁盘 IO 的方式, 从生产中心向容灾中心进行数据容灾, 根据复制设备的不同, 有可以分为 : 基于主机基于磁盘阵列基于智能 SAN 虚拟存储设备 84

86 下面对各种方式进行一个简单比较 : 表 7-5 容灾方式比较容灾方式 RTO 应用要求主机要求存储要求基于应用本身 0 极高同构, 必要可异构基于文件 / 数据库日志 >0, 至少一个 LOG 低同构, 必要可异构基于复制磁盘容灾 ( 主机 ) 0 透明同构, 非必要可异构基于复制磁盘容灾 ( 阵列 ) 0 透明同构, 非必要同构基于复制磁盘容灾 (SAN) 0 透明同构, 非必要可异构灾难备份方式比较的分析各种容灾方式下, 只有基于应用本身的方式可以做到 RTO 为 0; 其它方式一般需要进行网络切换存储切换和数据库重启等工作,RTO 一般从几十分钟到数小时不等各种容灾方式下, 一般都要求主机和数据库同步, 虽然存在理论上的异构可能, 但是在具体实施时会给开发 / 测试带来巨大的难度, 并大大降低容灾系统的稳定程度, 一般不会采用基于应用本身的方式虽然可以做到 RTO 为 0, 但是对应用要求极高, 并且需要极其复杂的机制处理双中心的数据同步问题 ; 目前浙江系统众多, 应用复杂, 如果采用这种方案, 需要对所有应用进行更改, 实施难度极大, 顾不予推荐基于基于文件 / 数据库日志的方式, 只能以文件方式传输数据, 数据丢失单位至少一个文件, 无法做到 RTO=0, 在不允许丢失数据的关键应用上也不适合, 顾不予推荐基于复制磁盘容灾主要有同步和异步 2 种方式, 异步方式无法做到 RTO=0, 在不允许丢失数据的关键应用上也不适合, 顾不予推荐 ; 同步方式的情况下, 以复制主题不同进行分类基于主机复制磁盘数据 : 磁盘阵列可以异构是最大的优点 ; 但是, 这种方式容灾时对主机性能有一定影响, 针对不同的主机需要采用不同的实现方式, 目前浙江系统众多, 应用复杂, 如果采用这种方案, 需要对所有主机进行论证和实施, 实施难度较大, 顾不予推荐基于磁盘阵列复制磁盘数据 : 实施简单是最大的优点, 不影响主机, 只镜像数据, 是目前 85

87 较主流的一种容灾方案 ; 但是, 这种方式容灾时, 需要磁盘阵列高度同构, 不但要求磁盘阵列是一个厂商的, 还必须是同一厂商同一系列的阵列, 否则无法实现数据复制, 所以, 这种方案多用于已经进行存储整合的大型系统 ; 目前浙江的现实情况是系统非常多, 不同系统采用不同磁盘阵列, 很多目前的系统还不支持磁盘阵列的远程镜像功能 ; 如果实施这种方案, 首先需要升级 / 替换很多磁盘阵列, 然后为每一种阵列在容灾中心配置相应的同构磁盘阵列, 投资巨大, 每一种不同的阵列采用不同的软件, 维护不便, 而且, 中心的各个存储各自工作, 没有一个统一存储池能够灵活调配资源, 资源使用也狠浪费基于智能 SAN 虚拟存储设备复制磁盘数据 : 这种方式拥有所有基于磁盘阵列复制磁盘数据的优点, 而且通过这种方式可以解决许多基于磁盘阵列无法解决的问题 : 磁盘阵列可以完全异构, 不同厂商不同系列的阵列可以混合使用, 大大节约客户方案复杂程度和实施难度智能 SAN 虚拟存储设备实现远程容灾不在乎客户现有的 SAN 阵列是否支持远程数据容灾, 大大保护客户投资智能 SAN 虚拟存储设备可以将中心的多个存储设备 ( 如果有多个的话 ) 作为一个统一的存储池进行管理, 存储效率大大提高智能 SAN 虚拟存储设备针对不同的主机存储设备采用统一的软件实施远程容灾, 管理维护大大简化所以, 在目前情况下, 基于智能 SAN 虚拟存储设备进行磁盘复制的方式是最适合目前项目需要的, 也是存储工程师主要推荐的方案采用 SAN 进行远程容灾的实现目前, 基于智能 SAN 虚拟存储设备进行磁盘复制比较成熟的方案这里给出的是 IBM 的 SVC(SAN Volume Controller,SAN 卷控制器 ), 该设备发布于 2 年前发布, 已经在全球 20 多个国家安装了超过 1000 套系统采用 IBM SVC 实现远程容灾的方案简图如下 : 在所有需要容灾的系统 SAN 网络种加入 SVC, 然后就可以利用 SVC 的远程复制功能进行数据容灾了 86

88 图 7-6 IBM SVC 远程容灾 7.3 容灾技术性能总结和对照以下对于各种容灾技术的工作方式进行总结表 7-5 容灾比较列表 Software ( 同步 ) Software( 异步 ) 基于阵列的同步数据容灾理想距离 < 100km < 1000km 60km ( 光纤 ) 链路要求任何支持 TCP/IP 的设备任何支持 TCP/IP 的设备 ESCON, ATM IP over FC 理想链路带宽 > 40Mbit 相对较小 > 40Mbit 对应用系统性能很大很小很大的影响是否需要专用磁不需要不需要必须盘系统部署的简单性长距 : 复杂短距 : 一般一般硬件 : 复杂软件 : 一般维护的简单性一般简单一般造价中等中等很高涉及软件 VVR VVR 阵列内置根据以上的分析, 可以看出, 硬件系统的容灾技术 ( 指磁盘阵列 ) 在对主机系统的内部开销上较小, 但是十分影响本地 IO 的性能, 同时要求本地和异地均采用专用的磁盘阵列, 成本和造价极高比较重要的是, 这种方式的传输距离有限, 仅限于同城传输 87

89 采用软件的数据复制方式 ( 如 VVR), 一般采用异步方式这种方式具有对本地系统 IO 影响很小, 传输距离长的优势, 并且可以支持任意磁盘阵列, 使得造价相对较小不足是如果线路速率较慢, 会造成故障时轻微数据损失 7.4 广域网络的高可用技术 ( 软件容灾方式 ) 软件容灾方式中, 支持应用容灾, 即应用系统的完全高可用和远程切换系统, 这里指一整套完整的本地高可用系统和异地高可用系统的完整结合体系本地的高可用系统指在多个服务器运行一个或多种应用的情况下, 应确保任意服务器出现任何故障时, 其运行的应用不能中断, 应用程序和系统应能迅速切换到其它服务器上运行, 即本地系统集群和热备份而远程的容灾系统中, 除了本地系统的安全机制外, 还应具有广域网范围的远程故障切换能力和故障诊断能力实际上, 广域网范围的高可用能力与本地系统的高可用能力应形成一个整体, 实现多级的故障切换和恢复机制, 确保系统在各个范围的可靠和安全广域网体系的远程故障切换机制的流程 ( 软件方式 ): 本地系统的故障分级, 常规级别在本地系统进行高可用切换, 如网卡故障应用系统故障文件系统故障 ( 本地 cluster) 高级别故障 ( 如火灾地震 ), 通过远程监控体系和报警体系实现远程切换 ( 异地 cluster) 切换包括 IP 域名应用等恢复体系 : 一旦故障解除, 应用系统实现主备站点的恢复传输异地复制中断传输的恢复流程 ( 软件方式复制 ): 断点序号重传 ; 或增量异地同步实现增量块复制 88

90 第八章系统恢复 8.1 灾难后信息安全的恢复规划在发生任何一种灾难时, 都需要考虑各种形式的损失 : 物理设施 ( 受损的建筑物工作场所计算机库存 ) 对设施的访问 ( 报废的建筑物 ) 信息 ( 受损的磁盘和计算机 ) 对信息的访问 ( 没有远程数据库访问 ) 人员 ( 生产人员支持人员管理人员 ) 要素分析一个全面的灾难恢复规划必须采取所有必要的措施来确保业务的长期顺利运行这意味着必须研究和分析每个物理组件每个软件组件每个人力资源组件和每个业务流程, 以及每个元素可以接受的风险程度必须考虑财务和管理问题有效的规划应当考虑到所有潜在的灾难, 这其中包括自然灾害恐怖袭击网络灾难等 ( 请参阅附录 A 中的关于如何准备和管理网络灾难的信息 ) 此外, 必须考虑到向规划的 " 备份 " 模式的转变 " 供应链 " 分析是一种有用的技术, 可以用于恢复企业的物理资产规划的这个部分应当阐明怎样处理不可用的生产或者存储设施订单输入系统发货应收账款和支付系统备用部件和客户服务时间也是一个非常重要的因素 Gartner Group 最近建议企业将关键流程和应用的恢复时间缩短到 24 小时以内, 并将非关键性应用的恢复时间缩短到四天以内应当将三种解决方案视为规划流程的组成部分一个企业可以 (1) 构建它自己的冗余系统 ( 例如, 拥有两个独立的工厂, 每个负责部分工作 );(2) 提前为需要在紧急情况下使用的设施签约 ( 例如由某个灾难恢复服务公司拥有和管理的热点数据中心 ); 或者 (3) 购买可以抵消由于灾难会导致的损失的保险 ( 例如抵消为了满足紧急需要而租用设施或者购买产品部件的成本 ) 对于大多数企业来说, 没有哪一种单一的方式是最好的 ; 最有效的方法就是综合使用上面这三种广泛的战略主要设备的供应商是所有规划的重要组成部分确保供应商拥有足够的部件人员和资金 89

91 资源, 以便在发生大规模灾难的情况下迅速地帮助数据系统用户摆脱困境灾难恢复规划的关键是如何有效地传达和执行这些计划在灾难发生之间与员工进行有效的交流非常重要, 这可以让他们知道如何采取紧急措施 Citigroup 的一位领导人在 Information Week 于 2001 年晚些时候发表的一篇文章中指出 :" 如果数据系统用户不能正确地做到这一点, 在灾难降临时数据系统用户的公司将会陷入一片混乱如果不为灾难做好充分的准备, 数据系统用户的公司可能会破产 " 如果数据系统用户觉得制定一项有效的灾难恢复 / 业务连续性规划似乎超出了数据系统用户的能力范围, 尤其是在内部专业经验十分有限的情况下, 就需要专业人员的帮助了信息技术构架从 IT 的角度来说, 一项全面的灾难恢复规划应当包含网络弹性通信弹性和业务应用弹性一个富有弹性的网络首先应当具有有效的设计和架构, 可以提供移动性和安全性, 并以专门针对高可用性而设计的平台为基础在设计中, 冗余有助于消除单点故障, 而快速自动的故障切换可以确保迅速的恢复对于流量设计负载均衡和服务质量 (QoS) 的关注将能够处理性能低下或者不符合预期的流量负载, 这些负载可能会在没有故障时阻塞用户对于业务应用的访问通信方面需要考虑的是语音和 PBX 流量, 以及数据流量 IP 电话可以作为语音通信的主要或者备用方式, 而 IP 联络中心则可以提高企业与主要客户和供应商保持联络的能力最近的一些媒体报道介绍了一些将 IP 语音连接作为通信的唯一方式, 而放弃采用 PBX 系统和电话交换机的例子基于 IP 的语音通信网络有助于提高移动性, 实现员工的迅速调配 -- 无论是到预先规划的备份地点还是到会议中心和宾馆房间中的 " 临时办公室 ", 都能迅速开展工作在应用方面, 重要的业务应用必须保持可用性, 而关键的企业和客户信息必须能够迅速恢复因此必须使用备用数据中心和异地数据备份和存储功能 ( 本文稍后将介绍如何通过 WAN 连接中心和终端用户 ) 要获得成功, 灾难恢复规划在 IT 方面需要阐述的内容并不仅限于企业的数据中心一个有效的计划至少应当涉及到 : 数据中心环境, 包括服务器存储供电和 HVAC 用户环境 (PC LAN 应用和客户端软件) 90

92 企业内部通信设施 ( 建筑物内部园区内部 ) 外部通信设施 ( 电信运营商服务和线路 ) 管理 ( 管理中心帮助台专业技能 ) 灾难恢复公司 Comdisco 在纽约市发生 911 事件之后发表了一篇关于灾难恢复的报告, 中指出 :" 恢复工作的效果绝大部分体现在业务终端用户身上 -- 即计算的终端通常这些业务终端用户环境并不享有像数据中心那样的连续性规划 " 除了上面介绍的 IT 因素以外, 规划还应当考虑到, 在灾难发生后的很短时间内, 电子邮件网站电话专用线路的使用率可能会大大超过平时此外, 由于网络中可能需要加入新的地点, 网络流量的使用模式也会发生变化规划还应当阐明, 除了更换所损失的物理资产以外, 企业在一次灾难之后很可能立即需要的多种不同类型服务的来源这些服务可能包括 : 保护和安全服务残骸清理服务抽水和相关的清洁服务清理 HVAC 系统管道等从受损的介质中恢复数据为员工提供后勤服务网络的复杂性使得企业很难实现业务的弹性在制定针对业务连续性保护和灵活性的计划的过程中, 复杂程度越低越好最大限度地减少提供设备的供应商的数量和去除无用的旧设备是实现这种网络简便性的关键步骤 8. 2 WAN 考虑因素现代企业需要依靠网络通信来开展重要的业务, 而 LAN 和 WAN 环境都必须准备就绪, 以便员工履行他们的职责灾难恢复规划在工作场所方面的组成部分一定要纳入 LAN 和 WAN 访问所需要的设备要保持 WAN 的可用性, 以支持业务的发展, 就意味着利用目前最可靠最富有弹性的软件, 利用谨慎的网络设计, 遵循从设计到日常操作的最佳实践, 建立高度可用容错的系统和 91

平台成功的 WAN 设计并不仅仅关注于连接性确保业务弹性的原则之一就是尽量分散人员和信息资产, 以降低风险的理念呼叫中心并不需要集中, 数据也可以复制, 同时需要为所有员工提供对关键性业务应用 ( 例如订单输入和客户服务 ) 的访问一个富有弹性的 WAN 设计需要集成冗余, 以消除单点故障 ; 需要采用流量负载均衡技术, 以确保连续的服务和可以接受的响应 ; 需要具有快速的故障切换能力,

93 平台成功的 WAN 设计并不仅仅关注于连接性确保业务弹性的原则之一就是尽量分散人员和信息资产, 以降低风险的理念呼叫中心并不需要集中, 数据也可以复制, 同时需要为所有员工提供对关键性业务应用 ( 例如订单输入和客户服务 ) 的访问一个富有弹性的 WAN 设计需要集成冗余, 以消除单点故障 ; 需要采用流量负载均衡技术, 以确保连续的服务和可以接受的响应 ; 需要具有快速的故障切换能力, 以实现快速的恢复, 此外还应当为每种情况制定相应的安全措施这些都构成了很多挑战 LAN 或者园区环境中实际可用的带宽和电信运营商所提供的带宽之间存在着明显的差异尽管 T1 线路的价格比较合理, 而且应用非常广泛, 但是需要大幅度增加预算, 例如对于 T3 和 OC3 服务而言目前在城区提供的一些基于光纤传输技术的新型服务可以在很大程度上解决这个问题, 最近的一些产品的价格非常低 --100Mbps 快速以太网服务的价格只有每月 1000 美元当然利用 QoS 技术将 WAN 设计为一个可以同时传输语音 / 数据 / 视频流量的网络也是降低成本的重要手段 WAN 需求规划应当包括怎样连接现有的数据中心和现有的员工工作地点, 怎样连接现有的图 8-1 WAN 建设方案数据中心和备用的员工工作地点, 以及怎样连接备份数据中心和现有的员工数据中心如果在不同的地点提供了异地数据存储, 例如在某个电信运营商的设施中, 那么 WAN 需求规划中还 92

94 必须加入这种连接所有情况都应当包括对互联网连接的配置, 这可以用于一般性应用, 以及帮助主要供应商和重要客户管理外联网无论采用怎样的网络设计和技术, 都必须为设施和线路提供不同的物理路由大多数被认为是冗余网络的系统发生故障的原因都是光纤或者电路都需要经过同一个管道出入孔或者中央机构创建 WAN 的方法通常分为三类每种方法都有一定的优点和缺点, 需要企业用户投入的工作量 ( 和设备 ) 也各不相同这些方法 ( 如图 1 所示 ) 分别是 : 自行建设, 即利用由电信运营商或者其他网络服务供应商提供的租用线路 ( 或者 " 通道 "), 例如 T1 T3 SONET 或者光纤波长, 建立点对点的通道采用帧中继 (FR) 或者 ATM 服务, 它们可以在两点之间建立面向电路的 " 虚拟通道 " 采用高级的无连接光传输网络服务, 例如城域以太网或者城域 IP 在第一种方法中, 最常见的方式是购买 SONET/SDH( 同步光网 / 同步数字结构 ) 通道常用的 SONET 传输等级是 OC-3( 每秒 155Mb-Mb/s) OC-12(622Mb/s) 和 OC-48(2488Mb/s, 但是通常被称为 2.4Gb/s) 下面的表 2 列出了 SONET/SDH 的构成这种方法的另外一种做法是租用 " 暗 " 光纤, 或者在电信运营商的光纤网络上购买一个或者两个波长, 并在每个地点安装下一代 SONET/SDH 设备 ( 例如 Cisco ONS 15454) 暗光纤有时又被称为未点亮光纤, 它指的是两端没有连接电子设备的光纤如果在某些城区, 光纤的价格非常具有吸引力, 而企业的 IT 人员又拥有必要的专业能力, 那么这种做法就能发挥作用波长表 8-1 SONET/SDH 构成光纤信号 OC 等级同步传输速率信号 STS SONET/SDH 线路的传输速率 (Mbps) 相同通道数 DS-3 DS1 DS0 OC-3 STS OC-12 STS OC-48 STS OC-192 STS 注 :51.84Mbps 的 STS-1( 即 OC-1) 只能在设备 ( 例如多路复用器 ) 内部使用服务也是基于光纤的, 但是包括了电信运营商对于波分复用 (WDM) 设备的设置在一个灾难恢复系统中, 多个数据中心可以方便地连接到一起所使用的设备和服务将取决于特定的应用需求 ( 例如同步镜像远程磁带镜像等 ) 93

思科的 15530/15540 非常适用于这些类型的应用, 因为它们可以支持领先的存储系统供应商 ( 例如 IBM 和 EMC) 提供的解决方案中所需要的协议, 例如企业系统连接 (ESCON) 系统复用外部时钟基准光纤通道光纤连接 (FICON) 光纤分布式数据接口(FDDI) 和千兆位以太网图 8-2 显示了这个应用, 其中包括了一个部署由思科解决方案合作伙伴提供的存储阵列的例子

95 思科的 15530/15540 非常适用于这些类型的应用, 因为它们可以支持领先的存储系统供应商 ( 例如 IBM 和 EMC) 提供的解决方案中所需要的协议, 例如企业系统连接 (ESCON) 系统复用外部时钟基准光纤通道光纤连接 (FICON) 光纤分布式数据接口(FDDI) 和千兆位以太网图 8-2 显示了这个应用, 其中包括了一个部署由思科解决方案合作伙伴提供的存储阵列的例子在这些情况下, 最大限度地降低延时和复杂性是主要的目标, 而这个解决方案可以提供足够的支持作为面向电路的方式的替代方案, 通过在每个地点使用像 Cisco 系列互联网路由器这样的产品, 企业可以在多个地点之间的暗光纤上建设一个城域 IP 网络这种部署通常需要用两条光纤环路连接所有地点, 但是也可以采用电信运营商提供的基于 SONET 的租用线路和波长服务这种方式针对 IP 组播等应用进行了优化, 适用于内部员工培训应用等场合尽管 SONET 一直以它的故障检测和流量重新路由功能而闻名, 但是 Cisco 系列的动态分组传输 (DPT) 技术也可以提供类似的功能, 且效率要高得多 ( 注意 :DPT 是思科针对新兴的 IEEE 弹性分组环路 (RPR) 标准开发的一项技术 ) 例如,SONET 和 RPR 都可以提供不图 8-2 数据中心备份部署到 50 毫秒的故障检测时间, 而 RPR 在每个环路上最多可以支持 254 个节点, 而 SONET 最多只能支持 16 个节点 RPR 可以提供自动的拓扑发现功能, 而 SONET 需要手动操作带宽设置在 RPR 中是自动完成的, 但是在 SONET 需要手动完成 RPR 可以提供最多 8 种不同级别的服务, 而 SONET 不支持任何服务级别, 因而只能提供一种等级的服务 ( 如图 8-3 所示 ) 最佳的 WAN 设计可以在所有地点之间提供一种逻辑网格, 可通过物理环路或通过点对点通路实现在很多城区, 光纤可以通过一个物理环网连接很多地点, 但是 WAN 仍然可以设计为一个逻辑网格式网络基于 SONET 的物理环路的保护通常是通过一种名为双向线路交换环 (BLSR) 的技术提供的这可以通过两条环绕物理环路的光纤实现, 但是使用四根光纤可以通 94

帧中继服务 (FR) 采用了能够传输可变长度的帧 ( 每帧最多 4096 个字节 ) 的 PVC FR 可以为建筑物专用网络提供多协议 LAN 互联它可以设置性能 ( 例如带宽 ) 的等级, 而 PVC 的安全性也被普遍视为具有足够的强度

96 过逻辑网格式设计, 提供最高的耐久性如需了解关于这种设计如何工作的细节信息, 请参阅图 8-3 使用 DPT/RPR 的城域以太网本文的 " 资源 " 部分提供的思科应用说明虚拟 " 通道 " 有时被称为第二层 VPN 服务的传统 WAN 服务 ( 例如帧中继和 ATM) 都是分组交换的面向连接的服务, 可以通过一个永久虚拟电路 (PVC) 在两个终端之间提供 " 逻辑的 " 类似于专图 8-4 传统的 WAN 服务线的服务它们适用于集中星型两点间架构帧中继服务 (FR) 采用了能够传输可变长度的帧 ( 每帧最多 4096 个字节 ) 的 PVC FR 可以为建筑物专用网络提供多协议 LAN 互联它可以设置性能 ( 例如带宽 ) 的等级, 而 PVC 的安全性也被普遍视为具有足够的强度 ATM 只传输固定长度 (53 字节 ) 的信元, 可以支持多种流量, 包括固有 ATM FR 交换式兆位数据服务(SMDS) 和电路模拟它可以经济地按照需要提供大量的带宽 ATM 的异步性和多媒体特性使得它可以传输电路和分组类型的流量, 并 95

且对应用完全透明 FR 和 ATM 都是面向连接的服务, 具有简单的分界点, 相对比较容易诊断帧中继 ATM 对于企业来说, 这是一个功能透明的多地点连接目前市场上出现了越多越多的 MAN 服务, 其中包括由思科在 " 思科支持网络 " 计划中推荐的很多电信运营商提供的城域以太网或者城域 IP 服务 IP VPN, 也被称为第三层 VPN, 可以在一个共享的基础设施上部署企业级的连接 IP

97 且对应用完全透明 FR 和 ATM 都是面向连接的服务, 具有简单的分界点, 相对比较容易诊断帧中继 ATM 对于企业来说, 这是一个功能透明的多地点连接目前市场上出现了越多越多的 MAN 服务, 其中包括由思科在 " 思科支持网络 " 计划中推荐的很多电信运营商提供的城域以太网或者城域 IP 服务 IP VPN, 也被称为第三层 VPN, 可以在一个共享的基础设施上部署企业级的连接 IP VPN 让终端用户可以实现共享网络的成本优势, 同时获得与他们自己的专用网络相同的安全性 QoS 可靠性和可管理性 IP VPN 可以利用互联网和 IP 安全 (IPSec) 技术构建, 或者利用多图 8-5 点对点城域以太网设计协议标签交换 (MPLS) 技术在电信运营商的 IP 基础设施上构建在决定购买某种城域以太网或者城域 IP 服务之后, 还需要考虑很多其他的选择网络可以配置为一种集中星型设计, 由不同的虚拟 LAN(VLAN) 将各个远程分支机构或者工作地点连接到某个中央地点 ( 如图 8-5 所示 ) 企业可以使用一种基于以太网的透明 LAN 服务, 从而让城域中的整个企业位于一个单一共享以太网网段上 ( 如图 8-6 所示 ) 因为可扩展性是选择这些方案的一个重要因素, 所以必须了解数据系统用户对企业的发展规划 96

98 对于企业来说, 这种网络是一个点对点的千兆位以太网连接, 这种网络看起来像是一个共享扁平的 802.1Q 以太网域做出决定正如存储工程师在本文中所指出的, 在灾难恢复规划的 WAN 方面, 没有一种 " 一劳永逸 " 的解决方案但是, 最佳实践包括避免覆盖整个园区的 VLAN 将第三层作为所选方案的分界点, 尽量灵活地增加冗余, 以及尽量使用点对点连接 ( 或者虚拟电路 ) 由于企业日益难以聘请和挽留高水平的 IT 人员, 越来越多的企业开始倾向于外包业务, 而企业 IT 人员的专业能力和工作地点, 以及可供使用的预算, 都是非常重要的标准在任何一种情况下, 企业都必须了解电信运营商所采用的技术如果企业网络采用了思科产品, 符合 CiscoAVVID 标准, 并且使用了具有 " 思科支持网络 " 称号的 WAN 服务时, 整个计划的 WAN 方面的工作将会变得更加简单和省力这样做的最终结果是, 企业可以获得一个更加图 8-6 城域透明 LAN 服务富有弹性经济有效覆盖整个企业的网络 97

99 第九章 IP SAN 系统设计 9.1 iscsi 技术与应用九十年代以前, 存储产品大多作为服务器的组成部分之一, 这种形式的存储被称为 SAS (Server Attached Storage, 服务器附属存储 ) 或 DAS(Direct Attached Storage, 直接附属存储 ) 随着技术发展, 进入九十年代以后, 人们逐渐意识到 IT 系统的数据集中和共享成为一个亟待解决的问题于是, 网络化存储的概念被提出并得到了迅速发展从架构上来分, 今天的网络化存储系统主要包括 SAN(Storage Area Network, 存储区域网 ) 和 NAS(Network Attached Storage, 网络附加存储 ) 两大类目前, 许多网络存储提供商致力于将 SAN 中使用的光纤通道 (FC) 设定为一种实用标准, 但是其架构需要高昂的建设成本, 远非一般企业所能够承受与之相比,NAS 技术虽然成本低廉, 但是却受到带宽消耗的限制, 无法完成大容量存储的应用, 而且系统难以满足开放性的要求 iscsi 在避开了传统 NAS/SAN 差别之后的以网络为中心的新存储方案 ( 开放存储网络 ) 中同时享受到 NAS 和 SAN 拓扑结构的优势 iscsi ( 互联网小型计算机接口 ) 标准把存储设备和服务器与应用普通互联网协议建立起来的网络结合在了一起, 而不是使用速度更快但是价格更昂贵更复杂的光纤通道技术, 为众多中小企业对经济合理和便于管理的存储设备提供了直接访问的能力 iscsi 的概念 iscsi( 互联网小型计算机系统接口 ) 是一种在 Internet 协议网络上, 特别是以太网上进行数据块传输的标准它是由 Cisco 和 IBM 两家发起的, 并且得到了 IP 存储技术拥护者的大力支持是一个供硬件设备使用的可以在 IP 协议上层运行的 SCSI 指令集简单地说,iSCSI 可以实现在 IP 网络上运行 SCSI 协议, 使其能够在诸如高速千兆以太网上进行路由选择 SCSI( 小型计算机系统接口 ) 是以一种广泛使用的连接硬盘和计算机的技术标准,iSCSI 这种技术则是将该技术应用到网络连接上, 对于中小企业的存储网络而言,iSCSI 技术的性价比要高于基于光纤的产品 iscsi 是基于 IP 协议的技术标准, 是允许网络在 TCP/IP 协议上传输 SCSI 命令的新协议, 实现了 SCSI 和 TCP/IP 协议的连接, 该技术允许用户通过 TCP/IP 网络来构建存储区域网 (SAN) 而在 iscsi 技术出现之前, 构建存储区域网的唯一技术是利用光纤通 98

100 道 (Fiber Channel), 该标准制定于 20 世纪 90 年代初期, 但是其架构需要高昂的建设成本, 远非一般企业所能够承受 iscsi 技术的出现对于以局域网为网络环境的用户来说, 它只需要不多的投资, 就可以方便快捷地对信息和数据进行交互式传输和管理相对于以往的网络接入存储,iSCSI 的出现解决了开放性容量传输速度兼容性安全性等问题, 其优越的性能使其自发布之日始便受到市场的关注与青睐 iscsi 的工作流程 iscsi 协议就是一个在网络上封包和解包的过程, 在网络的一端, 数据包被封装成包括 TCP/IP 头 iscsi 识别包和 SCSI 数据三部分内容, 传输到网络另一端时, 这三部分内容分别被顺序地解开 iscsi 系统由一块 SCSI 卡发出一个 SCSI 命令, 命令被封装到第四层的信息包中并发送接收方从信息包中抽取 SCSI 命令并执行, 然后把返回的 SCSI 命令和数据封装到 IP 信息包中, 并将它们发回到发送方系统抽取数据或命令, 并把它们传回 SCSI 子系统所有这一切的完成都无需用户干预, 而且对终端用户是完全透明的为了保证安全,iSCSI 有自己的上网登录操作顺序在它们首次运行的时候, 启动器 (initiator) 设备将登录到目标设备中任何一个接收到没有执行登录过程的启动器的 iscsi PDU (iscsi Protocol Data Units,iSCSI 协议数据单元 ) 目标设备都将生成一个协议错误, 而且目标设备也会关闭连接在关闭会话之前, 目标设备可能发送回一个被驳回的 iscsi PDU 这种安全性是基本的, 因为它只保护了通信的启动, 却没有在每个信息包的基础上提供安全性还有其他的安全方法, 包括利用 IPsec 在控制和数据两种信息包中,IPsec 可以提供整体性, 实施再次 (replay) 保护和确认证明, 它也为各个信息包提供加密 iscsi 标准的制定情况建立符合行业标准的通过 IP 网络传输存储信息的需求和机会同时存在, 但问题是如何建立这个标准并且使之成为行业的统一标准 Bechtolsheim 及其小组和 IBM 建立了合作伙伴关系, 共同为新协议起草了一个标准, 称为 iscsi( 互联网 SCSI), 该标准允许在 TCP/IP 协议上传输 SCSI 命令 2000 年 2 月, 该小组将此草案作为互联网标准草案提交给互联网工程任务组 (IETF) 同年 3 月,IETF 会议对该草案进 99

101 行了讨论, 并决定成立一个 IETF 工作组, 负责制订通过 IP 传输存储信息的技术截至 2000 年 8 月,IETF 小组的成员已增加到 500 人, 代表着 200 家公司或组织, 几乎包括了所有的存储器网络部件及系统供应商目前, 关于 iscsi 的标准制订已经进入最后阶段, 估计明年初正式标准就将推出 IETF 日前宣布, 它已完成了 iscsi 协议的工作, 现在将为它分配征求意见编号这项规范规定了软件在内联网上传送 SCSI 包和在长距离上管理存储时, 如何处理 SCSI 数据包以及如何在 TCP/IP 命令中封装它们 iscsi 与 FC( 光纤通道 ) 的比较网络存储主要由三大部分组成 : 服务器 (host) 交换(switch) 和存储设备 (target) 在这三者中, 交换是很关键的网络存储的交换方式有两种, 一种是光纤通道 (FC), 另外一种就是 iscsi 从数据传输的角度来看, 光纤通道和 iscsi 有很大的不同 : 光纤通道的传输采用其 FCP 协议, 而 iscsi 采用 Internet 上现有的 TCP 协议 FCP 协议最初是按照光纤通道网络的高级协议设计的, 它紧密地与低级网络功能集成在一起工作而 iscsi 在开发时采用现有的由 TCP 所提供的受保护的传输机制所以由于采用不同的机制,iSCSI 和光纤通道之间是不可能兼容的与光纤通道相比,iSCSI 有其自身的诸多优势, 主要表现在 iscsi 更加经济成本的节约可体现在以下几个方面 :(1) 在一般的数据和 SAN 网络之间存在的公用技术可使培训费用降低, 而且也不必设立单独的岗位职员, 这两者都可使成本降低 ; 而且以太网大量的安装基础也可使价格降低 (2)iSCSI 可利用现有的容易理解的 TCP/IP 基础设施来构筑 SAN, 随着在 QoS 和安全方面的进步, 在存储与现有的基础设施之间的共享表明, 在硬件培训实施等几个方面都有机会实现可观的成本节约 (3) 随着千兆以太网的实现, 用户将可得到传输速率为 1Gbps 的存储网络, 而不需改变现有的基础设施 FC(Fibre Channel) 的安装基础很少, 理解其技术的人也不多, 而且它很昂贵 FC 在同等速度下可提供稍好一些的性能, 但是这一点并不能弥补其在实现时所需的高额费用和额外的培训费用所构成的高成本近期, 在以太网的速度超过 FC 以前,FC 可以暂时保持其在 SAN 技术领域的优势地位, 但这也仅限于在 iscsi 成气候之前的一段时间内但是,iSCSI 在三到五年内不会取代 Fibre Channel 首先,TCP/IP 网络虽说有许多值得称道 100

102 的地方, 但它在传输数据块时的致命问题至今在技术上还没有突破性进展虽然 Fibre Channel 在标准远距离连接成本等方面有待进一步改进和提高, 但它在区域性 SAN 领域已经取得了显著成效其产品和技术正逐步成熟所以, 就目前来看, 如果用户需要大容量高速块级数据存取,Fibre Channel 还是唯一的选择但随着 iscsi 的成熟, 它将为 Fibre Channel 分担存储市场, 加之,Brocade Intel Cisco 等各领域厂商的努力, 也必将促进 Fibre Channel 和 iscsi 技术的融合, 取长补短, 共同发展 iscsi 的优势与局限性 iscsi 技术具有如下优势 : (1)iSCSI 的基础是传统的以太网和 Internet, 近 20 年来, 网络技术的迅猛发展使传统网络无处不在,iSCSI 有很好的基础, 同时能大大减少总体拥有成本 (2) 随着技术的进步,IP 网络的带宽发展相当迅速,1Gbps 以太网早已大量占据市场, 10Gbps 以太网也已整装待发而且, 该协议由包括 IBM Cisco Intel Brocade Adaptec 等业界巨头的支持, 同时, 一批新型厂商也竞相参与, 如 Nishan System SAN Valley CNT Pirus 3Ware 等 (3) 在技术实施方面,iSCSI 以稳健有效的 IP 及以太网架构为骨干, 使忍受性大大增加另外, 简单的管理和布署也是 iscsi 让业界心动的一个原因, 因为传统网络厂商已经培养了很多的专业网络人才, 不需要投入培训, 就可以轻松拥有专业的 iscsi 人才 (4)iSCSI 是基于 IP 协议的技术标准, 它实现了 SCSI 和 TCP/IP 协议的连接, 对于以局域网为网络环境的用户, 只需要不多的投资, 就可以方便快捷地对信息和数据进行交互式传输及管理 (5) 完全解决数据远程复制 (Data Replication) 及灾难恢复 (Disaster Recover) 的难题安全性方面, 以往的 FC-SAN 及 DAS 大都是在管制的环境内, 安全要求相对较低 iscsi 却将这种概念颠倒过来, 把存储的数据在互联网内流通, 令用户感到需要提升安全要求所以,iSCSI 已内建支持 IPSEL 的机制, 并且在芯片层面执行有关指令, 确保安全性 101

103 但是, 存储工程师在畅谈 iscsi 前景的时候, 也需要实事求是地分析目前的形势和发展方向实际上, 到目前为止, 还没有一个成熟的产品来展示 iscsi 的魅力, 它还没有大面积商业化应用而存储网络面临的诸多问题,iSCSI 并非都能迎刃而解, 如距离和带宽之间的矛盾虽然,iSCSI 满足了长距离连接的需求, 方便了广域存储的连接, 但是,IP 的带宽仍然是其无法解决的问题虽然 IP 网络发展迅速,1Gbps 的网络逐渐普及, 但从广域网来说, 带宽仍然相当昂贵即便可以利用 1Gbps 的带宽进行 iscsi 数据传输, 速度仍不理想而且, IP 网络的效率和延迟都是存储数据传输的巨大障碍 iscsi 技术的应用当多数企业由于 Fiber Channel 的高成本而对 SAN 敬而远之时,iSCSI 技术的出现, 一下子拉近了企业与 SAN 之间的距离目前, 大多数中小企业都以 TCP/IP 协议为基础建立了网络环境对于他们来说, 投入巨资利用 FC 建设 SAN 系统既不现实, 也无必要但在信息时代, 信息的采集与处理将成为决定企业生存与发展的关键, 面对海量数据, 许多企业已感到力不从心 iscsi 的实现可以在 IP 网络上应用 SCSI 的功能, 充分利用了现有 IP 网络的成熟性和普及性等优势, 允许用户通过 TCP/IP 网络来构建存储区域网 (SAN), 为众多中小企业对经济合理和便于管理的存储设备提供了直接访问的能力除此之外,iSCSI 技术主要用于解决远程存储问题, 具体如下 : 实现异地间的数据交换许多公司利用光纤交换技术实施了自己的本地存储区域网 (SAN), 但如果企业有异地存储要求时, 如何完成异地间的数据交换则成为问题设想一下, 一家公司在相隔很远的地方有分公司, 而且两地各有自己的基于光纤的存储网络, 那么, 如何将两个网络连接起来? 用光纤吗? 工程巨大, 就是采取租用形式, 其费用也相当高昂存储工程师知道,iSCSI 是基于 IP 协议的, 它能容纳所有 IP 协议网中的部件, 如果将 FC 转换成 IP 协议下的数据, 这些数据就可以通过传统 IP 协议网传输, 解决了远程传输的问题, 而到达另一端时再将 IP 协议的数据转换到当地的基于 FC 的存储网络, 这样通过 iscsi 使两个光纤网络能够在低成本投入的前提下连接起来, 实现异地间的数据交换实现异地间的数据备份及容灾通过 iscsi, 用户可以穿越标准的以太网线缆在任何地方创建实际的 SAN 网络, 而不 102

104 再必须要求专门的光纤通道网络在服务器和存储设备之间传送数据 iscsi 让远程镜像和备份成为可能, 因为没有了光纤通道的距离限制, 使用标准的 TCP/IP 协议, 数据可以在以太网上进行传输而从数据传输的角度看, 目前多数 iscsi 的网络传输带宽为千兆即 1Gbit, 如果实现全双工能够达到 2Gbit, 第二代产品能够达到 2Gbit 带宽, 在未来第三代通用 iscsi 标准中, 带宽将达到 10Gb, 也就是说, 采用 iscsi 构建远程异地容灾系统已不存在任何问题 iscsi 的发展概况 iscsi 是由 Cisco 和 IBM 两家发起的, 目前 IETF(Internet Engineering Task Force) 正在制订的标准规格 IBM 以及美国思科系统公司等部分供应商正在供货对应 iscsi 的路由器和存贮设备去年 IBM 发布了 IP Storage 200I 型存储设备, 将其标榜为在市场上出现的第一种成熟的 iscsi 硬件 iscsi 能使现有的以太网在数据存储方面更加有用, 而且 IBM 也因首先推出符合该标准的产品而赢得了赞扬 Cisco 对 iscsi 的支持至关重要 iscsi 要想成为沟通 FC 存储网和 IP 网的桥梁, 必须依赖在传统 IP 网中占据霸主地位的 Cisco 支持在具体产品方面, 去年 10 月, 他们就推出了 SN 5420 存储路由器今年 5 月,Cisco 公司又宣布推出了 iscsi/ 光纤通道存储路由器 Cisco SN 5428 这一存储路由器配置两个千兆以太网端口八个光纤通道端口和三个管理端口由于支持 IP 网络上的光纤通道千兆以太网和 iscsi 协议, 中小企业可方便利用现有设施建立 SAN 另外, 美国 Adaptec 和美国 Emulex 等目前正在开发配备面向 iscsi 的卸载引擎的以太网适配器英特尔于 2 月 5 日面向 iscsi(scsi over IP) 推出配备专用处理器的千兆位以太网用适配器 PRO/1000 T IP Storage Adapter, 能够实现 iscsi 包卸载, 并通过基于 Intel Xscale 微架构的板上处理器获得较低的 CPU 利用率, 并已开始批量生产 Intel 提出了 iscsi 发展的三个阶段第一个阶段是在 2002 年第一季度实现 TTM(Time To Market), 也就是要大范围地推动厂商尤其是 OEM 合作伙伴对 iscsi 的接受过程 ; 第二个阶段是在 2003 年第一季度之前, 实现高性能和全功能的 iscsi /LAN 解决方案, 提供 iscsi 卸载 (offload) 或 TCP/IP 卸载 ; 第三阶段, 在 2004 年, 通过技术研发不断降低 iscsi 成本, 提高性能以推动产量, 同时, 通过硅技术允许嵌入式的解决方案, 把 iscsi 技术浓缩成一个晶片尽管 iscsi 的相关产品已经上市, 但 iscsi 规范还没有得到 IETF 的批准, 在规范批准 103

之前, 还要进行相关的修改, 因此不可能保证上市产品完全遵从标准然而, 如果厂商正在开发的 iscsi 卡能保证兼容, 不管最后的规范如何, 还是可以安全使用的存储工程师相信, 随着新技术标准的制定,iSCSI 必将成为存储领域内的核心技术, 其低廉便捷开放安全标准等众多优异品质在未来必将得到充分的完善与发展, 从而成为一个充满生机与活力的发展方向,

105 之前, 还要进行相关的修改, 因此不可能保证上市产品完全遵从标准然而, 如果厂商正在开发的 iscsi 卡能保证兼容, 不管最后的规范如何, 还是可以安全使用的存储工程师相信, 随着新技术标准的制定,iSCSI 必将成为存储领域内的核心技术, 其低廉便捷开放安全标准等众多优异品质在未来必将得到充分的完善与发展, 从而成为一个充满生机与活力的发展方向, 为广大的用户提供最为完善的网络存储服务 9.2 IP SAN 存储方案举例用户现状与需求分析用户现状用户主要开发针对用户各种彩色打印机传真机复合机和各种数码影像设备产品的系统软件, 目前有 10 台不同种类的服务器, 每台服务器上都配置有硬盘, 操作系统有 Linux (RedHat 9.0) Windows2000 Windows2003, 每台服务器都承担着各自不同的应用,Linux 服务器是一台邮件服务器,Windows2000 服务器运行的是 SQL Server2000 数据库, 用户目前的网络拓朴结构如图所示 : 图 9-1 用户现状 104

106 需求分析用户的环境复杂, 应用数据量大, 应用数据增长速度也快, 必须利用先进的 IP SAN 网络存储系统来解决目前存在的问题因此系统要求 : 系统需要集中管理简单操作用户目前有多种产品的系统软件代码, 而且是多服务器多操作系统多数据库的复杂应用环境, 因此要求为这些应用提供存储资源的存储系统必须集中管理, 而且操作要简单方便必须满足日益增长的存储需求用户目前大约有 10 台服务器, 每台服务器都承担着各自不同的应用, 每个应用每时每刻都会产生大批量的数据, 因此如何解决这些数据的海量存储是系统首先要考虑的问题系统必须提供块级服务用户目前主要是数据库的应用, 比如 SQL Server2000,Oracle 数据库等, 而且服务器操作系统有 Unix Windows2000 Windows2003 等, 这就要求存储系统必须提供块级服务, 以满足不用操作系统及数据库数据的存储需求系统扩展性比较好用户随着业务的扩大, 存储资源需求会越来越多, 因此要求系统必须有很好的扩展性, 以适应未来 5-10 年的业务需求系统有数据备份功能用户目前有邮件和数据库应用, 所有的应用数据需要做定时的自动备份, 因些需要系统必须能对 Active Directory SQL Server 数据库数据进行自动的全备份和增值备份, 数据出错时能快速方便的恢复数据系统有容灾功能用户的数据十分重要, 而且在以后的时间里可能会对两个办公区域间做异地容灾, 因此需要系统必须有容灾功能, 以满足系统日后新的需求系统设计原则鉴于 IP SAN 的发展趋势, 对构建 IP SAN 系统应遵循以下原则 : 105

107 先进性系统必须采用的是先进的技术, 先进的产品, 遵循国际标准和国内外有关的规范要求 ; 符合计算机网络通讯技术和网络存储技术的最新发展潮流, 并且是应用成熟的系统实用性系统设计必须符合实际要求, 针对实际应用的特点, 选择相应用的软硬件系统 ; 系统配置既要强调先进性也要注重实用性, 还应注意系统配置的经济效益, 以达到综合平衡集成性系统选择的产品必须高度集成, 体积小, 重量轻, 移动方便, 功耗低 ; 而且在高度集成小型化前提下, 应具有多种功能可扩展性系统设计要考虑今后发展, 留有充分的扩充余地 ; 系统要能满足不同协议的网络扩充和不同厂家不同产品的扩充 ; 系统既应用于海量存储还提供本地和异地数据容灾灵活性系统要根据实际需要灵活定制不同的网络接口 ( 比如 FC 或 IP) 和不同的存储资源模块 ( 比如 SCSI iscsi Target FCP); 安全性系统具有高度的安全性, 比如访问存储资源的身份认证, 系统管理员的操作认证, 系统本身数据的备份等等 ; 可靠性系统具备在规定条件和时间内完成用户所要求的功能的能力, 能长期稳定的工作 ; 结构简单, 连接点少, 可靠性高 ; 对工作条件和工作环境要求较低 ; 系统启动快, 系统掉电后再来电或网络传输中断后再恢复正常, 系统恢复工作迅速 ; 故障率低, 维护维修方便 ; 经济性综合考虑系统的性能和价格, 性价比在同类系统和条件下达到最优, 经济性应包括 : 系统本身的价格 ( 包括系统技术服务和培训 ); 系统运行后经济效益预算的可能收益 ; 对系统实施现场的特殊要求所需的费用 ; 对系统集成所需的有关软件和硬件等的开发费用 ; 系统的易扩展升级等 106

108 9.2.3 技术方案方案描述本方案将采用 IP SAN 存储服务管理器做为整个系统的核心部件, 其后直接接到磁盘阵柜和磁带机, 然后通过千兆交换机为所有的服务器提供高速可靠的存储服务 ; 备份系统本方案将采用 IP SAN 存储备份系统软件做 D-D D-T 或 D-D-T 数据备份, 将其中的一台服务器安装 CommServer 做为备份服务器, 其它要备份的服务器安装 DataAgent, 系统将根据用户的备份策略自动的将各服务器的应用数据备份到 IP SAN 中拓朴结构图图 9-2 IPSAN 拓扑结构图在本方案中, 所用设备的主要功能描述如下 : IP SAN 存储管理服务器是实现存储子系统功能的主要设备, 它实现对存储资源的整合与优化数据保护等功能 IP SAN 存储服务器集中管理磁盘阵列, 把磁盘阵列中的所有单个磁盘整合并虚拟成多个逻辑卷, 供服务器使用, 并通过 IP SAN 存储服务器的管理软件对 107

109 这些卷进行直观化分配管理 : 允许哪个服务器使用哪个卷具有怎样的使用权限等备份服务器统一集中管理备份及恢复操作的各项策略磁盘阵列柜和磁带机为整个存储网络提供存储资源千兆交换机为 IP SAN 存储服务器和服务器之间提供千千兆高速网络传输带宽方案的特点对异构存储资源进行虚拟化和集中化管理 :IP SAN 存储管理服务器集成了数据存储系统, 实现存储资源的整合与虚拟化, 实现资源共享 ; 它能对不同厂商的存储产品不同存储协议 (SCSI,iSCSI Target,FCP) 的产品进行异构整合管理, 并可虚拟为逻辑上的存储池, 将支持不同存储协议的存储资源整合在一起, 可确保用户的所有重要数据获得统一的管理, 以此为企业营造出一个安全的集中的易于管理的存储环境, 在一个传统的以服务器基础架构下, 存储内容和存储设备均是联接本地服务器之上 ; 在新模式下, 存储内容和存储设备被集中管理, 存储空间被整个企业共享, 使其不局限在某个应用程序或服务器上, 更有利于用户对存储资源进行统一的专业化的管理和维护, 使得存储资源的可用性大大提高动态卷扩容 : 系统可以通过 IP SAN 存储服务器将分配给某台服务器的卷做动态扩容, 而卷上原有的数据将不改变简单化了系统管理 : 由于采用基于 IE 的用户管理界面, 使存储网络实现智能化简单化和集中化的管理, 同时, 由于基于 IP 技术, 客户不需要专门培训本系统从安装到正式上线, 客户在 20 分钟内即掌握了本系统维护技术可扩展性 : 用户可根据需求来逐渐增加存储的容量 (Storage Concentrator 的存储容量可以从 1TB 增加到 10.5T B), 大量减少企业前期对存储资源的投资 ; 另外 IP SAN 存储管理服务器最大限度地优化企业已有的存储资源和网络资源, 扩展了客户未来对存储系统的升级改造的可选择性先进的 IP SAN 结构 : 系统从网络结构上是一个典型的 SAN 存储架构, 它是在传统的 SAN 结构中, 以 IP 协议替代光纤通道协议, 来构建结构上与 LAN 隔离, 而技术上与 LAN 一致的新型 SAN 系统 IP SAN 合成全备份技术 : 支持 OnePath Restor 恢复和数据合并模式 ( 将增量备份和全备份合并成全备份 ), 减少了全备份的时间, 加快了恢复的速度 ( 不必恢复多次, 比其他应用恢复 108

110 速度快 1 倍以上 ) 这是本系统特有的功能备份任务的断点续传技术 : 支持备份任务的断点续传, 这就保证了即使备份期间发生故障, 也能从该故障点继续备份, 而不必重新备份 SnapShot 备份和 QR 快速恢复 :SnapShot 备份和 QR 快速恢复可以不必重新安装应用, 就可重启应用, 加快应用恢复速度 AD 和 Exchange 的记录级备份 :AD 和 Exchange 的记录级备份, 这样能对单个属性和信息进行备份和恢复, 这样如果某些内容不对, 只要恢复部分数据即可, 而不必进行所有数据的恢复, 加快了恢复速度这也是本系统特有的功能 D-D D-T 或 D-D-T 技术 :IP SAN 存储服务器将通常不间断的备份数据流分成两个阶段 : 第一阶段是将数据从需要备份的服务器备份到 IP SAN 存储服务器的逻辑卷中 ; 第二阶段是将数据从 IP SAN 存储服务器的逻辑卷备份到磁带库中多个需要数据备份的服务器可以同时启动第一阶段的备份过程, 然后备份服务器在第二阶段中将数据逐一从 IP SAN 存储服务器的逻辑卷备份到指定的磁带库中因此, 第一阶段是一个并行的进程, 第二阶段是一个顺序的进程, 它将极大地缩短数据全备份所需时间方案的优势经过对客户的实际需求的分析, 并从用户的实际情况出发, 同时考虑到今后系统的升级问题, 决定采用以上解决方案该方案具有以下优势 : 一举三得的解决方案与基于 FC SAN 备份的比较, 智能化的高速海量存储系统为用户提供了足够可管理的数据存储空间 : 较高的外部共享磁盘容量最大可达到几十个 TB, 根据存储数据量的需求, 可配置可用容量, 供数据存储使用, 随着数据量增大, 将来可以扩充磁盘数目以增加容量数据安全性得到了充分的保障 : IP SAN 数据访问的安全性 IP SAN 存储服务器存储管理服务器提供了二级数据存取安全 (CHAP), 一是访问主机的安全, 二是主机访问卷的安全, 这就从根本上保证了 SAN 中数据访问的安全性数据本身的安全磁盘阵列柜支持多种 RAID 等级 : , 在多数情况下, Arena 公司推荐使用 RAID5, 因为 RAID5 的硬盘使用率较高, 是安全性较高的 RAID 等级除了 RAID 等级上的保护之外, 还可以提供多个全局热备份磁盘, 一旦阵列中的任何一块磁盘 109

111 出现问题, 全局热备份磁盘都会立即工作, 达到保护数据的目的阵列控制信息的存储一般的阵列其阵列配置信息 ( 包括硬盘分组 RAID 划分等信息 ), 都存放在阵列控制器上, 一旦控制器出现问题, 那么存放在控制器上的配置信息就会完全丢失, 即使更换新的控制器控制信息也无法挽回, 那么硬盘上的数据就会丢失, 给用户造成无法估量的损失 Arena BT1115 磁盘阵列的配置信息可以存放在硬盘上, 这样即使控制器出现问题也不会影响硬盘上的数据, 而且当 RAID 组中的一块硬盘出现问题, 更换新的硬盘后配置信息会自动复制在新硬盘上, 确保了数据的完整性和安全性一但控制器有问题, 可以更换新的控制器而数据不会丢失系统具有高输入 / 输出性能 : 在普通的数据库邮件系统和文件应用中, 磁盘阵列的输入 / 输出性能一般是 8-10MB/s, 而 IP SAN 存储服务器可以将整个系统的输入 / 输出性能提高 6 倍以上系统具有高可靠性 : 系统可以用两台 IP SAN 存储服务器做双机备份, 当其中一台 IP SAN 存储服务器出故障时, 另一台就会自动承担故障服务器的工作负载, 而无须操作人员介入系统支持磁盘 - 磁盘 - 磁带库的备份 :IP SAN 存储服务器将通常不间断的备份数据流分成两个阶段 : 第一阶段是将数据从需要备份的服务器备份到 IP SAN 存储服务器的逻辑卷中 ; 第二阶段是将数据从 IP SAN 存储服务器的逻辑卷备份到磁带库中多个需要数据备份的服务器可以同时启动第一阶段的备份过程, 然后备份服务器在第二阶段中将数据逐一从 IP SAN 存储服务器的逻辑卷备份到指定的磁带库中因此, 第一阶段是一个并行的进程, 第二阶段是一个顺序的进程, 它将极大地缩短数据全备份所需时间降低了分布应用数据处理的管理成本 : 由于目前需要将每个业务子系统都使用 SAN 中的集中存储设备, 因此可减少每个系统都需要工程师进行管理, 从而减少了管理成本和管理工作量 110

图 9-3 容灾系统示意图系统可以实现本地异地数据容灾 :IP SAN 存储服务器存储管理服务器提供了卷拷贝卷复制卷镜像以及快照等数据容灾手段, 不需要第三方软件就能为系统数据构建高可靠性的数据容灾系统 9.2.

112 图 9-3 容灾系统示意图系统可以实现本地异地数据容灾 :IP SAN 存储服务器存储管理服务器提供了卷拷贝卷复制卷镜像以及快照等数据容灾手段, 不需要第三方软件就能为系统数据构建高可靠性的数据容灾系统系统建设的下一步设想一个好的系统设计, 往往体现在它能否适应客户将来新的需求, 在不久的将来, 用户可能会在两个办公区域之间做数据容灾, 拓朴结构图如图 9-3 所示 : 从上图不难看出, 办公区一就是现在的系统, 办公区二是现有系统的扩展, 这就保证了系统的升级是在原有系统不变的情况的下进行的, 不仅操作十分方便而且节省了成本解决方案介绍 IP SAN 存储管理服务器本方案使用的 IP SAN 存储管理服务器它是一个企业级的完全基于行业标准的 IP 网络存储系统 (IP SAN) 它为企业建立集中化存贮网络系统提供了一种优秀的高效率的手段表 9-1 IP SAN 存储管理器 IP SAN 存储管理服务器规格 111

113 协议和标准系统端口存储端口数量逻辑卷管理 iscsi (IETF Version 0.20) IP (RFC 791, 894, 1092) TCP (RFC 793) ICMP (RFC 792, 950, 1256) SCSI-2 and SCSI-3 Fibre Channel 一个以太网卡端口 ( 千兆以太网 ) 最多 6 个 I/O 端口 : 1 或 2 iscsi (Gigabit Ethernet) 端口 1 3 或 5 个 SCSI 端口或 4 Fibre Channel (2 Gbps) 并行 SCSI: 最多 15 个 FC: 最大 127 个卷大小 : 最小 1 GB, 最大 2 TB 最大的卷数 (session): 128* 个卷管理协议 IEEE 标准可选端口 Telnet (RFC 854) HTML HTTPS IEEE (10/100 Ethernet) IEEE 802.3z (Gigabit Ethernet) 用户可以从下列配置中最多选择两种端口 : 单工 Fibre Channel 卡 ( 最多 2 块卡 ) 双工 Fibre Channel 卡 ( 最多 2 块卡 ) 双工并联式样的 SCSI 卡 ( 最多 2 块卡 ) 可选千兆网卡 ( 一块 ) 尺寸宽 447 mm x 长 685 mm x 高 48 mm 前面板开关 : 电源发光二级管 : 系统状况和电源指示重量电源 15.9 kg 110/260 VAC, 7A/4A, 60/50Hz IP SAN 备份系统本方案的 IP SAN 备份系统采用了一种全新的体系结构, 专为操作简单无缝连接和可伸缩性的存储方案而设计, 以应对 21 世纪数据存储和管理需求通过对传统数据管理中分离功能的紧密整合, 利用完整的存储栈, 从应用到设备, 进行完整的透明的管理, 以自动操作的方式提供应用数据的存取和可用性数据的索引管理和传送都是建立公共技术引擎 CTE 上的 (CommVault Common Technology Engine), 该 IP SAN 存储备份系统平台是统一进行数据保护高可用性迁移归档存储资源管理 /SAN 管理的基础, 能用单一的自 112

动的平台来管理全局的数据目录和索引 CTE 是个底层的软件, 奠定了 CommVault 所有产品能执行元策略 (Meta-Policy) 的独特能力, 通过 CTE 能把操作命令的特点转化成可控制的软件级或模块级的策略该 IP SAN 存储备份系统平台包含了一系列可配置的软件模块, 用来组织和实施真正的数据集中策略, 来管理企业的信息存取, 该 IP SAN 存储备份系统软件模块包括 :

114 动的平台来管理全局的数据目录和索引 CTE 是个底层的软件, 奠定了 CommVault 所有产品能执行元策略 (Meta-Policy) 的独特能力, 通过 CTE 能把操作命令的特点转化成可控制的软件级或模块级的策略该 IP SAN 存储备份系统平台包含了一系列可配置的软件模块, 用来组织和实施真正的数据集中策略, 来管理企业的信息存取, 该 IP SAN 存储备份系统软件模块包括 : 数据备份和恢复 (Backup & Recovery); 数据迁移或分级存储 (HSM)(DataMigrator); 依法归档 (Data Archiver); 应用的高可用性 / 灾难恢复 (Quick Recovery); 存储资源管理 (Storage Resource Management); SAN 网络和介质管理(SAN Management); 集中统一管理以上所有模块图 9-4 IP SAN 存储管理软件构造 IP SAN 备份系统能创建基于数据特性和优先级的智能策略, 在 NAS SAN DAS 以及 LAN/WAN 环境中对存储进行统一的管理和使用该 IP SAN 存储备份系统能让 IT 管理员创建用于保护和存储数据的策略, 这些策略是基于存储模式数据恢复和保留的优先级, 利用统一的易于使用和管理的功能组件, 直接控制存储设备每天的价值和保护数据的费用, 从而改进公司的成本底线该 IP SAN 存储备份系统的优势在于 : 灵活性可扩充性可靠性和易用性 : 提供了智能的模块化的方法, 让用户能实施单个的解决方案, 或在需要时继续添加所需的模块, 能在时间效果培训和费用方面来分 113

115 步实施用逻辑的图视来对应所有存储资源的物理图视 : 用该 IP SAN 存储备份系统, 管理员能在统一的浏览控制台上快速方便的进行操作和数据存取, 而不需要知道数据具体所在的物理位置多种级别的策略驱动或用户直接管理数据 : 利用自动的关键功能进行数据传送和数据管理间的交互, 该 IP SAN 存储备份系统神奇地减少了必须的管理员数量, 其灵活度可由场地和特殊的数据需求来定与应用高度集成 : 客户端的模块提供了无与伦比的数据管理功能, 针对关键的文件系统和应用数据, 如 :UNIX Windows Linux NetWare Oracle Exchange Lotus Notes/Domino Informix SharePoint Portal SQL Sybase 可移动的完整的点击界面 : 系统管理员能方便的完全控制所有数据, 不管他是在当地还是在异地自动的交互过程 : 能方便到只要用一个系统客户端就能进行数据管理, 功能十分强大, 能轻松应对其部门广泛分布在不同地方的企业的备份需求能对磁盘磁带和光盘构成的虚拟存储池进行管理 : 包括磁盘阵列 ( 具有或不具有快照功能 ), 具有机械手的带库, 磁带驱动器分配, 磁带介质生命周期的管理可配置的软件模块 : 能满足企业在发展中的不断需求该 IP SAN 存储备份系统平台基本架构包括了建立在单一的 CTE 上可交互的多个软件模块, 并能用统一的控制台进行管理它包括了五个独立的软件产品 : 备份 / 恢复数据迁移合法的归档快速恢复和存储资源管理 /SAN 管理, 这些软件都共享公共的底层软件 CTE 使这一切成为可能,CTE 是一个能执行元策略算法的底层软件, 利用这个公共的底层软件, 软件服务的品质能变成可控制的软件产品级 / 模块级的策略该 IP SAN 存储备份系统包括了下面软件模块 : QBR (CommVault Galaxy Backup & Recovery) 完善的数据保护模块 QDM ( 该 IP SAN 存储备份系统 DataMigrator) 数据迁移 / 分级存储模块 QDA ( 该 IP SAN 存储备份系统 DataArchiver) 合法的归档模块 QR ( 该 IP SAN 存储备份系统 Quick Recovery) 快照管理和应用级的高可用, 快速恢复模块, 包括两个配置 : QR-HA 高可用模块用来快速恢复应用 114

QR-DR 灾难恢复模块用来创建远程快速恢复卷 QSM ( 该 IP SAN 存储备份系统 Storage Manager) 存储管理模块包括了存储资源管理 (SRM) 和 SAN 网下的存储设备和网络部件的管理 Q-Net 能用单一的界面对本地和异地的多个 CommCell 进行管理, 并提供策略管理分析和跟踪二级存储并提供统一的监控和报表等功能图 9-5 数据路径及模块结构 9.2.

116 QR-DR 灾难恢复模块用来创建远程快速恢复卷 QSM ( 该 IP SAN 存储备份系统 Storage Manager) 存储管理模块包括了存储资源管理 (SRM) 和 SAN 网下的存储设备和网络部件的管理 Q-Net 能用单一的界面对本地和异地的多个 CommCell 进行管理, 并提供策略管理分析和跟踪二级存储并提供统一的监控和报表等功能图 9-5 数据路径及模块结构技术服务及培训技术服务作为专业数据存储与保护方案提供商, 整个项目实施过程中, 建设者必须向用户提供全方位的技术支持服务, 让用户没有后顾之忧, 真正的让用户用的放心踏实一般来讲, 具体包括如下内容 : 技术支持队伍状况实施队伍中拥有经验丰富的数据存储专家, 与技术支持团队一起为用户解决问题服务内容及模式现场的技术服务 : 在项目实施的时候, 派遣优秀的工程师到现场进行技术问题的处理在以后的维护合同期内, 如果出现产品的问题, 即派工程师到现场进行问题的查看和解决必要的技术培训 : 为了保障用户能很好的使用产品, 在软件运行后进行必要的操作和维护, 给用户的工程师提供原厂的技术培训, 在平时的时候, 如果软件有什么变化, 及时的给 115

117 用户进行随时的必要的培训产品和各种与相关的技术问题的 24 小时的咨询 : 用户可以通过电话传真电子邮件的方式找工程师进行相关的咨询, 工程师必将在最快的时间里对问题做出明确的答复项目实施过程中的技术支持在项目实施工程中, 项目实施方进行现场的安装调试移交测试开通验收安装工程开始前, 存储工程师将提供安装技术资料和相关的技术规范在开始进行安装工程的时候, 公司都会派出最优秀的工程师到现场进行操作安装 : 该项目的主要负责人将带领最好的工程师到现场进行安装调试 : 在软件安装以后, 工程师将对软件的运行在该项目的环境中进行调试, 使软件能和好的用户的硬件和其他的软件进行很好的兼容移交测试 : 软件安装调试完以后, 交给用户的工程师, 让用户的工程师在实施方工程师的指导下进行相关的测试如果测试没有达到要求的结果, 可以再次让存储工程师的工程师进行必要的调试, 然后再进行测试如果测试达到相应的要求, 就是移交成功开通 : 实施方工程师在移交测试完以后, 就要在用户的环境下, 根据用户的需求, 对软件要达到的几项功能进行全部的开通, 使用户能进行正常的工作验收 : 由项目的主要负责人对产品进行验收验收完以后, 签署验收合格书此时产品正式由用户开始使用软件质保期内提供的免费服务内容对于免费服务, 在这个期间, 实施方的服务内容应该包括 : 定时的产品培训 : 在产品安装前, 对用户的工程师进行产品的初级培训在安装和验收后, 对用户的工程师进行原厂的以实验为基础的技术培训此后一年的服务期内, 定时对用户的工程师进行产品方面的培训故障的及时解决 : 实施人员在接到用户的故障的信息后, 会派遣相关的工程师以最短的时间内进行解决如果问题不大, 通过电话传真或者电子邮件的方式指导用户的工程师自行解决, 如果用户的工程师没有办法解决, 存储工程师会马上到达现场, 对问题进行分析和解决质保期之后的提供的技术服务在软件的质保期后, 也就是说在一年的保修期后, 即第二年后如果继续需要技术服务, 则需要签订维护合同项目方有三级维护合同可以供选择 : 116

118 按时收费标准级维护合同 : 周一至周五, 每天 8 小时企业级维护合同 :7*24 全年无休所以存储工程师将根据所签订的维护合同的不同, 提供不同的服务标准技术培训为使项目能正常安装调试运行维护, 项目实施方应该对用户提供相应的技术培训, 使用户的技术人员对系统的原理和结构功能性能安装配置调试运行故障诊断和排除等各个方面有一定程度的了解, 使用户的技术人员能对系统进行日常维护和处理出现的简单问题 9.3 IP SAN 容灾及备份方案需求分析用户现有的环境拓朴图如下 : 图 9-6 用户现状用户现有的系统不具备数据保护功能, 在大楼内部任一台服务器或网络系统出现故障, 都会造成数据丢失, 而且某一大楼出现自然灾害 ( 火灾水灾等 ), 该大楼内的服务器数据必然丢失, 整个大楼的业务全部中断, 这将会造成很大的损失因此用户要求在大楼与大楼之间做数据容灾, 大楼内部做本地备份, 大楼之间做异地备份, 这样就从根本上保证了用户业务数据的安全性和高可靠性 117

119 带格式的 : 项目符号和编号方案描述本方案的设计思想是围绕提高用户整个系统的数据安全性和高可靠性为中心, 其目标是当网络中的任意一台服务器发生故障时, 系统都可以将原有数据和文件系统快速地恢复, 以保证系统的正常运行存储工程师向用户提供三套建议方案来保护用户的数据 : 方案一区域网数据容灾 + 集中式数据备份 : 本方案有两部分组成 : 其一, 两幢大楼相互做为容灾点, 以保证某一服务器或某一大楼出现故障或自然灾害时容灾点数据接替其任务继续工作, 从而保证业务的不间断进行 ; 其二, 系统还将采用集中式数据备份, 即将采用一台备份服务器来集中管理两个大楼内部及大楼之间的数据备份方案二区域网数据容灾 + 交互式数据备份 : 两幢大楼相互做为容灾点, 并且采用相互式数据备份, 就是在两幢大楼各设立一台备份服务器来管理两个大楼内部及大楼之间的数据备份并且两台备份服务器相互备份, 以保证当一台备份服务器出现故障, 另一台备份服务器能接管其所有的备份任务方案三远程交互式数据备份或远程集中式数据备份 : 在本方案中, 两个容灾点之间是通过广域网来连接的只要容灾点每秒种的数据变化量不超过两个容灾点间的网络带宽, 就可以通过远程交互式数据备份或远程集中式数据备份来达到数据容灾的目的这样, 当一个容灾点的数据出现问题时, 可以通过另一个容灾点的数据来恢复区域网数据容灾区域网数据容灾是两个方案的基本模块 : 利用两台 IP SAN 网络存储服务器, 在两幢大楼中分别构建 IP SAN 存储网, 每台 IP SAN 网络存储服务器分别配置 1T 的的存储资源并虚拟成多个卷分配给每台服务器使用, 然后利用 IP SAN 网络存储服务器自带的数据同步复制功能将一台 IP SAN 网络存储服务器的虚拟卷与另一台 IP SAN 网络存储服务器的虚拟卷做实时同步复制, 以实现两幢楼间的数据容灾这样当其中一台 IP SAN 网络存储服务器的虚拟卷出现问题时, 用于同步的另一台 IP SAN 网络存储服务器上的容灾卷可以接替故障的卷继续工作拓朴结构 118

拓朴结构图如下 ( 图 9-7) 所示 : 在本方案中, 所用设备的主要功能描述如下 : 存储管理服务器 IP SAN 网络存储服务器是实现存储与容灾系统的主要设备, 它实现对存储资源的整合与优化数据同步复制等功能 IP SAN 网络存储服务器集中管理磁盘阵列, 把磁盘阵列中的所有单个磁盘整合并虚拟成多个逻辑卷, 供服务器使用, 并通过 IP SAN 图 9-7 IP SAN

120 拓朴结构图如下 ( 图 9-7) 所示 : 在本方案中, 所用设备的主要功能描述如下 : 存储管理服务器 IP SAN 网络存储服务器是实现存储与容灾系统的主要设备, 它实现对存储资源的整合与优化数据同步复制等功能 IP SAN 网络存储服务器集中管理磁盘阵列, 把磁盘阵列中的所有单个磁盘整合并虚拟成多个逻辑卷, 供服务器使用, 并通过 IP SAN 图 9-7 IP SAN 容灾实施拓扑图网络存储服务器的管理软件对这些卷进行直观化分配管理允许哪个服务器使用哪个卷具有怎样的使用权限等 ;IP SAN 网络存储服务器同步复制功能, 可以将一台 IP SAN 网络存储服务器的虚拟卷与另一台 IP SAN 网络存储服务器的虚拟卷做实时同步复制, 当主卷失败时, 镜像卷能自动接替主卷继续工作 SCSI 磁盘阵列柜为整个存储网络提供存储资源 : 首先将分布于各个服务器内部的 SCSI 磁盘集中插入该磁盘柜 ; 其次, 将它直接联接到 IP SAN 网络存储服务器, 通过 IP SAN 网络存储服务器将集中的存储介质虚拟成一个个的卷分配给每一台服务器使用系统在设计时将磁盘阵列中 1T 的 SCSI 硬盘做 RAID 5, 以保护数据的可靠性千兆交换机为 IP SAN 网络存储服务器和服务器之间及两幢楼之间的 IP SAN 网络存储服务器提供千兆高速网络传输带宽, 以保证系统高速可靠的运行技术特点先进的 IP SAN 结构 : 系统从网络结构上是一个典型的 SAN 存储架构, 它是在传统的 119

121 SAN 结构中, 以 IP 协议替代光纤通道协议, 来构建结构上与 LAN 隔离, 而技术上与 LAN 一致的新型 SAN 系统 IP SAN 容灾技术实现了数据的高可靠性 :IP SAN 网络存储服务器存储管理服务器提供了卷拷贝卷复制卷镜像以及快照等数据容灾手段, 不需要第三方软件就能为系统数据构建高可靠性的数据容灾系统数据安全性得到了充分的保障 : IP SAN 数据访问的安全性 IP SAN 网络存储服务器存储管理服务器提供了二级数据存取安全 (CHAP), 一是访问主机的安全, 二是主机访问卷的安全, 这就从根本上保证了 SAN 中数据访问的安全性数据本身的安全 SCSI 磁盘阵列柜 RAID5 是安全性较高的 RAID 等级除了 RAID 等级上的保护之外, 还可以提供多个全局热备份磁盘, 一旦阵列中的任何一块磁盘出现问题, 全局热备份磁盘都会立即工作, 达到保护数据的目的阵列控制信息的存储一般的阵列其阵列配置信息 ( 包括硬盘分组 RAID 划分等信息 ), 都存放在阵列控制器上, 一旦控制器出现问题, 那么存放在控制器上的配置信息就会完全丢失, 即使更换新的控制器控制信息也无法挽回, 那么硬盘上的数据就会丢失, 给用户造成无法估量的损失系统采用磁盘阵列的配置信息可以存放在硬盘上, 这样即使控制器出现问题也不会影响硬盘上的数据, 而且当 RAID 组中的一块硬盘出现问题, 更换新的硬盘后配置信息会自动复制在新硬盘上, 确保了数据的完整性和安全性一但控制器有问题, 可以更换新的控制器而数据不会丢失成熟先进的设备保证系统的高性能 : 通过 IP SAN 网络存储服务器整合优化后的磁盘阵列在每条与交换机连接的千兆网线上能提供很高的数据块的持续读写速度, 结合 IP SAN 网络存储服务器自动动态负载均衡的功能, 由 2 条与交换机连接的千兆网线可以对外提供 2 倍的高速的数据持续读写的带宽这样的高性能, 是存储系统能够提供全天候稳定工作状态的先决条件智能化的高速海量存储系统为用户提供了足够可管理的数据存储空间 : 较高的外部共享磁盘容量最大可达到几十个 TB, 根据存储数据量的需求, 可配置可用容量, 供数据存储使用, 随着数据量增大, 将来可以扩充磁盘数目以增加容量对异构存储资源进行虚拟化和集中化管理 :IP SAN 存储管理服务器集成了数据存储系统, 实现存储资源的整合与虚拟化, 实现资源共享 ; 它能对不同厂商的存储产品不同存储 120

122 协议 (SCSI,iSCSI Target,FCP) 的产品进行异构整合管理 IP SAN 存储管理服务器最大限度地优化图书馆已有的存储资源和网络资源, 扩展了客户未来对存储系统的升级改造的可选择性简单化了系统管理 : 由于采用基于 IE 的用户管理界面, 使存储网络实现智能化简单化和集中化的管理, 同时, 由于基于 IP 技术, 客户不需要专门培训本系统从安装到正式上线, 客户在 20 分钟内即掌握了本系统维护技术集中式数据备份方案一中应用到集中式数据备份, 其原理就是采用 IP SAN 备份软件对两幢楼中的 SAN 数据进行 Disk-Disk 集中式备份系统将在大楼 -A 内配置一台备份服务器, 用来统一管理两幢大楼中所有服务器的数据备份与恢复, 备份的数据不仅要保存在同一楼内, 同时还要保存到另一楼内一份, 以做异地备份, 而所有的这些备份操作全部是通过备份服务器来进行统一设置, 这样不仅满足了用户的需求, 而且方便了管理员的操作拓朴结构拓扑图如下系统架构 : 图 9-8 系统方案一拓扑图 121

123 采用两台 IP SAN 网络存储服务器连接 1T RAID 作为备份介质, 用一台服务器 ( 或普通的 PC 机 ) 作为备份 / 介质管理服务器, 其他需要备份的应用服务器上安装相应的代理客户端, 作为备份客户端通过网络和其他服务器连接构成集中备份网络备份恢复说明 : 该系统采用集中备份 / 恢复 / 监控的方式由中心管理员制定备份数据的备份任务策略和数据存储策率每台备份客户端的代理程序根据相应的备份任务, 将相应的数据备份到备份服务器上的 RAID 中到进行数据恢复时, 则每台客户端的代理程序将从备份服务器上的介质中将相应的数据恢复到指定的区域以上过程都可在线进行数据存放 : 该系统支持数据的分散存放和多拷贝, 备份数据即能存放在本地的 RAID 中, 也能存放到异地的磁盘上, 或者是离线的归档设备上 (LTO 带库 ) 等同时所有的备份数据集都包含元数据和备份数据因此能保证数据恢复的快速, 准确, 安全 ( 多分拷贝 ), 可靠 ( 数据恢复时不必访问元数据库 ) 用户管理 : 该系统采用多用户和群组的管理方式, 可以采用自主备份的模式, 能设定备份权限和优先级增加了备份的安全性, 减少了集中管理人员的负担日志传送 : 该系统可以在 WAN 网络上进行数据传送时, 支持日志传送方式这样不仅保证了备份任务的完整性和可靠性, 也降低了对网络资源的浪费当网络发生故障时, 可以自动从故障点继续备份 ( 断点续传 ) 技术特点采用 Disk-Disk 备份方式 : 磁盘到磁盘的备份方式, 提高了备份速度 ( 顺序读写比 LTO 带格式的 : 项目符号和编号磁带快 3 到 5 倍 ), 减少了备份窗口, 加快了备份速度支持异地灾备模式 : 系统支持一份备份数据多份拷贝, 这就可以利用 IP SAN 方便的将备份数据保存到异地去, 以防止本地环境出现大范围的自然灾害而造成数据的丢失支持 OnePath Restor 恢复和数据合并模式 ( 将增量备份和全备份合并成全备份 ): 这样就减少了全备份的时间, 加快了恢复的速度 ( 不必恢复多次, 比其他应用恢复速度快 1 倍以上 ) ( 特有功能 ) 支持备份任务的断点续传 : 这样保证了即使备份期间发生故障, 也能从该故障点继续备份, 而不必重新备份支持应用级的 SnapShot 备份和 QR 快速恢复 : 可以不必重新安装应用, 就可重启应用, 加快应用恢复速度支持 AD 和 Exchange 的记录级备份 : 这样能对单个属性和信息进行备份和恢复这样如 122

124 果某些内容不对, 只要恢复部分数据即可而不必进行所有数据的恢复, 加快了恢复速度 ( 特有功能 ) 采用日志方式在网上传送数据 : 保证了备份数据的完整性, 节约了网络带宽 ( 特有功能 ) 系统具有很好的可扩展性 : 无论是备份介质还是备份机器, 无需任何设置, 直接接入网络就能工作系统支持所有的主流平台和操作系统平台, 也支持所有的备份介质 (Disk/Tape..) 采用文件系统作为备份数据集 : 符合操作人员习惯, 便于数据迁移和升级采用集中单点管理, 支持异地的 WEB 监控和管理 : 能方便的监控所有的备份资源和备份数据集支持用户和群组管理模式 : 使得备份管理可以由用户自主管理, 减少了中心管理员的压力支持基于存储策率的备份模式 : 由管理员制定统一的数据迁移模式, 当备份存储策率改变时, 不用一一修改所有的备份任务采用 BackupStorageSet 模式 : 支持备份数据集的分布放置和不同存储方式使得数据监控一目了然交互式数据备份方案二中应用了交互式数据备份, 其原理是配置两台备份服务器, 每台服务器将承担两项备份任务 : 一项是用于集中管理本地服务器正常的数据备份, 另外一项任务是对另一台备份服务器本身数据进行备份, 这样当一台备份服务器出现了故障, 另一台备份服务器还将继续工作, 并可以快速安全方便的恢复出现故障的备份服务器, 以避免由于备份服务器自身的问题而丢失其它服务器备份的数据拓朴结构拓扑图如下 : 本方案将在两幢楼内分别配置一台备份服务器, 大楼 -A 中的备份服务器集中管理大楼 -A 中所有服务器数据的备份与恢复任务, 大楼 -B 中的备份服务器集中管理大楼 -B 中所有服务器数据的备份与恢复任务, 并且大楼 -A 中的备份服务器还要对大楼 -B 中的备份服务器进行备份, 大楼 -B 中的备份服务器还要对大楼 -A 中的备份服务器进行备份, 这样就形成大楼 123

-A 与大楼 -B 中的服务器相互备份, 当大楼 -A 中的备份服务器出现了故障, 完全可以从大楼 -B 的备份服务器中恢复数据以保证大楼 -A 中其它服务器的备份任务照常进行, 备份的数据还能用于出错后的恢复, 同理大楼 -B 中的备份服务器出现了故障也可以利用大楼 -A 中的备份服务器进行恢复图 9-9 系统方案二拓扑图 9.3.2.

125 -A 与大楼 -B 中的服务器相互备份, 当大楼 -A 中的备份服务器出现了故障, 完全可以从大楼 -B 的备份服务器中恢复数据以保证大楼 -A 中其它服务器的备份任务照常进行, 备份的数据还能用于出错后的恢复, 同理大楼 -B 中的备份服务器出现了故障也可以利用大楼 -A 中的备份服务器进行恢复图 9-9 系统方案二拓扑图方案特点这两套方案都将采用 IP SAN 网络数据存储结构, 结合 IP SAN 网络备份体系结构, 构建成一个基于 IP SAN 架构的数据容灾系统和 Disk-Disk 数据备份系统, 这是一个既能满足用户数据备份要求, 又涵盖主流存储体系, 用户级的容灾加备份的解决方案采用基于 IP SAN 网络存储服务器的 IP SAN 作为备份存储介质它具有下列优点 : 动态扩容客户可根据需求来逐渐增加用于备份的存储容量 IP SAN 网络存储服务器可提供多达 256TB 的存储容量可同时达到数据备份及容灾两个目的由于是基于 IP 网络, 所以备份服务器与备份存储介质之间不受距离的限制当把备份介质放到通过 IP 网络连接的异地时, 不仅实现了数据备份, 也实现了数据容灾先进的物理存储系统 (IP SAN) 与先进的备份技术整合在一起这样取两家之长构成 124

126 的数据容灾备份系统是其它单一的软件系统或硬件系统所无法比拟或无法实现的其中数据存储系统最大限度地从速度和应用范围方面优化存储资源和网络资源, 扩展了用户存储系统现有的投资 ; 此外还解决了集中存储数据复制 I/O 效率网络性能等问题方案一特点本方案采用的是区域容灾加集中式备份, 采用该集中备份方案, 能在现有的网络基础上, 将各分散服务器的数据完整可靠的集中备份起来同时能保证应用和数据的在线快速备份和恢复该方案不仅能够提供备份数据的多种拷贝, 而且由于将备份数据和元数据备份在一个备份数据集中, 所以在各种情况下都能进行恢复, 使得数据备份恢复安全可靠同时, 采用基于存储策略的备份模式, 和自主备份, 集中监控的管理模式, 可以大大减轻备份管理维护强度通过这个方案能为用户提供完整的数据保护服务而且能够根据应用的不同要求, 来灵活提供不同的客户端配置, 能非常灵活的满足用户的最终要求方案二特点数据的保护更加安全 : 本方案不仅仅保护了服务器的历史数据, 而且也保护了管理备份的备份服务器的数据, 这样使的用户的数据更加安全提升了系统性能 : 本方案采用了两台备份服务器, 每台备份服务器都分担了一部分备份任务, 与方案一相比较, 不仅提升了备份服务器的性能而且也节约了大楼间网络传输的带宽方案三特点本方案是通过异地数据备份来达到数据容灾的目的当用户对数据恢复的时间要求不高, 而且数据变化量不大的情况下, 这是一个既经济有稳妥的方案方案的关键点如前所述, 容灾不但是一个技术问题, 更是一个工程问题在技术方面, 本方案克服了以下技术难点 : 解决了传统技术构建的容灾系统的扩展性和延伸性受限制问题克服了因对数据传输介质专门要求而带来用户成本增高问题以前在建造容灾系统过程中, 容灾专线的建设占用了用户很大的投资而存储工程师提供的方案由于采用比较普及的传输介质, 如支持 TCP/IP 网络, 这样易于实施, 更能降低成本解决了一般容灾系统的比较封闭问题本方案容灾具有开放性, 支持和兼容多种硬件系统 125

127 充分考虑用户对主应用程序运行连续性要求, 本容灾系统的运行不应影响应用系统的正常使用容灾系统如何保护用户信息的完整性是最核心问题由于本方案设计过程中将此作为重要设计指标之一, 因此它可保证用户数据的完整性和可靠性利用其它技术构建容灾系统存在技术复杂, 使用维护不方便等问题而本方案则具有简单实用的灾难恢复手段本容灾系统本身对具备各种容错进行了考虑, 从而保证当灾难发生时, 用户可以安全可靠地将数据恢复出来本容灾系统还支持灵活多样的容灾结构, 这样用户可以根据环境的变化来改变容灾的结构在工程方面, 本方案在实施中还充分考虑了以下几点 : 首先对容灾方案的可行性进行评估帮助用户建立一套规范的容灾流程及其具体措施这包括 : 建立容灾系统的标准安装及操作流程建立数据恢复的标准操作流程建立测试流程根据需求的变化, 制定相应的数据容灾及备份策略建立灾难的预警机制建立定期的演习及测试制度建立定期的人员培训制度 9.4 IP 存储发展随着网络存储技术的飞速发展, 各种存储设备和技术正趋于融合总有一天, 现在的光纤和 SCSI 磁盘阵列 NAS 文件服务器磁带库等设备都可以运行在一个统一标准的架构中 IP 存储 (Storage over IP 简称为 SoIP) 在 IP 网络中传输块级数据使得服务器可以通过 IP 网络连接 SCSI 设备, 并且像使用本地的设备一样, 无需关心设备的地址或位置而网络连接则是以 IP 和以太网为骨干, 这令人联想起今天耳熟能详的存储域网 (SAN) 结构只是以廉价而成熟的 IP 和以太网技术, 替代了光纤通道技术 126

128 由于既有的成熟性和开放性,IP 存储技术, 使企业在制定和实现安全数据存储的策略和方案时, 有了更多的选择空间例如远程的数据备份数据镜像和服务器集群等领域, IP 存储的介入都可以大大丰富其内容同时,IP 存储也消除了企业 IT 部门在设计传统 SAN 方案时, 必须面对的产品兼容性和连接性方面的问题最重要的是, 基于 IP 存储技术的新型 SAN, 兼具了传统 SAN 的高性能和传统 NAS 的数据共享优势, 为新的数据应用方式提供了更加先进的结构平台在过去的一年中, 存储和网络厂商的注意力, 主要集中在 IP 存储技术的两个方向上存储隧道 (Storage tunneling) 和本地 IP 存储 (Native IP-based storage) 下面是这两个方面的一些粗略概况存储隧道技术顾名思义, 这种技术是将 IP 协议作为连接异地两个光纤 SAN 的隧道, 用以解决两个 SAN 环境的互联问题光纤通道协议帧被包裹在 IP 数据包中传输数据包被传输到远端 SAN 后, 由专用设备解包, 还原成光纤通道协议帧由于这种技术提供的是两个 SAN 之间点到点的连接通信, 从功能上讲, 这是一种类似于光纤的专用连接技术因此, 这种技术也被称为黑光纤连接 (Dark fiber optic links) 由于其专用性, 使得这种技术实现起来成本较高, 缺乏通用性, 而且较大的延迟也对性能造成一定影响其最大的优势在于, 可以利用现有的城域网和广域网这一优势, 正好为炒作的沸沸扬扬, 但至今无法充分利用的宽带资源, 提供用武之地另一方面, 虽然 IP 网络技术非常普及, 其管理和控制机制也相对完善, 但是, 利用 IP 网络传输的存储隧道技术, 却无法充分利用这些优势其原因主要在于, 嵌入 IP 数据包中的光纤通道协议帧 IP 网络智能管理工具不能识别这些数据, 这使得一些很好的管理控制机制无法应用于这种技术, 如目录服务流量监控 QoS 等因此, 企业 IT 部门的系统维护人员, 几乎不可能对包含存储隧道的网络环境, 进行单一界面的统一集中化管理目前的存储隧道产品还有待完善, 与光纤通道 SAN 相比, 只能提供很小的数据传输带宽例如, 一个在光纤 SAN 上, 用两到三个小时可以完成的传输过程, 在两个光纤 SAN 之间以 OC-3 标准传输大约需要 14 个小时这是目前存储隧道产品比较典型的传输速度当然, 这样的性能表现, 不会限制到该技术在一些非同步功能中的应用如远程的数据备份, 就不一定需要很高的数据传输带宽 127

129 总之, 存储隧道技术, 借用了一些 IP 网络的成熟性优势, 但是并没有摆脱复杂而昂贵的光纤通道产品本地 IP 存储技术这一技术是将现有的存储协议, 例如 SCSI 和光纤通道, 直接集成在 IP 协议中, 以使存储和网络可以无缝的融合当然, 这并不是指, 可以在企业 IT 系统中, 把存储网络和传统的 LAN, 物理上合并成一个网络而是指在传统的 SAN 结构中, 以 IP 协议替代光纤通道协议, 来构建结构上与 LAN 隔离, 而技术上与 LAN 一致的新型 SAN 系统 IP SAN 这种 IP-SAN 中, 用户不仅可以在保证性能的同时, 有效的降低成本, 而且, 以往用户在 IP-LAN 上获得的维护经验技巧都可以直接应用在 IP-SAN 上俯拾皆是的 IP 网络工具, 使 IP-SAN 的网络维护轻松而方便同样, 维护人员的培训工作, 也不会像光纤技术培训那样庞杂而冗长设想一下, 一个大型企业的 IT 部门引入了一项新技术, 并以此构建了底层的大型存储系统却不需要调整现有的网络和主机, 不需要改变应用软件, 不需要增加管理工具, 甚至不需要过多的技术培训现有的网络管理工具和人员, 完全可以应付这一切这是一个多么诱人的系统升级方案! 与存储隧道技术相比, 本地 IP 存储技术具有显著的优势首先, 一体化的管理界面, 使得 IP-SAN 可以和 IP 网络完全整合其次, 用户在这一技术中, 面对的是非常熟悉的技术内容 :IP 协议和以太网而且, 各种 IP 通用设备, 保证了用户可以具有非常广泛的选择空间事实上, 由于本地 IP 存储技术的设计目标, 就是充分利用现有设备, 传统的 SCSI 存储设备和光纤存储设备, 都可以在 IP-SAN 中利用起来本地 IP 存储技术, 更进一步的模糊了本地存储和远程存储的界限在 IP-SAN 中, 只要主机和存储系统都能提供标准接口, 任何位置的主机就都可以访问任何位置的数据, 无论是在同一机房中, 相隔几米, 还是数公里外的异地访问的方式可以是类似 NAS 结构中, 通过 NFS CIFS 等共享协议访问, 也可以是类似本地连接和传统 SAN 中, 本地设备级访问随着带有 IP 标准接口的存储设备的出现, 用户可以单纯使用本地 IP 存储技术, 来扩展已有的存储网络, 或构建新的存储网络以千兆以太网甚至万兆以太网为骨干的网络连接, 保证了本地 IP 存储网络, 能够以令人满意的效率工作 128

130 9.4.3 技术选择无论在哪个方面, 用户总是要面对这样的问题答案又总是, 明确需求, 从实际出发简单的讲, 存储隧道技术很好的利用了现有的 IP 网络, 来连接距离较远的各个 SAN 岛屿例如, 对存储服务供应商来说, 如果想向已经建有光纤 SAN 的用户, 提供数据看护服务, 存储隧道技术就是非常好的选择一些用户期望自己的 IT 系统具有很高的集成度, 这一点是存储隧道技术难以达到的, 而本地 IP 存储技术在这方面, 具有相当强的竞争力同时, 这项技术也是实现从光纤 SAN 平滑升级到 IP-SAN 的最好选择所以, 越来越多的存储和网络厂商, 开始对本地 IP 存储技术提供投入和支持 129

131 第三部分应用知识第十章一般 SAN 系统搭建 SAN 是建立在存储协议基础之上的可使服务器与存储设备之间进行 any to any 连接通信的存储网络系统, 可以实现多服务器共享一个阵列子系统共享一个自动库实现数据的共享和集中的管理, 进而完成快速大容量和安全可靠的数据存储, 因此, 越来越为业务迅猛发展数据呈爆炸增长趋势的企业所青睐需要 SAN 业务的系统为对数据安全性要求很高的企业, 典型行业 : 电信金融和证券, 典型业务 : 计费对数据存储性能要求高的企业, 典型行业 : 电视台交通部门和测绘部门, 典型业务 : 音频 / 视频石油测绘和地理信息系统等在系统级方面具有很强的容量 ( 动态 ) 可扩展性和灵活性的企业, 典型行业 : 各中大型企业, 典型业务 : ERP 系统 CRM 系统和决策支持系统具有超大型海量存储特性的企业, 典型行业 : 图书馆博物馆税务和石油, 典型业务 : 资料中心和历史资料库具有本质上物理集中逻辑上又彼此独立的数据管理特点的企业, 典型行业 : 银行证券和电信, 典型业务 : 银行的业务集中和移动通信的运营支撑系统 (BOSS) 集中实现对分散数据高速集中备份的企业, 典型行业 : 各行各业, 典型业务 : 企业各分支机构数据的集中处理数据在线性要求高的企业, 典型行业 : 商业网站和金融, 典型业务 : 电子商务实现与主机无关的容灾的企业, 典型行业 : 大型企业, 典型业务 : 数据中心以上是企业典型数据特性的典型业务举例, 通常, 企业环境业务形式错综复杂, 会同时具备多数据特性 130

132 10.1 大型企业综合存储系统业务的主要数据特性对数据安全性存储性能在线性和文件系统级的灵活性要求高, 并需要对分散数据高速集中的备份, 又属于超大型海量存储用户状况某大型企业通讯部门主要从事接收处理存档和分发各类全球性卫星数据, 以及卫星接收技术和数据处理方法的研究卫星的观测信息以图形方式显示, 通过地面接收转换成数字格式保存, 但每条信息的占用的存储空间都很大, 每天的数据量在几百 MB 到 2GB 之间由于在线数据存储空间很有限, 特别是用户要通过 HDDT 磁带方式对数据进行存档管理, 并需要以人工方式管理磁带, 从而使得数据查找效率低下, 大量珍贵数据得不到有效利用需求分析由于需要在线数据存储量大约在 1~2TB, 并在包括 Sun SGI IBM 的小型机和 PC 服务器在内的主机环境中还要增加曙光超级计算机, 而且多台主机不仅集中存储, 还要能够共享数据 ; 另外, 卫星下载资料以文件格式保存, 单个文件可达 GB 级针对这些需求, 进行方案设计时首要考虑的因素是设备的容量和性能, 以及系统的在线连接性和数据的共享在此基础之上, 还要扩大在线系统容量, 建立自动化的数据备份系统, 实现离线存储数据的自动管理系统设计 131

133 如前所述, 原环境中已存在一些网络设备, 在构建 SAN 时增加一台光纤通道交换机和一台光纤通道磁盘阵列由于用户的应用需要不同平台的多台主机共享数据, 所以还要配以文件共享软件和网络文件系统转换的软件本方案采用 HDS 公司的 Thunder 9200 和 IBM 公图 10-1 系统拓扑图司光纤交换机 2109-S08 或 S16 组建存储区域网络, 其拓扑结构如图 10-1 所示由于同一文件要被多台主机编辑处理与访问, 而且文件非常大, 无论在 SAN 还是在 LAN 上传输都很浪费资源, 因此要采取文件共享的方式, 让所有主机访问文件的同一个拷贝在多主机混合平台的情况下, 采用 IBM Tivoli SANergy 软件, 配以支持在 Windows NT 上实现 NFS 共享的软件 NFS Maestro 在此方案成功实施运转一个时期后, 由于业务发展迅猛, 系统的数据量快速增长, 用户又提出增加在线存储容量和建立自动数据备份系统的需求事实上, 富有经验的集成商在系统设计初期已考虑到未来的扩展问题, 当需要增加在线容量时, 用户只需购买一台新的 HDS Thunder 9200, 将其连接到 SAN 上, 它提供的存储空间立即可分配给 SAN 上任意主机, 还能集中管理数据当用户需要做自动数据备份时, 根据对容量和备份窗口的要求选择 IBM SAN 解决方案中的自动磁带库 ( 如 LTO 系列 ), 将其与备份服务器连接到 SAN 上, 即可进行集中自动且 LANfree 的数据备份扩容后的存储区域网拓扑结构如图 2 所示当设备数量增加较多时, 可以通过交换机堆叠或级联增加 SAN 的连接能力方案点评性能 : 高性能的光纤通道交换机和光纤通道协议可以确保设备连接可靠且有效可靠性 : 磁盘阵列通过写缓存镜像多 RAID 等级和全局热备份盘等技术提供不同的保 132

护特性, 并通过在线数据校验, 保证数据完整性扩展性 : 使存储与直接主机连接相分离, 确保动态存储分区功能 : 基于 SAN 结构的文件级共享是本方案的关键图 10-2 项目实施拓扑图 10.1.5

134 护特性, 并通过在线数据校验, 保证数据完整性扩展性 : 使存储与直接主机连接相分离, 确保动态存储分区功能 : 基于 SAN 结构的文件级共享是本方案的关键图 10-2 项目实施拓扑图可选的解决方案 IBM SAN 解决方案 IBM SAN 解决方案由五大构件组成, 包括服务器存储设备连接设备管理软件和服务其中服务器可选用 IBM AS400 AS390 AS6000 或 PC 服务器等存储设备可选用 IBM 的磁盘系统, 如著名的 ESS( 大白鲨 ) 7133 串行磁盘系统和 IBM 模块化存储服务器 (MSS2106); 磁带系统可选用 Magstar MP 3570 磁带子系统 Magstar MP 3575 磁带库数据服务器 Magstar 3590 磁带子系统 Magstar 3494 磁带库 / 虚拟磁带服务器 VTS 以及 LTO 线性开放磁带系统 ; 还有光盘系统, 如增强型 3995 光盘库 C 系列等 ; 连接设备可选用 IBM SAN 光纤通道交换机 ( 如 McDATA ED-5000 和 INRANGE FC/9000) IBM 光纤通道管理集线器 ( 如 8 端口 FC-AL 集线器和 2103-H07 IBM SAN 光纤通道存储集线器 ) 以及 IBM SAN 网关 ( 如 2108-G07 IBM SAN 数据网关与 2108-G03 IBM SAN 数据网关路由器和 VICOM 光纤通道 SLIC 路由器 ); 管理软件可选用 IBM StorWatch 系列存储管理产品 DFSMS 系列存储管理产品和 Tivoli 系列存储管理产品此外,IBM 还推出一套主要面向中低端市场的 IBM Open SAN 解决方案, 它支持及时拷贝与脱机备份功能, 提供 SSA 空间复用性和支持不间断的扩展等性能其特点是 : 大而全, 单件可选性强, 兼容性强, 其中磁带库产品性能强劲 133

10.1.5.2 XIOtech(Seagate 子公司 ) SAN 解决方案与其他厂商提供的存储方案略有不同,XIOtech 提供了 SAN 环境下虚拟存储方案, 主要包括 Magnitude 硬件平台和 Redi 软件 Magnitude 硬件平台符合开放系统标准, 并且将所有 SAN 组件并入了一个集中化配置中, 即一个高性能的存储控制器 SAN 管理软件和 64 台硬盘或具有 11.

135 XIOtech(Seagate 子公司 ) SAN 解决方案与其他厂商提供的存储方案略有不同,XIOtech 提供了 SAN 环境下虚拟存储方案, 主要包括 Magnitude 硬件平台和 Redi 软件 Magnitude 硬件平台符合开放系统标准, 并且将所有 SAN 组件并入了一个集中化配置中, 即一个高性能的存储控制器 SAN 管理软件和 64 台硬盘或具有 11.5GB 的存储设备通过在所有可用硬盘上交叉存取数据,Magnitude 可让用户从一个中央控制台执行所有的存储管理任务, 还可以在虚拟磁盘之间拷贝交换和镜像数据, 并在与 Magnitude 相连的光纤信道设备上执行 LUN 屏蔽 LUN 映像和群集任务另外, Redi 将 Magnitude SAN 内的所有物理驱动轴合并到一个虚拟库中, 可伸缩性强, 能使多平台服务器共享大量数据, 并提高数据可用性其特点是 : 具有可扩性高可用性和虚拟存储特性 10.2 券商容灾系统该系统业务的主要数据特性是需要实现与主机无关的容灾技术准备客户现状设想如下 : 某券商已有本地用户上百家, 远程分中心若干个, 都与当地用户相连, 卫星用户约几千家, 带近百个远程登记处目前该券商已经建立起一整套证券股票交易网络体系 ( 如图 10 图 10-3 客户系统现状 134

-3 所示 ), 为保证未来业务的可扩性和安全性, 提高现有应用系统防范各种风险的能力必须建立一套有灾难备份能力的存储系统需求分析灾难备份中 2 个最关键因素是系统运行环境 ( 包括系统数据与应用程序 ) 和用户数据资源前者的变动频率低, 数据量不大, 相对较稳定 ; 后者变化快, 数据量大, 实时性高由于该券商的清算作业和大型非交易过户作业具有数据量大处理强度高

136 -3 所示 ), 为保证未来业务的可扩性和安全性, 提高现有应用系统防范各种风险的能力必须建立一套有灾难备份能力的存储系统需求分析灾难备份中 2 个最关键因素是系统运行环境 ( 包括系统数据与应用程序 ) 和用户数据资源前者的变动频率低, 数据量不大, 相对较稳定 ; 后者变化快, 数据量大, 实时性高由于该券商的清算作业和大型非交易过户作业具有数据量大处理强度高不能中途恢复和在限定时间内尽快完成等特点, 所以希望 SAN 存储环境满足 : 当灾难出现时, 位于同城异地的备份系统能保持灾难发生日前半天的数据完整, 并在灾难发生后一天内结算业务能正常运行工作, 同时还要能够实现远程异地备份系统设计根据该券商对灾难恢复系统的要求, 集成商提出多种可能的解决方案最传统的方法是磁带备份与恢复, 但它不满足未来灾难备份可扩展性及日常可维护性另一个是通过高速网将用户数据实时送到备份中心的方案, 但它只能保证灾难发生日前一天的结算后数据, 无法满足灾难备份要求还有一个是采用软件方式实现数据的远程热备份方式, 但它会引发时延问题, 拖延结算时间最后一个是远程磁盘镜像 (SRDF) 方案, 它对生产系统的运行效率无不良影响, 能够保持数据的完整性和可用性, 并对用户数据实施多重保护等等该券商结算系统由本地生产系统和异地灾难备份系统及相关通信链路组成, 其 SAN 存储结构图如图 10-4 所示它在生产中心和灾难备份中心都采用了同档次的 IBM 小型机和 EMC Symmetrix 8430 磁盘阵列, 其中 Symmetrix 8430 配置 450GB, 在采用镜像保护措施后, 可用磁盘量将达 225GB 正常运行时, 该券商生产中心的业务结算主机与 EMC Symmetrix 图 10-4 采用 SRDF 条件下的容灾拓扑图 135

137 8430 ( 以下简称 R1) 相连, 灾备中心建在与生产中心相隔 10km 的另一处机房, 在灾备中心的 EMC Symmetrix 8430( 以下简称 R2) 中相同数量的一组硬盘与 R1 远程镜像保持数据同步而远程备机控制 R2 中另一组硬盘供该券商查询处理及测试与分析用需要指出, 在进行远程异地备份时备份软件 SRDF 功不可没可以看出 : 容灾是一个从存储设备主机系统到上层应用软件的系统工程, 从功能上讲可以分为数据复制和应用切换两大部分在考察方案时也应该从这两部分出发, 缺少任何一部分, 都不是完整的容灾方案可选的解决方案 EMC SAN 解决方案 EMC 公司支持最基本的集线器方式, 主要产品包括面向高端市场的 SAN 存储平台 Symmetrix, 它提供一个完全受保护的共享存储系统, 可实现各种信息的透明访问近日, EMC 新推了 Symmetrix 增强系列和 8230, 引入更快存储器和双倍数量的内部数据总线, 对信息存储设备的性能连接性功能和容量等进行了升级, 使开放系统性能提高 50%, 主机性能提高 100%, 容量提高 260%, 可连接性提高 500%, 最大可处理 70TB 的数据量, 而且其运行环境高速缓冲技术和处理能力均大幅提高, 具有很好的兼容性, 可实现信息高效的整合, 降低用户的 TCO 与此同时, 对于基于光纤通道的 ESN 系统, 由于采用模块化设计, 具有很强的伸缩性, 可按照不同的连接和可用性要求提供灵活的配置阵列选择, 其中包括对单一的单点的集中化的管理软件 Control Center 它采用统一的管理界面和管理方式, 使对不同的存储设备的管理工作简单易行 ; 控制中心可以建立在工作站服务器上, 还可以通过浏览器的方式远程实施管理 ; 另外, 只需简单的鼠标点击, 就可以自动获得存储器物理图像, 了解磁盘的配置情况 ; 同时, 控制中心还提供逻辑化的管理手段简洁的图形化的管理系统, 完成企业存储网络的管理 ESN Manager 软件则主要完成 SAN 交换管理 136

138 CA SAN 解决方案 2001 年 8 月,CA 公司在京推出其端到端的集成化跨平台存储解决方案 BrightStor 中的第一款产品 CA BrightStor Enterprise Backup 它是一款多平台备份和灾难恢复解决方案, 可对数据进行快速可靠的恢复, 最大限度缩短系统的停机时间, 还能对各种应用和数据实现不间断保护 ; 并可实现集中监控和管理, 管理人员只需通过一个控制台即可监控所有备份和恢复同时其扩展性强, 可提供大量的选件, 支持广泛的应用平台和大型存储系统以及大容量的索引数据库, 还易于安装与配置此后不久,CA 公司又发布了 BrightStor CA-Vtape Virtual Tape System(VTS) 2.0 版它能帮助客户在现有基础上建立一个虚拟的磁带系统, 通过把大量文件堆栈到每个磁带中, 解决磁带利用率不高的问题企业采用新版本 CA-Vtape 后, 可以把存储在虚拟空间中的数据压缩到 DASD 高速缓存中, 使数据存储量增加 1 倍 Veritas SAN 解决方案 Veritas 公司提供的 Cluster Server(VCS) 和高性能的 File System 等为 SAN 环境下的解决方案真正铺平了道路目前,VCS 支持 32 台服务器的互联和无限容量的存储管理, 具有高可扩展性, 还支持多种主机系统平台和磁盘系统以及多种企业级应用, 而配置和管理非常简单, 可以实现应用级的服务器高性能切换通过与 Volume Manager 结合,VCS 可让用户的数据以一种最快捷的方式分布到多个磁盘上面, 使应用系统在相当高效的基础上运行 File System 是一个强大的可快速恢复的日志式文件系统, 它提供了关键性应用所需的高性能和易管理性 Volume Manager 为 SAN 环境提供了易于使用的在线磁盘与存储管理工具当系统处于联机状态时, 它提供磁盘使用情况分析 RAID 技术数据镜像和磁盘存储区的动态配置, 确保数据的可用性易用性和保护性 Legato SAN 解决方案 Legato SAN 解决方案的基本产品模块包括 Networker Power Edition Legato Networker Power Edition Storage Nodes 和 Legato SmartMedia/Alphastor 其主要特点如下: 降低对服务器和网络的影响 ; Legato Networker 备份速度可达每小时 1.5TB; 单个 Legato Networker Server 可集中控制 256 个 Networker Storage Nodes; 支持异构平台的协同运作, 数据备份和 137

139 恢复可跨越 Windows NT 和各种 Unix 平台, 并支持市场上所有的文件系统和卷管理器 ; 可实现磁带库和驱动器的共享访问 ; 此外,Legato Celestra 的 Serverless 技术可确保终端数据与应用程序的可用性, 无须备份窗口便可实现故障自动修复 ; 同时采用先进的 Snapshot( 快照 ) 技术, 还可实现在线备份 10.3 移动业务逻辑独立的存储系统点该客户类型的数据特征是 : 主要具有本质上物理集中逻辑上又彼此独立的数据管理特预先分析用户状况按照移动公司系统建设要求, 某省业务运营支撑系统不只是局限于原先计费结算营业和账务系统, 而是将其扩展到与业务市场相关的客服决策支持和用户数据管理等方面, 用户原有的系统业务处理的结构无法满足未来 BOSS 系统全网的扩展, 因此有必要对该结构进行重新设计, 尤其是存储结构需求分析 BOSS 系统对存储资源的需求往往是一个动态的过程由于用户业务是不断迅速增长的, 对磁盘阵列在线存储的需求无法准确预测, 用户不可能事先对所有不同类型的业务种类都分配永远足够的磁盘容量, 这样就要求不仅能够在线动态分配存储, 而且能够在线进行整个磁盘阵列的容量扩展具体来讲, 有如下需求可提供不小于 4.5TB 存储空间可连接不少于 11 台业务服务器存储设备组件故障冗余, 对共享的数据存储设备提供统一的 RAID 保护 ; 同时通过多通道技术和 Hot Spare 技术实现组件故障冗余 ; 支持群集管理, 提供群集环境中各业务服务器的数据存储资源共享 ; 具备远程存储, 借助特殊的连接设备实现服务器与存储设备的远程连接 ; 提供数据高吞吐率和设备连接性 138

10.3.2 系统设计如图 10-5 所示, 省移动 BOSS 系统是由多台小型机组成处理系统, 组成 N+1 模式的群集结构, 其中 6 台主机主生产机,1 台主机为备用机日常业务的处理由前 6 台主机完成, 备用主机只在前 6 台主机中的 1 台出现异常宕机时接管主机图 10-5 系统结构图此 BOSS 系统可通过增加数据库主机数目磁盘阵列存储空间等手段进行扩展,

140 系统设计如图 10-5 所示, 省移动 BOSS 系统是由多台小型机组成处理系统, 组成 N+1 模式的群集结构, 其中 6 台主机主生产机,1 台主机为备用机日常业务的处理由前 6 台主机完成, 备用主机只在前 6 台主机中的 1 台出现异常宕机时接管主机图 10-5 系统结构图此 BOSS 系统可通过增加数据库主机数目磁盘阵列存储空间等手段进行扩展, 并通过将原服务器上的某部分数据分离出来, 进行业务的均衡, 以达到扩容目的, 从而保证 BOSS 系统的平滑升级此方案主要采用了 HP 公司和 Borcade 公司 SAN 环境下按需求分配磁盘存储资源的解决方案其中, 采用了磁盘阵列容量为 9TB 的 HP SureStore XP512, 并采用 RAID0+1 方式实现磁盘阵列数据的保护 ; 同时采用了实现磁盘阵列与服务器连接的 Borcade 公司 Silkworm 2800 光纤通道交换机 ; 还采用了可实现业务数据 LANfree 备份管理的 StorageTek 公司的 Aegis L700 磁带库系统在决策支持系统中, 数据衍生速度是惊人的这就要求存储系统在具有高度稳定性和高 139

141 性能的同时, 必须具有极强的扩展性也就是说, 不仅要考虑单个存储设备的容量上限, 更要考虑整体结构的扩展性, 即光纤交换设备的扩展能力可选的解决方案 HP SAN 解决方案 HP ESAM 体系结构包括 SureGear Hardware SAN Software SureSpan Fabric SureGuide Services 和 SureDesign Solutions 其中, SureGear Hardware 包括 SureStore SC10/FC10/FC60/XP48/XP512 VA7100/VA7400 和 SureStore Tape Library 2/20 4/40 6/60 6/140 10/180 及 20/700, 特别是 VA7100/VA7400, 都是端到端的光纤通道磁盘阵列, 分别拥有 900/1600Mbps 的性能, 高速缓存能提供 12/27KB IOPS, 磁盘后端可提供 3000/7500 IOPS HP SureStore XP512 为 OLTP 应用提供了很好的顺序 I/O 传输性能, 可在不停机的情况下从 4 个磁盘驱动器扩展到 512 个磁盘驱动器, 还能跨越多个大型主机和混合的其他开放系统的平台 SAN Software 是指 Openview SAN, 它具有自动发现拓扑结构图性能监控通过中央控制台对存储容量进行评估和管理等特性 SureSpan Fabric 主要包括 SureStore Hub L10/S10 Brocade SilkWorm 2400/2800 Qlogin SANbox 8/16 SureStore SCSI Bridge FC4/2 和 SureStore Bridge FC4/1 HV 与 FC2/1 LV 等 SureGuide Services 主要包括项目管理业务流程和商业运作咨询等等其特点是 : 大而全, 兼容性强, 高端阵列产品表现出色, 全线产品性能好 Sun SAN 解决方案 Sun 最新推出的 SAN 解决方案将 Sun StorEdge T3 的模块可扩展性和 Sun StorEdge 网络光纤交换机系列的性能和高可用性结合起来, 是工作组企业数据中心以及端到端 SAN 解决方案发布的理想选择该解决方案具有以下一些特点 : 具有大容量的可扩展性, 满足客户不断增长的存储需求 ; 无论本地或远程存储与备份, 均可通过单独的控制台进行方便地管理 ; 具有很强的互操作性, 支持多种操作平台 ; 提供安全的容错掉电冗余和 327GB~169TB 的容量 ; 内含 Sun StorEdge 软件管理工具其特点是 : 易安装和管理, 投资低, 运效高 140

142 Brocade SAN 解决方案 Brocade 开发的智能 Fabric 服务体系结构为解决重要的 SAN 需求提供了强大而灵活的框架智能 Fabric 服务的关键元是 SilkWorm 系列光纤通道交换机和相关的 Fabric OS 软件平台 SilkWorm 光纤交换机产品系列包括由低至 8 端口的入门级交换机乃至可提供多达 128 端口连接的 SilkWorm 核心光纤交换机 SilkWorm 支持 2Gbps 光纤通道模块和新兴的存储协议, 还支持可实现存储虚拟化和第三方拷贝等高性能光纤服务的应用软件平台另外,Fabric OS 可与硬件结合, 实现支持高冗余网络, 且在设备之间有多条路径它包含一组用于提升管理能力可用性及扩充能力的重要光纤服务 Brocade SilkWorm 交换机可配合其他主流存储硬件和服务器使用, 令用户能选择最佳的开放式系统环境其特点是 : 具有开放性灵活性可扩展性和智能性 10.4 不成功的 SAN 应用网站 SAN 存储系统环境 : 网络系统由 Web 系统 Mail 系统和数据库系统 3 部分组成 Web 系统以 Windows 平台为主,Mail 系统以 Linux 平台为主存储系统解决方案 : 以 SAN 结构实现数据的集中和分散数据的 LAN Free 备份分析隐患 : 由于网站各系统主机平台多种多样, 为了保护数据必须在 SAN 中实现 LUN 隔离功能为了节约成本, 方案中没有选择具有 LUN Masking 功能的磁盘阵列系统, 而是通过主机端光纤卡中的设置, 手工实现 LUN 的屏蔽同时, 光纤交换设备也采用了成本较低的光纤 Hub, 而不是具有光纤交换机制的光纤交换机经过复杂的设计和配置, 磁盘阵列终于可以被主机识别和访问了, 网站就此开通问题 : 当将备份磁带库接入系统时, 问题产生了首先是由于系统结构的变动, 主机端的手工配置需要完全重新来过 ; 继而又发现磁带库的光纤接口类型与主机端的光纤卡无法匹配 ; 然后是光纤 Hub 无法将磁带库与磁盘阵列的数据分流, 致使系统对磁带库操作时磁盘阵列不可用 141

143 随着这一系列问题的出现, 网站最终决定追加投资, 将系统全面升级但是, 整个网站在此半个月期间不能对用户提供及时有效的服务, 其损失是难以估量的某气象单位存储系统环境 : 主要是卫星气象数据的采集和处理主机系统为 IBM SP 并行机, 数据库为 Oracle 存储系统解决方案 : 主要采用了 IBM 7133 磁盘阵列问题 : 系统在建成并运行了一段时间之后, 经历了一次意外断电结果 Oracle 数据库无法对数据进行恢复, 致使长达数月的气象数据丢失分析隐患 : 事后的调查分析发现, 问题出在 IBM 7133 磁盘阵列由于 IBM 7133 的磁盘数据容错校验并不是硬件实现的, 所以主机端磁盘管理软件的逻辑错误会造成整个磁盘阵列系统的数据不可用即使设法恢复出主机端的磁盘配置方式, 但由于 IBM 7133 的缓存是基于电池保护的, 当意外断电恰巧发生在电池电量不足时, 会造成对磁盘阵列系统内部数据完整性的破坏, 数据仍然无法恢复 IBM 7133 属于部门级产品, 在很多环境中都能表现出突出的性能优势但是在本案例中, 对数据安全性的要求是第一位的, 另外在主机系统方面采用了仅次于 IBM S/390 的大型服务器, 可见该系统对安全要求之苛刻, 因此在投资方面可以采用更高价的高端存储设备某电视台非线性编辑系统该系统环境及系统结构如下 : 5 台以 Windows NT Workstation 为操作系统的非线性编辑工作站, 通过光纤交换机共享连接硬盘塔需要解决的问题是 : 硬盘塔在存储业内也称 JBOD, 即没有阵列控制器的磁盘组由于硬盘塔交换机和主机光纤卡之间配合的问题, 系统连接后, 主机端总是无法稳定地访问到磁盘, 因此系统不能正常工作分析隐患 : 经过仔细检查发现, 问题出在交换机的内部交换机制是过多的地址转换造成了主机端的超时报错解决的办法有二, 一是增加投资, 将硬盘塔换成带有控制器的磁盘阵列 ; 二是减少投资, 将光纤交换机换成光纤 Hub 在系统性能和并行性压力不强的情况下, 最后决定采取第二种解决办法, 不仅节省了资金, 而且保证了系统的稳定性 142

144 当然, 如果该系统的性能和并行性要求较高的话, 还是应该采取第一种解决办法因为光纤 Hub 是共享带宽的交换方式, 而且不支持 LIP 的隔离第十一章数据中心设计 11.1 概述条件 : 数据中心形式的信息数据库建设用户是用户生产信息通信网络的核心和枢纽, 也是用户生产数据中心按照用户工作职能的划分, 数据中心形式的信息数据库建设用户将承担网络运行系统运行数据整合信息服务安全保障和应用开发等任务, 其运行维护质量与工作水平将直接关系到数据生产系统所建的信息数据库和各类应用系统能否充分发挥应用效益, 以及生产信息网络和应用系统能否安全高效地运行根据数据生产系统本次建设任务要求, 数据中心形式的信息数据库建设要建设和完善多个基础性共享性数据库和多个重点应用系统按照生产部下达的建设任务书要求, 现有多数服务器的配置已不能满足运行要求, 有关业务部门在制定系统建设方案时都考虑重新配置更高性能的服务器和存储设备, 这样分散的设备建设将带来很多弊端 : 机房电源备份系统的重复建设, 服务器及存储设备利用率不高, 运行管理人员分散等, 势必造成经费重复投入, 维护成本增加, 不利于资源的整合和综合利用为此, 按照集中整合和资源共享的原则, 在数据中心形式的信息数据库建设用户统一构建集中式的计算机应用系统数据运行设备平台, 在满足业务信息系统建设和运行要求的同时, 实现用户服务器和存储设备资源的集约化管理, 提高设备资源的综合利用和运行管理水平, 增强系统和数据的安全性 11.2 需求分析和设计目标系统现状数据中心形式的信息数据库是用户生产信息通信网络的核心和枢纽, 也是用户生产数 143

145 据中心按照用户工作职能的划分, 数据中心形式的信息数据库建设用户将承担网络运行系统运行数据整合信息服务安全保障和应用开发等任务, 其运行维护质量与工作水平将直接关系到数据生产系统所建的信息数据库和各类应用系统能否充分发挥应用效益, 以及生产信息网络和应用系统能否安全高效地运行根据数据生产系统本次建设任务要求, 数据中心形式的信息数据库建设要建设和完善多个基础性共享性数据库和多个重点应用系统按照集中整合和资源共享的原则, 在数据中心形式的信息数据库建设用户统一构建集中式的计算机应用系统数据运行设备平台, 在满足业务信息系统建设和运行要求的同时, 实现用户服务器和存储设备资源的集约化管理, 提高设备资源的综合利用和运行管理水平, 增强系统和数据的安全性随着多个数据库和多个应用系统的建成并投入运行, 数据中心形式的信息数据库建设的信息存储量和查询量必将急剧上升, 业务量也将快速增长, 亟待按照技术先进性能优越存储量大安全稳定扩展灵活的要求, 建设基于多层应用体系架构的集中运行平台, 为数据中心形式的信息数据库建设数据库和应用系统的集中运行提供支撑, 满足数据中心形式的信息数据库建设建设多个数据库和多个应用系统的需要, 实现数据和设备的高度共享, 提供有力的信息支持和服务系统现有问题假设在此设定, 数据中心形式的信息数据库建设用户的软硬件平台目前主要存在以下问题 : 1 硬件处理能力低, 设备老化, 维护成本数据风险增大数据中心形式的信息数据库建设用户目前配备的 PC 服务器已使用多年,Unix 服务器系统配置较低这些服务器性能不高, 不能满足日益增长的业务应用需要 2 没有采用先进的多层架构, 无法实现统一管理和资源共享, 资源利用率低, 管理复杂, 扩展性不强由于受管理体制机制和经费的制约, 数据中心形式的信息数据库建设用户设备资源需求规划不足至目前为止, 数据中心形式的信息数据库建设用户都是根据应用系统建设的需要, 单独为某个应用系统配置相应的运行设备, 导致数据中心形式的信息数据库建设用户各个设备自成体系独立运行, 没有整合成多层架构体系, 无法有效地扩展系统资源使得各个应用系统无法按照需求动态占用设备资源, 一方面硬件资源严重短缺, 另一方面部分设备资源闲置无法共享, 不能适应动态调整的要求 3 数据中心形式的信息数据库建设用户目前的设备资源不能满足数据生产系统数据库和应用系统的建设需求设计方案数据生产系统将在 2 年内建设多个应用系统和 144

多个数据库, 即使将目前的硬件资源进行整合和优化, 也无法满足建设需求据统计, 目前数据中心形式的信息数据库建设存储的各类信息数据约为 4TB,2 年后将达到 20TB 的存储容量, 而数据中心形式的信息数据库建设用户现有的可用存储空间已远远达不到要求 ; 而数据库服务器的处理能力将大于 500,000 tpmc, 现有数据库服务器的处理能力离这一指标要求相去甚远 4 系统抗灾能力不足

146 多个数据库, 即使将目前的硬件资源进行整合和优化, 也无法满足建设需求据统计, 目前数据中心形式的信息数据库建设存储的各类信息数据约为 4TB,2 年后将达到 20TB 的存储容量, 而数据中心形式的信息数据库建设用户现有的可用存储空间已远远达不到要求 ; 而数据库服务器的处理能力将大于 500,000 tpmc, 现有数据库服务器的处理能力离这一指标要求相去甚远 4 系统抗灾能力不足一方面由于各应用系统分布在各自独立的设备上运行, 且各个设备对可靠性考虑不足, 缺乏必要的冗余备份手段, 数据缺少高可靠的存储阵列和容错策略予以保护, 数据备份能力不足一旦出现严重故障导致数据损失必然导致系统瘫痪, 即使能通过脱机备份数据恢复, 也必将长时间影响应用系统的正常运转系统总体架构要求根据设计, 按照设备集中集约管理满足应用方便扩展安全稳定的要求, 今后数据中心形式的信息数据库建设用户建设的发展方向是按照先进计算机应用模式建立多层体系结构 (N-Tier) 的数据中心数据中心的逻辑结构如下图所示图 11-1 数据中心逻辑图多层体系结构核心应用层组件包括客户层应用 /WEB 服务器层和数据库服务器层和存储备份层客户层 : 客户层是消耗应用数据的层通常指 Web 浏览器但多层结构 (N-Tier) 145

147 也能支持诸如手机掌上电脑等其它非浏览器应用 /WEB 服务器层 : 应用 /WEB 服务器层由应用服务器器和 Web 服务器组成应用服务器层提供应用的业务逻辑处理应用逻辑服务器检索并处理来自数据库生产业务系统等应用的数据, 然后向 Web 服务器返回格式化的结果通过采用中间件技术 (Websphere WebLogic MQ) 可实现应用逻辑服务器的高可用性及可伸缩性数据库服务器层 : 数据库服务器层是一个中心存储库, 是业务应用系统中所有数据资源的管理中心提供包括关系型数据库系统 ( 如 Oracle,Sybase,DB2 等 ) 服务和数据仓库 ( 如多维数据库等 ) 服务存储与备份层 : 存储与备份层由磁盘存储阵列和备份软件和备份磁带库组成, 提供数据存储和数据备份数据恢复服务功能系统建设目标根据设计规划, 按照设备集中集约管理满足应用方便扩展安全稳定的建设要求, 遵循高起点高标准高质量的建设原则, 立足当前, 着眼发展 ; 在数据中心形式的信息数据库建设用户构建统一的集中运行平台, 建立开放式多层架构体系, 优化整合现有设备资源, 为数据中心形式的信息数据库建设数据库和应用系统建设提供统一的运行环境, 并实施系统资源的统一管理和维护 ; 提高硬件设备的集约化管理水平和可扩展能力, 增强应用系统和数据的运行效率和管理水平, 降低各类应用系统建设成本, 满足数据中心形式的信息数据库建设数据库和应用系统的建设需要 ; 为数据中心形式的信息数据库建设开展应用系统建设信息数据集中整合方便信息分析研判以及信息化建设的健康持续发展奠定良好的硬件设施基础系统建设任务构建专用存储系统, 集中存储数据在多层体系架构中, 采用存储区域网络技术, 构建专用大容量存储系统, 通过区域划分满足各类信息数据的集中存储, 保证存储系统信息存储的灵活性和可扩展性构建统一的数据库集中运行平台, 提高数据处理能力 146

148 按照运行可靠性能优良满足应用的要求, 在多层体系架构中, 建设小型机集群系统, 采用并行运行和互为备份的集群技术, 保证小型机高效和不间断运行同时, 通过小型机分区技术, 在小型机上构建不同应用数据库 ( 统一采用 Oracle 数据库 ) 的运行区域, 满足不同应用数据库系统的运行需要, 使各类应用数据库既集中又相对独立地运行, 以降低不同数据库之间相互影响, 提高数据库处理能力建立多种系统应用平台, 提高集中运行平台的适应性按照各类应用系统所需的不同系统运行环境, 在多层体系架构中, 建立与之相适应的多种系统运行平台, 提供 Unix Windows 或 Linux 操作系统平台上应用服务和 Web 浏览等应用通过共享统一的存储系统, 建立如 SQL Server 等其他主流数据库运行平台, 提供数据库服务为有关部门的不同应用系统提供相应的运行环境整合优化现有计算机设备资源, 提高集中管理和应用水平根据系统建设的整体框架要求, 按照数据集中整合和应用的需要, 对用户现有计算机设备资源进行调整, 纳入统一集中运行管理框架的多层体系架构中同时, 按照设备集中管理的要求, 在数据中心形式的信息数据库建设集中计算机房建成后, 将用户各类服务器及相关设备集中起来, 根据不同应用的要求进行整合优化, 实行统一的运行和管理扩展数据备份系统, 提高系统可靠性数据中心形式的信息数据库建设数据库其它应用数据库以及衍生的整合分析数据资源是生产机关极其宝贵的重要资源, 必须做到安全上的万无一失, 并且各类应用系统要求 7 24 小时 365 天不间断运行, 要求基于多层体系架构的集中运行平台有多层面的系统可靠性保障集中运行平台中, 所有层面要建立相应的容错机制, 确保设备发生故障或升级维护时系统服务不中断 ; 设备自身必须具备容错能力, 尽可能在设备一级就能屏蔽大多数故障此外, 构建存储系统的快照复制和磁带备份系统, 包含专业的数据备份系统备份管理策略与手段, 通过在现有备份系统基础上进行扩展, 实现信息数据的快速备份和统一的常规备份以及高效的数据恢复, 使集中运行平台具备高效全面备份数据的能力, 保证信息数据的安全可靠建立集中运行管理机制, 实现设备和系统资源的统一管理按照计算机应用系统和数据集中运行的要求, 建立设备和系统的集中运行管理机制, 实 147

149 现对集中设备和系统的性能监控配置优化和维护服务的统一运行管理, 确保设备和系统的高效可靠和安全地运行, 提高对设备和系统的运行管理水平 11.3 系统设计原则数据中心形式的信息数据库建设用户集中运行平台多层架构体系建设必须既满足当前的应用需求, 又面向未来业务和技术的发展要求集中运行平台的建设遵循以下原则 : 1 实用性和先进性采用成熟稳定完善的产品和技术, 满足当前应用需求尽可能采用先进的计算机及网络技术以适应更高的数据处理要求, 使整个集中运行平台在一定时期内保持技术上的先进性, 并具有良好的扩展潜力, 以适应未来应用的发展和技术升级的需要 2 高性能和高负载能力数据中心形式的信息数据库建设用户集中运行平台必须能够承载较大的系统和应用运行负载, 提供高性能的数据处理和应用响应能力, 确保各类应用系统和数据库的高效运行 3 安全性和可靠性为保证业务应用不间断运行, 数据中心形式的信息数据库建设用户集中运行平台必须具有极高的安全性和可靠性对系统结构网络系统服务器系统存储系统备份系统等方面须进行高安全性和可靠性设计系统达到 C2 级以上标准安全级别, 具有一定的防病毒防入侵能力在采用硬件备份冗余负载均衡等可靠性技术的基础上, 采用相关的软件技术提供较强的管理机制和控制手段, 以提高整个系统的安全可靠性 4 灵活性与可扩展性数据中心形式的信息数据库建设用户集中运行平台要能够根据生产信息化不断发展的需要, 方便地扩展系统容量和处理能力, 具备支持多种应用的能力同时可以根据应用发展的需要进行灵活快速的调整, 实现信息应用的快速部署 5 开放性和标准化数据中心形式的信息数据库建设用户集中运行平台要具备较好的开放性, 相关系统和设备应是业界主流产品, 遵循业界相关标准, 保证数据中心形式的信息数据库建设选用的主流 148

150 系统和设备能够随时无障碍地接入集中运行平台, 实现系统和数据的集中运行和统一维护管理 6 经济性与投资保护应以较高的性能价格比构建数据中心形式的信息数据库建设集中运行平台, 使资金的产出投入比达到最大值以较低的成本较少的人员投入来维护系统运转, 达到高效能与高效益的要求尽可能保护已有系统投资, 充分利用现有设备资源 7 集中运行和逐步过度数据库和应用系统建设采用集中运行和逐步过度相结合的原则新的应用要直接部署在新建的集中运行平台上运行, 现有应用及硬件资源将根据需要和可能分期分批逐步融入集中运行平台, 进行统一的管理和资源配置 149

11.4 系统方案设计 11.4.1 系统总体结构图根据数据中心形式的信息数据库建设需求分析, 系统总体结构 ( 图 11-2) 描述如下 : 本项目的存储网络架构图, 通过 SAN 能够将多种数据应用全面整合起来, 其中后端的阵列是整个系统的核心, 所有的业务数据都存在该阵列中, 因此阵列本身需要完全冗余架构和极高的吞吐性能 ;SAN 网络采用 dual Fabric

151 11.4 系统方案设计系统总体结构图根据数据中心形式的信息数据库建设需求分析, 系统总体结构 ( 图 11-2) 描述如下 : 本项目的存储网络架构图, 通过 SAN 能够将多种数据应用全面整合起来, 其中后端的阵列是整个系统的核心, 所有的业务数据都存在该阵列中, 因此阵列本身需要完全冗余架构和极高的吞吐性能 ;SAN 网络采用 dual Fabric 设计, 采用两台交换机构成冗余的存储网络 ; 每台主机 ( 关键业务 ) 可以采用两块 ( 甚至更多 )HBA 跨接到两台 SAN 交换机上, 做的主机到存储接口冗余 ; 主机层采用 HA 配置, 因此整个系统是高效而全冗余的同时也能够平滑过渡到下阶段的容灾系统图 11-2 数据中心建设概况备份系统也跨接到 SAN 网络上, 这样所有的备份工作可以大大减轻对于生产网络的影 150

152 pseries pseries 响, 主机直接通过 SAN 将数据读出并写到带库, 完全采用 FC/SCSI 协议在上述架构中, 后端的磁盘阵列采用高性能磁盘阵列, 作为综合存储磁盘阵列该磁盘阵列代表当时行业的最佳性能 100% 数据可用性, 以及功能丰富的管理软件数据库服务器设计数据库系统结构数据库服务平台主要采用动态分区多机集群并行数据库等技术, 实现多台数据库主机同时并行访问数据库, 应用可以根据需求均衡到不同主机资源上同时工作, 多机互为备份这种机制依靠系统提供的系统硬件操作系统集群软件与数据库提供的并行技术来满足要求数据库支持数据分区技术, 通过数据库分区技术提高查询效率同时, 与数据库服务平台相配合, 采用专用数据采集处理服务器, 负责数据采集工作, 各数据库的数据采取分别汇集, 单点入库的数据更新策略数据库服务器系统图如下 : 综合数据库心跳线综合数据库违法犯罪人员信息数据库在逃人员信息数据库被盗抢机动车信息数据库刑事案件信息数据库经济犯罪案件信息数据库警员基本信息数据库民警违法违纪案件信息数据库基层执法管理信息数据库其他重点应用系统数据库心跳线违法犯罪人员信息数据库在逃人员信息数据库被盗抢机动车信息数据库刑事案件信息数据库经济犯罪案件信息数据库警员基本信息数据库民警违法违纪案件信息数据库基层执法管理信息数据库其他重点应用系统数据库每台 IBM P690 划分成 2 个分区, 每个分区配置 8 路 1.7GHz CPU 16GB 内存 2 块千兆光纤网卡 2 块转 73G 硬盘 2 块 2GB 光纤通道卡对应分区通过 IBM HACMP 软件实现群集 IBM P690 IBM P690 SAN 图 11-3 数据服务器示意图, 以 IBM 产品为例数据库服务器选用高性能 UNIX 服务器, 每台高性能 UNIX 服务器划分成 2 个分 151

153 区每个分区配置 8 路 1.7GHz CPU 16GB 内存 2 块千兆光纤网卡 2 块转 73G 硬盘 2 块 2GB 光纤通道卡对应分区通过 HACMP 软件实现群集根据设计要求当前配置 tpmc =(TPMC 基准值* 实际 CPU 数目* 实际 CPU 主频)/ (基准 CPU 数目*基准 CPU 主频) (768,839*16*1.7)/(32*1.7)=384,420tpmC 数据来源存储系统设计存储系统结构 Brocade Silkworm 3852 Brocade Silkworm 3852 Adaptec FS4500 近线备份系统 HDS Lighting 9980V 图 11-4 网络存储结构图上图为数据存储部分的系统架构示意图整体架构采用 SAN-存储局域网的架构搭建分为主机交换机和存储设备三个层面 1 主机层面前端服务器每台通过两块光纤卡以下简称 HBA 卡跨接到两台光纤交换机上构成冗余链路 152

154 2 光纤交换机利用两台 16 口光纤交换机作为 SAN 的骨干设备, 连接主机和存储设备 ; 3 存储设备主存储设备 : 核心磁盘阵列存储所有系统的数据该磁盘阵列通过 1 对 (2 块 ) 接口卡分别跨接到两台光纤交换机上, 构成冗余链路近线存储设备 : 近线备份目标磁盘阵列使用采用 STAT 磁盘的廉价磁盘阵列, 离线备份目标带库采用设计方案已有的带库主存储系统方案目前存储区域网 (SAN) 是解决海量存储问题的主流解决方案, 也是本项目建设要求的解决方案, 同时也支持 NAS 方式数据中心形式的信息数据库建设数据库及其应用系统相关的数据库即将统一存储到大容量高性能的存储设备上, 存储设备与主机群之间通过 SAN 光纤交换机互联 ( 具有冗余联接 ), 同时数据备份设备也通过光纤交换机联接以提高备份效率, 减轻网络和主机的压力在本方案中, 存储工程师使用高档全光纤磁盘阵列为主存储系统, 从用户的投资需求综合分析, 推荐了极佳的性能价格比的产品, 用户可以根据性能要求扩展性要求价格需求等因素来选择根据数据中心形式的信息数据库建设该设计的需求, 为了提高主磁盘阵列的性能, 在该设计中推荐配备 15000RPM 的 73GB 磁盘磁盘阵列在各方面均应充分扩展, 并能够充分满足今后业务发展过程中数据迁移系统容灾的要求 : 1) 硬件方面所有重要部分均应在线扩容前端接口磁盘控制卡缓存磁盘等 2) 软件方面可选择不同的软件实现性能优化数据迁移和数据容灾等 : 153

155 管理软件安全控制软件数据缓存化软件性能管理套件本地镜像软件容灾软件多链路负载均衡和故障切换软件 3) 所有维护和扩容均应在用户现场不中断应用的情况下完成近线备份系统传统的数据存储一般分为在线 (On-line) 存储及离线 (Off-line) 存储两级存储方式所谓在线存储就是指将数据存放在磁盘系统上, 而离线则是指将数据备份到磁带上硬盘的优点是速度快, 特别是随机访问能力强, 但单位容量成本高, 适合需要频繁访问的数据存储 ; 磁带善于传输流式数据, 介质与驱动器相分离的特性决定了其单位容量成本低廉, 保存数据的安全性也较高, 适合数据备份但随着数据量的猛增, 这种只使用在线和离线两级存储的策略已经不能适应企业的需求一方面, 用户有越来越多的数据在一定时期内仍需要访问, 如果备份到磁带上, 则读取的速度太慢, 而保持在线状态, 又会因访问频度不高而占用宝贵的存储空间 ; 另一方面, 用户要求备份窗口越来越小, 备份设备要具有更快的速度, 以缩短备份时间, 而带基设备与盘基设备相比还不够快由此产生了数据的分级存储管理 (HierarchicalStorageManagement,HSM) 分级存储管理是一种将非在线存储与在线存储融合的技术它以数据生命周期的不同阶段来决定存储的位置, 从而在在线存储与离线存储之间诞生了第三种存储方式近线 (Near-line) 存储, 使存储网络从在线 - 离线的两级架构向在线 - 近线 - 离线的三级架构演变近线存储的特点是性能接近在线存储, 而成本接近离线存储 154

156 根据大型信息数据库存储系统分析结果, 存储容量约为 16TB, 考虑适当冗余和快照备份, 存储阵列实配容量应大于 20TB, 存储阵列最大扩展容量应不低于 64TB 基于存储区域网技术, 满足数据中心形式的信息数据库建设数据库和应用系统相关数据库, 以及运行于其上的业务系统查询系统数据分析系统的要求, 必须增强数据存储核心, 选择高性能存储阵列,LUN 数量应 2048, 系统 IOPS ( 吞吐量大于 1540 M/S) 其基本性能需求分析如下 : 1 在存储系统中, 处理器主要完成 I/O 处理 Cache 控制管理数据传输控制以及一些智能化的软件运行功能, 处理器的能力直接影响到整个存储系统的性能考虑到不同厂商存储所采用的 CPU 性能差异较大主处理器所承担的任务也有所区别, 应在给出实际处理器配置数量的同时给出性能指标承载任务分析,CPU 实配数量不低于 16 个 2 磁盘本身性能也决定存储系统整体性能, 通常磁盘性能以转速寻道时间等技术指标衡量, 考虑到性价比, 推荐采用 15K rpm 的磁盘 3 对于数据库等大数据量访问应用, 缓存越大, 性能越好, 本项目实配存储容量应与 Cache 的容量配置成比例配置, 按大于 16GB 考虑, 最大可扩展到 128GB 负载均衡系统设计考虑到系统的高并发访问量和系统应用需求的快速增长, 项目建设明确制定了 Web 服务层应用服务层规划 : 走横向扩容持续发展的道路, 以服务器群交易中间件满足不断增长且趋于复杂化的用户访问请求提高访问处理和响应能力遵循这一规划,Web 信息发布层应用服务层考虑了以下因素 : 1 支持横向扩容的负载均衡器 2 提高系统可靠性的集群或热备技术应用 3 各层服务器本身构架性能配置要满足需求本系统中采用业界领先的全千兆负载均衡解决方案 :( 千兆光纤端口 + 千兆以太网端口 ) 方案中, 可以采用两台 IP 应用交换机 BIGIP 安全流量交换机 6400 作为冗余, 为中间件服务器和应用服务器做负载均衡, 并且 SSL 加速功能所有服务器均配置冗余千兆网卡 155

157 与两台 BIGIP6400 相连, 这样无论是其中的一个服务器网卡故障还是一台 BIGIP6400 故障, 都不影响业务的正常运行图 11-5 负载均衡设计图方案的特色 : 实时监控服务器应用系统的状态, 并智能屏蔽故障应用系统实现多台服务器的负载均衡, 提升系统的可靠性提供服务器在线维护和调试的手段可以对服务器提供流量限制和安全保护 156

158 应用服务器浏览服务器和数据处理前置机设计应用服务器层主要负责业务逻辑处理, 用户请求的连接处理和数据库端或其他应用系统的连接处理, 以及业务处理过程实现用户多层体系结构要求应用服务器与 Web 服务器物理独立, 考虑到应用服务器对处理能力系统稳定性的要求均大大高于数据表现层, 关键应用采用 Unix 服务器, 其他应用可考虑刀片式微机服务器, 建立多机集群环境本方案中间一的应用服务器采用中档 UNIX 服务器, 实配单台处理能力不低于 70000tpmC, 中档 UNIX 服务器采用 4 路 1.45GHz CPU( 可扩 8 路 ),8GB 内存 ( 可扩 64GB),73G 硬盘 2 块,4 块千兆光纤网卡浏览服务器群和数据处理前置机采用工业级刀片服务器, 每台配置 2 路 Xeon MP2.7GHz CPU( 可扩 4 路 ),8GB 内存,2 块 73GB 硬盘,2 块 2GB 千兆光纤通道卡系统架构中该层面应不少于 2 台小型机,4 台微机服务器, 以满足峰值下信息访问的需求 157

159 第十二章海量存储系统设计以传统的方式存储和管理日益增长的数据, 意味着你需要不断地增加磁盘, 投入更多的人力与物力, 导致成本上升以优秀的分级存储软件和自动磁带库系统, 即可以轻松实现海量数据存储 12.1 海量数据存储系统架构方案考虑到海量存储系统是 IT 构架的核心模块, 这里存储网络架构采用双 Fabric 网络结构, 这种结构一方面带来了高可用性, 另一方面提供了更多的数据通信带宽下面是海量存储系统的双 Fabric 网络结构图 : 图 12-1 双光纤通道结构其中网络核心采用 director 级别的核心光纤通道交换机 1 台 ( 端口数 >=128), 通过在其内部划分虚拟 SAN 分别构成两个独立的 fabric; 为保证高可靠性和提高系统的运行速度, 存储工程师在各服务器群的每台主机上都通过两个 HBA 连接到不同的 Fabric 网络中, 而且 158

160 存储设备 ( 磁盘阵列和磁带库 ) 也是同时接入两个 fabric, 这样构成了一个无单点故障的网络系统双 Fabric 存储网络设计要点和优势 : 主机和存储设备的冗余连接, 整体提高系统的可靠性主机和存储设备的双路连接, 工作在 Active-Active 模式, 整体提高系统的性能双网络结构设计, 提高网络的可靠性, 避免由于意外系统故障造成网络中断双网络结构设计, 核心 - 边缘体系架构, 方便未来网络的扩充交换机具有很强的向下兼容性, 即可兼容 1G 的交换机, 又可兼容 1G 的存储设备, 如磁带库等设备都可直接连接到交换机中, 提高设备的利用率可做 LAN-Free 备份, 减少备份对网络带宽的占用, 整体提高数据备份和恢复的速度有利于系统的在线维护和扩展, 而不影响系统的正常运行采用硬件实现的网络安全性管理, 保证数据的安全性与外部存储网络的互联方案外部存储网络的接入是为了更好的提供基于数据复制 ( 异步或同步 ) 的容灾服务本着为客户各部门不同容灾需求服务的原则, 这里存储工程师设计了采用三种形式的存储网络外部互联方案, 即 : FCIP 接入方案 DWDM 接入方案 SDH 接入方案在 100Km 以内的连接上这三种接入方案的特点如下 : 表 12-1 外部网络存储通道比较 DWDM SDH FCIP 可以满足连接要求, 完全满足性能要求 ; 链路可以复用, 高效率, 高性能, 高成本可以满足连接要求, 在带宽许可的条件下可以满足性能要求, 实现同步数据传输 / 复制可以满足连接要求, 链路带宽由 IP 保证, 一般条件下只能实现异步数据通信无论是内网还是外网及互联网存储网络, 这里在外部接入采用同样的技术和拓扑结构, 只是由于内网的数据量较少, 采用端口数少的 SAN 路由器,SAN 路由器的数量也应当适当 159

161 减少具体拓扑结构如下图所示 : 图 12-2 SAN 及扩展 IP 网络连接注 : 为了清晰明了的原则, 这里将服务器和局域网的连接省略如图 12-2,FCIP 接入方案将 SAN 路由器接入核心交换机, 从链路冗余的角度出发,SAN 路由器分别接到不同 fabric 中, 同时 SAN 路由器会接到局域网的千兆交换机上 ; 这样就可以通过 SAN 路由器的 FCIP 功能将 FC 协议转换为 IP 协议, 通过 IP 网络与远端的某部门计算中心的 SAN 路由器互联, 在通过该路由器的协议转换将 FC 协议传输到该部门的 SAN 网络中, 从而将容灾中心和该部门的存储网络互联, 使得两个存储网络中的设备可以实现基于 160

162 FC 的高速数据通信如图,DWDM 接入方案将 SAN 路由器接入核心交换机, 从链路冗余的角度出发,SAN 路由器分别接到不同 fabric 中, 同时 SAN 路由器会接到 DWDM 设备上 ; 这样就可以通过 DWDM 设备的波分复用功能将多条 FC 通信, 通过裸光纤传输到远端的某部门计算中心的 DWDM 设备, 通过它的解复用功能, 再通过 SAN 路由器将容灾中心和该部门的存储网络互联起来, 使得两个存储网络中的设备可以实现基于 FC 的高速数据通信如图,SDH 接入方案与 DWDM 方案类似, 将 SAN 路由器接入核心交换机, 从链路冗余的角度出发,SAN 路由器分别接到不同 fabric 中, 同时 SAN 路由器会接到 SDH 设备上 ; 这样就可以利用 FC over SDH 技术, 通过 SDH 网络将数据传输到远端的某部门计算中心的 SDH 设备, 进而再通过 SAN 路由器将容灾中心和该部门的存储网络互联起来, 使得两个存储网络中的设备可以实现基于 FC 的高速数据通信这里之所以采用 SAN 路由器, 主要是在不同的 fabric 间提供路由服务功能路由服务功能正是可以将不同的 Fabric 网络逻辑地连接在一起, 在不同的 Fabric 网络上共享存储资源, 这一功能可以充分利用分离 Fabric 的种种好处, 提供误隔离和方便管理的能力路由服务可以隔离 SCN 和 RSCN 等功能如在一个 Fabric 中产生的 RSCN, 可以通过路由服务隔离, 不会传到另外一个网络中, 可以避免由于 RSCN 造成的 Fabric Reconfiguration; 另外, 也可以隔离由于设备原因, 造成主机之间的相互影响, 提高系统的运行效率对于远程连接网络, 这一点尤其重要方案中将不同应用的数据备份到容灾中心的磁带库之中, 而又不影响两个系统的相对独立, 所以采用 SAN 路由器将不同的 Fabric 网络互连连接到 SAN 路由器的 Fabric 被称为边缘 Fabric, 由于 SAN 路由器可以有效隔离不同 Fabric 网络之间的相互干扰, 这就允许用户建立更大规模的 SAN 网络, 确保系统具有更为强大的扩展能力通过路由服务, 每个边缘 Fabric 都保留自己独立的 Fabric 服务 : 名称服务器分区数据库路由表域 ID 空间, 等等这就是说, 假如一个 Fabric 有一个域 ID 1 交换机, 另一个 Fabric 也有一个域 ID 1 交换机, 但没有该多协议路由器, 这些 Fabric 就不会合并, 除非这些冲突得到解决在生产环境中, 解决这些冲突是一个非常耗时和危险的过程有了多协议路由器, 这些冲突就成了无关的问题在 SAN 路由器平台上, 其他 Fabric 通过路由功能与路由器相连接这可以防止 WAN 链路上的故障转化为影响整个容灾中心 SAN 或某部门计算中心 SAN 的事故这个优点很重 161

163 要, 因为一般的远距离连接链路 ( 裸光纤 /DWDM/SDH/IP) 的都有一定的不稳定性一条不稳定的远程连接链路可能会干扰数据中心的 SAN 应用, 但是路由器可以将这些干扰与数据中心的 Fabric 隔离开磁盘阵列存储设施海量存储的核心对象是数据, 因此数据的存储设备是海量存储系统的核心设备如前所述, 采用 SAN 网络, 可以将海量存储系统存储的数据实现集中存储, 实现集中存储的存储设备形成存储池本处描述海量存储系统基于磁盘的存储实现根据对该海量存储系统的需的分析, 以及根据按需扩展的原则, 这里初步设定海量存储系统的存储池容量 50T 该容量可以基本满足未来一段时间内的需要, 随着容灾业务的发展, 更多的容量可以通过扩展更多的存储磁盘阵列来实现根据海量存储系统服务用户数量众多, 数据访问 IO 频繁的特点, 选择的磁盘阵列应该具有如下特点 : 1. 应该选择性能较好的光纤磁盘阵列, 保证良好的读写性能和可靠性 2. 磁盘容量应该尽可能的大考虑到主流磁盘阵列的容量经济型以及磁盘阵列的集中管理的便利性, 尽可能采用大容量配置的磁盘阵列机柜目前建议采用磁盘阵列的最大容量大约为 30T 的产品 3. 磁盘阵列应该附带有强大的磁盘管理软件, 实现磁盘阵列的分区访问控制容量扩展等功能 4. 存储设备支持广泛的服务器平台光纤磁盘阵列应该支持目前所有流行的主流 UNIX 和 NT/2000 Linux 操作系统和服务器, 并且应该允许尽可能夺得服务器同时连接到光纤磁盘阵列上 5. 海量的扩展能力可以仅仅通过增加磁盘, 就达实现容量的扩展应该支持不同容量的磁盘混合共存在同一盘阵内, 为用户今后容量的扩展打下基础在实际应用时, 应该留出富裕的盘柜位置, 以便在同一盘柜中较方便地实现扩展 6. 具备强大的数据复制功能光纤磁盘阵列应该支持快速磁盘拷贝远程容灾等先进功能, 为将来功能的进一步扩展打下基础 7. 磁盘阵列支持支持多种 RAID 处理, 和保留 Hot Spare 硬盘的功能 162

164 关于磁盘存储池的设计实现, 以下是一些考虑 : 1. 为了实现海量存储系统内网应用容灾的安全性, 海量存储系统内网的数据存储设备将和其他数据存储设备分开根据内网数据的大小, 可以选择容量小一些的磁盘阵列, 或者减少磁盘阵列柜的数量, 但存储设施的架构基本相同 2. 为了便于管理, 建议先期采用同一厂家和型号的产品 3. 建议先不考虑对存储池做虚拟存储管理因为虚拟存储会影响数据存储的性能, 其优势在于管理众多异构的存储盘柜可以在将来容量快速增长之后, 考虑虚拟存储管理技术的应用 4. 为了便于充分使用, 每个磁盘阵列需要分成不同的卷为了实现不同数据的安全, 可以将不同的卷加入到不同的 SAN 网络的分区中, 实现数据卷的逻辑隔离 5. 考虑到中心需要管理的数据卷较多, 可能需要对用户卷信息进行管理, 如果磁盘阵列附带软件没有设这一功能, 可以通过磁盘阵列管理软件提供的 API 进行开发以上磁盘存储池的设计, 没有考虑为特殊用户提供的磁盘阵列数据镜像 ( 该方案在后面的章节描述 ) 服务存储能力该阵列中的数据, 主要是通过远程备份数据文件复制数据库复制等服务软件, 为用户保存的数据有些部门已经具备某些某种型号的磁盘阵列, 如果实现磁盘阵列级的数据复制和容灾, 往往需要海量存储系统提供同构的磁盘阵列在这种情况下, 本海量存储系统可能需要根据具体方案提供相对应的磁盘阵列对这种海量存储系统需求, 事先采购大量的磁盘阵列是不经济的, 也是没有必要的因此, 对这种需求, 应该在海量存储系统的场地和网络设施基础上, 设计专门的方案, 来实施实现在本方案设计中, 仅仅作为一种扩展考虑, 不作为当前实施实现的一部分, 也不纳入预算根据对用户数据量的分析估算, 建议海量存储系统一期购置的存储设施为 : 1. 内网磁盘阵列容量为 10T, 包括机柜, 机头, 磁盘以及相应高级功能和管理软件 2. 外网磁盘阵列容量为 30T, 包括机柜, 机头, 磁盘以及相应高级功能和管理软件 3. 存储管理服务器, 中端的 PC 服务器即可 163

图 12-3 海量存储系统扩展 12.1.2 磁带存储设施数据备份是海量存储系统的核心业务, 因此数据备份最终存储设备是海量存储系统的核心设备之一如前所述, 采用 SAN 网络, 可以将海量存储系统存储的数据实现集中存储, 实现集中存储的存储设备形成综合存储池本处描述海量存储系统基于磁带的存储实现根据对海量存储系统需求的分析, 以及根据按需扩展的原则,

165 图 12-3 海量存储系统扩展磁带存储设施数据备份是海量存储系统的核心业务, 因此数据备份最终存储设备是海量存储系统的核心设备之一如前所述, 采用 SAN 网络, 可以将海量存储系统存储的数据实现集中存储, 实现集中存储的存储设备形成综合存储池本处描述海量存储系统基于磁带的存储实现根据对海量存储系统需求的分析, 以及根据按需扩展的原则, 海量存储系统的磁带库存储容量按照 100 个单位, 每个单位 600GB 备份量, 备份周期为 1 周,2 周轮换磁带, 至少需要 200GB 磁带 600 盘, 考虑到冗余和其他因素, 初步设计海量存储系统的磁带库存储容量为 1000 盘该容量可以基本满足未来一段时间内备份的需要, 随着容灾业务的发展, 更多的容量可以通过增加扩展柜和磁带槽位, 或采用更多的磁带库来实现根据海量存储系统服务用户数量众多, 数据访问 I/O 频繁的特点, 选择的磁带库应该具 164

166 有如下特点 : 1. 即时按需提供存储空间特性, 使海量存储系统可以立即增添所需要的存储空间, 并只为所需要利用的存储空间付费 2. 成熟的存储网络互操作能力, 意味着无缝集成到新的或现有的 SAN 网络当中 3. 集成的存储网络资源管理, 为用户提供 SAN 设备和网络视图和设备级 SAN 安全控制机制 4. 可以同时装载大量磁带机驱动器, 以获得最高的性能和配置的灵活性 5. 支持 LTO AIT SDLT/DLT8000 和 3590 等磁带机技术, 通过方便的技术迁移和升级途径同时支持混和磁带介质管理和操作 6. 拥有众多高可用性特点, 包括支持热更换电源双磁带库控制器热插拔磁带机驱动器等 7. 拥有每秒钟清点 5 盘以上磁带的高性能机械手 ; 可以快速自动发现新配置自动校准所有部件 8. 智能存储管理工具包含远程监控自动报警和虚拟磁带库等功能关于磁带库的设计实现, 以下是一些考虑 : 1. 为了实现政务内网应用容灾的安全性, 政务内网的数据存储设备将和其他数据存储设备分开根据内网数据的大小, 可以选择容量小一些的磁带库, 或者减少磁带槽位的数量, 但存储设施的架构基本相同 2. 为了便于管理, 建议先期采用同一厂家和型号的产品 3. 建议远程的数据服务首先将数据备份到磁盘阵列上, 再将数据导入磁带库 ; 磁带库除了完成对外服务 ( 如远程备份 ) 外, 需要对内的数据备份提供服务 4. 为了便于充分使用, 每个磁带库可以按需要分成不同的虚拟磁带库 ( 分区 ) 为了实现不同数据的安全, 可以将不同的虚拟磁带库加入到不同的 SAN 网络的分区中, 实现数据逻辑隔离磁带库部署图请参见存储网络设计介质存放设施介质存放设施在海量存储系统中需要保存各种移动数据存储介质, 由于这些介质的数量会随着海量存储系统的运作和时间的推移而变得越来越多, 所以有必要为这些介质设计和建设存放场所和 165

167 空间介质仓库, 一方面便于介质的保护, 一方面便于介质的查找海量存储系统介质仓库的系统功能如下 : 入库管理海量存储系统介质入库的环节尤为重要要求能够按照容灾计划做到即时确认及时补充库管理员根据手中的手持终端 (Handheld Terminal, 简称 HHT), 调用后台资料, 与容灾计划资料进行实时比照, 并可通过终端无线驱动打印机打印对照表 ; 库管理员根据实时对照表, 现场决定介质是否缺失, 通过终端调用后台数据库通知容灾用户, 以最快速度取回需要入库的介质 ; 保证介质库中介质的可恢复性上架将介质存放到架位上, 要求介质价位应当可以保存各容灾部门所使用的所有格式磁带光盘等介质架位管理通过条形码及后台数据库系统对介质存放的架位进行统一的管理, 确认哪个介质存放在哪个架位 ; 可定时由库管理员实时检查介质存放的正确性通过终端或管理控制台实时地查看架位的存储情况空间大小及介质最大容量 / 可用容量, 管理仓库的区域容量体积和仓储限度系统可以支持介质和架位的反复排定和追踪管理 ; 避免实际现场的错误堆放 ; 使之有序易于比较和修正现场与系统管理的信息差异 ; 显示查询介质和架位的使用历史资料查询管理在任何时间和地点, 都可以通过终端进行查询 ; 查询内容包括 : 介质信息存储情况有效期等等 ; 每次查验可以包括该项诸多信息的逐一核对, 并反馈给系统有效结果现场实时查询和容灾恢复的现场实时指挥工作变得方便容易介质追踪管理在介质的整个生命周期中, 从产生入库保存调用归档直到销毁, 对每个介质的信息进行追踪管理调用管理完成调用要求检查所有须用介质的查询和发送等工作 166

168 维护管理对介质定期做防霉防粘等维护工作, 防止介质的损坏安全管理设置介质库门禁和监控系统, 防火防盗介质存放设施管理系统架构介质存放管理系统拓扑结构示意图如下 : 图 12-4 介质存放管理系统拓扑结构如上图 12-4 所示, 整个介质存放管理系统分为计算机管理系统和人工介质存放库两部分组成, 其中介质管理系统主要通过条形码对介质进行统一的管理, 为快速的查询和自动化的管理提供基础平台 ; 介质库主要负责介质的存放, 为数据存储介质提供安全的防范各种危害 ( 霉变火灾等 ) 的存储空间而对外服务系统为容灾单位提供网上查询功能注 : 内网和外网需要各建立一套管理系统和介质库 12.2 备份系统设计针对海量存储系统的备份实现, 以下图示 ( 图 12-5) 的是统一的实现架构远程备份容灾远程备份 (e-vaulting) 级别容灾满足哪种需求针对对于恢复时间要求较高, 而且有可能还没有在本地实施备份系统的的部门, 通过远程网络直接将数据备份到海量存储系统的存储池中, 可以大大提高容灾系统的 RTO 和 RPO, 167

由于海量存储系统具备最为妥善的介质保存措施, 不但可以将这些备好数据的介质安全的保护起来, 而且可以最大程度地保证介质的数据可恢复性图 12-5 统一实现架构采用这种容灾方式, 一般要求恢复的数据时间点在灾难发生前的几十分钟到几个小时 ; 而从灾难发生后, 需要完成从恢复系统恢复数据直到实现对外提供应用服务这么一整套的恢复工作, 所需要时间大约为几小时到一天

169 由于海量存储系统具备最为妥善的介质保存措施, 不但可以将这些备好数据的介质安全的保护起来, 而且可以最大程度地保证介质的数据可恢复性图 12-5 统一实现架构采用这种容灾方式, 一般要求恢复的数据时间点在灾难发生前的几十分钟到几个小时 ; 而从灾难发生后, 需要完成从恢复系统恢复数据直到实现对外提供应用服务这么一整套的恢复工作, 所需要时间大约为几小时到一天工作流程远程备份级别容灾的工作流程如下图所示 : 首先海量存储系统按照事先和各部门协商所制定的容灾计划, 定期 ( 每天的某个时刻 ) 自动启动各部门的备份工作, 将数据备份到海量存储系统的存储池中备份数据会按照部门日期保存时间数据类型等关键信息分类地存放在存储池中, 同时会再空闲时备份到磁带中, 并被保存到温湿环境适当门禁严格可防范多种灾害 ( 如火灾水灾等 ) 的安全区域, 海量存储系统还为这些数据建立了完善的数据库及其应用管理系统, 以便快速的存取, 并提供网上的数据备份查询服务而当出现故障或自然灾害等灾难时, 在出现灾难的部门的本地数据备份完全丢失的情况 168

下, 海量存储系统可以按照该部门的要求将完成数据恢复所需的所有数据通过网络恢复到该部门指定的备用服务器上, 由该部门的技术人员 ( 或在海量存储系统技术人员的协助下 ) 完成应用的重新启动和对外开放 ; 海量存储系统也可以按照该部门的要求将将完成数据恢复所需的所有物理介质通过人工运输到该部门指定的地点, 由该部门的技术人员 ( 或在海量存储系统技术人员的协助下 ) 完成数据恢复工作

170 下, 海量存储系统可以按照该部门的要求将完成数据恢复所需的所有数据通过网络恢复到该部门指定的备用服务器上, 由该部门的技术人员 ( 或在海量存储系统技术人员的协助下 ) 完成应用的重新启动和对外开放 ; 海量存储系统也可以按照该部门的要求将将完成数据恢复所需的所有物理介质通过人工运输到该部门指定的地点, 由该部门的技术人员 ( 或在海量存储系统技术人员的协助下 ) 完成数据恢复工作整个备份恢复的过程如果完全采用网络传输, 甚至在本地不需要做备份 ; 所以如果该部门技术人员甚至不需要掌握备份和恢复技术, 在实施时可以大大加快进度图 12-6 远程备份级别容灾的工作流程上述是一种原理性的容灾实施步骤, 简化的标准可实施的流程如下 : a) 和相关需要远程备份级别容灾的部门的技术及业务一起制定详细的 DRP 计划, 包括备份策略恢复策略双方指定联系人等 ; b) 必要的话, 海量存储系统可以对该部门人员 ( 技术和业务 ) 进行容灾知识培训, 并帮助其完成 DRP 计划 ; c) 海量存储系统协助该部门完成远程备份系统客户端及安全通信网络的搭建 ; d) 海量存储系统和远程备份部门按照 DRP 计划, 按期执行远程备份工作 ; e) 在海量存储系统将数据保存在存储池中的同时, 制作一份磁带拷贝副本, 并将其分门别类地存放在具备良好存放条件的远程备份区, 同时要建立完备的数据备份数据库和管理系统 ; 169

171 f) 数据保存期间, 海量存储系统负责监控数据的安全性 ; 而备份的磁带介质在存放期间, 海量存储系统一面要按照保存的时效完成介质的更换或归档 ; 一面定期对介质进行倒带防霉等维护操作, g) 各远程备份部门可以通过海量存储系统对外开放的服务系统, 完成诸如查询数据备份记录, 更改 DRP 计划等工作 ; h) 海量存储系统应当配合远程备份部门定期实施 DR 演练, 确保 DRP 计划在灾难真正来临是起到真正的作用 ; i) 当灾难来临时, 按照预先制定的 DRP 计划, 快速实施数据恢复工作系统架构远程备份 / 容灾系统在海量存储系统的总体逻辑拓扑结构如下图所示 : 图 12-7 远程备份 / 容灾逻辑图整个系统主要由备份服务器备份用磁盘阵列和磁带库三部分组成此外备份客户端安装在远程的各部门服务器上, 而网络主要完成数据的可靠和安全传输为了保证 7x24 的备份服务, 无论是内网外网还是互联网都是各由多台服务器组成一个备份服务器集群, 当集群中某台服务器出现故障时, 可以由其他服务器接替它的的工作而备份服务器的主要工作有 : 在执行远程备份操作时, 指引远程传输过来的备份数据流向备份用磁盘阵列 ; 而在空闲时 ( 没有远程备份操作时 ), 再将磁盘阵列的数据备份到磁带库中 170

172 磁盘阵列是远程备份的近线存储, 主要是为了提高备份的速度, 最好地利用网络带宽磁带库负责最终保存备份的数据而远程备份管理应用系统主要负责远程备份的自动化管理 ; 在数据到备份到存储池中时, 海量存储系统的远程备份管理应用系统就会及时地将备份数据的相关信息保存起来这样远程备份管理应用系统中就会保存有所有远程备份的相关信息, 一方面供海量存储系统内部管理使用, 一方面可以允许用户可以通过 Web 浏览器查询自己的相关容灾信息同样为了安全起见, 这里建立了内网和外网两套管理应用系统远程备份容灾系统的特点容灾的 RTO 和 RPO 时间较短, 可以满足大部分应用容灾需求要求各部门在本地服务器安装软件连续的在线备份方案数据可以获得最为安全的保护可靠性和可恢复性更高投资成本较高远程备份容灾系统需要考虑的要素 : 为了有效的提供远程备份服务, 不能简单的将现有的本地备份技术应用于远程备份, 因为这样将使得远程备份的成本效率和服务质量非常低下, 从而严重阻碍远程备份服务的开展因此在建设远程备份系统时, 需要在现有的备份技术基础上着重考虑以下几个因素 : 减少存储投资一方面是解放硬件资源, 降低实现同一任务所需要的设备要求 ; 另外一方面是资源的充分利用, 解决如何降低磁盘容量需求, 提高磁盘利用率等因素, 降低客户在享受该服务时需要支付的设备成本减少网络带宽需求带宽对于本地备份而言不是关键问题, 但如果需要实现异地备份, 则是非常重要的一个成本因素, 如果用户为了享受该服务而必需支付昂贵的带宽租用费的话, 那将是一个非常高的成本因此需要采取一切措施减少远程备份所需要的带宽资源提高服务质量, 保证服务级别提供远程备份服务的目的是保证用户系统在出现故障后能够恢复并且能够在规定的时间内恢复 171

173 降低管理费用对普通的存储系统而言, 按照 Gartner Group 的报告, 其管理费用是购置成本的 8 倍对几种存储系统而言, 管理变得更复杂, 对服务的要求更高, 这一比例相应更大管理费用分为两个部分 : 对设备的维护管理和提供的服务先进的技术, 规划良好的系统结构和专业人员队伍能极大地降低维护费用客户端的多样性和服务平台的统一性由于备份客户端会因为不同部门的不同应用而不同, 但在海量存储系统可以采用统一平台的备份服务器为各种备份客户端提供服务外网 / 互联网与内的区别外网 / 互联网的数据大服务多, 所以采用的服务器数量较多, 内网的服务器数量较少存储资源监控存储管理和监控对于了解监控与管理规模较大的存储网络是十分必要的对于容灾系统, 这些管理可以有效的帮助位于数据中心与管理中心的管理人员从网络系统层面上进行全面集中的监控, 为将来的发展以及整个存储网络的管理搭建管理框架, 并且进一步保证各子系统的管理与维护存储资源管理 (SRM) 是一组互为补充的产品标准和进程, 用来对物理及逻辑存储在可用性容量配置和性能等方面进行报告, 分析和自动管理. 引自 Gartner 简单地说,SRM 提供了一个有关存储网络中的存储容量及其使用状况的动态视图, 从而使管理员可以从一个中心管理控制台监控其所有存储设备的状态即存储资源管理负责管理存储网络上的各种系统, 包括数据库邮件系统磁盘阵列 NAS 备份系统等对硬盘空间磁带库空间的使用管理 ; 监控预测分析并以各种报表的方式呈现其主要功能包括 : 1. 空间管理搜集空间的使用信息, 监控空间的使用, 实现配额管理预警空间回收数据迁移 2. 容量规划收集容量消耗的历史信息, 提供容量消耗速率报表, 从而辅助完成容量的规划 3. 资产管理收集存储资产信息, 提供额外的元数据输入 4. 事件管理监控诊断以及在必要时修复存储 5. 性能管理收集存储资源的性能数据, 提供性能分析报表, 在物理的极限内提高 172

174 存储资产的性能 6. 配置管理决定如何对已有的物理存储资源作出最好的安排用于将这些多种多样的功能串接起来的公用线索是它们都是元数据驱动的元数据 (Metadata, 关于数据的数据 ) 汇集了每个被管理的存储对象的信息, 包括数据文件 ( 大小创建日期和属主 ) 和物理存储系统 ( 容量和性能特征 ) 这些信息可以被那些负责存储的管理员数据库管理员,IS 规划人员以及 IS 执行人员用来辅助决策 SRM 是对许多具体的存储管理功能的新的分类方法例如容量规划和空间管理 ( 这些功能已经出现很长时间了 ) 这种在 SRM 下的重新分类简化了自动化的任务并隐藏了这些管理任务的复杂性, 因而可以帮助 IS 向存储公用设施方向发展存储网络管理负责发现监控与管理整个存储网络, 以及网络的连接性每个节点的状态网络可用性系统性能等等, 完善的事件管理可以将事件及时地以各种方式报告给管理员同时, 还可以对光纤交换机等网络设备进行配置管理更具体地说, 对各交换机经常查看其所处 SAN 架构的运行状况, 及早发现潜在问题并自动向网络管理员报警, 从而消除了隐患, 避免了故障的进一步升级通过跟踪广泛的 fabric 事件, 为 SAN 解决方案传递出了最有价值的信息例如, 它应该监控 : Fabric 资源, 包括 fabric 重新配置,zoning 变化和新的设备登陆 / 退出,ISL 的状态变化或中断等交换机等存储网络设备的环境功能如温度, 电源和风扇状态以及高可用性的度量值既可以监控多端口级别的端口状态转换, 错误和流量信息, 并指定端口性能的监控范围, 也应该监控所支持的 FINISAR 的智能 SFP 模块的各种状态监控 SAN 网络的安全性, 记录非法登陆的时间和次数在监控到各种要素发生规定范围外的变化, 应自动及时地通知管理员, 通知的方式应有如下几种 : 1. 通过向指定地址发送信息的方式提供事件通知 173

175 2. 通过简单网络管理协议 (SNMP) 发通知 3. 事件记录 (Event Log) 条目记录事件 4. 通过锁定端口记录 5. 通过 UNIX 的标准系统记录和事件接口集成在一起的 SYSLOG 发通知同时, 网络监控的参数应可快速配置, 并可将监控功能集成到一些企业级管理软件中系统监控管理系统管理软件能够帮助 IT 管理部门持续的监控分布式的异构系统和网络设备的运行状态, 它可以支持 OS/390 z/os UNIX Linux Windows OS/400 Tandem NSK Open VMS PalmOS MVS 等几十种操作系统确保管理的扩展性, 并且提供非常灵活的体系架构从而有利于管理范围的伸缩行海量存储系统系统要求系统管理软件具有内置的智能包括高级事件关联 Advanced Event Correlation (AEC) 可以提供根源分析的能力, 快速隔离非根源事件并迅速发现故障原因服务管理服务水平管理海量存储系统实际上是一个数据存储, 备份和再处理中心, 为各种用户提供高质量的 IT 服务 ; 为此需要海量存储系统具有很高的服务水平 (Service Level) 以往一般是依靠严密的数据中心管理制度等人为方法来保证, 但多年的实践经验说明需要采用可视化的量化的管理方式和手段, 所以容灾在制定完善的服务水平管理规范的同时, 也要采用高效的管理软件实现计算机化的管理, 提高服务响应速度和水平服务水平要求是一个综合的基于 Web 的解决方案, 能够管理跨越整个海量存储系统基础架构的预定义的服务目标它能够直接从各种不同来源包括基于 SNMP 的应用程序和网络服务如 SMTP POP NNTP 和 HTTP 等方面收集可用性和性能数据, 其高级配置工具应当允许管理员设置批量报告产生的时间间隔服务报告基于这些数据产生运维管理 174

176 述运维管理包括运维规范和辅助的运维管理系统运维规范在运行维护一节做详细阐运维管理系统是一个综合的集成的智能服务台解决方案, 它可以接受通过 Call Center 或 Web 界面手工提交的问题, 也可以自动接收事件管理平台转发的问题, 并且按照规范的处理流程完成问题请求变更管理以及服务水平管理, 科学的自动的完成人力资源分配, 确保每个问题及时解决基于运维管理系统建设的 IT 服务支持系统是整个系统管理体系的核心它把用户各级支持人员被管理 IT 系统和监控管理软件有机的结合起来, 通过服务台提供的标准化管理模式协同工作, 使整体 IT 服务支持体系达到高效有序迅捷的预期目标, 从 IT 服务支持的基础方面保障各项业务系统的高效运行 12.3 海量存储系统扩展能力分析在本方案的设计中, 必须足够重视 IT 环境系统建设的可扩展性, 导致海量存储系统 IT 环境可能需要扩展的原因包括 : 用户数量的增加 ; 本方案的实施需要分期进行, 初期方案必须考虑未来的扩展性需求不明确的情况下, 逐步发展用户的需求的不断变化, 新的关键应用的出现容灾级别需要升级, 以抵御更大范围的风险需要以上需求的变动将可能导致海量存储系统如下方面的扩展需要 : 数据扩展能力 : 海量存储系统存储数据容量和能力的变化应用扩展能力 : 海量存储系统增加新的用户容灾功能, 满足用户新的容灾需要网络扩展能力场地扩展能力管理扩展能力 175

177 下面就以上各方面的扩展实现能力进行论述数据扩展能力随着用户数量的增加, 以及用户积累数据的增加, 海量存储系统的数据将不断增长, 因此海量存储系统需要首先具备数据扩展的能力由于采用了海量存储系统 SAN 网络存储结构, 因此数据容量的扩展相对比较容易实现, 只要购买新的存储设备, 直接接入光纤交换机, 经过配置管理软件的恰当设置即可数据扩展需求一般表现在如下 2 个方面同一用户原来设置的容量不能满足用户使用, 需要扩展容量 ( 包括减少容量 ) 对这一需求, 一般可以通过存储管理的管理软件, 进行动态扩展即可为新的用户提供存储容量 ( 包括取消老用户的存储容量, 以便重用 ) 通过存储管理软件, 可以进行容量的增减为了更好地实现海量存储系统地数据扩展能力, 需要在扩展数据存储能力时, 注意如下几个方面 : 尽可能为用户一次提供合理地空间虽然通过存储设备的管理软件可以实现数据容量的动态调整, 但动态调整后, 磁盘的重构需要的时间一般较长注意光纤交换机端口数的变化尽管目前接入交换机的端口数量够用, 但要避免随着海量存储系统的发展, 导致交换机端口数太少, 使得存储设备的接入困难一般来讲, 出现交换机端口数太少的情况, 表明 SAN 网络中需要增加新交换机, 要合理设置交换机之间的连接, 避免出现数据传输瓶颈每个存储磁盘阵列在规划时都应该预留存储扩展能力在同一盘阵中进行容量的动态扩展, 相对容易一些一般而言, 存储容量接近总物理容量的 70% 时, 就需要考虑购买和添加新的存储设备新的存储设备容量应该尽可能比较大, 一方面减少单位存储容量的成本, 另一方面也便于管理在购置新的存储设备时, 采用同一系列的存储设备, 采用同样存储设备管理软件, 可以 176

178 减少管理复杂度和管理成本同时注意购置存储设备的相关性能指标 ( 例如支持的主机数等 ), 建议先期先不采用虚拟存储软件对存储设备进行同一管理在将来有必要时, 可以考虑采用虚拟存储管理软件降低存储容量管理的复杂度应用扩展能力由于用户需求的不断增长, 以及新的容灾技术和方案的出现和发展, 海量存储系统的应用扩展将是不可避免的本海量存储系统在设计时充分考虑了容灾应用的扩展能力, 可能的扩展需要和实现策略分析如下 : 1) 通过原有容灾设施的配置来满足相同用户端应用容灾的数量扩展在设计和采用容灾技术和方案时, 注重了容灾技术和方案的开放性, 容灾方案中的架构和产品尽可能采用开放式平台, 通过一对多的模式, 以少量的设施为同时众多的用户端应用和数据提供容灾服务这样, 当仅仅是拓展相同的用户端应用时 ( 利用相同的数据库相同的操作系统等 ), 可以通过简单的设置来实现应用的增加满足相同应用容灾需求的扩展为了实现一对多的服务模式, 在选择中心的技术和产品时, 还应尽可能考虑对用户端操作系统的开放性尽量避免由于用户端操作系统平台的不同, 海量存储系统不得不重新布署新的设施和产品但考虑到海量存储系统是一个服务对象数量总多的公共中心, 因此, 在采用一对多的模式下, 也可能性能操作系统平台的不同等原因, 一套通用容灾平台和设施无法满户足够数量的要求, 在这种情况下, 就需要考虑增加新的容灾设施来扩展容灾能力 2) 通过增加新的容灾应用满足新的用户端容灾需要在如下情况下, 需要考虑增加新的容灾设施满足新的用户端容灾需要 :a) 原有容灾设施由于性能的原因无法满足众多用户的需要 ;b) 由于原有的容灾设施无法满足用户端操作系统的需要 ;c) 用户端有新容灾需要海量存储系统采用新的容灾方案部署新的容灾设施 ( 例如 iscsi 技术等等 ); 等等 177

179 这时, 可以通过在海量存储系统直接设计新的容灾方案部署新的容灾设施来实现这依赖于海量存储系统网络扩展能力和场地扩展能力因此海量存储系统应用扩展能力的实现, 一方面依赖于原有容灾方案和部署产品的开放性, 一方面依赖于海量存储系统的运行维护和技术支持能力归根结底, 海量存储系统的扩展能力还取决于海量存储系统的网络场地等基础平台的扩展能力网络扩展能力海量存储系统网络直接影响海量存储系统数据的传输性能, 网络扩展能力是保证容灾网络数据传输可用可靠和性能扩展的需要具体来说, 需要的网络扩展能力包括如下用户的接入能力的扩展首先要保证用户接入多路由的可能性, 由于海量存储系统服务对象以及政务专网结构的特殊性, 需要从政务专网来实现设定目前政务专网运行的高层协议是 IP 协议为了保证用户端到海量存储系统端数据传输的用户的接入性能及扩展, 采用网络结构, 海量存储系统的扩展容易实现在最初设计时, 在充分考虑当前的基础上, 考虑未来的网络能力的需求在本海量存储系统, 不论是 LAN 网, 还是 SAN 网, 都采用了核心 - 边缘交换结构, 这是一种容易扩展的架构需要关注核心交换机的富余端口的数量, 做适时的扩展必要时升级网络设备, 较少数据传输瓶颈场地扩展能力能力场地扩展能力包括系统的物理空间, 地理空间等等, 它为海量存储系统提供最后的扩展 178

180 管理扩展能力随着海量存储系统的逐步扩展, 海量存储系统的场地基础设施网络设施存储设施服务器设施等规模会逐步扩大, 其中运行的容灾应用规模也会越来越大, 为了更好地支持海量存储系统的管理, 需要管理能力相应地得到扩展管理能力的扩展主要通过管理软件的选择实现, 必要时通过开发门户管理软件来实现应该规划管理软件的实现的主要功能及其扩展实现包括 : 存储资源管理的扩展性 : 存储资源管理系统应该提供存储网络上的各种系统对硬盘空间磁带库空间的使用管理监控预测和分析, 并能以各种报表的方式呈现在存储资源数量增多, 存储设施类型增多的情况下, 可以考虑采用虚拟存储管理存储资源在选择时, 必须充分考虑其可管理性, 除了支持 SNMP 管理协议外, 更重要的是支持 SMI 等存储管理协议, 以便更好的实现可管理性存储网络管理的扩展负责发现监控与管理整个存储网络, 以及网络的连接性每个节点的状态网络可用性系统性能等等, 完善的事件管理可以将事件及时地以各种方式报告给管理员同时, 还可以对光纤交换机等网络设备进行配置管理同样存储网络设施应该支持 SNMP SMI 等协议, 以保证对其管理性的扩展系统监控管理扩展系统监控管理应该能够持续的监控分布式的异构系统和网络设备的运行状态, 应该支持 OS/390 z/os UNIX Linux Windows OS/400 Tandem NSK Open VMS PalmOS MVS 等常用的操作系统, 并通过开放的接口, 确保对更多系统的管理扩展同时, 系统监控管理软件必须提供非常灵活的体系架构从而有利于管理范围的伸缩性安全管理能力扩展容灾系统中的安全管理涉及到了网络的安全性跨防火墙的数据访问与数据保护主机的安全性数据的安全性以及传输的安全性审计漏洞扫描等内容这些都是保证容灾系统正常运行以及安全无忧的保证系统的安全管理功能一般应该包括 : 身份管理访问管理和威胁管理, 并且安全管理系统可以提供一致的直观显示和管理功能, 从而协助海量存储系统实现安全管理安全管理系统必须具备支持 SNMP SMI 等多协议, 并且具备良好的开放性和扩展性 179

181 运维管理能力的扩展海量存储系统应该通过一个综合的集成的智能服务台来为杭州市电子政务各应用系统提供服务, 该系统应高可以接受通过传统业务申请或 Web 界面手工提交的申请, 也可以自动接收事件管理平台转发的问题并且按照规范的处理流程完成问题请求变更管理应用升级等服务水平管理, 科学的自动的完成人力资源分配, 确保每个业务得到高效的解决管理体系的核心它把用户各级支持人员被管理 IT 系统和监控管理软件有机的结合起来, 通过服务台提供的标准化管理模式协同工作, 使整体 IT 服务支持体系达到高效有序迅捷的预期目标, 从 IT 服务支持的基础方面保障各项业务系统的高效运行集中管理门户扩展集中管理门户提供对以上各种监控进行集中并且基于 Web 页面的管理能力可以实现通过任意一台浏览器, 按不同的角色, 集中管理各种存储系统与备份系统集中管理门户的扩展能力依赖于集中管理门户软件的选择, 系统必须是一个开放的管理系统, 能够通过非常灵活的模块配置或者简单开发, 很容易就实现管理能力的扩展容灾级别扩展目前, 高可靠性海量存储系统的设计, 由于距离的限制, 容灾能力虽然达到了一定的程度, 可以预防一般地域性威胁, 单要提供容灾服务的级别, 达到防范局部战争和地域性危害的程度, 还需要对容灾能力进行扩展容灾能力的扩展需要增加容灾的距离, 使需要容灾的数据和应用在更远的地方实现复制和冗余, 例如在 1000 公里以外建立另外一个海量存储系统但建立另外一个海量存储系统, 又需要庞大的资金支持为了节约建设成本, 同时考虑到国内其他数据业务商也在规划和建设自己的海量存储系统, 所以可以考虑和别的不同地理位置的海量存储系统建立互为备份, 在充分利用现有海量存储系统的基础上, 将城市级别的容灾能力扩展到跨城市的全国范围例如可以考虑杭州和上海海量存储系统各规划和建设充足的容灾场地和网络, 为对方城市海量存储系统的数据和应用提供远距离的容灾能力在条件容许的情况下, 还可以考虑多个城市互为备份, 将城市容灾级别能力进一步提高由于城市间互为容灾建立于各个城市海量存储系统的首先实现上, 而且实现起来牵涉的因素较多, 因此, 本方案暂不对此方案的设计和实现进行论述 180

182 第十三章容灾系统设计 13.1 容灾方法的具体分析灾难备份需求的衡量指标对于大多数企业而言, 提到灾难备份, 最直接的反映就是增加预算, 购买更多的主机, 存储设备以及相应软件虽然这是实施灾难备份项目的一个必要步骤, 但是, 从灾备方案应是风险和成本相应平衡的出发点来综合考虑, 实施灾难备份项目的第一步应该从分析评估以确定灾难灾难备份需求目标开始 RTO (Recovery Time Objective) RTO,Recovery Time Objective, 是指灾难发生后, 从 I/T 系统当机导致业务停顿之刻开始, 到 IT 系统恢复至可以支持各部门运作, 业务恢复运营之时, 此两点之间的时间段称为 RTO 一般而言,RTO 时间越短, 即意味要求在更短的时间内恢复至可使用状态虽然从管理的角度而言,RTO 时间越短越好, 但是, 这同时也意味着更多成本的投入, 即可能需要购买更快的存储设备或高可用性软件对于不同行业的企业来说, 其 RTO 目标一般是不相同的即使是在同一行业, 各企业因业务发展规模的不同, 其 RTO 目标也会不尽相同 RTO 目标的确定可以用下图来说明 : 如上所说,RTO 目标越短, 成本投入也越大另一方面, 各企业都有其在该发展阶段的单位时间赢利指数, 该指数是通过业务冲击分析 (BIA-Business Impact Analysis) 咨询服务, 以交谈问答和咨询的方式得到确定的在确定了企业的单位时间赢利指数后, 就可以计算出业务停顿随时间而造成的损失大小如上图, 结合这两条曲线关系, 存储工程师将可以找到对该企业而言比较适合的 RTO 目标, 即在该目标定义下, 用于灾难备份的投入应不大与对应的业务损失 RPO (Recovery Point Objective) RPO,Recovery Point Objective, 是指从系统和应用数据而言, 要实现能够恢复至可以 181

183 支持各部门业务运作, 系统及生产数据应恢复到怎样的更新程度这种更新程度可以是上一周的备份数据, 也可以是上一次交易的实时数据图 13-1 RTO 目标确定指标图与 RTO 目标不同,RPO 目标的确定不是依赖于企业业务规模, 而是决定于企业业务的性质和业务操作依赖于数据的程度因此,RPO 目标对相同行业的企业而言会有些接近, 而对于不同行业的企业来说仍可能会有较大差距 RPO 目标仍是以咨询的方式, 通过与各业务部门主管的交流, 了解业务流程和 IT 应用的关系, 以及通过回答问卷的方式, 确定能够支持该企业核心业务的 RPO 目标重要系统灾难备份主要的实现方法在目前的技术条件下, 重要系统灾难备份主要的实现方法主要有一下几种 : 1. 基于应用本身的容灾应用直接指向 2 个同时运作的数据中心, 在任意一个中心活动情况下继续工作 2. 基于文件 / 数据库日志通过复制数据库日志和数据文件方式, 从生产中心向海量存储系统进行数据容灾 3. 基于复制磁盘容灾通过复制磁盘 IO 的方式, 从生产中心向海量存储系统进行数据容灾, 根据复制设备的不同, 有可以分为 : 4. 基于主机 182

184 5. 基于磁盘阵列 6. 基于智能 SAN 虚拟存储设备下面对各种方式进行一个简单比较 : 表 13-1 容灾方式比较容灾方式 RTO 应用要求主机要求存储要求基于应用本身 0 极高同构, 必要可异构基于文件 / 数据库日志 >0, 至少一个 LOG 低同构, 必要可异构基于复制磁盘容灾 ( 主机 ) 0 透明同构, 非必要可异构基于复制磁盘容灾 ( 阵列 ) 0 透明同构, 非必要同构基于复制磁盘容灾 (SAN) 0 透明同构, 非必要可异构灾难备份方式比较的分析各种容灾方式下, 只有基于应用本身的方式可以做到 RTO 为 0; 其它方式一般需要进行网络切换存储切换和数据库重启等工作,RTO 一般从几十分钟到数小时不等 ; 一般都要求主机和数据库同步, 虽然存在理论上的异构可能, 但是在具体实施时会给开发 / 测试带来巨大的难度, 并大大降低容灾系统的稳定程度, 一般不会采用基于应用本身的方式虽然可以做到 RTO 为 0, 但是对应用要求极高, 并且需要极其复杂的机制处理双中心的数据同步问题 ; 目前浙江系统众多, 应用复杂, 如果采用这种方案, 需要对所有应用进行更改, 实施难度极大, 顾不予推荐基于基于文件 / 数据库日志的方式, 只能以文件方式传输数据, 数据丢失单位至少一个文件, 无法做到 RTO=0, 在不允许丢失数据的关键应用上也不适合, 顾不予推荐基于复制磁盘容灾主要有同步和异步 2 种方式, 异步方式无法做到 RTO=0, 在不允许丢失数据的关键应用上也不适合, 顾不予推荐 ; 同步方式的情况下, 以复制主题不同进行分类基于主机复制磁盘数据 : 磁盘阵列可以异构是最大的优点 ; 但是, 这种方式容灾时对主机性能有一定影响, 针对不同的主机需要采用不同的实现方式, 目前浙江系统众多, 应用复杂, 如果采用这种方案, 需要对所有主机进行论证和 183

185 实施, 实施难度较大, 顾不予推荐基于磁盘阵列复制磁盘数据 : 实施简单是最大的优点, 不影响主机, 只镜像数据, 是目前较主流的一种容灾方案 ; 但是, 这种方式容灾时, 需要磁盘阵列高度同构, 不但要求磁盘阵列是一个厂商的, 还必须是同一厂商同一系列的阵列, 否则无法实现数据复制, 所以, 这种方案多用于已经进行存储整合的大型系统 ; 目前浙江的现实情况是系统非常多, 不同系统采用不同磁盘阵列, 很多目前的系统还不支持磁盘阵列的远程镜像功能 ; 如果实施这种方案, 首先需要升级 / 替换很多磁盘阵列, 然后为每一种阵列在海量存储系统配置相应的同构磁盘阵列, 投资巨大, 每一种不同的阵列采用不同的软件, 维护不便, 而且, 中心的各个存储各自工作, 没有一个统一存储池能够灵活调配资源, 资源使用也狠浪费基于智能 SAN 虚拟存储设备复制磁盘数据 : 这种方式拥有所有基于磁盘阵列复制磁盘数据的优点, 而且通过这种方式可以解决许多基于磁盘阵列无法解决的问题 : 磁盘阵列可以完全异构, 不同厂商不同系列的阵列可以混合使用, 大大节约客户方案复杂程度和实施难度智能 SAN 虚拟存储设备实现远程容灾不在乎客户现有的 SAN 阵列是否支持远程数据容灾, 大大保护客户投资智能 SAN 虚拟存储设备可以将中心的多个存储设备 ( 如果有多个的话 ) 作为一个统一的存储池进行管理, 存储效率大大提高智能 SAN 虚拟存储设备针对不同的主机存储设备采用统一的软件实施远程容灾, 管理维护大大简化所以, 在目前情况下, 基于智能 SAN 虚拟存储设备进行磁盘复制的方式是最适合目前项目需要的, 也是存储工程师主要推荐的方案 184

13.2 采用 SAN 进行远程容灾的实现目前, 基于智能 SAN 虚拟存储设备进行磁盘复制一个成熟的方案就是 IBM 的 SVC(SAN Volume Controller,SAN 卷控制器 ) 采用 IBM SVC 实现远程容灾的方案简图如下 : 图 13-1 SVC 远程容灾在所有需要容灾的系统 SAN 网络种加入 SVC, 然后就可以利用 SVC 的远程复制功能进行数据容灾了 SVC

186 13.2 采用 SAN 进行远程容灾的实现目前, 基于智能 SAN 虚拟存储设备进行磁盘复制一个成熟的方案就是 IBM 的 SVC(SAN Volume Controller,SAN 卷控制器 ) 采用 IBM SVC 实现远程容灾的方案简图如下 : 图 13-1 SVC 远程容灾在所有需要容灾的系统 SAN 网络种加入 SVC, 然后就可以利用 SVC 的远程复制功能进行数据容灾了 SVC 的绰号称谓是 IBM 虚拟存储魔法石 - SAN Volume Controller 存储技术从直接连接的磁盘阵列发展到集中式的 SAN( 存储区域网络 ), 在连接性和性能上带来了巨大的优势然而, 对 SAN 用户的研究显示, 虽然存储区域网络具有这些优点, 但是 SAN 中磁盘利用率只有 50% 左右, 不同类型和品牌的存储的统一调配和管理非常复杂 IBM 最新推出的 IBM TotalStorage SAN Volume Controller ( 又名 IBM 存储魔法石 ) 就是为解决此类问题的开创了新的方式 SAN Volume Controller( 缩写为 SAN VC),SAN 控制器, 是存储业界又一次崭新的突破, 就像存储历史上的 RAID, 主机系统的存储管理体系和虚拟磁带技术, 这些重要的发明均源自 IBM SAN Volume Controller 是整个 SAN 网络的控制器, 它将整个 SAN 中的各种存储设备整合成一个巨大的存储池, 充分利用存储资源和按需分配存储空间性能和功能而传统的 SAN 网络中, 每种存储系统都自成一体, 就像一个个独立的孤岛, 无法构成一片统一的大陆 185

SAN VC 实现了虚拟存储层 (Virtualization Layer) 的功能, 将存储智能加入到 SAN 的网络中现在用户可以按照应用不断变化的需求来分配存储, 而不再受制于存储子系统设备在功能和性能上的限制 SAN VC 又是一个 SAN 网络的中心管理控制点, 而且它对服务器的操作系统和存储子系统透明这个 SAN 的中心控制器具备更为灵活的磁盘管理功能,

187 SAN VC 实现了虚拟存储层 (Virtualization Layer) 的功能, 将存储智能加入到 SAN 的网络中现在用户可以按照应用不断变化的需求来分配存储, 而不再受制于存储子系统设备在功能和性能上的限制 SAN VC 又是一个 SAN 网络的中心管理控制点, 而且它对服务器的操作系统和存储子系统透明这个 SAN 的中心控制器具备更为灵活的磁盘管理功能, 极大的提高了存储管理的效率, 例如可动态创建和扩展逻辑卷等而且,SAN VC 为各种不同的存储设备提供了一个统一的数据复制平台, 例如瞬间复制 -FlashCopy 和远程复制 -Remote Mirroring 这些复制功能都允图 13-2 存储虚拟化许源磁盘卷和目标磁盘卷可以存在于不同品牌的磁盘阵列上透明的数据迁移是 SAN VC 的基本功能, 当 SAN VC 被加入到一个现有的 SAN 环境中时, 不需要做数据迁移,SAN VC 把现有的磁盘配置原封不动的继承下来 ( 这是 SAN VC 的 Image mode), 这样对服务器上的应用是完全透明的当 SAN VC 完全配置好以后, 它又可以将原先磁盘上的卷及数据透明的迁移到其他真正的虚拟卷中所有的迁移过程对服务器透明, 因此不需要中止应用 IBM SAN VC 是一个软硬件集成化的产品, 专业的虚拟存储软件运行在集群式的硬件引 186

188 擎上它使用了定制的 IBM eserver xseries 服务器, 运行的存储操作系统是基于 Linux kernek 的与 SAN 网络接口是工业标准的 HBA 卡由于 SAN VC 是为一个完全开放的存储环境设计的, 兼容各种不同的存储设备用户可以将各种存储方案融合其中, 而不用担心图 13-3 SAN VC 系统结构示意图 SAN VC 会有什么封闭性 SAN Volume Controller 天生具备灵活的扩展能力, 可以使用户在存储性能和存储容量方面平滑无缝的升级例如, 扩展控制器个数可以增加性能, 而往存储池中增加磁盘则可以增加容量, 这两方面的扩张都可以在线完成, 不需要中止应用 SAN VC 的主控台提供了自动向 IBM 服务中心报警 (call home) 和远程支持的能力 SAN.VC 是一个虚拟存储的解决方案, 提供了如下功能 : 为高性能和高效管理而设计的 SAN 嵌入式 (In-band) 虚拟存储一个集中化的磁盘存储池 l 可包含不同种类和品牌的磁盘系统为卷管理和数据复制提供的统一平台瞬间复制 -Flashcopy 在 SAN 一级实现, 可跨不同的磁盘系统远程复制 -Remote Mirror 可在不同的磁盘系统上透明的不影响应用运行的数据迁移灵活开放的体系结构 : 易于实施 187

189 易于在性能和容量双向发展远程报警和诊断 t 企业级的高可靠性和稳定性支持 r NT, Linux, 和各种主流 UNIX operating systems, 支持各种存储流量负载均衡和切换投资保护 IBM 服务和支持第四部分存储产业的组织和推动力第十四章国际存储技术组织简介 14.1 SNIA 全球网络存储工业协会 ( 英文名称 Storage Networking Industry Association 英文缩写 SNIA ) 协会于 1997 年在美国成立, 由 400 多家致力于 " 发展网络存储, 确保网络存储成为 IT 领域完整的可信赖的解决方案而服务 " 的企业所组成, 是一个基于技术标准确立的中立性组织 SNIA 积极推动行业标准的制定, 推广各种网络存储技术和解决方案的互操作性和培训事务目前, 在全球范围 SNIA 已经拥有五家分支机构 : 欧洲加拿大日本中国南亚 ( 包括印度和新加坡 ) 以及澳洲 & 新西兰其中, SNIA-CHINA 是其全球范围内的第三家地域性分支机构 SNIA 作为制订存储业内工业标准的一个官方机构, 同时提供业内专业人员的认证与培训, 为存储产业提供标准化的人才标准历来是 IT 产业发展竞争的中心谁掌握了标准, 谁就掌握了未来在存储领域, 标准之争较其他领域有过之而无不及 SNIA 网络存储认证体系 (Storage Networking Certified Program 简称 SNCP) 是业界第一个独立于厂商的网络存储认证课程 SNCP 是为了满足企业客户的需求而开发而成, 提供了网络存储领域中用与衡量 IT 人员专业技能的标 188

190 准 SNIA 网络存储认证体系 (Storage Networking Certification Program 简称 SNCP) 是业界第一个独立于厂商的网络存储认证课程 SNCP 是为了满足企业客户的需求而开发而成, 提供了网络存储领域中用与衡量 IT 人员专业技能的标准经过优化的 SNCP 计划既反映了过去几年来网络存储技术的发展, 同时也涵盖了未来存储技术发展趋势通过对 SNCP 的进一步拓展,SNIA 建立了一套衡量技术人员的理论知识与技术实践能力的统一标准最新课程 - FC-SAN 存储管理 (beta S11-200)(pdf) * 认证系统经过改版的 SNCP 认证系统, 现包括四个领域 : 概念标准解决方案产品 SNCP 专家认证 (SNIA Certified Professional 简称 SCP): 概念领域的认证证 SNCP 系统工程师认证 (SNIA Certified Systems Engineer 简称 SCSE): 标准领域的认 SNCP 架构师认证 (SNIA Certified Architect 简称 SCA): 解决方案领域的认证 SNCP 网络存储专家 (SNIA Certified Storage Networking Expert 简称 SCSN-E): 解决方案领域的认证 SNIA-CHINA 协会宗旨 SNIA-CHINA 将沿袭 SNIA 的以往发展宗旨 " 发展网络存储确保网络存储技术成为 IT 领域完整的可信赖的解决方案 ", 促进网络存储技术在大中华地区的发展, 为网络存储的应用和发展推波助澜协会任务推动大中华地区网络存储业的发展积极推动网络存储标准化在大中华区的进程创建和发展用以发布 SNIA 信息和中国网络存储行业信息的本地渠道 189

将现有的技术中心发展为大中华地区的网络存储教育培训和认证基地组织国内外存储技术培训考察和交流活动引进出版网络存储技术及应用的有关资料文献协会服务在大中华区推广 SNIA 全球网络存储培训与认证体系根据中国市场与行业用户的不同需求, 加强与各行业协会间的交流 ; 积极推进相应存储技术的发展致力于网络存储技术与文献资料的引进工作通过专题研讨会议技术高峰论坛

191 将现有的技术中心发展为大中华地区的网络存储教育培训和认证基地组织国内外存储技术培训考察和交流活动引进出版网络存储技术及应用的有关资料文献协会服务在大中华区推广 SNIA 全球网络存储培训与认证体系根据中国市场与行业用户的不同需求, 加强与各行业协会间的交流 ; 积极推进相应存储技术的发展致力于网络存储技术与文献资料的引进工作通过专题研讨会议技术高峰论坛解决方案的演示等形式为会员单位与行业用户间构筑信息交流平台提供一个中立客观的多厂商技术整合方案的权威测试环境图 14-1 SNIA-CHINA 组织结构图 14.2 互联网工程任务组 (IETF) IETF 史创于 1986 年, 其主要任务是负责互联网相关技术规范的研发和制定目前,IETF 已成为全球互联网界最具权威的大型技术研究组织 IETF 体系结构分为三类, 一个是互联网架构委员会 (IAB), 第二个是互联网工程指导委员会 (IESG), 第三个是在八个领域里面的工作组 (Working Group) 标准制定工作具体由工作组承担, 工作组分成八个领域, 分别是 Internet 路由传输应用领域等等 IAB 成 190

192 员由 IETF 参会人员选出, 主要是监管各个工作组的工作状况, 它必须非常认真的考虑 Internet 是什么, 它正在发生什么变化以及我们需要它做些什么等问题互联网工程指导委员会 (IESG) 主要的职责是接收各个工作组的报告, 对他们的工作进行审查, 然后对他们提出的各种各样的标准各种各样的建议提出指导性的意见, 甚至从工作的方向上质量上和程序上给予一定的指导 IETF 基本上不太涉及应用领域, 但仍设立了一个应用领域另外凡是没有归到以上那些领域的研究课题, 都把它归至此类 IETF 实际上有上百个工作组, 这里是真正完成工作的地方 IETF 的交流工作主要是在各个工作组所设立的邮件组中进行, 这也是 IETF 的主要工作方式 IETF 产生两种文件, 一个叫做 Internet Draft, 即 " 互联网草案 ", 第二个是叫 RFC, 它的名字来源是历史原因的, 原来是叫意见征求书, 现在它的名字实际上和它的内容并不一致 Internet Draft 任何人都可以提交, 没有任何特殊限制, 而且其他的成员也可以对它采取一个无所谓的态度, 而 IETF 的一些很多重要的文件都是从这个 Draft 开始需要说明的是, 仅仅为成为 Internet Draft 毫无意义 Internet Draft 实际上有几个用途, 有一些提交上来变成 RFC, 有些提出来讨论, 有一些拿出来就想发表一些文章 RFC 更为正式, 而且它历史上都是存档的, 它的存在一般来讲, 被批准出台以后, 它的内容不做改变 RFC 也有好多种, 第一个就是它是一种标准, 第二个它是一种试验性的, RFC 无非是说人们在一起想做这样一件事情, 尝试一下, 还一个就是文献历史性的, 这个是记录了人们曾经做过一件事情是错误的, 或者是不工作的再有一种就是叫做介绍性信息 IETF 的自身定位是一个互联网技术研发的跨国民间组织虽然已有很多互联网技术规范通过在 IETF 讨论成为了公认标准, 但它仍有别于像国际电联 (ITU-International Telecommunication Union) 这样的传统意义上的标准制定组织 IETF 的参与者都是志愿人员, 他们大多是通过 IETF 每年召开的三次会议来完成该组织的如下使命 : * 鉴定互联网的运行和技术问题, 并提出解决方案 ; * 详细说明互联网协议的发展或用途, 解决相应问题 ; * 向 IESG 提出针对互联网协议标准及用途的建议 ; 191

193 * 促进互联网研究任务组 (IRTF) 的技术研究成果向互联网社群推广 ; * 为包括互联网用户研究人员行销商承包人及管理者等提供信息交流的论坛 IETF 与网络存储有关的包括但不限于如下内容 : 1. 光纤通道基本架构 FC-4 Upper Layer Protocol:SCSI,HIPPI,SBCCS,802.2,ATM,VI,IP FC-3 common service FC-2 Framing Protocol /Flow Control FC-1 Encode/Decode FC-0 Media:Optical or copper,100mb/sec to 1.062GB/sec 描述 : FC-0: 物理层, 定制了不同介质, 传输距离, 信号机制标准, 也定义了光纤和铜线接口以及电缆指标 FC-1: 定义编码和解码的标准 FC-2: 定义了帧流控制和服务质量等 FC-3: 定义了常用服务, 如数据加密和压缩 FC-4: 协议映射层, 定义了光纤通道和上层应用之间的接口, 上层应用比如 : 串行 SCSI 协议,HBA 的驱动提供了 FC-4 的接口函数,FC-4 支持多协议, 如 :FCP-SCSI,FC-IP,FC-VI 2. FCP-SCSI FCP-SCSI: 是将光纤通道设备映射为一个操作系统可访问的逻辑驱动器的一个串行协议, 这个协议使得以前基于 SCSI 的应用不做任何修改即可使用光纤通道 FC-SCSI 是存储系统和服务器之间最主要的通信手段 SCSI 扩展了 COPY 命令, 一个新的 ANSI T10 标准, 也支持 SAN 上存储系统之间通过数据迁移应用来直接移动数据 FCP-SCSI 和总线联结方式相比的优点在存储局域网上已经得到证明,FCP-SCSI 提供更高的性能 (100M/sec), 更远的连接距离 ( 每连接最远达 10 公里 ), 更大的寻址空间 ( 最大 192

194 个节点 ) FCP-SCSI 使用帧传输取代块传输帧传输以大数据流传输方式传输短的小的事务数据, 这样可提高服务质量 FCP-SCSI 支持为了简化管理和资源存储的存储池技术的网络配置 FCP-SCSI 支持提高可靠性和可用性的编码技术 3. FC-IP FC-IP 将光纤通道地址映射到 IP 地址,FC-IP 的寻址方式 : 广播一个 IP 地址, 然后从存储节点返回一个 MAC 地址如果 SCSI 设备不能区分 FCP-SCSI 帧和 FC-IP 帧,IP 广播可能导致错误 HDS 系统可通过检测帧头来区分 FCP-SCSI 帧和 FC-IP 帧, 没有这个能力的存储系统必须通过别的方法 ( 如 switch zoning) 来阻止 FC-IP 帧被广播到 fibre 端口 FC-IP 和以太网比有几个优点 : 可以和类似 FCP-SCSI 存储的内部连接架构集成, 以节省使用成本 ; 传输速度更快, 效率更高以太网传输数据包最高到 1500 字节包是以太网中基本校正单元, 在每一帧后都会导致消耗 CPU 周期的一个中断在 GB 以太网里负载通常也是一个限制因素, 避免占用全部带宽而 FC-IP 数据帧达到 2000 字节,FC-IP 校正基本单元是一个多帧队列 MTU 可以达到 64 个帧, 比较以太网而言允许光纤通道在主机中断之间传输更多的数据这种 MTU 可减少需要的 CPU 周期和提高传输效率 FC-IP 还有使用光纤通道网络的优点, 光纤通道网络是基于流控制的封闭网络以太网设初是考虑到要通过无流控制的公网, 它在阻塞发生时, 在一贯时间段之后返回并重发包, 消耗额外的 CPU 周期 IP 应用无须修改即可运行于 FC-IP, 享受光纤通道带来的高速和大大减少处理中断 Emulex 和 JNI 是提供 FC-IP 驱动的光纤通道 HBA 厂商他们计划传递一个 Combo 以支持 FCP-SCSI 和 FC-IP Troika 提供支持 FCP-SCSI FC-IP FC-IP(QOS) 的控制器, QOS 允许网络管理员分配协议优先权 4. FC-VI FC-VI 是在光纤通道上实现 VI 架构, 它允许数据在光纤通道接点的内存地址之间快速迁移 FC-VI 是 VI 架构的光纤通道应用, 一个 intel,compaq,100 多家厂商和组织为了减少服务器通信等待的协议标准 VI 设计的初衷是为了达到集群计算机之间通信等待减少和高带宽的效果在光纤通道网络里, 通过和另一节点接口的 HBA 的缓冲区和应用内存之间直接访问 (DMA) 的方法, 这个目标完成了 VI 架构建立了内存注册机制, 实质上就是限制用户内存的内存地址并支持数据从用户内存直接传输到 HBA 的缓存, 然后这个数据可以通过外部介质传输到另一个服务器应用内存的指定位置 ( 注册 ) 如果要使用 VI, 应用数据库或操作系统必须从获得相应的 API DB2 6.1 和 Oracle8.1 都在他们的数据库集群应用中使用了 VI 架构 193

IP over Ethernet 的延迟包括 TCP 栈 (CPU 负荷 ) 和以太传输延迟 100BaseT 的最大传输速率为 100Mbit/sec,FC-IP 减少了以太相关的延迟并以光纤通道的速度传输, 提供比 IP over Ethernet 更好的吞吐能力, 但仍然避免不了 TCP/IP 的软件延迟 FC-VI 去掉了 TCP 栈并提供了应用内存和 HBA 之间的 DMA FC-VI

195 IP over Ethernet 的延迟包括 TCP 栈 (CPU 负荷 ) 和以太传输延迟 100BaseT 的最大传输速率为 100Mbit/sec,FC-IP 减少了以太相关的延迟并以光纤通道的速度传输, 提供比 IP over Ethernet 更好的吞吐能力, 但仍然避免不了 TCP/IP 的软件延迟 FC-VI 去掉了 TCP 栈并提供了应用内存和 HBA 之间的 DMA FC-VI 饶过了系统内核, 避免了操作系统上下文转换和缓冲改变, 实现了更高的传输速率 FC-VI 需要一个支持 VI 架构的光纤通道 HBA,FC-VI HBA 和支持 SCSI I/O 的光纤通道 HBA 有本质上的不同 Troika 和 Finisar 都提供支持 VI 架构的光纤通道 HBA Finisar 出售一种基于 PCI 的支持 VI 架构的光纤通道 HBA, 支持点对点连接或交换形式 Troika 出售一种基于 PCI 的智能控制器?D?DSAN 2000 系列控制器, 这种控制器支持 FC-SCSI, FC-IP, 点对点 FC-VI,FC-AL 和交换拓扑 Troika 控制器提供多种管理选项和特征, 比如协议优先权配置和在负载均衡的 path 变换人们正在努力提出访问存储的 IP 标准,Cisco 为 SCSI over IP 向 IETF 提交了一个规范, 目前这个规范仍在开发中, 它需要将控制和命令信号与数据信号的传输电缆分开, 主要是考虑流控制和传输控制的开销第十五章现有设备厂商简介 15.1 HDS 公司的 HDS 9900V HDS 9900V 产品综述 HDS 公司于 2002 年 5 月 7 日发布了基于 HDS 9900 和第二代 HI-STAR 全光纤交换结构以及 64 位高速处理器的企业级高端智能存储系统 HDS 9900V 系列产品在 HDS 9900V 系列中包括两个型号的产品 : HDS 9980V 和 HDS 9970V, 其中 9980V 最大管理 1024 块盘包和 9970V 最大管理 128 块盘包,HDS 9980V 由 1 个磁盘控制器柜和外接 1 至 4 个磁盘阵列柜组成图 15-1 HDS 9900 外形 9900V 产品在以下几个方面进行了增强 : 194

196 HDS 9970V 产品系统支持 4 块到 128 块盘包 36GB 1.5 万转 / 每分钟 ( 系统最大裸容量 4.6 TB ) 73GB 1 万转 / 每分钟 1.5 万转 / 每分钟 ( 系统最大裸容量 9.2 TB ) 146GB 1 万转 / 每分钟 ( 系统最大裸容量 18 TB ) 系统缓存 64GB NV-CACHE 系统最大支持 48 个 Fibre Channel( 开放系统 ),24 条 FICON 或 24 条 ESCON 通道 (IBM Main Frame) 系统内部全光纤通道和 HI-STAR Ⅱ 型, 带宽为 7.9 GB/S HDS 9980V 产品系统支持 8 块到 1024 块盘包 36GB 1.5 万转 / 每分钟 ( 系统最大裸容量 36.8TB ) 72GB 1 万转 / 每分钟 1.5 万转 / 每分钟 ( 系统最大裸容量 73.7TB ) 146GB 1 万转 / 每分钟 ( 系统最大裸容量 147.5TB ) 系统缓存 128GB NV-CACHE 系统最大支持 64 个 Fibre Channel( 开放系统 ),32 条 FICON 或 32 条 ESCON 通道 (IBM Main Frame) 系统内部全光纤通道和 HI-STAR Ⅱ 型, 带宽为 15.9 GB/S lightening 9900V 和 9900 硬件技术指标检索对照表见表 15-1: 表 15-1 HDS 9900 系列参数条目 9980V 9970V 内部结构采用类型 Hi-StartⅡ Hi-StartⅡ 全光纤交换全光纤交换前端主机接口板 CPU, 个数 32 颗 64 位 RISC, 16 颗 64 位 RISC, 200Mhz 200Mhz 195

197 后端磁盘控制器 CPU, 个数 32 颗 64 位 RISC, 16 颗 64 位 RISC, 166Mhz 166Mhz 系统内部缓存总带宽 15.9 GB/s 7.9 GB/s 数据链路带宽 10.6 GB/s 5.3 GB/s 控制链路带宽 5.3GB/s 2.6GB/s 数据链路带宽 (8bit) 每条光纤 332MB/S 每条光纤 332MB/S 控制链路带宽 (8bit) 每条光纤 83MB/S 每条光纤 83MB/S 数据链路数量 32 条 16 条控制链路数量 64 条 32 条支持的并发 I/O 数 / 通向缓存通道数 96 / / 48 系统单故障点没有没有开放系统主机最大端口数最大 ESCON 主机端口数 (OS390) 最大 FICON 主机端口数 (OS390) 开放系统接主机端口标准 1Gb/2Gb 自适应 1Gb/2Gb 自适应开放系统最大可连接异构主机数量最大后端磁盘控制器 4 对 2 对后端磁盘通道环路 32 条 16 条系统最大裸容量 (73GB 磁盘, 实际 72GB) 75 TB 9.2 TB 系统最大裸容量 (146GB 磁盘, 实际 144GB) 147.5TB 18 TB 系统最大盘包数 1024 块 128 块盘包可靠性 250 万小时 250 万小时系统最大数据缓存 128GB 64GB 系统最大指令缓存 6GB 3GB 镜像写缓存是是支持 RAID 5 方式 3D+1P 和 7D+1P 3D+1P 7D+1P 支持 RAID 0+1 方式 2D+2D 和 4D+4D 2D+2D 4D+4D 和和 196

198 HDS 9900V 硬件技术介绍系统内部更高的带宽 HDS 9900V 系列产品的内部架构采用全光纤通道技术和最新的立体交换架构, 即第二代 HI-STAR 体系结构第二代 HI-STAR 体系结构与第一代 (HDS 9900 系列产品采用, 包括 :HDS 9960 HDS 9910) 相比, 在系统的整体性能上具有极大的提高, 特别是通过 64 位的高频 CPU 处理器和多光纤通道, 使 HDS 9970V 产品的带宽可达到 7.9GB/S,HDS 9980V 产品的带宽可达到 15.9GB/S 新一代 HI-STAR 体系结构的带宽几乎为上一代产品的 3 倍, 是传统第二代产品的 8 倍表 15-2 HDS 9900 产品带宽型号控制带宽数据带宽 Cache 总带宽 9980V 5.3GB/s 10.6GB/s 15.9GB/s 9970V 2.6GB/s 5.3GB/s 7.9GB/s 系统内部更强的处理器和扩展性 HDS 9900V 系列产品中的前端与主机的连接通道控制器以及后端与磁盘阵列连接的控制器中的处理器也进行了升级更新新的处理器采用 64 位的高频 MIPS 处理器, 取代了过去的 32 位低频处理器其中前端与主机连接的处理器为 200MHZ 主频, 后端接磁盘阵列的处理器为 160MHZ 主频, 它的处理能力为 HDS 9900 系列产品中处理器能力两倍以上 (HDS 9900 系列产品所使用的处理器为 32 位的 80MHZ 主频的 i960 处理器 ) 由于处理器能力的提高,HDS 9900V 系统内部的每条光纤通道的带宽由 200MB/S 提高到 332MB/S 并且连接主机通道数量与内部接磁盘阵列通道数量可随应用规模和 I/O 支持能力的变化及要求, 可不停机在线扩充, 示意图如图 15-3: 系统超大容量 HDS 9900V 系列产品的最大容量也提高了很大目前,HDS 9900V 产品支持 36GB( 转速 15000/ 分 ) 72 GB( 转速 10000/ 分,15000/ 分 ) 144GB( 转速 10000/ 分 ) 的磁盘 HDS 9980V 产品可装载到 1024 块物理盘, 是目前全球最大的磁盘存储系统 HDS 9970V 产品可装载到 197

4 块或 8 块为一组的基本容量单元扩充更灵活的 RAID 5 和 RAID 0+1 保护方式技术 HDS 9900V 系列产品对 RAID

199 128 块物理盘这样, HDS 9980V 产品的最大容量为 147TB,HDS 9970V 产品的最大容量图 15-2 HDS9900 系统示意图 (1) 图 15-3 HDS9900 系统示意图 (2) HDS 9900V 前端 64 位高频处理器示意图为 18TB, 并且所有系统可在不停机情况下进行 4 块或 8 块为一组的基本容量单元扩充更灵活的 RAID 5 和 RAID 0+1 保护方式技术 HDS 9900V 系列产品对 RAID 保护技术也进行的增强与灵活选择在 RAID 0+1 保护方式下, 一个 RAID 组可以由 4 块或 8 块物理盘组成 2D+2D 或 4D+4D, 这样可以达到更高的 198

200 性能同时 HDS 9900V 还提供由 4 块或 8 块组成的物理盘支持 RAID 5 保护方式下的 3D+1P 图 15-4 HDS 9980V 前后端通道扩展能力示意图和 7D+1P, 其中 7D+1P 的 RAID 5 方式可以极大的提高磁盘组的利用率 (88%), 节约了盘图 15-5 HDS 9900 系统 RAID 缓存设计组投资并可同时提高大文件处理方式的性能缓存最大和最安全设计的存储系统 199

图 15-6 HDS 9900 系统电源保护 HDS 9900V 仍在数据缓存采用多块设计并支持数据在缓存区的镜像写处理方式, 保证了 HDS 9900V 相对其他存储设备在缓存一级无单故障点设计 ( 见图 ) 其他产品因采用单块缓存处理技术并存在单故障点设计隐患, 这样数据在缓存延时处理期间会因缓存板故障而丢失数据 9900V 采用 4GB 缓存板作为扩充单元进行在线扩容,9980V

201 图 15-6 HDS 9900 系统电源保护 HDS 9900V 仍在数据缓存采用多块设计并支持数据在缓存区的镜像写处理方式, 保证了 HDS 9900V 相对其他存储设备在缓存一级无单故障点设计 ( 见图 ) 其他产品因采用单块缓存处理技术并存在单故障点设计隐患, 这样数据在缓存延时处理期间会因缓存板故障而丢失数据 9900V 采用 4GB 缓存板作为扩充单元进行在线扩容,9980V 最大扩充至 128GB,9970V 最大扩充至 64GB 逻辑虚拟端口功能可以支持更广泛和更灵活的 SAN 连接性 HDS 9900V 系列产品通过新增加的微码功能率先实现逻辑虚拟端口软件定义功能 (HSD), 可支持系统连接主机更广泛更灵活的 SAN 连接性, 即在原有的多物理通道支持多操作系统主机平台连接的基础上, 通过在单个物理端口上定义多个虚拟端口 ( 最大为 128 个 ) 来支持在同一个物理通道上的不同操作系统多主机平台的连接, 该功能为用户在多操作系统环境下的连接配置系统端口节省了投资, 不需要为每个操作系统在存储系统上都配置相应通道接口 ( 连接示意图如图 15-7) 独特与高可靠性的盘包设计 HDS 9900V 采用 HDS 自行设计的 3 英寸直径和 1 英寸高全光纤双口读写高速盘包, 其它同类产品仍使用 SCSI 与单口读写盘包同时 HDS 9900V 所用盘包平均无故障间隔指标为 250 万小时 HDS 9900V 部件冗余设计 200

HDS 9900V 自动故障预警监测与回叫系统设计 9900V 控制器柜内设有故障信息与指示灯显示报警系统及 SVP 笔记本电脑显示服务与报警系统, 并通过系统配置的 Resource Manager 当中的 Graph Track 智能菜单式窗口软件显示 9900V

202 9900V 整机部件没有单一故障点, 所有部件均为 N+1 冗余备份设计, 即双独立供电接口与内部 N+1 电源模块, 冗余散热风扇, 双 SVP 服务处理器设计,RAID 技术保护方式, 动态热备份盘包, 双独立 Cache 板设计, 在两组独立 Cache 内镜像写数据,7 x 24 x 365 天不停机运行标准图 15-7 HDS 9900 系统主机连接方式 HDS 9900V 不停机维修升级与扩容设计 9900V 的所有部件均可热插拔和不停机进行更换扩容和不停机地微码升级当微码出现问题时可以自动不停机地返回旧版本并可不停机地加入微码的 Patch HDS 9900V 自动故障预警监测与回叫系统设计 9900V 控制器柜内设有故障信息与指示灯显示报警系统及 SVP 笔记本电脑显示服务与报警系统, 并通过系统配置的 Resource Manager 当中的 Graph Track 智能菜单式窗口软件显示 9900V 内部各个部件运行状态及故障发生时部件所处位置便于查找故障与维修图 15-8 HDS9900 系统故障诊断另外在 9900V 中配有 Hi-Track 自动故障预警监测与回叫系统, 定时运行监测所有部件, 当部件即将发生故障时, 其征兆信息通过 Hi-Track 与配置的电话线和 Modem 自动拨号传 201

至实施方 Hi-Track 监测中心实施方技术人员根据信息可及早通知用户更换部件, 避免故障发生 15

203 至实施方 Hi-Track 监测中心实施方技术人员根据信息可及早通知用户更换部件, 避免故障发生 HDS Lightening 9900V 软件分析 Hicommand 异构存储管理框架平台作为一家专业的存储系统生产及服务厂商,HDS 对客户在存储系统方面的需求有深深的理解存储工程师知道客户在进行庞大的数据管理时的痛苦, 那就是如何有效的管理不断增长的大量数据, 如何的保护这些重要的数据, 如何将这些数据成功的转化为知识为企业所用, 如何降低管理的成本所有的这些需求, 就是 HDS 开发的 Hicommand 管理框架的动力它的目标就是简化存储系统的管理保护存储系统的数据资源优化存储系统数据资源的使用图 15-9 HDS9900 软件结构 Hicommand 管理框架是一个开放的可扩展的模块化的管理架构它通过采用工业标准的公用信息模型 (CIM) 和简单对象访问协议 (SOAP), 可以很容易的集成 HDS 公司的软件产品以及独立软件厂商的产品通过它, 可以将最好品牌的产品进行完美的集成, 使客户得到最好的系统解决方案和信息基础架构, 并支持将来的扩展 HDS 公司知道, 没有任何一家公司能够为客户在任何方面都提供最好的产品, 存储工程师的优势在存储系统, 存储工程师专注于存储系统, 如果客户选择磁带库备份系统时, 有些公司在该领域实力很强, 202

客户有权利选择这些优秀的产品只要各家厂商都遵守工业的标准, 那么对其产品的管理都可以集成到这个框架上来通过 Hicommand 管理框架, 为用户可以带来下列的好处 : 降低用户的总拥有成本 (TCO) 简化存储系统的管理无缝的集成业界最好品牌的软件及硬件产品目前, 在 Hicommand 管理框架下,HDS 公司提供了 Hicommand 设备管理软件以及 Hicommand

204 客户有权利选择这些优秀的产品只要各家厂商都遵守工业的标准, 那么对其产品的管理都可以集成到这个框架上来通过 Hicommand 管理框架, 为用户可以带来下列的好处 : 降低用户的总拥有成本 (TCO) 简化存储系统的管理无缝的集成业界最好品牌的软件及硬件产品目前, 在 Hicommand 管理框架下,HDS 公司提供了 Hicommand 设备管理软件以及 Hicommand 性能管理软件 HiCommand 设备管理软件 (Hicommand Device Manager) HiCommand 设备管理软件为企业提供了一个统一的管理平台, 可以实现集中式的管理多个异构的存储系统它可以从主机应用和存储系统等方面对存储资源进行管理, 可以提高存储系统管理员的工作效率, 联机的动态的对存储资源进行管理目前, 通过 Hicommand 设备管理软件, 可以在统一的管理界面下集中管理 HDS 的存储系统以及 SUN 的存储系统图设备管理软件 Hicommand 设备管理软件的结构和主要功能 Hicommand 设备管理软件由三个部件组成 : 设备管理软件服务端, 基于 Web 的图形化的客户端以及运行在主机上的代理主要功能 : 从逻辑物理以及主机的角度对存储系统进行管理可以同时管理多台存储系统, 这些系统可以是不同型号不同厂商的存储系统支持 HDS Shadowimage 和 Truecopy 软件使用中央控制台来发现管理和监控多台存储系统 203

205 易于使用的用户接口通过 Internet 或 WAN 采用基于 Java 的图形化方式进行远程管理严密的安全保护机制同时支持自动化的脚本编程可以与其它厂商的硬件及软件集成采用预警机制对存储系统进行维护管理使用这种软件, 可以为客户带来的好处如下 : 面向业务运营的管理方式, 企业可以从其商业运营的层面来规划和管理存储资源 ; 用户可以实时的掌握其存储资源的使用率, 以便尽早规划, 满足业务运营的要求, 便于管理用户得以采用统一的管理界面对不同的存储系统进行管理, 实现自动化的配置及管理复杂的存储资源, 满足服务标准的承诺, 减低管理的风险另外, 客户还可以得到如下收获 : 采用预警式的故障诊断机制, 使故障清除在萌芽之中将复杂的手工管理过程自动化, 极大的降低出错的概率投资最大化利用实时的对存储资源进行管理, 充分有效的利用存储资源集中的控制台对所有的存储系统进行管理统一的管理界面管理所有不同的存储系统 Hicommand 性能管理软件 (Hicommand Tuning Manager) Hicommand 性能管理软件可以对其管理的存储系统的性能进行智能的预警式的监控报告及预测存储资源的需求能力, 可以与业务应用系统进行集成 ( 如 Oracle 系统 ) 这种软件帮助客户实施集中管理他们的存储系统环境 Hicommand 性能管理软件报告存储系统的性能和容量, 从多个方面观察存储系统的状况它可以从存储系统, 从服务器以及应用程序各个方面来看存储的表现同时, 它还提供高级的预测功能, 对存储系统的需求进行预测实现 : 同设备管理软件一样, 也是采用易用的图形化界面 ; 204

206 从应用系统服务器以及存储的角度报告存储系统的资源状况 ; 监控存储系统的性能及能力 ; 分析和预测未来的需求 ; 自动的生成各种报告 Resource Manager- 系统资源管理性能监视套件 Resource Manager 是 HDS 公司设计的存储系统资源管理的软件包, 实现对存储系统的配置定义性能监视状态报告等管理功能帮助用户简化存储系统设置管理操作流程, 直观表现存储系统工作状况和配置状况, 提供用户实时监控历史数据分析报告和变化发展的趋势预估报告, 帮助用户优化存储系统性能, 合理分配和利用存储系统资源, 提高系统管理的生产效率, 释放管理员的生产力, 帮助客户规范的安全的实施和管理生产流程和管理流程, 为用户的容量评估容量扩展资源使用提供了详细的数据积累和报告, 使客户的投资回报率最大化整个系统软件包由 Remote Console LUN Manager LUN Expansion Flash Access SANtinel Graph Track 软件组合构成主要功能 : 提供用户友好的图形用户界面 (GUI) 和 WEB 浏览器的管理方式, 从本地 ( 存储系统上 ) 或远程 ( 企业内部网络 ) 通过 Windows 工作站以 WEB 方式远程管理 HDS 的企业存储网络系统 HSD 功能是业界唯一的多主机共享存储系统物理端口的解决方案, 提供异构主机系统或多个主机共享同一个物理通道端口访问 LUN, 提供主机更广泛灵活的 SAN 连接性, 节约大量的投资 Flash Access 通过在指定的 Cache 中进行读写 I/O 操作, 以接近于主机通道数据传输的速度, 来提高具有特殊要求的数据存取访问的速度, 为应用系统提供了高速安全的特殊虚拟存储区域和数据读写方式, 通过应用系统的合理设计和使用, 可以帮助用户提高整体性能系统 LUN Manager 对磁盘存储系统进行系统配置和定义,LUN 分配,RAID 定义和管理, Cache 管理和配置, 报告磁盘系统的配置信息 205

监视存储系统工作情况, 报告磁盘系统运行状态, 提供错误预警和报警报告磁盘组性能情况, 自动调整存储系统的性能, 支持数据库性能表现提供直观醒目的图形和报表方式监视存储系统资源和系统性能, 并提供预先设计的格式化的报告和趋势分析报告完成 ShadowImage 系统软件和 TrueCopy 远程备份系统件的控制与定义操作具有 Zone 分区安全管理图 15-11 软件接口

207 监视存储系统工作情况, 报告磁盘系统运行状态, 提供错误预警和报警报告磁盘组性能情况, 自动调整存储系统的性能, 支持数据库性能表现提供直观醒目的图形和报表方式监视存储系统资源和系统性能, 并提供预先设计的格式化的报告和趋势分析报告完成 ShadowImage 系统软件和 TrueCopy 远程备份系统件的控制与定义操作具有 Zone 分区安全管理图软件接口 Remote Console- 远程控制台软件, 包括 Local User Interface 和 Storage Navigator 软件 Local User Interface- 本地用户控制接口软件管理存储系统的门户, 基于 Java 的开放管理平台对存储系统进行简单的本地化操作和管理可以线性的管理 8 个相同种类的存储系统简单易用的集中管理所有与存储系统相关的软件, 包括商业连续性处理性能备份 / 恢复等软件, 简化用户的操作流程提供远程访问功能, 增强存储系统的控制和管理的可用性和灵活性 Storage Navigator- 存储管理导航软件 206

基于 Java 的独立的管理机制和平台, 用户使用具有 Java 插件的浏览器, 通过安全许可进行 Lightning 9900V 系列的存储管理, 无需客户端软件, 远程管理存储系统通过 Java GUI 直观清晰的定义和控制逻辑卷 (Virtual Volume) 与物理磁盘的布局通过 Java RMI 提供虚拟管理服务器功能, 内置 WEB Server, 支持远程访问通过

208 基于 Java 的独立的管理机制和平台, 用户使用具有 Java 插件的浏览器, 通过安全许可进行 Lightning 9900V 系列的存储管理, 无需客户端软件, 远程管理存储系统通过 Java GUI 直观清晰的定义和控制逻辑卷 (Virtual Volume) 与物理磁盘的布局通过 Java RMI 提供虚拟管理服务器功能, 内置 WEB Server, 支持远程访问通过 RAID Java RMI 和主机代理引擎提供逻辑卷的管理 LUN Manager- 磁盘逻辑单元管理软件图软件模块接口该模块提供简单易用的物理磁盘矩阵的集中管理功能, 可以通过远程控制台灵活方便的配置磁盘矩阵组, 通过减少调整平衡 I/O 负载的工作时间, 提高雇员的生产力 ; 配置 FC 光纤通道的属性, 包括 FC-AL 和光纤通道的拓扑, 定义 SCSI 端口与 LUN 的映射关系, 可以随时动态增加删除 SCSI path; 给 LUN 分配 SCSI path LUN # SCSI ID,Fibre path 等配置定义, 通过减少逻辑设备的竞争访问, 提高数据访问的性能, 减少主机 I/O 排队时间, 可以将 Open 9s Open 3s Open Ks 聚合成 Extended LUN 另外, 它还支持 Open Ks(1.9GB), Open 3s(2.4GB), Open 8s(7.3GB), Open 9s(7.3GB) 的 LUN 模式 LUN Expansion(LUSE)-LUN 卷容量扩展软件对于某些接口访问 LUN 数量有限制的主机操作系统,LUSE 提供了访问大容量存储系 207

统的解决方案 LUSE 提供在开放系统的主机上使用较少的 LU 数目解决方案, 允许将最大 36 倍于标准 Open-X 容量大小的 LU 绑定为一个逻辑 LUN 图 15-13 HDS 9900 的连接 SANTinNel & HSD(feature)- 存储区域网安全管理软件 HSD 功能是业界唯一的多主机共享存储系统物理端口的解决方案, 提供异构主机系统

209 统的解决方案 LUSE 提供在开放系统的主机上使用较少的 LU 数目解决方案, 允许将最大 36 倍于标准 Open-X 容量大小的 LU 绑定为一个逻辑 LUN 图 HDS 9900 的连接 SANTinNel & HSD(feature)- 存储区域网安全管理软件 HSD 功能是业界唯一的多主机共享存储系统物理端口的解决方案, 提供异构主机系统或多个主机共享同一个物理通道端口访问 LUN, 提供主机更广泛灵活的 SAN 连接性, 节约大量的投资 HDS 9900V 系列产品通过新增加的微码功能率先实现逻辑虚拟端口软件定义功能 (HSD), 在原有的多物理通道支持多操作系统主机平台连接的基础上, 通过在单个物理端口上定义多个虚拟端口 ( 最大为 128 个 ) 来支持在同一个物理通道上的不同操作系统多主机平台的连接在开放系统多平台或 SAN 环境中通过使用 World Wide Names, 控制每台主机仅可以访问事先定义的 LUN, 达到 SAN 结构中 Zone 的安全管理功能和数据保护功能支持开放系统和 OS390 系统在 HSD 功能支持下, 允许 WWN 群组访问 LUN 或 LUN 群组功能, 每个组最多可以有 208

128 个 WWN 访问一个 LUN 或者 LUN 群组 HSD 最大配置 : WWNs per port: 128 LUNs per HSD: 256 HSDs per port: 128 LUNs per port: 512 HSDs per system: 4096 (32 x 128) Graph Track- 性能监控软件实时采集存储系统运行信息, 通过图形报告的方式帮助用户监视

210 128 个 WWN 访问一个 LUN 或者 LUN 群组 HSD 最大配置 : WWNs per port: 128 LUNs per HSD: 256 HSDs per port: 128 LUNs per port: 512 HSDs per system: 4096 (32 x 128) Graph Track- 性能监控软件实时采集存储系统运行信息, 通过图形报告的方式帮助用户监视分析存储系统性能和资源使用情况将实时和历史性的监视数据以图形方式显示, 并将峰值趋势等关键信息图 Graph Track 图形界面重点显示实时监控存储系统的整机控制单元部件等的使用情况和性能, 包括短期和长期的 Cache 命中比率, 读写操作比率,I/O 次数统计 GT 可以在 Array Group 和 LDEV 层面收集和显示详细的 I/O 统计数据 GT 对某些指定的部件提供了可调整的警告级别监视机制,GT 监视 CHIP ACP LDEV 等控制单元的活动, 当超出用户设定的阈值,GT 将在监控图形中变换颜色警告用户 GT 提供了内部日志功能, 详细记录内部 GT 程序的操作, 便于客户核实操作调查问题监视 GT 的操作情况为用户预先设计了格式化的报表, 可以对存储系统上的磁盘配置逻辑卷分布主机的连接情况分别作出报表统计等工作 209

Flash Access- 逻辑盘常驻缓存, 快速存取软件 Flash Access 通过在指定的 Cache 中进行读写 I/O 操作,

211 用户可以自己设置的采样频率,Graph Track 还可以根据用户设定的其他参考值自动的管理有关性能和资源使用情况的数据可以显示 Subsystem ID Subsystem 和 LDEV 配置的详细信息, 直观展示存储系统的配置情况图 GT 界面示意图 Flash Access- 逻辑盘常驻缓存, 快速存取软件 Flash Access 通过在指定的 Cache 中进行读写 I/O 操作, 以接近于主机通道数据传输的速度, 来提高具有特殊要求的数据存取访问的速度, 为应用系统提供了高速安全的特殊图 HDS 9900 缓存结构示意图 210

212 虚拟存储区域和数据读写方式, 通过应用系统的合理设计和使用, 可以帮助用户提高整体性能系统所有对 Flash Access area 写操作的 I/O, 都是双写的操作模式, 同时写入 Cache 和磁盘中, 保证数据的完整性和安全性 Flash Access 允许用户将逻辑卷的数据保存在指定的 Cache 区域中 ( 占系统总 CACHE 的容量 ), 可以动态的增加或删除 Flash Access 区域的大小, 不用中断正在运行的 Flash Access 设置, 而可以动态的扩张容量在用户人为的删除 Flash Access area 中的数据之前, 系统保证 Cache 中的数据不会丢失, 如果删除 Flash Access area, 所有写 I/O 都会保存到受影响的磁盘上, 数据不会丢失每一个 LDEV 可以有最大 1024 个 Flash Access extent HDLM- 通道负载均衡与故障自动切换软件 HDLM(Hitachi Dynamic Link Manager) 是 HDS 公司提供的安装在主机端的存储工具软件 HDLM 提供主机到存储系统的 I/O 通道负载平衡和故障切换功能 ; 增强了主机系统的数据可得性虽然存储系统通过 RAID 技术对数据进行了保护, 但是单纯的存储系统是不能够提供整个 I/O 系统的端到端的保护的主机端到存储系统的整个 I/O 路径中发生了故障如 : HBA 失效 FC 交换设备故障连接电缆断开等会中断主机端对数据的访问 ;HDS 公司提供的 HDLM 软件, 通过对主机到存储的冗余 I/O 路径的管理实现负载均和故障切换 ; 保证了 24 7 业务不间断的运行 HDLM 是基于服务器端的 GUI 解决方案, 能够提供 : 支持 SCSI 和 FC 的连接方式 ; 在 SAN 环境中能够自动的发现主机到存储的路径 ; 支持 I/O 路径的自动故障切换和恢复回切 ; 支持多通道的负载均衡技术 ; 支持命令行 / 图形界面 /API 接口 ; 支持所有的 HDS 存储系统可以看出 HDLM 软件具有如下特点 : 高可靠性方面 : 通过服务器的多条通道实现 I/O 通道自动的故障切换和恢复回切提高了服务器端数据访问的安全性和性能 211

的工作方式图 15-17 HDML 的工作方式图 15-18 HDML 通道控制 HDLM 对 I/O 通道进行实时控制, 检测每个通道的状态 ; 当有任何一个通道发生故

213 高性能方面 : 通过多条 I/O 通道的负载均衡提高了应用系统数据访问的性能, 进而有效改善了应用系统的性能对于操作员来讲, 易安装性方面 :HDLM 能够自动查寻主机端到存储端的路径, 这种查寻无论是直连的 DAS 结构还是复杂的 SAN 结构都可以自动完成因此 HDLM 安装完成后不需要复杂的配置就可以使用了 HDLM 的工作方式图 HDML 的工作方式图 HDML 通道控制 HDLM 对 I/O 通道进行实时控制, 检测每个通道的状态 ; 当有任何一个通道发生故障时自动将 I/O 切换到其它健康的通道上 ; 同时,HDLM 会自动记录整个操作过程 HDLM 能够支持所有的 HDS 存储系统, 并且在功能上基本相同对于 Lightning 9900V 212

214 系列和 Thunder 9570V 系列, 在实现负载均衡的时候会有所不同由于 Thunder 9570V 系列中的 LUNs 是由两个控制器分别控制的, 因此服务器通过不同的通道同时连接两个控制器时会存在两种类型的通道 Owner 或 Non-ower 的通道如下图 ( 图 15-18): 在 Owner Path 之间可以实现负载均衡 ShadowImage- 业务连续性解决方案 ShadowImage 是 HDS 公司深入研究当今商业社会业务连续性处理流程 7 x 24 x 365 服务数据可靠性数据可用性数据保护等一系列需求后, 全力开发的业界公认的技术领先的数据复制软件基于存储系统内部运行的数据复制技术, 无需主机资源参与, 最大程度的发挥了软件的可用性 ; 瞬间分离得到的多个数据备份拷贝, 提供了用户并行处理联机业务批量作业应用开发测试数据分析和数据挖掘快速恢复的解决方案, 节约了生产主机宝贵的资源而处理其他重要的业务, 革新了批量作业磁带备份的新策略, 给客户提供了最佳投资选择 - 最小的总拥有价值 (TOC) 和最大化的投资回报配合 HDS 公司的 TrueCopy 和 Freedom 智能存储系统, 为客户提供高度安全的高度灵活的高度统一的数据保护容灾数据备份的解决方案它的主要功能如下 : 第一, 它采用了高速的无需主机处理资源参与的数据复制技术, 不依赖于任何的主机操作系统文件系统和数据库系统的限制, 以存储系统内部的软件操作, 完成基于磁道的逻辑卷复制其次,ShadowImage 使用了本地镜像数据同步 ( 异步方式 ) 处理机制, 在保证不增加主机 I/O 响应时间的前提下, 保护关键联机生产数据的高度安全性应用系统的可靠性数据的完整性, 保护用户的商业信誉 ; 运用立即获得连续性业务处理的不同时间段 (PIT) 的数据拷贝, 确保灾难或故障发生时的最新时间段的数据拷贝备份和数据的一致性, 提供客户灵活快捷安全的恢复方法第三, 通过 ShadowImage, 可以在一个系统内立即访问关键业务数据的拷贝, 立即共享对时间比较敏感的相关数据, 保证业务处理流程的并行处理, 确保企业为客户提供实时的服务, 提高客户对企业的忠诚度, 提升企业对客户和市场的的敏捷反映程度第四,ShadowImage 革新数据备份策略, 提高操作流程的效率, 彻底清除连续性业务处 213

215 理流程中的备份窗口 (Backup-Window) 时间和缓慢的磁带备份时间, 满足日益增长的业务量和数据急剧增长的需要, 在日趋激烈的竞争中获取宝贵的空间第五,ShadowImage 在磁盘拷贝操作中提供快速的恢复技术和数据拷贝的高可用性, 完全提升数据恢复的速度和可靠性, 摒弃缓慢的因磁带质量问题引发故障的磁带恢复机制, 提升了企业对人为事故灾难的快速恢复能力和应变能力第六,ShadowImage 通过快速数据拷贝技术和连续的 PIT 数据拷贝技术, 可以快速有效的准备开发和测试环境, 大大缩短新的商业应用程序的开发测试的时间和周期, 为用户快速推出业务品种提供强有力的保障, 缩短业务创新的周期通过快速数据拷贝技术, ShadowImage 快速的复制真实用户环境, 大大简化灾难恢复测试的步骤计划流程演练例行测试, 确保容灾计划的可实施性第七,ShadowImage 提供高可用的灵活的操作性, 客户可以自行配置和操作, 无需 HDS 工程师参与 ; 无需预留专用的逻辑盘池, 节约磁盘资源, 提高了存储系统的利用率经过 ShadowImage 复制的所有数据拷贝都是 Raid 保护的, 本地镜像机制 + 磁盘矩阵 Raid 技术给用户提供了双重的数据保护第八,ShadowImage 支持开放系统和 OS390 系统开放系统下 1 个源逻辑卷最多可以获得 10 个拷贝 ( 包括源卷 ),OS390 系统总共支持 4 个拷贝 ( 包括源卷 ) HDS 9900V 系列最大支持 4096 pairs( 镜像磁盘对 ) 本地磁盘镜像功能与快速数据恢复 214

可以定义生产数据逻辑盘与备份逻辑盘的镜像复制关系, 实时的 ( 异步方式 ) 保持 2 个逻辑磁盘的数据同步可产生一个或多个与生产主机数据库所在的盘卷

216 ShadowImage 是存储系统内部的数据复制技术, 磁盘的镜像功能对于主机系统是不知情的处理, 异步方式数据复制技术在不增加主机 I/O 响应时间的前提下, 提供了逻辑卷的实时 ( 异步方式 ) 数据保护功能, 提高了系统的可靠性通过 ShadowImage, 可以定义生产数据逻辑盘与备份逻辑盘的镜像复制关系, 实时的 ( 异步方式 ) 保持 2 个逻辑磁盘的数据同步可产生一个或多个与生产主机数据库所在的盘卷 (P-Vol) 完全相同的一个备份镜像卷 (S-Vol), 图 HDS9900 双机热备图 HDS 9900 双机热备工作过程备份镜像卷中的数据和生产数据库中的数据完全相同 215

ShadowImage 是实时镜像写与盘组 RAID 保护, 因此在同一 9900V 系统内可得到 2 份或多份数据拷贝, 并当存放生产数据盘组发生故障不能恢复运行时可通过备份卷的数据 ( 两边是实时一致的 ) 与切换地址定义恢复应用, 相比磁带恢复方法,SI 有无可伦比的快速性简便性可靠性革新数据备份策略, 缩短业务处理流程中的备份窗口 (Backup-Window) 通过

217 ShadowImage 是实时镜像写与盘组 RAID 保护, 因此在同一 9900V 系统内可得到 2 份或多份数据拷贝, 并当存放生产数据盘组发生故障不能恢复运行时可通过备份卷的数据 ( 两边是实时一致的 ) 与切换地址定义恢复应用, 相比磁带恢复方法,SI 有无可伦比的快速性简便性可靠性革新数据备份策略, 缩短业务处理流程中的备份窗口 (Backup-Window) 通过 ShadowImage 可以快速获得多个生产卷的 PIT 数据拷贝, 由此革新了业务处理流程的并行处理的新策略和解决方案, 不但保持 7x24 连续服务, 并且消除了数据备份窗口, 引发了 LAN-Free, Server-Free 的数据备份的革命, 节约了宝贵的 CPU 和内存等资源网络资源, 大大缩短了应用系统因数据备份等原因的脱机时间备份卷 (S-Vol) 是一个可独立寻址的盘卷, 通过分离磁盘镜像对等操作, 马上可以获得多个与生产数据完全一样的数据拷 ol oi nt -In -Ti m e C op y 图 ShadowImage 的数据备份贝备份卷, 这些卷可以立即在同一系统内使用, 或者通过装载等操作被其他的系统使用用户应用系统几乎无需 0 秒的下机时间, 即可利用其他主机备份通过 ShadowImage 得到的时间段 (PIT) 的数据拷贝由于备份主机系统直接连接存储系统, 可以访问 SI 的数据拷贝, 因此备份主机与磁带库构成了 LAN-free 的备份体系, 释放了传统备份方法所占用的局域网带宽另,ShadowImage 兼容任何的主机备份软件 - 完全的自动化的兼容 VERITAS NetBackup version 4.5 软件 PIT(Point in Time) 拷贝的并行应用 216

ShadowImage PIT 解决方案为用户提供了业务并行处理的新思路和实际可行的操作流程, 不但可以继续生产系统的运行, 还可以同时处理以前无法并行处理的业务, 极大的提高了生产效率和生产力其次, 它缩短了应用测试过程中环境准备测试失败后的数据恢复的时间和周期, 通过 SI 的瞬间分离技术本地镜像多个 PIT 拷贝等功能, 上述复杂麻烦危险性极高的操作可以快速安全的实施

218 ShadowImage PIT 解决方案为用户提供了业务并行处理的新思路和实际可行的操作流程, 不但可以继续生产系统的运行, 还可以同时处理以前无法并行处理的业务, 极大的提高了生产效率和生产力其次, 它缩短了应用测试过程中环境准备测试失败后的数据恢复的时间和周期, 通过 SI 的瞬间分离技术本地镜像多个 PIT 拷贝等功能, 上述复杂麻烦危险性极高的操作可以快速安全的实施 SI 的 PIT 拷贝解决方案可以帮助缩短应用开发周期, 应用环境的准备瞬间可以获得, 提高应用测试开发的效率, 加快产品创新周期, 保持市场的竞争力, 是系统程序员数据库管理员的福音 ShadowImage PIT 还解决了长期困绕用户的大量数据传输的问题用户的数据分析和数据挖掘业务将无需耗费大量的时间进行生产数据历史数据的传输与迁移,PIT 拷贝的使用图 PIT 拷贝过程可以保障客户快速实时的分析营业数据, 极大的提升了商业价值, 是用户最好的投资回报 ShadowImage 是 HDS 提供的独特系统件, 既可以在主机上通过 CCI(Command Control Interface) 控制操作, 也可以在 HDS 存储系统本地的服务控制台 (SVP) 操作它使主机系统和 9900V 设备管理者能够在后台状态下, 为主机处理的数据在 9900V 内部实时创建可独立寻址的多 copy 卷这些 copy 卷是应用数据存放的现用生产卷的镜象, 可同时并行运行任 217

务一旦生产数据的 copy 卷建立后, 通过命令可以与其生产卷分割开, 应用系统数据库可通过生产卷继续做联机应用, 与此同时, 备份系统可利用 copy 卷进行备份报表生成和应用开发测试等工作 ShadowImage- 安全经济有效的数据容灾解决方案图 15-23 ShadowImage 的卷复制 ShadowImage 本地镜像技术提供本地关键数据的实时 ( 异步方式 )

219 务一旦生产数据的 copy 卷建立后, 通过命令可以与其生产卷分割开, 应用系统数据库可通过生产卷继续做联机应用, 与此同时, 备份系统可利用 copy 卷进行备份报表生成和应用开发测试等工作 ShadowImage- 安全经济有效的数据容灾解决方案图 ShadowImage 的卷复制 ShadowImage 本地镜像技术提供本地关键数据的实时 ( 异步方式 ) 的镜像备份解决方案, 在保证正常的 I/O 响应时间的前提下, 用户可以将关键的生产数据实时保持镜像备份, 长时间的保持数据同步, 镜像操作由 HDS 智能存储系统内部完成, 对主机操作系统是不知情的正常的 I/O 操作 ; 一旦生产卷故障, 应用系统可以快速的使用相同内容的备份卷恢复生产系统配合 HDS 磁盘系统的 Raid 技术, 给用户提供了双重的数据保护 ShadowImage 的快速 PIT(Point in Time) 拷贝技术, 保障了用户连续快速完整可靠灵活的获得连续时间的关键数据拷贝 ; 当由于误操作测试或者灾难对原始数据造成破坏,PIT 拷贝可以帮助客户快速的戏剧性的恢复最接近时间段或者客户指定的时间段的数据 ; 快速的复制同步分离恢复机制为客户提供了安全的快速的灵活的数据恢复保障, 极大的缩短故障恢复的时间, 最大限度的降低灾难的冲击, 减少用户的损失 ShadowImage 提供了全新的经济的可实施的容灾测试解决方案, 可以在保持本地生产系统和远程拷贝不受影响的情况下, 通过远程 SI 的 PIT 拷贝, 进行实时的模拟真实数 218

220 据环境的灾难恢复计划的测试 TrueCopy+ShadowImage 配合使用为用户提供了终极数据保护的解决方案, 实现了多重媒介多重备份异地容灾本地镜像本地恢复异地恢复的立体数据保护解决方案与 HDS 的远程拷贝软件 TrueCopy 配合使用, 可以非常灵活按照不通的需求和具体环境情况组合各种异地容灾备份方案, 提供具有高度的灵活性高度的安全性高度的数据一致性高度的可靠性的容灾数据保护解决方案注 : 目前,HDS 的 TrueCopy 软件其独有的时间戳 (Timestamp) 和一致性组 (Consistency Group) 技术, 是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案并被广大用户采用 TrueCopy- 数据远程容灾解决方案 TrueCopy 数据远程容灾解决方案是 HDS 公司在全面分析各种操作系统各种容灾技术仔细研究客户对容灾的需求和理念之后, 结合 HDS Freedom 智能存储系统的特点推出的数据远程容灾解决方案 ; 彻底解决长期困绕用户的难于进行容灾方案的真实演练真实数据测试的问题, 最大限度的减少数据丢失问题 ;TrueCopy 是基于磁盘存储系统运行的软件包, 不依赖任何的主机操作系统和其他第三方厂商软件, 为用户提供了最安全最开放最经济最实用的远程容灾解决方案 HDS 公司作为全球最大的独立的磁盘存储生产厂商, 专注于单一化产品生产的优势, 拥有熟悉 IBM HP SUN Compaq SGI Dell Window NT/2000 以及 Linux 等平台和远程灾备实施的经验丰富的服务工程师, 向用户提供全方位的灾备方案设计技术咨询和实施服务目前,HDS 的 TrueCopy 软件其独有的时间戳 (Timestamp) 和一致性组 (Consistency Group) 技术, 是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案, 保证异步处理方式下的数据一致性和完整性, 最大程度的减少数据的丢失, 并被广大用户采用主要功能如下所述 : 第一,TrueCopy Async 异步数据拷贝软件, 是 HDS 公司独有的创新技术, 是世界第一也是唯一的在开放环境中基于存储硬件系统的无需主机系统的异步处理方式的能够保证数据一致性的远程拷贝软件, 它可以在重复发生的灾难中保护数据, 在任何远的距离保持 219

221 数据库记录被修改顺序的完整性其次,TrueCopy 可以在在任何距离下, 提供完整的可靠的异地或同城灾难数据恢复和应用系统快速重新启动的解决方案, 先进的处理技术能够最大程度的减少灾难时的数据丢失, 提升企业对事故和灾难的应变能力和快速反应能力通过与 HDS ShadowImage( 本地数据镜像拷贝软件 ) 配合, 可以用 PIT 拷贝获得真实的生产环境数据, 不必中止生产系统的运行, 能够频繁的启动低廉花费的灾难模拟测试, 最大的限度提升用户的投资回报率 (ROI), 确保容灾计划的可操作性, 提高用户的商业信心, 免除客户的后顾之忧另外,TrueCopy 简化减少用户计划用于设备维护数据迁移数据集中备份的业务停顿时间通过减少用户对缓慢的高强度劳动的基于磁带的数据备份技术的依赖, 线性化的提升 IT 业务操作的效率 TrueCopy Sync 同步数据拷贝软件, 为用户的任何数据提供了实时的同步的远程镜像保护功能与此同时,TrueCopy Sync 与 Async 软件支持开放系统和 OS390 系统环境 NanoCopy 解决方案提供用户在世界任何地方, 获得完全不间断的连续的 PIT 时间段 (Point in Time) 的远程数据拷贝 HXRC 扩展的远程拷贝软件完全与 IBM 大型主机 OS390 系统的 XRC 软件和 GDPS 解决方案兼容, 满足用户不同的远程数据备份方案和要求 TrueCopy Synchronous 远程容灾同步方式数据备份软件远端的数据拷贝与本地的数据拷贝或生产数据永远保持一致, 远端拷贝永远是本地数据盘的镜像备份存储系统总是与生产存储系统数据同步, 本地存储系统与备份端存储系统同步进行相同的 I/O 更新, 备份端存储系统在更新时总是与生产端存储系统保持完全一致的顺序, 以保证数据的一致性和完整性当生产中心发生灾难时, 不会出现数据丢失不依赖于主机系统文件系统数据库系统, 基于存储系统的工作机制, 利用存储系统控制器的控制台来启动监控控制远程数据备份的操作节省主机系统的 CPU 资源, 提供用户开放的高可用性任何厂商的同步处理方式对应用系统的响应时间都会有冲击在进行远程数据备份时, 生产主机的应用程序系统发出写 I /O 指令, 生产中心的存储系统同时向本地磁盘和备份端的存储系统发出写操作的指令, 必须等候备份端存储系统回复写操作完成以后, 生产中心的 220

存储系统才向主机应用程序回复 I/O 完成, 因此主机应用程序每次 I/O 将承受备份端存储系图 15-24 TrueCopy 的异地备份

可以容忍的交易响应时间和其他因素的影响, 远程同步工作方式有距离的限制, 一般小于 25 公里 TrueCopy Synchronous

222 存储系统才向主机应用程序回复 I/O 完成, 因此主机应用程序每次 I/O 将承受备份端存储系图 TrueCopy 的异地备份统 I/O 确认的延迟, 以及由此带来的主机系统处理能力降低和资源消耗的冲击受应用系统 I/O 读写的活动频率网络带宽可以容忍的交易响应时间和其他因素的影响, 远程同步工作方式有距离的限制, 一般小于 25 公里 TrueCopy Synchronous 远程容灾异步数据备份软件解决由于远程同步镜像方式给生产应用系统性能造成的巨大冲击和系统的压力, 解决异图 TrueCopy 的异步拷贝过程 221

地长距离的场地部署问题, 以异步方式实现可靠的经济的可实施的容灾解决方案在 TrueCopy 的远程容灾异步方式下, 通过时间戳分组号可以保证数据的一致性和完整性, 并在灾难发生时的数据丢失最少, 恢复时间短, 极大的提升了用户的投资回报率而其它厂商的远程容灾异步方式为了完全保证数据的一致性和完整性, 需要额外的投资 ( 更多的磁盘盘组或更高的 CPU) 才能实现在异步方式下,

223 地长距离的场地部署问题, 以异步方式实现可靠的经济的可实施的容灾解决方案在 TrueCopy 的远程容灾异步方式下, 通过时间戳分组号可以保证数据的一致性和完整性, 并在灾难发生时的数据丢失最少, 恢复时间短, 极大的提升了用户的投资回报率而其它厂商的远程容灾异步方式为了完全保证数据的一致性和完整性, 需要额外的投资 ( 更多的磁盘盘组或更高的 CPU) 才能实现在异步方式下, 生产系统所发出的 I/O 操作至本地存储系统, 本地存储系统处理结束后即通知主机本次 I/O 结束然后, 本地生产存储系统将多个累计的写 I/O 异步 ( 几乎实时发送 ) 的, 不一定按顺序的传送到备份中心的存储系统中, 因此在异步方式下, 对应用系统的性能没有任何影响由于 I/O 操作不是同步的传送到备份中心, 在异步方式下, 就存在数据的传送顺序与实际的数据的操作顺序不一致问题为了解决这一问题,HDS 容灾软件对每个写入生产中心存储系统的 I/O 都打上一个时间戳 (TimeStamp) 并进行一致性分组 (Consistency Group), 在数据传输至备份中心时, 备份中心存储系统严格按照此时间戳的时间顺序重新排列并写入相应的逻辑卷中, 从而保证了备份数据的逻辑一致性与完整性目前,HDS 的 TrueCopy 软件图数据块的异地异步复制分段其独有的时间戳 (Timestamp) 和一致性组 (Consistency Group) 技术, 是目前存储业界唯一可行且安全的存储系统之间的异步数据备份方案并被广大用户采用 222

224 由于数据异步远程更新, 应用程序不必等待远程更新的完成, 因此远程数据备份的性能的影响通常较小, 并且备份磁盘的距离和生产磁盘间的距离理论上没有限制只有在当传送中的数据在生产磁盘控制器或在 TCA 中还没有形成数据一致组时生产中心发生灾难, 这些 in-flight 的数据就会丢失但 TrueCopy 通过 consistency group 技术保证灾难发生时已经发送到备份中心的数据将保持一致性, 因此在系统和应用程序重新启动之前, 需要恢复那些 in-flight 丢失的数据所花费的时间和造成的影响取决于客户的环境, 例如应用程序和设备配置的复杂性, 更新的完整性等等 HDS 支持的容灾通信链路协议为 :Fibre Channel ESCON DWDM ATM E1/E3 IP SONET 等如果采用 ESCON 通道直连方式, 最大的距离可以为 43 公里, 如果采用光纤通道直连, 最大距离为 10 公里 ( 长波单模光纤 ), 如果采用 DWDM, 最大的距离可以达到 100 公里 ( 上述通信链路可以运行在同步方式 ) 如果在 ATM E1/E3 或 IP 链路下, 采用异步方式, 理论上可以达到无限距离容灾系统的建设是一个系统工程, 并不仅仅是建立海量存储系统实现数据的远程备份, 更重要的是容灾系统的管理制度应急计划的制定容灾系统的切换演练只有这样, 才能保证在灾难发生时, 及时有序的切换到容灾系统上运行, 保证应用系统的业务连续性 HDS 拥有既具备 IBM HP SUN Compaq SGI Dell Window NT/2000 以及 Linux 等平台技术, 也具备远程灾备系统设计和实施的经验丰富的技术专家, 向用户提供全方位的灾备方案设计技术咨询和实施服务 223

据环境的灾难恢复计划的测试图 15-27 应用主机系统的容灾图 15-28 数据备份的容灾

225 ShadowImage 提供了全新的经济的可实施的容灾测试解决方案, 可以在保持本地生产系统和远程拷贝不受影响的情况下, 通过远程 SI 的 PIT 拷贝, 进行实时的模拟真实数据环境的灾难恢复计划的测试图应用主机系统的容灾图数据备份的容灾 TrueCopy+ShadowImage 配合使用为用户提供了终极数据保护的解决方案, 实现了多重媒介多重备份异地容灾本地镜像本地恢复异地恢复的立体数据保护解决方案 224

226 与 HDS 的远程拷贝软件 TrueCopy 配合使用, 可以非常灵活按照不通的需求和具体环境情况组合各种异地容灾备份方案, 提供具有高度的灵活性高度的安全性高度的数据一致性高度的可靠性的容灾数据保护解决方案图 HORC 的多种应用 HDS 容灾系统的切换过程 A. 生产中心系统故障图基于 HDS 9900 的远程容灾系统 225

当生产中心主机故障或者整个磁盘子系统全部损坏时 : 1) 切断备份中心与生产中心的 TrueCopy 连接 2) 通过备份中心主机及主控台发出 TrueCopy 控制命令, 进行 FAILOVER 切换操作将备份端存储系统中磁盘的 Read Only 状态改为 Write Enabled 状态, 以供备份中心主机进行读写操作 B.

227 当生产中心主机故障或者整个磁盘子系统全部损坏时 : 1) 切断备份中心与生产中心的 TrueCopy 连接 2) 通过备份中心主机及主控台发出 TrueCopy 控制命令, 进行 FAILOVER 切换操作将备份端存储系统中磁盘的 Read Only 状态改为 Write Enabled 状态, 以供备份中心主机进行读写操作 B. 备份中心磁盘系统故障当备份中心的磁盘子系统故障时, 生产系统照常运行, 数据被存储到生产中心的磁盘上并在 BITMAP 文件中记录所修改的磁道, 当备份中心的磁盘系统修复后,TrueCopy 自动将生产卷的数据拷贝到备份中心的磁盘上数据的拷贝是增量进行的, 即只转送更改过的数据所在的磁道 C. 通信链路或 NISHAN 设备故障当通信链路连接中断或 IP 设备故障时, 生产中心数据的修改以磁道为单位自动记录在存储系统中的 BITMAP 文件中, 一旦链路恢复正常, 则可以将未传送的磁道传送到备份中心 D. 系统的回切过程当生产中心的系统设备完全恢复并具备生产运行条件时, 可很容易地将业务运行系统从图灾难发生时的切换 226

228 备份中心切回到生产中心实现步骤 : 1. 待非生产时间, 停止备份中心的系统运行 2. 通过备份中心主机发出 TrueCopy 控制命令, 将磁盘由 Write Enabled 状态改为 Read Only 状态 3. 将备份中心的存储系统数据传送到生产中心存储系统中 4. 待上述步骤完成后, 从生产中心启动系统及应用 HDS TrueCopy 实现方式 HDS TrueCopy 实现两个 Lightning 9900V 系统间的数据复制, 这些系统可以处在同一个数据中心或不同的地域它主要包含下列部件 : 1. 复制的逻辑卷对 (P-VOLs and S-VOLs) 2. HDS Lightning 9900V 子系统 3. 远程复制连接 Remote copy connections 4. 远程控制端口及本地控制口 HDS TrueCopy 支持 ESCON 及 Fibre Channel 两种远程连接端口, 根据本地及远程数据中心间的距离不同, 不同传输协议的选择,TrueCopy 支持如下几种连接方式 ( 仅以 Fibre Channel 为例 ): 1. 通过裸光纤直连交换机, 采用 FC 协议生产中心与备份中心的光纤交换机通过裸光纤直连, 两个中心存储系统的 TrueCopy 独占端口通过光纤交换机和裸光纤进行连接, 可以保证异步数据复制的性能如果用户希望当生产中心的存储系统故障或数据被破坏原因, 生产中心主机可以接管备份中心的数据, 此方式裸光纤的数量要求较多, 线路租费比较高, 但由于采用多链路传输, 可靠性比较高 2. 通过 DWDM 设备直连裸光纤采用密集波分技术, 可以加载多协议, 例如 FC 协议 IP 协议, 两个 DWDM 终端之间 227

图 15-32 用于光纤通道的 TrueCopy 模块图 15-33 备份连接拓扑 ( 电信裸光纤 ) 的距离可以延伸到 100 公里, 解决了 FC 通道有效传输距离 10 公里的限制生产中心的 2 台光纤交换机通过 4 条光纤 FC 端口连接到 DWDM 终端,

229 图用于光纤通道的 TrueCopy 模块图备份连接拓扑 ( 电信裸光纤 ) 的距离可以延伸到 100 公里, 解决了 FC 通道有效传输距离 10 公里的限制生产中心的 2 台光纤交换机通过 4 条光纤 FC 端口连接到 DWDM 终端, 租用电信的裸光纤一条, 那么通过 DWDM 技术, 可以将多路 FC 通道和 IP 网络复用在一条裸光纤上, 比较好的解决了裸光纤的利用率和多协议复用的问题生产主机接管备份中心的方式与工作流程与上述 FC 直连方式一样但此方案整体投资比较大,DWDM 设备投资较高, 一般适用于光纤资源比较紧张的情况 228

转换设备 ( 例如 Nishan), 将 FC 通道协议打包在 IP 数据包内, 通过 IP 链路传输, 理论上没有距离的限制, 适用于远程异步数据复制, 是性能价格比很好的选择,

230 图备份连接拓扑 (DWDM 连接, 距离小于 100Km) 3. 利用 IP 网络, 采用 ATM 或 E1 E3 线路, 通过 FC/IP 转换器将 FC 加载在 IP 网络中传输此方案采用国际流行的 IP 网络协议和链路, 通过 FC/IP 转换设备 ( 例如 Nishan), 将 FC 通道协议打包在 IP 数据包内, 通过 IP 链路传输, 理论上没有距离的限制, 适用于远程异步数据复制, 是性能价格比很好的选择, 具体的带宽要根据业务量峰值距离应用系统高峰时的写 I/O 的数量写 I/O 块的大小应用系统所能承受的响应时间的延迟生产与备份中心之间的距离来计算但由于 IP 链路的带宽和协议限制, 无法满足生产中心接管备份中心磁盘的要求图备份连接拓扑 ( 基于 FC Over IP) 229

231 5. 各种种通信链路所提供的带宽表 15-3 给出了各种连接通路的传输带宽表 15-3 各种连接通路的传输带宽线路类型理论带宽实际带宽备份 1TB (Mbps) ( 去掉 overhead 后 )(Mbps) 所需时间 T 天 T 小时 100bT 小时 OC 小时 OC 小时千兆以太网小时 OC 小时 OC 分钟 230

232 15.2 McData 产品介绍 McDATA Director 6000 系列 32~140 端口 Director McDATA Intrepid 6000 系列 Director 是现在和未来的最佳存储网络的理想平台凭借着业界最高的安全性等级无以伦比的性能出色的可靠性和功能出众的管理工具,McDATA Intrepid Director 是支持关键任务型业务需求 24 7 的最佳选择一个在核心采用 Intrepid Director 的 SAN 将可以适应呈指数式增长的存储的需要, 并能够满足一些目前甚至还无法想象的商业应用的要求 Intrepid 6140 Director 具有 140 个端口的 Intrepid 6140 Director 适用于那些需要数百个甚至上千个端口的超大型系统, 是一种理想的高性能灵活构成组件它是目前唯一的一种单级 140 端口 Director, 它采用了一种独立于协议的架构, 可以支持未来出现的新型技术, 从而提供无以伦比的投资保护 Intrepid 6140 还可以满足端口数更高的存储网络和大型机 FICON 环境的连接需求, 从而提供出色的灵活性 Intrepid 6064 Director 对于那些需要 Director 级别的性能和可靠性, 同时连接端口低于 64 个的企业来说,64 端口的 Intrepid 6064 Director 是一种经济有效的理想解决方案它可以为需要 24 7 的关键业务提供无以伦比的 % 可用性性能可扩展性和可靠性 Intrepid 6000 系列 Director 的主要特征 : 通过 % 的可用性来确保业务的连续性 : 所有关键部件全部双冗余 ; 在线不中断任何应用的微码装载和激活 ; 彻底消除因处理器 failover 或微码升级所造成的被迫停机情形通过集中式的管理, 最大限度地增加系统管理资源提供持久的高性能 : 无阻塞 CrossBar 单步交换稳定的迟滞时间和独享 Buffer Credit 通过独立于协议的设计, 提供投资保护通过对光纤通道和 FICON 的支持, 实现灵活的部署 231

与目前任何其它交换设备相比,MCDATA 的 Intrepid 6000 系列 Director 使用更方便管理更简单, 并提供了更高的可用性图 15-36 McData 交换机 (Director) 外形坚实的可用性由于故障停机可能使公司每小时有数以百万元的损失, 信息技术管理人员绝不容忍采用不稳定不可靠的交换设备来建设企业的存储网络 IntrepidTM6000 系列

233 与目前任何其它交换设备相比,MCDATA 的 Intrepid 6000 系列 Director 使用更方便管理更简单, 并提供了更高的可用性图 McData 交换机 (Director) 外形坚实的可用性由于故障停机可能使公司每小时有数以百万元的损失, 信息技术管理人员绝不容忍采用不稳定不可靠的交换设备来建设企业的存储网络 IntrepidTM6000 系列 Director 以市场上最高的可用性 %, 来确保在线数据的连续性访问用 6000 系列 Director 构筑的存储区域网络, 为连接所有其它 SAN 设备提供了高度可用的网络核心由于其所有主要部件的冗余特性故障件自动切换以及 Call Home 预警功能, 具备自动修复功能的 IntrepidTM 6000 系列 Director 为关键数据的连续存取提供了坚实的保障企业级的管理 McDATA 的 SAN 管理软件 SANavigatorTM 简化了 SAN 的构建配置和控制, 需要更少的资源, 并降低了管理费用针对企业系统昂贵的管理费用,SANavigator 使公司能最充分地利用管理性资源 SANavigator 提供 : 对无论任何厂商协议的多种设备的管理通过事件管理和通知以提高可用性从单一界面实现设备发现和管理保存存储网络配置以实现业务连续性稳定的性能 232

234 不能及时存取数据, 对公司来说意味着浪费资源并由此损失机遇 MCDATA IntrepidTM 6000 系列 Director 的高性能和不间断性, 使公司能够充分利用其最宝贵的资产 -- 数据使用大量网络 Switch 建造的骨干网, 数据需要通过大量的跨交换连接, 使性能大打折扣, 与此不同,IntrepidTM6000 系列 Director 通过直接的背板交换可以很容易适应和满足商业需要速度 2Gb/S 或更高 IntrepidTM6000 系列 Director 为诸如视频等应用提供 2Gb/s 的传输速率并备以额外所需带宽此外, 独立于协议的 IntrepidTM6000 系列 Director 只需简单升级即可支持 10Gb/s FCIP 和 iscsi 等新技术存储区域网络的全面解决方案 McDATA 提供的全系列存储网络交换产品包括 Director 部门级 Switch 和边际设备, 这些设备都源自 McDATA 公司在建造核心到边缘解决方案领域的丰富经验互用性比仅仅按照工业标准设计和制造产品更为重要 MCDATA 建造了投资数千万元的系统集成实验室对其所有产品及解决方案进行实地安装的完整测试其中互操作性测试包括与业界主流的服务器存储, 以及与竞争对手存储网络设备的互用性测试 MCDATA 在投入生产前均会对产品进行长期测试, 以此降低风险, 确保存储区域网络的成功实施与运营表 15-4 McDat 交换机规格可用性 % 可热插拔的冗余电源风扇处理器可热插拔的光学端口模块联机诊断联机不中断应用的固件加载和激活兼容性光纤通道协议 FC-PH Rev4.3,FC-PH-2,FC-PH-3,FC-GS-2,FC-FLA,FC-FG, FC-SW-2 光纤通道组件 MIB FE-MIB TCP/IP MIB-II 组系统接口地址解析 IP ICMP TCP UDP SNMP 服务类别二类三类 F 类性能端口速度 2Gb/s, 全双工缓冲信用每个端口 60 交换延迟平均不超过 2 微秒 233

235 可扩展性每个机箱的端口数 Intrepid 6064:64 个端口 Intrepid 6140:140 个端口介质类型热插拔业界标准 LC 小接口所支持的光介质类型 / 距离短波 :500 米 (1640 英尺 ) / 1Gb/s 长波 :300 米 (1148 英尺 ) / 2Gb/s 借助中继器可达距离 10 公里 (6.2 英里 ) 100 公里 (60 英里 ) 电缆铺设 62.5/125 微米多模式,300 米 (1148 英尺 ) 50/125 微米多模式,500 米 (1640 英尺 ) 9/125 微米单模式,10 公里 (6.2 英里 ) 管理选项 SANavigator 软件 EFCM 采用 FICON 管理服务器 (CUP) 的 SA OS/390 SNMP 开放式系统管理服务器以太网 (10/100 Mbps) 光纤服务简单名称服务器管理服务器 ( 可选 ) 广播名字服务器分区访问 In-Band 管理以太网 (10/100Mbps) 光纤服务简单名字服务器管理服务器 ( 可选 ) 广播名字服务器分区诊断加电自检联机端口诊断 CTP SBAR 内部和外部回送联机系统健康状况诊断可维护性不中断应用的固件升级 HotCAT( 热代码激活技术 ) Call-Home 报警 ( 通过 McDATA 的软件 ) 智能热保护机箱端口 FRU 标示物理尺寸 Intrepid 6064 Intrepid 6140 高度 39.7 厘米 (15.7 英寸,9U) 厘米 (20.88 英寸,12U) 宽度 44.5 厘米 (17.5 英寸 ) 厘米 (17.50 英寸 ) 厚度 54.6 厘米 (21.5 英寸 ) 厘米 (24.16 英寸 ) 重量 52.3 千克 (115 磅 ) 78 千克 (172 磅 ) 安装选项可机柜安装,19 英寸 EIA 机柜环境非工作温度 : 4 至 52 C (40 至 125 F) 234

236 非工作湿度 : 8%-80% 非工作高度 : 米 (40000 英尺 ) 工作温度 : 4 至 40 C (40 至 104 F) 工作湿度 : 8%-80% 工作高度 3048 米 (10000 英尺 ) 电气 Intrepid 6064 Intrepid 6140 工作电压 : VAC VAC 电流 : 2-4AMP 4.66AMP 热输出 : 每小时 1672BTU 每小时 2873BTU 功率 : 460 瓦 842 瓦规定 UL, CSA, CE Mark, VCCI Class 1, FCC Part McDATA Switch 端口交换机为使整个企业都能从储存区域网络 (SAN) 中受益,IT 经理已经意识到, 许多部门级 SAN 需要超过 16 端口的连接性能为满足这一需要,McDATA 特别推出了 Sphereon 3232 光纤交换机业界唯一的基于部门级连接能力的 2Gb/s 32 端口光纤交换机 Sphereon 3232 光纤交换机提供了比多个 16 口交换机集连更优秀的解决方案多个 16 口光纤交换机的集连需要多个 ISL 连接, 这将导致网络性能的下降, 同时增加了网络管理的复杂程度 McDATA Sphereon 3232 光纤交换机为 IT 经理提供了空前的 SAN 实施的灵活性不论是建设一个部门级 SAN, 还是把部门级 SAN 集成到一个企业级存储网络中,Sphereon 3232 光纤交换机都可以适应数据系统用户的多种需求选择之一就是 McDATA Flexport 技术允许用户从 16 端口开始按需配置端口数量, 再逐步扩展到 32 端口 Sphereon 3232 光纤交换机为各端口提供了 2Gb/s 非阻塞带宽的优良性能, 同时具备了以前只有数据中心级产品才具备的重要特征目前只有 McDATA 提供具有如下特点的部门级光纤交换机 : 2Gb/s 无阻塞连接性连接速度的智能自感应能力热插拔冗余电源与制冷 235

237 按需配置端口数量的 McDATA Flexport 技术在线且不中断应用的固件装载和激活网络活动的在线诊断和故障隔离工具除以上所具备的业界同类最佳特征之外,Sphereon 3232 光纤交换机提供了最高的可用端口密度, 仅需占用立式机柜空间的 1.5U(2.63 ) 在机柜空间甚为宝贵的条件下, 为扩容提供足够的空间表 15-5 McData 交换机 3232 指标 Sphereon 3232 Fabric Switch 配置 :ES3232 和 ES3232F (Flexport) 技术指标 : 可用性热插拔冗余电源热插拔冗余风扇热插拔光学部件在线诊断在线且不中断应用的固件装载与激活网络活动故障隔离工具兼容性光纤信道 FC-PH Rev 4.3, FC-PH-2 协议 : FC-PH-3, FC-GS-2, FC-FLA, FC-FG, FC-SW-2 SNMP: Fibre Alliance MIB 光纤通道结构组件 MIB TCP/IP MIB II 光纤信道服务类别 : 2 类 3 类 F 类性能端口速 Gbps, 全双工度 : 累计处理 128Gbps 能力 : 缓存度 : 每个端口 60 交换迟平均小于 2 微秒滞 : 可伸缩性端口数 : 32 个 G 端口介质类型 : 热插拔工业标准 LC SFF 支持光学介质类型 / 距离短波 : 500 米 (1640 英尺 ) 长波 : 10 千米 (6.2 英里 ) 带重发器 : 100 千米 (62 英里 ) 电缆 : 9/125 微米单模,10 千米 (6.2 英里 ) 50/125 微米多模,500 米 (1640 英尺 ) 62.5/125 微米多模,300 米 (1148 英尺 ) 管理性选择 McDATA 软件命令行界面 Embedded Web Server SNMP 开放系统管理服务器访问内嵌式以太网 (10/100Mbps) 光纤网络服简易名字服务器务顺序传输 (2 3 类 ) 管理服务器 ( 可选 ) 广播名字服务分区诊断特性加电自检在线端口检测内部和外部环路在线系统状态 236

238 服务能力热插拔电源和风扇热插拔光学部件固件在线装载与升级 Call- Home ( 使用 McDATA 软件 ) 维护端口 (DSUB) 智能过热保护单元端口 FRU 状态指示系统错误 LED 指示 FRU 故障 LED 指物理尺寸高度 : 2.55 英寸 (1.5U) 宽度 : 17.5 英寸深度 : 英寸重量 : 34 磅安装选择机架安装 19 英寸 EIA 架工作台堆叠操作环境非操作温度 : 华氏 40 度至 125 度湿度 : 8% 至 80% 海拔高度 : 呎 (12192 米 ) 工作温度 : 华氏 40 度至 104 度湿度 : 8% 至 80% 海拔高度 : 呎 (3048 米 ) 电气工作电压 : 伏交流电电流 : 2.5 安培热输出 : 每小时 836 英国热量单位执行规范 UL CSA CE Mark VCCI Class 1 FCC Part 15 Class 15.3 IBM 存储产品解决方案 IBM 作为一个大型的数据处理和加工的设备制造企业, 其数据存储部门为企业中所有信息系统提供支持的高性能磁盘存储解决方案成熟的存储磁盘阵列 SAN 构架全光纤磁盘阵列 --IBM TotalStorage FAStT700 存储服务器, 它依靠领先的技术实现快速数据访问 ; 提供扩展能力以满足公司独特的需要 ; 提供高可用性以实现最优安全性 237

239 和效益 ; 保留人力资源以应对核心工作任务依靠存储保持快速发展随着日常的业务流程越来越依靠数据, 各公司正在大力发展自己的存储基础设施但是, 如今的公司必须在存储需求和紧张的预算之间作权衡因此, 所采用的解决方案必须经济高效可扩展, 并且能够满足各种存储需求图 IBM FastT700 面板 IBM 存储系统部的工作人员能够提供灵活的业务解决方案来实现最高的性价比 IBM TotalStorage FastT700 存储服务器是一种全光纤的存储区域网 (SAN) 解决方案, 能够以最合适的价格提供您所需要的性能从与主机接口到磁盘驱动器全光纤通道的结构, 为企业用户提供最先进的磁盘技术提供领先技术以实现优异性能依靠多达 8 个光纤通道直接主机或 SAN 连接,FastT700 存储服务器提供了快速数据访问能力 ( 高达 383MBps 和每秒 60,000 次 I/O), 特别适合于那些实时性能是关键因素的计算环境除了高带宽外,FastT700 还支持各种操作系统, 包括 IBM AIX Sun Solaris HP-UX Linux Novell 和 Microsoft Windows NT/2000 等在 FastT700 存储服务器内, 所有磁盘均为最先进的支持光纤通道的热插拔磁盘驱动器, 使用户可以采用最先进的技术提供可扩展性和灵活性以满足发展需要 FastT700 的模块化设计可以按照需要来购买部件, 它可以从 18GB 扩展到使用 22 个机 238

箱的 16TB 每一个 FAStT EXP500 最多支持 10 个光纤通道磁盘驱动器另外, 还可以采用和选择合适的 RAID 级别, 从 0 1 3 5 到 10, 这样做的目的是为了与应用相匹配或满足特殊经费需要, 从而能够扩展和充分利用现有和将来的投资 15.3.1.4 提高可用性以尽可能减少与停机相关的效益损失公司的成功与其支持全天候运营的能力成正比

240 箱的 16TB 每一个 FAStT EXP500 最多支持 10 个光纤通道磁盘驱动器另外, 还可以采用和选择合适的 RAID 级别, 从到 10, 这样做的目的是为了与应用相匹配或满足特殊经费需要, 从而能够扩展和充分利用现有和将来的投资提高可用性以尽可能减少与停机相关的效益损失公司的成功与其支持全天候运营的能力成正比意外的停机将影响到数据检索和其它的业务流程, 这意味着效益损失, 并造成客户的不满意而 TotalStorage FastT700 解决方案是高度可用的解决方案, 能够提供部件发生故障时的安全性双热插拔 RAID 控制器提供了高吞吐量和冗余度, 并且每个控制器支持高达 512MB( 合计 1GB) 的电池备份高速缓存冗余风扇电源和动态存储管理进一步提高了可用性并且提供了 Remote Copy 的远程灾难恢复功能, 为业务提供高可靠性的保障图 FastT700 管理界面为核心竞争工作保存资源 FAStT 存储管理器使您能够在单个控制台上管理多个 FastT700 系统从一个地点控制所有的环境节省了用户的资源, 可以将精力放在更有竞争力的核心业务上这种软件是图形化的软件, 用户无须记忆任何命令, 可以轻松地管理 FAStT 磁盘阵列如图所示 239

15.3.1.6 灾难恢复图 15-39 FastT700 异地备份 FastT700

241 灾难恢复图 FastT700 异地备份 FastT700 存储服务器提供了强大的灾难恢复功能, 该功能是基于磁盘阵列控制器的, 与所连接的操作系统无关, 因此, 可以提供跨平台支持的数据级的灾难恢复解决方案 240

242 建立远程灾难恢复功能, 需要在 FastT700 中配置 Remote Copy 功能, 该功能提供了激图 FastT700 容灾系统活该功能的密码它可以实现在两台 FastT700 之间自动地实时镜像, 与操作系统无关由 FastT700 的控制器来控制数据的同步采用 Remote Copy 功能, 需要在 FastT700 控制器上指定镜像端口,( 不可以用主机的光纤端口 ), 两台 FastT700 控制器之间采用光纤连接起来 ( 目前支持 10 公里, 通过 RPQ 方式, 可以支持到最远 70 公里甚至更远 ), 如上图中红线所示,( 黑线表示数据的连接, 蓝线表示冗余连接 ) 一旦, 本地 (Primary) 出现故障, 异地 (Secondary) 仍有镜像数据供系统使用如果异地出现故障, 不会影响到本地工作, 但此时, 停止数据镜像每个阵列最大支持 32 个镜像对表 15-6 IBM FastT700 存储服务器一览型号 RU RAID 控制器双活动 RAID 控制器控制器高速缓存高达 1GB, 电池备份主机接口光纤通道 (FC) 交换和 FC 仲裁环路 (FC-AL) 连接 4 个标准和多达 8 个附加微型集线器驱动器接口 FC-AL 支持的驱动器和 73.4 GB RPM;18.2 GB RPM RAID 级别和 10 存储分区最多 224 个支持的最大驱动器个数 220 个 ( 使用 22 个 IBM FAStT EXP500 扩展单元 ) 风扇和电源双冗余可热插拔机架支持 IBM ,Netfinity 企业机架 241

243 支持的服务器欲查看最新列表, 请访问 ibm.com/storage/fast700 支持的操作系统 IBM AIX Solaris HP-UX Microsoft Windows NT Windows 2000 Novell NetWare 和 Linux, 欲查看最新列表, 请访问 ibm.com/storage/fast500 管理软件 IBM FAStT 存储管理器 (v8.21) 光纤通道交换机支持 IBM TotalStorage SAN Switch 2190 S08/S16/F08/F16 IBM (64 端口 ) (128 端口 ) IBM 和光纤通道交换机支持 Brocade 3200 尺寸 174.5mm( 高 ) 444.5mm( 长 ) 609.6mm( 宽 )(6.87 英寸 18 英寸 24 英寸 ) 重量 38.6 公斤 (85 磅 ) IBM FAStT EXP 扩展单元支持的驱动器个数多达 14 个光纤通道驱动器 ( 或 73.4 GB, 146 GB) 风扇和电源双冗余热插拔尺寸毫米高 480 毫米宽 575 毫米深 (5.2 英寸 18.9 英寸英寸 ) ESS 800 系统 ESS 800 系统的主要特征包括如下几点 : 为 IBM eserver p 系列和 UNIX Microsoft Windows NT Microsoft Windows 2000 Novell NetWare Linux 和 SGI IRIX 平台以及 IBM eserver i 系列和 AS/400 平台 IBM eserver z 系列和 S/390 平台提供共享存储使用双集群 RISC SMP 处理器大型高速缓存和串行磁盘连接, 提供优异的性能提供高级拷贝服务专为实现快速的备份和灾难恢复而设计使用冗余硬件, 包括镜像化的写高速缓存以及 RAID-5 和 RAID-10 磁盘保护, 为关键任务业务应用提供所需的高可用性通过 ESCON FICON 光纤通道 2Gb 光纤通道 /FICON 或 Ultra SCSI, 实现与连接主机之间的快速数据传输提供高效的中央运行管理 ( 通过一个 Web 浏览器或命令行界面 CLI) 或使用 ESS API (Bluefin SMIS), 提高管理效率 242

244 使拥有多个异构主机的企业能够将物理磁盘容量扩展到最高 55.9TB, 同时保持优异的性能具体描述为 : 1. 可满足当今业务需求的性能 IBM TotalStorage 企业存储服务器 (ESS) 为满足和超越当今大多数高要求应用的性能需求而设计高速磁盘可提供快速的数据访问内部串行存储架构 (SSA) 磁盘路径可支持流水线数据移动数据将自动地以条纹化的方式分散到多个磁盘上, 从而增加了 I/O 并行性并减少了事后人工调整的必要性高效的高速缓存管理使数据系统用户能够以更快的速度访问更多的数据 2. 为主要的服务器平台提供共享存储 IBM ESS 是第三代高级架构磁盘存储系统它可以支持今天的业务连续性和数据可用性需求, 使得员工客户和交易合作伙伴能够通过一个可靠具有灾难抵御能力的共享存储系统, 实现 24 7 级别的数据访问此外, 它还可以通过异构连接高性能和易管理性功能提高业务效率, 从而帮助降低总拥有成本 (TCO) 很多类型的服务器平台都能够以并发方式连接到 ESS 包括 i 系列和 AS/400;Linux Novell NetWare Windows NT Windows 2000 或运行 IRIX OS 的 SGI Origin 服务器 ; 以及多种类型的 UNIX 服务器因此,ESS 是拥有多个异构服务器的组织实现增长的理想选择 3. 为分布式系统提供企业级存储随着更多的关键业务信息处理将在分布式系统 ( 运行多个不同的操作系统 ) 上进行,IBM ESS 将在提供出色价值的同时, 还能够为数据系统用户提供优异的性能 ESS 不仅仅是简单地支持跨企业平台的存储共享它可以通过以下多种强大功能, 在整个企业的范围内提高存储资源的性能可用性可扩展性和易管理性 : 第一,FlashCopy 提高了一个高级卷复制工具, 在进行备份和运行其它拷贝应用时可以显著地减少应用停机 FlashCopy 高效的写拷贝 NOCOPY 选项在帮助减少系统开销的同时, 还允许灵活地重用本来属拷贝操作专用的磁盘容量其次, 对等远程拷贝可在一个远程地点维护数据的一份同步拷贝 ( 随时是与主拷贝同 243

245 步 ) 数据的这一备份拷贝可用于在主系统发生故障时实现快速恢复这一可选功能可以使数据系统用户电子商务应用的运行不被中断第三, 扩展远程拷贝 (XRC) 可以在一个远程地点 ( 通过电信线路连接, 距离不受限制 ) 提供 z/os 数据的一份拷贝, 用于在主存储系统发生故障的情况下使用 XRC 的目标在保护数据完整性的前提下, 实现不间断的全异步远程拷贝另外,ESS 可以灵活高效地将物理容量划分为不同大小的逻辑卷这些逻辑卷被分配给需要存储容量的主机, 也可在多个主机之间共享 ( 以支持集群应用 ) 此外, 还可以在客户的控制下在主机间进行容量的重新分配同时保持 ESS 在线通过定制卷可为 S/390 服务器定义不同大小的卷, 使管理员能够通过对系统进行配置实现最优的性能 4. 确保数据访问的高可用性 ESS 中内建了 24 7 级别的运行支持在 RAD-5 和 RAID-10 磁盘阵列为数据提供保护的同时, 远程拷贝技术还可以实现快速的数据备份和灾难恢复 ESS 使用双活动处理集群, 可提供故障切换热备用功能以及热交换磁盘驱动器镜像化的写高速缓存以及冗余电源和散热设备 ESS 还包括了集成的预防自诊断功能, 可以不间断地对系统功能进行监视, 防止宕机例如, 预测故障分析 (Predictive Failure Analysis) 功能可以就指定硬件组件尚未解决的问题向数据系统用户发出通知, 这样数据系统用户就可以在这些问题未影响到系统性能之前解决它们表 15-6 IBM 企业存储服务器 800 型一览物理磁盘存储容量高速缓存大小主机服务器连接体积重量 582GB 到 55.9TB 8, 16, 24, 32 或 64GB 最多 32 个 SCSI 或 ESCON 端口, 最多 16 个光纤通道 /FICON 端口, 可交叉配置物理特征 ( 高 ) ( 长 ) ( 宽 ) (1913mm 1383mm 909mm) 2200 磅 (998 千克 ) 运行环境 244

246 温度相对湿度最高湿球温度散热值电源电气 60 o 到 90 o F(16 o 到 32 o C) 20% 到 80% 73 o F(23 o C) 16000BTU/ 小时三相 50/60Hz 6.4kVA 1 可支持的系统 S/390 和 z 系列 (z/os, OS/390, VM, VSE, TPF, Linux); AS/400 和 i 系列 ; Compaq; DEC; HP; 基于 Intel 处理器的服务器 (Novell NetWare, Linux, Windows NT, Windows 2000); RS/6000; RS/6000 SP; p 系列 ; Sun 和 SGI Origin 服务器 (IRIX) 1 有关可支持服务器的详细信息, 请访问 ibm.com/totalstorage/ess 5. 内建的灵活性 ESS 可以提供出色的灵活性, 包括 : 可交叉配置的磁盘大小和速度 ( 获得最优的性价比和可扩展性 ); 可交叉的 RAID-5 和 RAID-10 保护 ; 磁盘容量缓存大小和主机连接的独立可扩展性 ; 客户控制的逻辑卷大小以及服务器间存储容量的在线重分配 6. 为环境快速增长提供可扩展性 ESS 非常适宜用于电子商务和其它需求增长难以预测的应用它在提供高可扩展性的同时, 还能够保持优异的性能 ESS 中使用的磁盘驱动器是以集成 8- 磁盘驱动器组 ( 称为 8- 磁盘组 ) 的形式提供的磁盘驱动器的容量为 10000rpm 的 18.2GB 36.4GB 72.8GB 和 145.6GB 驱动器, 以及 15000rpm 的 18.2GB 36.4GB 和 72.8GB 驱动器 ESS 800 型最多可配置 384 个磁盘驱动器 ; 当使用 145.6GB 的磁盘时, 可以提供最高 55.9TB 的物理容量 7. 提供存储组网价值 ESS 增加了存储区域网 (SAN) 的价值 ESS 能够很好地处理 SAN 的基本功能, 包括高速 2Gb 光纤通道连接异构服务器间共享每一光纤通道端口的能力以及内建的 LUN 屏蔽 (SAM 安全性 ) 支持此外,ESS 更能够进一步能够支持网络连接存储 (NAS) 网关, 从而使 SAN 能够同时处理 SAN 上的传统块 I/O 和 TCP/IP 网络上的文件 I/O 8. 总拥有成本 ESS 是可以帮助数据系统用户降低 TCO 的理想选择 ESS 的关键特性如高级业务连 245

247 续性功能性能可扩展性对驱动器容量和速度进行混合和匹配的能力异构连接和开放软件架构提供的灵活性, 说明了为何 ESS 能够提供如此出色的价值而以上列出的还只是其中的少数原因它是存储整合的最佳选择, 从 TCO 的角度看也是一个明智的选择 9. 为 S/390 和 z 系列服务器提供领先的性能对于 S/390 和 z 系列服务器,ESS 提供了如下先进功能 : 并行访问卷 (Parallel Access Volume): 以前的 S/390 在同一时刻只允许每一逻辑卷执行一个 I/O 操作现在, 由于任何可支持的操作系统可在同一时刻对同一个卷进行多个 I/O 操作, 所以性能得到了提高多应用 (Multiple Allegiance): 这一功能允许不同的操作系统对同一逻辑卷执行多个并发 I/O 操作, 从而可以帮助减少排队现象并显著地提高性能多应用特性和可选的并行访问卷功能使 ESS 能够并行处理更多的 I/O 操作, 所以能够使性能大大提高, 使更大型的逻辑卷能够得到更有效的使用其结果是存储管理的简化和成本的降低优先级 I/O 队列 : 存储服务器可以使重要的任务能够优先访问存储资源通过优先级 I/O 队列,ESS 可以使用 OS/390 负载管理器提供的信息管理 I/O 处理队列使 I/O 的优先级与应用的优先级相匹配 10. 一个完整的管理解决方案 IBM TotalStorage 软件产品家族提供了一个集成的存储管理工具集, 使存储管理员能够以集中的方式对 ESS 进行监视和管理 IBM TotalStorage 企业存储服务器专家 (IBM TotalStorage Enterprise Storage Server Specialist) 工具可以帮助存储管理员控制和管理 ESS 的存储资产通过一个浏览器界面, 存储管理员可以从工作中家中或途中通过一个安全的网络连接访问这一 ESS 专家工具 IBM TotalStorage 企业存储服务器专家 (IBM TotalStorage Enterprise Storage Server Expert, 注意与前一段中提到的工具不同 ) 可以帮助存储管理员监视企业中所有被连接的 IBM 企业存储服务器的性能这一创新的软件工具可以提供性能统计数据和灵活的资产管理功能, 并能够通过一个公共的浏览器界面跟踪多种容量信息因此, 这一可选工具使管理员能够以集中的方式管理企业中任何地点的所有企业存储服务器 246

15.3.3 IBM 存储归一化实施方案 15.3.3.1 SVC 简介存储技术从直接连接的磁盘阵列发展到集中式的 SAN( 存储区域网络 ), 在连接性和性能上带来了巨大的优势然而, 对 SAN 用户的研究显示, 虽然存储区域网络具有这些优点, 但是 SAN 中磁盘利用率只有 50% 左右, 不同类型和品牌的存储的统一调配和管理非常复杂 IBM 最新推出的 IBM TotalStorage

248 IBM 存储归一化实施方案 SVC 简介存储技术从直接连接的磁盘阵列发展到集中式的 SAN( 存储区域网络 ), 在连接性和性能上带来了巨大的优势然而, 对 SAN 用户的研究显示, 虽然存储区域网络具有这些优点, 但是 SAN 中磁盘利用率只有 50% 左右, 不同类型和品牌的存储的统一调配和管理非常复杂 IBM 最新推出的 IBM TotalStorage SAN Volume Controller ( 又名 IBM 存储魔法石 ) 就是为解决此类问题的开创了新的方式 SAN Volume Controller( 缩写为 SAN VC),SAN 控制器, 是存储业界又一次崭新的突破, 就像存储历史上的 RAID, 主机系统的存储管理体系和虚拟磁带技术, 这些重要的发明均源自 IBM SAN Volume Controller 是整个 SAN 网络的控制器, 它将整个 SAN 中的各种存储设备整合成一个巨大的存储池, 充分利用存储资源和按需分配存储空间性能和功能而传统的 SAN 网络中, 每种存储系统都自成一体, 就像一个个独立的孤岛, 无法构成一片统一的大陆 SAN VC 实现了虚拟存储层 (Virtualization Layer) 的功能, 将存储智能加入到 SAN 图 SVC 存储虚拟化的网络中现在用户可以按照应用不断变化的需求来分配存储, 而不再受制于存储子系统设备在功能和性能上的限制 SAN VC 又是一个 SAN 网络的中心管理控制点, 而且它对服务器的操作系统和存储子系统透明如图所示 247

这个 SAN 的中心控制器具备更为灵活的磁盘管理功能, 极大的提高了存储管理的效率, 例如可动态创建和扩展逻辑卷等而且,SAN VC 为各种不同的存储设备提供了一个统一的数据复制平台, 例如瞬间复制 -FlashCopy 和远程复制 -Remote Mirroring 这些复制功能都允许源磁盘卷和目标磁盘卷可以存在于不同品牌的磁盘阵列上透明的数据迁移是 SAN VC 的基本功能, 当 SAN

249 这个 SAN 的中心控制器具备更为灵活的磁盘管理功能, 极大的提高了存储管理的效率, 例如可动态创建和扩展逻辑卷等而且,SAN VC 为各种不同的存储设备提供了一个统一的数据复制平台, 例如瞬间复制 -FlashCopy 和远程复制 -Remote Mirroring 这些复制功能都允许源磁盘卷和目标磁盘卷可以存在于不同品牌的磁盘阵列上透明的数据迁移是 SAN VC 的基本功能, 当 SAN VC 被加入到一个现有的 SAN 环境中时, 不需要做数据迁移,SAN VC 把现有的磁盘配置原封不动的继承下来 ( 这是 SAN VC 的 Image mode), 这样对服务器上的应用是完全透明的当 SAN VC 完全配置好以后, 它又可以将原先磁盘上的卷及数据透明的迁移到其他真正的虚拟卷中所有的迁移过程对服务器透明, 因此不需要中止应用 IBM SAN VC 是一个软硬件集成化的产品, 专业的虚拟存储软件运行在集群式的硬件引擎上它使用了定制的 IBM eserver xseries 服务器, 运行的存储操作系统是基于 Linux kernek 的与 SAN 网络接口是工业标准的 HBA 卡由于 SAN VC 是为一个完全开放的存储环境设计的, 兼容各种不同的存储设备用户可以将各种存储方案融合其中, 而不用担心 SAN VC 会有什么封闭性 SAN Volume Controller 天生具备灵活的扩展能力, 可以使用户在存储性能和存储容量方面平滑无缝的升级例如, 扩展控制器个数可以增加性能, 而往存储池中增加磁盘则可以增加容量, 这两方面的扩张都可以在线完成, 不需要中止应用 SAN VC 图 SAN VC 系统结构示意图的主控台提供了自动向 IBM 服务中心报警 (call home) 和远程支持的能力 248

250 SAN.VC 小结可以看出,SVC 是一个虚拟存储的解决方案, 提供了如下功能 : 为高性能和高效管理而设计的 SAN 嵌入式 (In-band) 虚拟存储一个集中化的磁盘存储池 l 可包含不同种类和品牌的磁盘系统为卷管理和数据复制提供的统一平台瞬间复制 -Flashcopy 在 SAN 一级实现, 可跨不同的磁盘系统远程复制 -Remote Mirror 可在不同的磁盘系统上透明的不影响应用运行的数据迁移灵活开放的体系结构 : 易于实施易于在性能和容量双向发展远程报警和诊断 t 企业级的高可靠性和稳定性支持 r NT, Linux, 和各种主流 UNIX operating systems, 支持各种存储流量负载均衡和切换投资保护 15.4 Netapp 产品分析 Network Appliance 是提供网络数据高端存储和高速缓存设备的专业公司, 其业绩高速发展, 是美国 E 百强里增长第 4 快的企业公司是网络数据存储解决方案的市场领导者, 其网络存储服务器 (FILER) 及网络缓存解决方案 (NetCache) 提供高效简捷可靠的数据存取自 1992 年成立至今, 全球已安装了超过套, 连续 10 年以每年营业额和利润翻番的速度高速增长其销售和利润增长率均位居全美高科技企业前列 ; 为 NASDAQ 上市公司, 其股票列为 NASDAQ 100 和华尔街标准普尔 500 成分指标股 (NTAP); 1999,2000 连续两年被财富杂志评为全美最快成长公司第四位 ; 被商业周刊杂志评为 99 年全美最佳业绩公司第 19 位, 1999, 2002 年连续四年名列高速增长公司前 100 位 (20th/00) ( / 249

2000/00_22/b3683022.htm) 截止到 2005 年, 其数据高端存储设备 FILER 占据网络存储市场的 61%, 全球最大的 10 家 ICP 有 9 家用其存储管理内容, 处于绝对优势地位 ; 在 NAS NETWORK- TTACHED STORAGE) 市场里,Network Appliance 远远超过 EMC, 成为了这个领域里的领导者, 占有率达到了 40.

251 2000/00_22/b htm) 截止到 2005 年, 其数据高端存储设备 FILER 占据网络存储市场的 61%, 全球最大的 10 家 ICP 有 9 家用其存储管理内容, 处于绝对优势地位 ; 在 NAS NETWORK- TTACHED STORAGE) 市场里,Network Appliance 远远超过 EMC, 成为了这个领域里的领导者, 占有率达到了 40.2 %, 而 EMC 则下降到了 13.5% NetApp 的哲学是 Simple is best, 通过 Appliance 方式为用户提供快速简单可靠的数据服务以网络为核心的革新设计获得业界迅速认同, 是美国最成功的企业之一, 经过 5 年发展进入世界 500 强, 其成功的数据管理和部署方案, 通过消除管理复杂度, 为用户带来价值以系统的方式设计 : 使应用服务与数据管理分离, 解决数据存储移动部署的问题 Appliance 的设计原则 : 软件优化导致性能的提高远远超出硬件的提高, 专门的目的导致管理的简单和系统可用性的提高开放的标准 : 业界创新和技术的领导, 集成 SAN 和 NAS 的优点支持 SAN 方式的数据备份,NAS 的数据共享效率先进的服务 : 产品的简单使得先进的服务体系, 极大降低用户的维护成本, 极高的服务图 NetApp 解决方案 250

252 NetApp 存储的类型和发展存储技术的演进最早, 系统结构是以主机或者服务器为中心的, 传统的存储是直接连接计算机的, 所以又称为 DAS(Direct Attached Storage), 过去,IT 部门以服务器为中心, 不同的应用由不同的服务器完成, 例如, 用 IBM 运行 Database, 用 HP 运行 Data warehouse,sun 服务器为 , 在这种结构里存储直接连接服务器, 由于过去网络速度的限制, 这种结构是唯一获得高性能的方式这种方式的缺点是每台服务器需要自己的存储, 形成了信息的分离的服务器孤岛, 复杂的管理, 例如, 信息共享容量计划配置升级 troubleshooting 厂商管理, 导致最高的 TCO DAS 的管理工作极大地依赖服务器上的软件, 用户面对多个管理点, 例如备份工作需要 Server-Centric Architecture IBM Database Sun HP FS FS FS Data Warehouse UNIX Apps UNIX Apps Clustered App IBM Sun HP 图服务器集中型的存储在每一台服务器上独立进行, 容量资源无法共享, 可用性较差 DAS 的采购成本最低, 但潜在成本, 例如配套软件和管理成本最高存储的爆炸性增长使企业的存储管理面临巨大的挑战, 出现了以存储为中心的结构, 服务器通过网络共享存储资源, 通过集中化的管理使花费迅速下降在这种结构中, 服务器通过 FC-AL 网络, 连接到集中的存储池 SAN 解决了 DAS 的一些难题, 例如, 实现存储集中, 集中备份, 容灾等, 但是, 通过 FC_AL 251

253 网络的方式连接存储系统,SAN 的方式, 数据管理工作还是在服务器上进行, 这是由于计算机和存储间的接口是底层的块协议, 存储系统无文件系统等数据管理工具, 所以要求每一个服务器都有一些存储管理功能,SAN 中的每一个存储服务器都要安装存储服务另外,SAN 的设备结构复杂, 各个厂商标准不一致, 带来的兼容问题, 而且需要复杂的软件才能使用, 使得 SAN 的存储方案仍然具有很高的 TCO 252

254 在以网络为中心的计算结构中, 越来越多的集中存储管理选择了利用 IP 构建存储网络, 并且使存储网络具备更多智能, 高级 NAS(Network Attached Storage) 方案网络附加存储与 SAN 的主要区别有两点 : 服务器访问数据的协议和服务器访问传输介质不同网络附加 Storage-Centric Architecture IBM FS Database Sun HP FS FS Data Warehouse UNIX Apps UNIX Apps Clustered App 图存储集中型结构 Network-Centric Architecture IBM Database Sun FS HP Data Warehouse UNIX Apps UNIX Apps Clustered App 图网络集中型结构存储通过自己的文件系统管理数据, 服务器通过文件级的协议, 例如,NFS/UNIX, CIFS/Windows, 将数据请求重定向到 NAS, 服务器和 NAS 之间的连接是标准的 IP 网络 NAS 技术是计算机目前增长最快的应用之一 NAS 不要求服务器额外安装软件, 可以集中进行数据管理,NAS 将复杂的磁盘通道管理软件等集成在一起, 可以在网络上即插即用, 最大的优点就是简单作为存储系统,NAS 提供了比 SAN 更高的可用性, 这是因为 SAN 本身无法提供完整的数据可用性, 服务器管理 253

软件的实效升级等都会影响 SAN 上数据的可用性随着网络速度的飞跃, 通道优势已经从 FC-AL 转移到 IP, 使得 NAS 在企业环境应用的优势越来越明显图 15

255 软件的实效升级等都会影响 SAN 上数据的可用性随着网络速度的飞跃, 通道优势已经从 FC-AL 转移到 IP, 使得 NAS 在企业环境应用的优势越来越明显图网络与存储以太网与计算机内部磁盘通道相比, 在速度上已经持平, 而且网络带宽会越来越快消除了网络的传输瓶颈, 使瓶颈转移到文件系统性能由于以太网络的配置经验企业已经具备, 使得更易融入企业现有计算环境 NAS 与 DAS( 主机 + 磁盘阵列 ) 的比较 NAS 与 DAS( 主机 + 磁盘阵列 ) 的基本差异可以通过下面的表格体现 : 表 15-7 NAS 与 DAS 比较比较项目 NAS DAS 安装简便快捷, 即插即用只需要系统软件安装较为烦琐, 初始化安装 10 分钟便可顺利独立安装成功 RAID 及调试第三方软件一般需要两天时间完全跨平台文件共享, 支持不能提供跨平台文件共享功能, 各异构网络环境下文 Windows NT UNIX(Linux) 等系统平台下文件需分别存储件共享操作系统独立的优化存储操作系统, 完全不受无独立的存储操作系统, 需相应服操作系统服务器干预, 有效释放带宽, 可提高务器或客户端支持, 容易造成网络网络整体性能瘫痪集中式数据存储模式, 将不同系统平分散式数据存储模式网络管理员存储数据结构台下文件存储在一台 NAS 设备中, 需要耗费大量时间奔波到不同服方便网络管理员集中管理大量的数务器下分别管理各自的数据, 维护 254

据, 降低维护成本成本增加管理简单, 基于 Web 的 GUI 管理界管理较复杂需要第三方软件支面使 NAS 设备的管理一目了然持由于各系统平台文件系统不数据管理同, 增容时需对各自系统分别增加数据存储设备及管理软件自带支持多种协议的管理软件, 功能没有自身管理软件, 需要针对现有软件功能多样, 支持日志文件系统, 并一般集系统情况另行购买成本地备份软件在线增加设备,

256 据, 降低维护成本成本增加管理简单, 基于 Web 的 GUI 管理界管理较复杂需要第三方软件支面使 NAS 设备的管理一目了然持由于各系统平台文件系统不数据管理同, 增容时需对各自系统分别增加数据存储设备及管理软件自带支持多种协议的管理软件, 功能没有自身管理软件, 需要针对现有软件功能多样, 支持日志文件系统, 并一般集系统情况另行购买成本地备份软件在线增加设备, 无需停顿网络, 而且增加硬盘后重新做 RAID 须宕机, 与已建立起的网络完全融合, 充分保会影响网络服务扩充性护用户原有投资良好的扩充性完全满足 24X7 不间断服务单台设备的价格高, 但选择 NAS 后, 前期单台设备的价格较便宜, 但后总拥有成本以后的投入会很少, 降低用户的后续续成本会增加, 总拥有成本升高 (TCO) 成本, 从而使总拥有成本降低集成本地备份软件, 可实现无服务器异地备份, 备份过程麻烦依靠双备份日志文件系统和检查点设计, 服务器和相关软件实现双机容错数据备份与灾难恢以求全面保护数据, 恢复数据准确及功能, 但两服务器同时发生故障, 复时双引擎设计理念, 即使服务器发用户就不能进行数据存储生故障, 用户仍可进行数据存取 NAS 与 SAN 的比较 NAS 与 SAN 都是在 DAS 的基础上发展起来的, 是新型数据存储模式中的两个主要发展方图 SAN Device 255

向图 15-48 SAN & NAS 共生运行 NAS 再定义 : 网络附加存储设备 (NAS)

文件服务管理工具, 一个或者多个的硬盘驱动器用于数据的存储 NAS 可以应用在任何的网络环境当中

(Unix, Linux) 和 CIFS 格式等等 NAS 系统可以根据服务器或者客户端计算机发出的指令完成对内图

257 向图 SAN & NAS 共生运行 NAS 再定义 : 网络附加存储设备 (NAS) 是一种专业的网络文件存储及文件备份设备, 或称为网络直联存储设备网络磁盘阵列一个 NAS 里面包括核心处理器, 文件服务管理工具, 一个或者多个的硬盘驱动器用于数据的存储 NAS 可以应用在任何的网络环境当中主服务器和客户端可以非常方便地在 NAS 上存取任意格式的文件, 包括 SMB 格式 (Windows)NFS 格式 (Unix, Linux) 和 CIFS 格式等等 NAS 系统可以根据服务器或者客户端计算机发出的指令完成对内图直连存储与 NAS 数据流比较, 来源 : IDC,2000 在文件的管理另外的特性包括 : 独立于操作平台, 不同类的文件共享, 交叉协议用户安全 256

258 性 / 许可性, 浏览器界面的操作 / 管理, 和不会中断网络的增加和移除服务器由图示说明 ( 图 15-49),NAS 是在 RAID 的基础上增加了存储操作系统, 而 SAN 是独立出一个数据存储网络, 网络内部的数据传输率很快, 但操作系统仍停留在服务器端, 用户不是在直接访问 SAN 的网络, 因此这就造成 SAN 在异构环境下不能实现文件共享 NAS 与 SAN 的数据存储可通过下面的图来表示 : 以上两图说明 :SAN 是只能独享的数据存储池,NAS 是共享与独享兼顾的数据存储池因此,NAS 与 SAN 的关系也可以表述为 :NAS 是 Network-attached, 而 SAN 是 Channel-attached 目前存储设备供应商能提供的 SAN 技术还是很有限的, 例如 : 1) 存储设备能实现跨平台的存储是很多厂商宣传 SAN 时重点强调的, 但在现阶段多平台的系统如 S/390 各种厂家的 UNIX 和 NT 的服务器都要联到 SAN 中的一个存储设备上, 并进行平台之间的数据共享跨平台操作, 实现起来还是有许多障碍的现实中 SAN 往往只图 NAS 和 SAN 比较, 来源 : IDC,2000 能作到 NT 与有限的 UNIX 平台间的互操作而且 SAN 中不同操作系统间文件系统和数据格式不同所带来的不兼容性, 尚未得到很好地解决所以应用可以读取到网上不论什么地方什么服务器什么操作系统平台的数据, 还只是人们的一个良好的愿望 2) 企业宣传 SAN 带来的另一大好处是管理简单方便, 但存储的管理工具还不够完备, 还不能用统一的管理控制平台管理所有 SAN 中的设备及应用 3)SAN 应能自动识别配置新的存储设备, 并根据使用情况平衡 SAN 内不同存储设备 257

259 间的负载, 进行存储设备间的数据复制备份但这只是理论上能作到的 4) 大多数厂商在一个 SAN 中只能联一种厂家的 SAN 存储设备 5)SAN 追求的是性能和速度, 但 SAN 也是昂贵的代名词, 对于大部分的企业用户,NAS 的应用要比 SAN 要多得多当要求给提供许多客户提供文件共享的接入时,NAS 一般来说是可选的方法现在 NAS 设备在满足此种要求上有极大的功效因为 NAS 系统是建立在现有的 LAN 和文件系统协议之上的同 SAN 相比,NAS 技术是相对成熟的尽管有一些 SAN 文件共享解决方案存在, 它们一般是针对特定的要求, 多个服务器要求高速的的接入通过私有的轻量级的协议来实现共享数据用户需求举例为了说明问题, 这里给出一个相关的例子来解释 NAS 的数据存储解决方案 : 某研发中心设计人员需要协同工作, 频繁访问大量 2D 3D 图像, 因此数据的共享特性决定必须采用高性能存储系统此外, 客户还有一定量的 SQL 数据库, 总数据容量要求为 2TB 存储系统的特点要求如下 : 系统高可用性满足生产系统的高要求 ---7x24 小时的服务确保业务连续性 ---- 企业级灾难恢复方案集中存储数据中心, 数据集中数据安全企业的安全业务高性能系统易用性 Oracle,Exchange,SQL 等数据库服务器的支持建成一个集中式开放式的存储, 并且必须具有非常高的安全稳定性高性能高容量易扩充性易维护性成本低的高端存储架构并且能够很好的支持用户的 SQL 数据库存储需求以及数据库的备份应用需求, 把数据库中的数据和文件系统中关键的文件按照备份策略 258

实现集中, 高效的备份当数据系统出现故障时, 可以及时实施恢复, 把数据丢失减少到最低限度 15.4.

260 实现集中, 高效的备份当数据系统出现故障时, 可以及时实施恢复, 把数据丢失减少到最低限度解决方案根据客户的需求, 存储与备份系统必须满足支撑多业务系统的能力, 并充分考虑客户日后业务的发展和数据的迅猛增长因此可以采用 NetApp 统一存储平台 FAS 存储系统, 在同一台设备上既可提供基于文件 (File) 的 NAS 服务, 同时又可提供基于磁盘块 (Block) 图 NetApp 解决方案图示 SAN 的服务 (FCP 和 iscsi), 集 SAN/NAS/iSCSI 等多种存储服务于一身如上图所示 ( 图 15-51),NetApp FAS 系列存储服务器提供统一存储平台, 既可以提供 SAN 的服务 (FCP 和 iscsi), 同时又可以提供 NAS 服务方案概述如图 ( 图 15-52) 所示, 我们可以在总部配置一套 NetApp FAS 核心存储设备, 同时提供文件服务 (NFS 和 CIFS) 和 iscsi 磁盘服务, 主要服务器及存储设备均通过千兆链路接入核心千兆交换机核心业务如数据库服务器和 OA 系统中的 Unix 系统可以通过 NFS 访问存储数据,Windows2000/2003 服务器则可通过 CIFS 或 iscsi 方式访问存储 259

FAS 系统中可以为每个卷保留 255 个快照备份 (snapshot), 客户可以根据业务的需要图 15-52 NetApp 的存储和备份定义 snapshot 的日程表, 以保留不同时间点的系统数据离线备份包括两部分 : 各服务器操作系统和本地数据的备份和存储设备数据备份因此存储工程师可以配置一台独立的备份服务器作为备份控制台,FAS 上的数据可以利用 NDMP 通过直接与带库相连的

261 FAS 系统中可以为每个卷保留 255 个快照备份 (snapshot), 客户可以根据业务的需要图 NetApp 的存储和备份定义 snapshot 的日程表, 以保留不同时间点的系统数据离线备份包括两部分 : 各服务器操作系统和本地数据的备份和存储设备数据备份因此存储工程师可以配置一台独立的备份服务器作为备份控制台,FAS 上的数据可以利用 NDMP 通过直接与带库相连的 FC 或 SCSI 通道备到带库上, 流量无需经过前端网络和服务器, 即所谓 LAN-Free 和 Server-Free 备份服务器操作系统和本地数据则可通过备份服务器备到带库对于远程的分公司可以选用较低端的 FAS 作为本地存储, 利用 NetApp 独有的 SnapMirror 可将数据远程备份到总部, 实现异地容灾和数据共享产品选型 NetApp 的存储产品产品线如下 ( 图 15-53): 所有 NetApp 产品均采用统一的 DataOntap 操作系统,FAS 系列从 2TB 到 64TB, 性能满足不同客户要求, 可以根据不同容量和性能要求选择相应的型号本次方案的数据存储选用 Network Appliance (NetApp) 公司性价比极高的 FILER FAS270 系列存储器服务器 FAS270 存储是 NetApp 公司一款企业级的存储产品, 高性能和 260

图 15-53 NetApp 产品线高可用性使得这一型设备可以满足高度密集的数据访问要求, 根据第三方评测机构 (SPEC) 的测试结果, 此存储在 NAS 评测性能上可支持每秒并发 8000 个网络文件操作, 而每一处理的响应时间仅为 1.

262 图 NetApp 产品线高可用性使得这一型设备可以满足高度密集的数据访问要求, 根据第三方评测机构 (SPEC) 的测试结果, 此存储在 NAS 评测性能上可支持每秒并发 8000 个网络文件操作, 而每一处理的响应时间仅为 1.41 毫秒为业界响应最快的存储产品 NETAPP 在业界中提供独树一帜的 SAN/NAS/iSCSI 一体化解决方案, 在同一 FAS270 硬件结构中可同时进行数据块 (SAN 结构 ) 和网络文件 (NAS 结构 ) 的双重访问服务. 而实现方式简便易行, 只需针对不同应用灵活采用网络接口或光纤接口分别连接网络交换机或光纤交换机与前端服务器配合即可实现 SAN/NAS/iSCSI 一体化的特点为业界首创, 且至今无其他厂商可以达到, 此功能的实现大大节省了用户的投资成本并提高了存储使用的效率 FAS270 系统主要技术参数 : 1 容量,FAS270 存储支持 6TB 的磁盘容量, 初始可配置裸容量 3TB, 满足当今的数据容量要求 2 高效, 在 1 个物理卷中最大可支持到 6TB 的数据量 3 可用性,FAS270C 群集存储系统能达到 % 的可用性, 随着应用和业务的需要可以轻松扩展到 F900 系列的 Cluster 架构 4 SAN 连接, 通过直连或 Fiber Channel 的 Switch 组成一个高可用的 SAN 环境, 物理和应用上做到了完全的容余, 没有任何的单点故障 5 支持 iscsi/nas 访问, 最大扩充至 4 个千兆网口, 可以灵活进行网络配置 ; 261

6 易于实施,FAS270 存储存储系统 30 分钟完成安装配置 ; 7 数据备份能够采用 NDMP 模式即 LAN-FREE 方式, 磁带库直接连接在 FAS270 后面, 备份时通过 NDMP 协议数据直接从 Filer 到磁带库, 无需经过网络, 也不需要服务器的处理, 也可以连接到 SAN 的交换机上, 实现 Server-Free 的备份, 企业可以集中备份作业, 速度和效率大大提高

263 6 易于实施,FAS270 存储存储系统 30 分钟完成安装配置 ; 7 数据备份能够采用 NDMP 模式即 LAN-FREE 方式, 磁带库直接连接在 FAS270 后面, 备份时通过 NDMP 协议数据直接从 Filer 到磁带库, 无需经过网络, 也不需要服务器的处理, 也可以连接到 SAN 的交换机上, 实现 Server-Free 的备份, 企业可以集中备份作业, 速度和效率大大提高文件与磁盘服务由于目前阶段主要是 SQL 数据库和文件服务, 考虑 NAS 和 iscsi 两种实现方式对 SQL 服务器, 存储工程师可以采用 iscsi 方式如下图所示,NetApp FAS 可以作为 iscsi 的目标节点, 提供 ISCSI LUN 服务,Windows 2000 /2003 服务器只需从微软下载一个 iscsi 的驱动程序 (Initiator), 即可将 Filer 上的 iscsi LUN 连接到本地, 作为本地硬盘一样使用也可在服务器上安装 iscsi HBA 卡, 用硬件 ASIC 芯片处理 iscsi 协议, 从而提高存储访问图 NetApp 磁盘与文件服务的性能, 降低服务器的开销此外, 为了满足 2D3D 图像文件服务的要求,FAS 还可作为一台 CIFS 文件服务器加入原有 Windows2000 /2003 的域, 其他域内用户访问 Filer 必须首先通过域内的 AD 认证, 对 Filer 上的共享管理和授权可以完全通过 Windows2000 / 2003 的 Active Directory 262

264 域用户和计算机管理来完成系统扩展 NetApp FAS 存储系统具有无可比拟的扩展性, 允许在线扩盘, 在线软件升级 FAS270 可以平滑扩展到 6TB, 如果容量需求超出 6TB 的极限值, 则必须升级到更高级别的产品由于 NetApp 所有产品线均采用相同的操作系统, 硬件平台的升级同样简便, 只需更换机头, 没有任何数据迁移工作, 因此没有任何风险数据的备份 / 恢复, 归档, 和容灾数据的备份 / 恢复归档和容灾采用 NetApp 独有的的 Snapshot, SnapMirror 和图 5-55 NetApp 系统备份示意图 SnapRestore 技术, 大大提高了数据的可靠性, 降低了数据维护的成本 Snapshot 可以在 1 秒钟内生成一个卷的系统快照,SnapRestore 将 TB 级的数据恢复时间缩短为分钟级,NetApp 内置的 SnapMirror 提供了一种简便高效的基于 IP 网络的远程容灾备份 / 恢复手段更详细的描述请参见数据备份 / 恢复, 归档, 和容灾在线备份可以利用 NetApp 的 snapshot 技术为每个卷创建多达 255 个备份, 随时可以将系统恢复到快照的某时间点离线备份采用 NDMP 以 LAN-Free,Server-Free 的方式将 FAS 上的数据备到带库上各 263

服务器的操作系统和本地数据则通过备份服务器备份为了实现数据的远程传送和容灾保护, 可以利用 NetApp 的 SnapMirror 技术实现快速远程备份 15.4.2.

265 服务器的操作系统和本地数据则通过备份服务器备份为了实现数据的远程传送和容灾保护, 可以利用 NetApp 的 SnapMirror 技术实现快速远程备份系统管理 --FilerView Network Appliance 提供远程管理开放存储网络的有力工具每台 Filer 上都有 FilerView 工具, 使 IT 管理员利用 Web browser 访问统一的易用的图形界面 (GUI), 进行日常的 filer 管理工作管理员可以随时随地, 利用任何平台远程管理 NetApp filer, 不会影响到关键业务的运行 NetApp filer 安装完成后, 管理员可以有效地监控状态, 扩充容量, 改变文件系统的配置, 等等管理员可以扩充 volume 或在 NT Domain 中新建 Common Internet File System (CIFS) share, 而不会影响到数据访问 FilerView 作为 Filer 管理的常用工具, 十分简便地引导管理员完成 Filer 和 Filer 的部件的安装和配置任务不需要学习任何命令行或语言, 只需 Web browser, 管理员可以通过轻松的点击屏幕完成任务如下图, 左边的导航树可以随时指引现实各项工作安装配置监控修改 Filer 和文件系统, 得到加速简化, 而且不易出错图 5-56 FilteView 图示 264

266 安装和设置 Filer FilerView 将安装减少到只有简单的几步, 为 Filer 从 Console 或者 DHCP 服务器分配 IP address 后, 利用 Setup Wizard 迅速可以完成基本的配置 Setup Wizard 提供间接明了的输入界面, 并且指示 filer 在设置生效前动态地测试所选的参数配置 Data ONTAP 服务 FilerView 基于 Web 的方式避免了用户使用难记的 command-line 界面, 从一个 GUI 界面里, 管理员可以对所有的资源和服务管理配置生成报告文件系统. Disks, volumes, Qtrees, 和 quotas (NFS 和 CIFS) (NDMP) 数据保护. Snapshot 和 SnapMirror 工具集,Network Data Management Protocol 高可用性. 集群和互备软件网络. 接口卡 ; HTTP, DNS (Domain Name Server), 和 NIS servers (Network Information System) 具管理. 安全设置, AutoSupport 和 SecureAdmin 软件, SNMP 工具集, 资源监控工生成文件系统一台 filer 安装好, Data ONTAP 服务配置完成, FilerView 提供文件系统生成和管理的帮助 FilerView 的功能可以简化下列任务 : 生成 UNIX 或 Microsoft Windows 文件系统设置每个文件系统的 quotas( 配额, 容量上限 ) 和最大文件数量显示生成的卷 (volumes) 和参数, 按需要迅速调节随时得到实时的统计数据, 例如, 卷使用百分比, 可用容量, 在用容量等管理和配置 Qtrees, 卷内的逻辑文件系统定义调整监控用户组 Qtrees 的配额 ; 按照分配空间和文件数量限制使用管理访问服务 265

267 管理员利用 FilerView 可以配置网络文件访问服务, NFS 和 CIFS UNIX 和 Windows 文件系统可以根据用户设置相应的访问 : 配置服务察看活动的 session, security, 和统计 statistics 审计激活报告管理 share 或者文件系统的使用控制和监视文件系统重新启动关闭 filer, 或者开启 / 关闭 Data ONTAP 服务 FilerView 可以开启 / 关闭 NFS, CIFS, HTTP, 和其他的各种服务用户定义的 SNMP trap 可以自动监视特定的参数当某些情况发生或者参数超过某些阈值时自动生成消息通知管理员 NetApp 的技术特点与优势 NetApp 的存储产品 Filer 提供简单快速可靠可扩展的数据管理解决方案, 解决数据共享数据保护数据管理等一系列问题 Filer 使用了高效率的 Data ONTAP 操作系统, 该系统是专为集成 Windows UNIX 和 WEB 数据设计的, 其中的 WAFL 文件系统与硬件紧密结合, 在无需复杂配置和人工调优的情况下, 提供异常迅速的响应速度和很高的吞吐量在 Data ONTAP 系统集成了 Snapshot 快照功能, 有效解决在线备份复制恢复 Point in Time 拷贝 NetApp 的 Filer 从小到大, 容量和性能不同, 而使用方式是一致的型号容量使用环境 FAS250 2TB 入门级 FAS270 FAS270C 6TB 部门级 FAS920 FAS920C 6TB 12TB 企业入门级 FAS940 FAS940C 12TB 24TB 企业级大型应用 FAS960 FAS960C 24TB 48TB 企业级数据中心大型应用 266

268 FAS980 FAS980C 32TB 64TB 企业级数据中心大型应用数据在 Filer 上, 服务器运行应用程序, 通过 SAN/NAS/iSCSI 访问 Filer 上的数据, 使得数据与应用管理分离, 从而提供更加快速简单可靠的数据访问 Appliance 结构的存储系统的优点 Appliance 是指能很好完成特定功能的设备网络上有许多常用的服务通过 Appliance 方式实现, 不再通过软件加通用计算机的方式例如,Cisco 公司和北电的专用的路由器几乎取代了所有计算机包转发的服务, 虽然早期的路由都是用计算机处理的 Appliances 设备易于使用, 更加可靠, 而且具有比通用计算机更好的性价比, 所以得到广泛的使用这些优点是由于 Appliance 只需要完成特定的任务, 可以针对特定的功能进行更强的优化, 不会像通用计算机系统需要在很多 ( 有时是矛盾的 ) 要求下进行折衷 Network Appliance 发明了 network storage appliance ( filer),filer 上不运行应用程序, 只是提供 UNIX 或 Windows 服务器所需要的数据 Filer 作为 appliance 具有下列优点 : 易于管理高性能和性价比高数据和系统的可用性快速部署和升级能力, 以及低 Total cost of storage ownership 轻松管理 Filer 的可管理性是一方面是由于去除了操作系统与数据服务无关的部件, 例如, 打印图形 API 等 ; 另一方面集成了许多必须的功能, 不需要额外的软件工具, 例如,Filer 的文件系统可以在增加新磁盘时自动成长这样就去除了划分磁盘驱动分区的复杂性, 去处了将分区分配给不同用户的复杂性逻辑分区可以在线动态增减, 微内核的升级不用 3 分钟就可完成 Filer 利用 SnapShot 简化了备份,Snapshot 是整个文件系统在线的只读拷贝 Snapshots 可以在一天的任意一些时间自动或手动生成, 用户无需系统管理员的帮助就可以通过 NFS 或 CIFS 访问 SnapShot 来检查和恢复他们过去版本的数据,Filer 可以即时完成 Snapshot, 而且除非文件删除或发生变化, 否则不消耗额外磁盘空间虽然与传统方式相比 Filer 所需的管理工作已经微不足道,Filer 仍然提供多种方式的管理工具基于 Web 的图形界面 (FilerView ) 提供简单易用的全方位的 Filer 管理, 267

269 Windows 系统管理员利用他们熟悉的工具管理针对 Windows 的任务,Server Manager,User Manager for Domains 等对于喜欢命令行的人提供了类 UNIX 的命令, 只需 50 条命令, 这些命令包括数据管理和网络管理, 例如, ping, ifconfig, exportfs, 和 nfsstat, 还有一些一般命令,date, uptime 和 passwd. 命令行界面可以通过 console 或者 TELNET. 访问多个 Filer 可以通过 NetApp 提供的 DataFabric Manager 统一管理, 或利用 Openview 和 Tivoli 等网络管理工具利用 SNMP 进行管理性能 / 价格比 Filer 采用十分精巧的实时微内核, 标准的硬件平台, 以达到最佳的性价比通过省略不必要的模块达到高性能, 例如,virtual memory, graphical window systems, 和一些本地应用软件优化相对于才用采用复杂高昂的硬件结构更为有效, 复杂的结构会导致成本增加和可靠性的减低由于 Data ONTAP 软件从底层到数据服务的整体优化,Filer 具有很高的性能和性价比系统和数据的高可靠性 Filer 的 Appliance 方式增加了数据的可用性通用计算机系统需要支持太多不同的功能和应用, 所以没有可能测试所有的使用方式而 Appliance 却可以进行彻底的测试, 而且简明的硬件结构减少了故障点 Filer 利用 RAID (Redundant Array of Inexpensive Disks) 技术保护数据,Filer 可以两分钟内重新启动, 进一步减少了宕机时间和系统升级和安装时间 Filer 的重要的软件功能也增加了数据可用性, Snapshots 用于文件的即时恢复 SnapRestore 用于整个文件系统的即时恢复 SnapMirror 用于数据复制和容灾 Appliance 方式与常规存储系统相比也极大减少了计划停机时间例如, 扩容, 升级维护备份等的停机时间快速安装和扩展 268

270 Filer 可以在 30 分钟内完成安装, 而且一开始就是有 RAID 支持, 避免系统管理员花费几个小时建立 RAID group 和 volume 通过一条命令就可以把磁盘添加到任何文件系统中, 增加存储无需停机, 而且对正常作业和性能没有任何影响, 可以动态增加服务器, 工作较传统的 SAN 方式大为简单低总拥有成本 Appliance 结构使得存储的总运营成本最低, 较低的初始采购成本, 特别低的运营成本, 例如, 3 分钟的升级时间 1 条命令即时扩充文件系统最少的 RAID 管理工作无需通过磁带就可以恢复删除的文件,(Snapshots) 文件系统可以迅速恢复到以前的某个时间点迅速地从应用程序失败的问题恢复 Filer 的系统结构 Filer 由控制器机头和磁盘子系统组成机头通过光纤通道接口连接磁盘 SAN 子系统, 通过网络接口提供数据到应用服务器, 机头的接口数量通过 PCI 插卡扩充磁盘子系统由可以堆叠的磁盘柜组成 Filer 的基本软件结构如下图 ( 图 5-57) 所示, 一些紧密耦合的处理模块处理 NFS, CIFS, 和 HTTP 请求一个请求从下方的网络驱动开始, 经过网络协议层和文件系统, 向上到达磁盘 I/O, 当文件系统完成了请求, 它把请求送回网络这些模块建立在一个简练的 real-time 内核上, 提供产生进程, 内存分配, 消息传递和中断等基本处理网络层支持 TCP/IP, 与 UNIX 系统相比, 为 Filer 的文件服务进行了优化, 以增加 Filer 文件系统通讯的效率 WAFL, Filer 的文件系统, 是专门为通过网络提供文件服务而设计的, 而且与 Filer 269

271 的 RAID 配合设计, 解决常规操作系统由于 RAID 而引起的性能问题. 图 5-57 Filter 基本结构 WAFL - Write Anywhere File Layout Filer 文件系统是经过重新设计的, 而不采用常规文件系统, 是为了达到三个主要目标 : 文件系统应当和 RAID 高效协同文件系统可以在新增磁盘时动态扩充文件系统无需进行费时的一致性检验而且, 由此产生了支持 Snapshot 的要求在一些方面 WAFL 的磁盘格式与其他 UNIX 文件系统类似, 例如, Berkeley Fast File System 和 IBM TransArc Episode file system. 其中 : WAFL 是基于块的, 使用连续的 4KB block WAFL 使用 inode 来描述文件目录是特殊格式的文件 WAFL 利用文件保存元数据 (meta-data), 数据存储的控制信息,WAFL 的三个最重要的元数据, 分别是 inode file ( 包括所有的 inodes), 空闲磁盘块的位图文件, 空闲 inode 的位图文件将元数据以文件方式组织, 可以将元数据块写到磁盘的任何位置, 这就是 WAFL 270

272 ( 任意写文件系统 ) 名称的来源由于没有特定数据写入特定磁盘区 ( 例如 0 磁道 ) 的要求, WAFL 可以完全控制其写操作的空间分配策略 Windows 和 UNIX 的 FFS 文件系统却不是这样的 WAFL 利用了这种灵活性优化 Filer 的 RAID 的写操作性能, 在 IO 中 write 优化的文件系统是十分重要的, 因为写操作必须更新到磁盘或者 NVRAM( 不掉电内存 ), 而读可以在 UNIX/Window 用户和服务器的内存里进行 Cache 缓存一般 UNIX 和 Windows 服务器的写操作数通常有 5 到 10 倍的读操作数 Snapshot 介绍 Snapshot 功能是 WAFL 的随意写带来的另一个功能 Snapshot, 也叫快照, 是文件系统在线的 ( 随时可以访问 ), 只读的拷贝, Snapshot 只需几秒钟就可以生成, 如果文件未被改变或删除就不占额外空间, 或者说只有当文件系统的变化, 变化部分会写入新的磁盘空间, 这时, 快照消费额外空间快照可以用于在线备份, 并且使用户可以自己进行文件恢复操作简化了备份到磁带的作业由于快照是整个文件系统的只读的拷贝, 是当前文件系统的具备自身一致性的备份, 所以无需关机或使当前文件系统离线, 系统管理员可以将快照备份到磁带机上图 5-58 Snapshot 的生成上图 (a) 示意了一个简化的文件系统, 一个指针指向文件对应的磁盘块,(b) 示意通过指针结构的复制生成了快照,(c) 示意当块 C 被修改, 修改后的值存入新块,C, 当前文件系统指向 C, 而快照仍保存了文件系统在拍快照时的状况 271

273 WAFL 通过复制指针数据生成新的快照, 由于该结构只有 128Byte 大小, 而且没有数据磁盘块需要复制或者移动, 除非当前文件系统的数据发生变化, 快照步需要占用额外的磁盘空间, 而且快照可以即时生成 Filer 可以为每个文件系统在线保留 255 个版本的快照可以手动生成或删除快照, 也可以根据用户定义的日程自动生成和删除 Snapshot 占用的空间取决于用户数据变化的频率, 可以通过指定快照占用空间的大小一般 17% 的额外空间就可以保留整个文件系统的多个版本的快照用户访问快照的方式文件系统的每个目录都含有一个特殊的子目录, 表示快照, 通过对它的访问, 用户可以得到以前的数据假如用户以外删除了名为 foo 的文件, 希望从快照里把它恢复出来, 下面例子现实如何在 UNIX/NFS 下察看以前的文件并进行恢复 % ls -lu.snapshot/*/foo -rw-r--r-- 1 hitz Jun 16 15:00.Snapshot/hourly.0/foo -rw-r--r-- 1 hitz Jun 16 12:00.Snapshot/hourly.1/foo -rw-r--r-- 1 hitz Jun 16 10:00.Snapshot/hourly.2/foo 三个 Snapshot 中含有文件 foo -u 选项通知 ls 命令列出 foo 文件的生成时间, 也就是拍快照的时间如果要恢复, 只需要将要恢复的文件 copy 回来到 foo 所在得目录就可以了 % cp.snapshot/hourly.0/foo. Snapshot 的目录是隐藏的只读目录, 这样平常的操作不会受影响, 而且不会被修改磁盘数据的一致性检查点和 NVRAM WAFL 最长每 10 秒就会生成一个内部快照, 成为一致性检查点, 所以在磁盘上会有一个完全具有一致性的文件系统版本, 当 filer 启动,WAFL 总是是用在磁盘上最新的检查点, 所以 Filer 避免了费时的文件系统校验,File system check, 使得即使意外掉电或者系统故障时, 也不必进行 file system check Filer 只需要 2 分钟的硬件自检就可以重新完成 272

274 启动 Filer 使用电池支持的不掉电 RAM (NVRAM), 避免丢失任何发生在检查点后的 NFS/CIFS 请求, 正常关机时,Filer 关闭 NFS/CIFS 服务, 将所有缓冲在 NVRAM 的请求刷新到磁盘后关闭 NVRAM 当 filer 故障后重启动, 它将 replay 所有保存在 NVRAM 中的没到磁盘的 NFS/CIFS 请求使用 NVRAM 保存没有 commit 到磁盘的请求, 与一些 UNIX 使用 NVRAM 作为 disk cache 有很大的区别当在磁盘层面上使用 NVRAM, 其中可能包含影响一致性的重要数据, 如果 NVRAM 出问题, 文件系统会不一致, 即使使用 fsck 也无法恢复 WAFL 还使用 NVRAM 作为文件系统日志 journal, 而不是需要变化的磁盘块的缓存 (Disk Cache), 所以 WAFL 极为有效地利用了 NVRAM 的空间例如, 一个请求, 让文件系统生成一个新文件, 可以用几百个字节信息表明, 而磁盘上却需要改变十几块的信息由于 WAFL 使用 NVRAM 保存操作命令日志, 而不是这些命令的结果,NVRAM 可以保存几千个操作的日志 Filer 的 RAID Filer 使用了一种 RAID 4 设计来保护数据避免受磁盘故障的破坏然而与一般的 RAID 4 和 RAID 5 实现不同, 一般的 RAID 实现结构没有考虑文件系统的结构和活动方式 WAFL 的 RAID 4 实现, 是与文件系统的设计紧密优化的通过将文件系统和 RAID 层结合考虑, NetApp RAID 的设计提供了所有 RAID 校验保护的好处, 克服了常规的 RAID 5 带来的性能损失另外, WAFL 的 RAID 4 设计不像 RAID 5 那样将数据和校验数据交织到每个盘, 整个系统可以在有 RAID 的时候仍然可以迅速简便地扩充通过 RAID 4, 如果一个磁盘有损坏, 利用 RAID 组里的校验盘可以重新计算出损坏磁盘上的数据, 其 block 映射到磁盘上的新的位置如果整个磁盘损坏, 校验盘也可以保护数据不丢失, 当故障盘重新替换, 所有内容通过校验盘自动重计算 RAID 4 阵列使用一个磁盘专用于校验, 其余用于数据每个磁盘由 4KB 的 block 组成一个条带,stripe, 由每个数据磁盘的一个 block 和校验盘的一个 block 组成最常用的 RAID 级别有 0,1,3,5,RAID0 是划分为条带, 由于没有校验区, 所以无容余纠错能力 RAID1 是简单地镜像, 所有数据复制在另一粒盘上,RAID 1 很安全, 但是需 273

275 要两倍的磁盘容量 RAID 3 类似 RAID 4, 专门一个盘用于校验, 但是 RAID 3 的条带太小, 一个读写操作就可能跨阵列内所有的磁盘, RAID 3 适合单个大文件很高的速率要求, 例如超级计算, 和图像处理, 但对于多用户应用产生的不相关的读写表现很差而 RAID 4 改进了这一点 RAID 5 类似 RAID 4, 但是在所有磁盘中循环安排数据区和校验区, 第一个条带的校验区在第一块盘, 第二个条带的校验在第二个盘, 等等主要的优点是防止校验盘成为瓶颈缺点是在 RAID 5 array 中增加一个盘很不实际, 扩容时需要添加一个新阵列例如, 如果在 RAID 5 实施时每个阵列使用 7 个 disk, 通常扩容时每次增加 7 个盘大多数用于 UNIX 和 Windows 环境的外设避免使用 RAID 4, 因为使用通用的文件系统, 校验盘会成为瓶颈另一方面,WAFL file system, 利用其随意写的布局写磁盘, 使用 RAID 4 的磁盘却十分高效以 UNIX 的文件系统为例说明 WAFL 如何与通用的文件系统不同通常的 UNIX 使用 FFS (the Berkeley Fast File System), 该文件系统的设计针对一次写一个文件进行优化, 所以不同文件的块写到磁盘上很分散的位置 FFS 在阵列里写入 3 个不相关的文件时的块分配的位置, 每个数据盘写只有 2 次, 而校验盘却要写 6 次更致命的是, 校验位的写十分分散, 导致很长的寻道时间这是由于 Berkeley FFS 不知道下层的 RAID 4 的布局, 往往会生成在数据盘上分散的磁盘写请求, 导致校验盘过长的寻道时间 WAFL 的写方式被设计成最小化校验盘的寻道时间 WAFL 总是把写相邻条带的 block, 减少校验盘的寻道时间 WAFL 还尽可能地写同一条带的多个块, 进一步减少校验盘的流量 Appliance 方式的优点通过 Appliance 方式的设计, 以网络为服务器提供数据, 使得 NetApp 可以提供一种传统的存储方式, 以及基于 UNIX 和 NT 的系统无以比拟的存储管理快速而简单的系统安装快速的重启, 即使在掉电或者系统故障停机后通过增加磁盘在线扩充分区 274

276 快照提供简单的备份方式简单的管理,50 条命令这些特点, 以及 Appliance 方式带来的高性能和高可用性, 使得 Filer 成为十分易用且性价比很高的产品数据备份 / 恢复, 归档, 和容灾 Snapshot 技术从根本上改变了对数据的备份 / 恢复归档的操作方式备份数据可以保护由于用户误操作或者硬件故障造成数据丢失, 对数据归档 (archiving data ) 可以生成完整的具有一致性的数据集合的副本, 用于将数据恢复在线到将来的某一个时间备份保护免于故障, 归档可以使业务暂停并恢复工作 ( 可以在另外的地点 ) 从 backup 的数据中经常会只需恢复某个文件或某个目录, 而不必进行整个文件系统的恢复而归档 archive 往往要完整地进行恢复容灾 Disaster recovery (DR) 和备份和归档的特点类似, 用于防止故障, 更强调灾害整个建筑灾难的情况类似归档,DR 的数据必须具有一致性, 使作业可以在容灾点继续对数据备份可以包括对项目的归档, 在另一地的项目归档可以用于从灾难恢复备份和归档最重要的问题是速度当把大量数据备份到磁带或者其他的介质时, 由于数据量很大, 备份本身就对系统产生了很大的工作负荷, 使得系统性能下降, 备份必须尽快完成以避免对用户产生影响所以备份工作一般在下班时间, 对于 24x7 的环境, 则没有下班时间, BACKUP WINDOW 越来越小对备份速度的主要限制是由于磁带机的速度, 现代磁带机的速度一般每秒几兆字节, 几百 GB 的数据就需要多台高速磁带机并行处理数据的一致性是另一个问题, 为防止正在备份的文件被修改, 简单的备份程序会锁定文件处于不可写状态, 而这只能通过 offline 或 single user mode 进行备份程序虽然试图解决在线备份的问题, 但是用户仍然面临数据完整和一致性的问题, 备份无法保证是可以恢复的 NetApp 的 Snapshot, SnapMirror 和 SnapRestore 提供给系统管理员有力的解决这 275

277 些问题的工具恢复 Restore 常常因为用户错误而进行恢复, 用户经常意外删除覆盖或其他方式修改了不该改的文件, 对于 DBA 和 SAPDBA, 这样的机会特别容易发生现代系统往往提供了很大的硬件保护, 时数据在硬件意外时不丢失 Snapshot 为用户提供了自己恢复错误的能力, 不需要依靠系统管理员从磁带定位, 恢复自己的文件在线备份 Live Backup Snapshot 是当前文件系统的一个只读的一致的副本, 提供了巧妙的解决在线备份的解决方案在进行备份前, 对文件系统拍快照, 快照只需一两秒就完成然后把最新的 Snapshot 目录中的数据备份由于快照目录下的数据只读, 永远不会被改变, 所以可以保证备份到磁带的数据的一致性, 这样磁带备份的速度不会影响数据一致性, 因为对当前文件系统的改变不会影响到快照的数据用户当前的文件系统总是可以读写的, 用户的作业不受影响, 而备份设备看到在备份前即时做的快照, 它稳定不变值这种随时 ( 在线 ) 生成具有数据一致性的可以恢复的档案的能力, 具有无比重要的价数据库备份 Database Backup Snapshot 提供了特别方便的方法对关系型数据库文件 ( 包括 DBM 文件 /messaging 数据库, 如 Exchange 和 Notes, 动态 WEB 页面内容数据库, 不仅是传统的 RDBM, 像 Oracle, Sybase, SQLServer 等 ) 传统的方式在备份前保证数据一致性的方法是关闭控制数据库的应用程序备份过程往往包括, 关闭应用程序, 进行备份, 重启应用程序, 停机时间完全取决于备份的速度, 从几分钟到几个小时进行热备份需要将应用程序数据库转换为热后备模式, 备份完成后再转换回正常运行模式, 热后备模式影响系统的性能, 需要尽量缩短热后备时间利用 Snapshot 可以把停机时间缩短到几秒种 ---- 生成 Snapshot 的时间操作方式 : 停应用, 拍照, 重起应用, 把在 Snapshot 目录里的内容倒到备份介质, 这种备份的数据 / 归档具有数据一致性的保证, 确保应用程序可以立刻使用 276

278 同样重要的一点, 这些快照可以保存在线存在很长时间, 万一数据库毁坏就可以立刻用来恢复, 极大地减少了恢复时间数据迁移和复制 Backup to Disk 磁带设备的速度比较慢, 系统的吞吐量执行 tar/dump/pkzip 类型的工具只有几百 KB/s, 硬盘相对快很多, 所以在数据中心数据临时 dump 到磁盘设备, 然后再下带随着磁盘的降价和性能提高, 这种方法越来越流行 Network Appliance 的 VolCopy 功能提供给用户将数据高速整卷迁移到另一台 Filer 的方法, 速度达到 ~45 GB/hour 使用 VolCopy, 用户可以在另一台机器 FILER 上生成一个完全一样的文件系统, 包括原数据系统的所有 Snapshot 复制时目标系统不可用, 一旦复制完成目标系统的数据就可在线 VolCopy 提供了一种快速将数据从一个卷迁移到新的位置的方法, 可用于升级到新的系统, 或者生成一个副本, 副本的数据进行磁带备份而不管源数据正在发生变化, 或者用于容灾自动文件系统复制 SnapMirror Data ONTAP(Filer 的操作系统 ) 利用 WAFL Snapshot 功能提供了自动的文件系统级的复制功能 :SnapMirror 通过 SnapMirror 技术, 一个源 filer 可以将一个或多个文件系统复制到伙伴 Filer, 使伙伴 Filer 上的文件系统与源 Filer 的自动生成的 Snapshot 同步伙伴 Filer 可以分布在任何地方, 可以在同一大楼或者地球的另一边, 只要源和目的之间有网络连接和复之数据需要的带宽 SnapMirror 在 WAFL 里的对 block 进行操作, 效率很高文件系统是由磁盘中的块组成的,Snapshot 文件系统一个固化的版本, 表示文件系统拍照时的状态 WAFL 利用内部的块映射表 (block map file) 记录了哪些块属于哪些不同的 Snapshot, block map file 记录每个 BLOCK 是否属于当前文件系统或是某个快照如下表,BLOCK 的数据在 Active File System 和 Snapshot 1 中, 而 snapshot2,3, 20 都没有用这块 WAFL block map file 使得 SnapMirror 很容易确定两个 Snapshot 的数据变化 ( 增量 ), 例如上表,block 不在 Snapshot 1, 却在 Snapshot 2. 假如 Snapshot 2 在 Snapshot 1 之后拍的, block 一定 Snapshot 1 拍完后假如到 Snapshot2 的, 而 block 在 Snapshot 1 里, 但 Snapshot 2 里没有, 所以是 Snapshot 1 拍完后删除的通过比较两 277

279 个快照的不同, SnapMirror 可以十分有效地顺序将变化数据复制到另一台设备 SnapMirror 复制开始时, 目标 Filer 安排源 Filer 拍快照 "Snap A", 建立与源 Filer 的 TCP 连接, 开始传输 "Snap A" 文件系统的块数据传输完成后, 目的 Filer 上的数据十完整的具有一致性保证的, 而且完全等于 "Snap A" 文件系统, 包括与 SnapMirror 无关的 Snap A 快照时的 SnapShot 的信息目标 Filer 上的数据可以被用户只读访问当 Snap A 传输时, 源 Filer 上的数据也正在发生变化, 然而 WAFL 的 copy-on-write 策略保证了所有变化数据在传输期间写入到新的 Snap A 以外的 block 为了保证目标 Filer 自动复制源 Filer, 变化的块也要传往目标 Filer 目标 filer 安排源 filer 进行另一个 Snapshot,"Snap B", 然后建立另一条 TCP 连接传输两次快照期间变化的数据当目标 Filer 接受完成 SnapB, 其数据是具有数据一致性且等于源 Filer 的 SnapB,SnapA 会被删除, 新一轮传输又再启动. SnapMirror 通过在目标 Filer 上的一个简单的配置文件控制, /etc/ snapmirror.conf, 设定 Snapshot 的发生间隔和数据传输的时间该文件包含下列格式的命令行 : srcfiler:srcvol dstfiler:dstvol schedule srcfiler, srcvol, dstfiler 和 dstvol 分别代表 source filer, source volume, destination filer, 和 destination volume 的名称管理员利用后面的变量值控制复制传输的特性例如 throttle value, 阈值, 限制 Filer 间的数据传输最高带宽 kilobytes per second Schedule 参数由 4 个独立变量组成, minutes, hours, days of the month, 和 days of the week, 表示传输发生的时间例如, /etc/snapmirror.conf 如下的一项 : sf:sv df:dv ,12,16,20 * 1,2,3,4,5 将使得目标 volume 在 8:30am, 12:30pm, 4:30pm 和 8:30pm, 每周一到周五, 进行同步, 阈值是 2000 KB/S 或 2 Megabytes/Second, 两台 filer 间的最大数据传输带宽 * 278

280 表示所有的月 srcfiler:srcvol dstfiler:dstvol - * * * * 指示目标卷尽快与源卷同步,- 表示以网络允许的最大带宽传输在源 Filer 上的配置文件 /etc/snapmirror, 控制只有指定的 Filer 才可以进行复制提供复制的安全性恢复整个文件系统 SnapRestore 在一些情况下需要完整地恢复以前保存的数据, 当发现数据库 corruption 时, 就需要这样的恢复在 NetApp filer 上,Snapshot 使得一个 volume ( 或称 file system) 的数据冻结在某个时间点上, SnapRestore 使文件系统回到以前的某个 Snapshot 的状态在 NetApp 这种独特的功能以前, 完整恢复文件系统的两种方法 : 从磁带进行完整的 restore 从 Snapshot 把所有内容拷贝回来这些方法比简单地进行卷的回复, 需要更多的时间和工作, SnapRestore 不需要拷贝任何文件, 它把文件系统回复到以前的状态, 只需要几秒钟的时间当需要回复的数据不多, 可以很快直接从 Snapshot 里拷贝回来而在很多情况下, 这个功能十分有用数据库管理员面临的重要问题是备份需要的时间, 特别是恢复需要的时间, 在一些宕机的情况, 恢复毁损的数据库需要几天的时间, 如果数据库保存在 NetApp 的 Filer 上, 就可以极大减少, 甚至消除宕机的时间数据库程序可以有计划地周期地 stop 或 hot backup,filer 拍快照, 只需要几秒钟的时间, 数据库就可以恢复正常工作, 快照里保存了数据库的具有一致性的内容, 进行磁带备份或者利用 Snapmirror 传到容灾点快照完成后可以立刻用一些工具进行检查, 如果一切正常, 系统管理员可以这些数据可以备份或复制, 而且回复后可以正常工作许多时候, 系统管理员会发现备份时数据库数据已经毁损, 在恢复时才发现 Filer 减少了这些风险管理员可以不断进行在线备份, 当问题发生时,Filer 上有问题发生前一个小时内的版 279

281 本, 从这个版本进行回复这要比从磁带未验证的数据回复快速许多对数据库的 LOG 和 DATA 分别进行 Snap 操作, 当问题发生时 : 如果数据库仍在运行, 停止数据库选择以前的一个包含正确数据库数据的 Snapshot 所有在选定的快照以后生成的 archive log file 拷贝到另一个卷临时存放, 防止被 SnapRestore 回复这些内容用 SnapRestore 回复卷的内容将 archive log 复制回到卷数据库重启, 根据 LOG 进行 roll forward 以上操作可以在 5 分钟内恢复正常工作参见 NetApp white paper "Oracle8 for UNIX: Backup and Recovery Using a NetApp Filer" SnapRestore 在测试环境也提供很大的效率在协同软件开发过程里, 通常要建立基本的测试环境, 运行测试, 检验结果, 经常要重新生成测试环境, 进一步测试利用 SnapRestore, 一旦基本测试环境生成, 无论其多大多复杂, 都可以在 3 分钟内重建磁带备份利用 Dump 和 Restore 进行本地磁带备份 Network Appliance Filer 可以通过本地执行 dump 和 restore 命令将数据备份到磁带机, Dump 和 restore 内含在 Data ONTAP 中, 可以被基于 NDMP 的备份软件访问, 对企业范围的多台 filer 进行备份 Dump 以 archival 格式将数据写入备份介质, 可以通过 Filer 进行 restore, 或者通过 Sun Solaris 用 ufsrestore 恢复 Dump 可以对 volume, quota tree (qtree), 或任意 directory 进行备份 Restore 可以恢复 volume, qtree, directory, 或单个 file 第三方的基于 NDMP 的 Backup-and-Restore 解决方案 NDMP ( 是用于集中控制企业范围数据管理的协议, 使得备份软件厂商不需要将客户端代码移植到 Network Appliance filer 上就可以提供对其支持, 一个支持 NDMP 的备份方案将备份 / 恢复的控制信息从数据流和备份介质分离, 通过调用 Data 280

ONTAP 软件的 dump 和 restore 控制数据从 Filer 备份和数据恢复到 filer 基于 NDMP 的方案提供 LAN-FREE 和 ServerFREE 的备份方式, 这些产品可以控制 filer 把数据备份到 Filer 本地磁带机, 不需要把数据送到网络上典型的

282 ONTAP 软件的 dump 和 restore 控制数据从 Filer 备份和数据恢复到 filer 基于 NDMP 的方案提供 LAN-FREE 和 ServerFREE 的备份方式, 这些产品可以控制 filer 把数据备份到 Filer 本地磁带机, 不需要把数据送到网络上典型的 ServerFree 的备份方式 : 如下图典型的 LAN-Free 备份方式 : 如下图图 5-59 Server Free 备份图示图 5-60 LAN-Free 备份方式 Network Appliance 与 Legato 合作提出了 NDMP 现在 NDMP 已经成为工业标准, 主要的备份软件商有 : 281

283 BakBone NetVault ( CommVault Galaxy ( Computer Associates BrightStor Enterprise Backup ( Legato NetWorker ( Atempo Time Navigator ( SyncSort Backup Express ( Veritas NetBackup?( Workstation Solutions Quick Restore ( NDMP 协议支持下面的 backup 设置 : 本地将数据备份到 Filer 直接连接的磁带机从网络将数据备份到另一台 filer 连接的磁带机从网络将 UNIX 或 Windows NT server 的数据备份到 filer 连接的磁带设备从网络将 NetApp filer 的数据备份到 UNIX 或 Windows NT 备份服务器连接的磁带设备 Fibre Channel 和 Gigabit Ethernet Tape SAN 方案 Network Appliance 提供基于 Fibre Channel Fabric Tape SAN 备份方案和 Gigabit Ethernet Tape SAN 备份方案都能提供下面的优点带库资源的共享扩展集中磁带备份的距离将备份对网络和服务器的影响减至最低磁带机 hot-swapping 动态改变磁带机的配置而无需 Filer 关机下图 ( 图 5-61) 是 Gigabit Ethernet Tape SAN 的配置. Gigabit Ethernet Tape SAN 方式使得多台 Network Appliance filer 同时通过千兆网将数据传输到支持 NDMP 的一台或多台设备 Filer 共享带库, 全部采用经过验证的以太网部件. 282

. 与支持 NDMP 的第三方软件配合, 利用 dynamic drive sharing 技术,Fibre Channel ( 图 5-62) 和 Gigabit Ethernet tape SAN 方案使用户可以动态地分配在一个大型磁带库里的驱动器给需要进行备份和恢复操作的 filer

284 . 与支持 NDMP 的第三方软件配合, 利用 dynamic drive sharing 技术,Fibre Channel ( 图 5-62) 和 Gigabit Ethernet tape SAN 方案使用户可以动态地分配在一个大型磁带库里的驱动器给需要进行备份和恢复操作的 filer 因而避免了为每台 filer 配备昂贵的磁带机图 5-61 Gigabit Ethernet Tape SAN 图 5-62 Fibre Channel Tape SAN 利用这些方案, 企业可以在不影响 Filer 的运行的情况下更换升级磁带机, 磁带驱动器不需要停机就可以动态添加和移除, 减少了停机时间 283

285 其它的磁带备份方法 : 用户可以利用第三方的基于 Windows NT 的 Backup-and-Recovery 方案, 例如, Veritas (formerly Seagate Software) Backup Exec Computer Associates ARCserve Legato Systems NetWorker 对 Filer 进行备份, 详细可参阅白皮书 "How to Integrate a Network Appliance Filer into the Windows NT Backup Model" 用户也可以利用 NFS Mounts 和 CIFS Shares 将所需要备份的数据连接到备份服务器, 利用一般的备份程序将内容下带 Filer 还支持 RMT 协议, 这个工业标准协议允许 Filer 通过网络将数据备份到连接灾其他主机上的磁带设备, 远程主机也需要支持 RMT 协议多台 Filer 之间可以通过该协议利用一台连接在任何一个 Filer 上的磁带机进行备份高可用性文件系统专用设备 Filer 除了软硬件本身具有 99.99% 的高可靠性以外, 为了消除一些单点故障 ( 如系统主板出错, 等 ), 在以低成本低性能开销不增加系统复杂度的前提下, 将两台独立的 Filer 耦合起来, 实现一旦一台 Filer 因故障而停止运行并且不能重新启动, 另一台 Filer 立即就可接管这一台 Filer 的全部工作, 保证系统正常运行两台 Filer 都与磁盘阵列相连, 并处于同一网中, 两台 Filer 之间用高速冗余的光纤互连光纤通道 (FC-AL) 的硬盘有两个端口, 分别与两台 Filer 相连每个 Filer 有自己主管的一组硬盘正常运行时, 两台 Filer 各自独立工作, 硬盘风扇或电源出错不影响另一台 Filer 的工作同样, 若一台 Filer 的软件出错, 这也仅仅引起这台 Filer 重新启动, 不会影响到另一台 Filer 的工作如果一台 Filer 发生灾难性故障, 即不能重新启动, 则另一台 Filer 会自动接管原属于有故障的 Filer 的硬盘文件系统同时将其 IP 地址也归为己有在整个接管过程中, 客户端仅简单地感觉到系统像是在重新启动所有在系统本身重 284

286 起过程中, 能够保留的状态, 另一台 Filer 也同样通过接管保留当然, 如果一台 Filer 在其重新启动过程中丢失一些状态, 如 CIFS 锁 (LOCK) 状态和文件状态等, 则在接管后, 另一台 Filer 也不能保留这些状态一旦有故障的 Filer 恢复正常运行后, 它不会自动地再接管自己的文件系统, 这需要系统管理员干预才能实现系统管理员也可强制一台 Filer 交出自己的文件系统, 从而可实行计划中的 Filer 和硬盘维护工作 Cluster Failover 主要依靠以下两个方面工作 : 其一是 WAFL 的特性, 特别是 WAFL 文件系统的盘上状态 (ON-DISK STATE) 永远是一致的这个盘上状态从一个一致点移动到另一个一致点的过程为一个交易, 也就是说, 要么完成一个状态迁移, 要么无状态迁移, 因此它永远保持一致另外,WAFL 在日志文件中记录所有被服务过的能够转移到非易先性 RAM(NVRAM) 中的客户请求日志文件中那些已被转移到硬盘上的客户请求只有在一个盘上状态迁移完成后, 才被丢弃 Filer 通常利用这些特征将盘上数据从故障中恢复当 Filer 重新启动时, 它只是简单地重新执行在最近 ( 一致性 ) 盘上状态未反映的 NVRAM 中的客户请求 NVRAM 在 CLUSTER 中的镜像其次是互连的特性, 特别是互连具有远程内存存取能力 ( 有时也称作非一致性内存存取, 或者简称 NUMA) 当一个客户请求到来时,Filer 将其记录在它本地的 NVRAM 中在 Cluster 的配置中,Filer 利用远程内存存取特性将日志文件中的记录项拷贝到另一台 Filer 的 NVRAM 中这个技术的一个突出优点是发送方发送的拷贝极快, 几乎不影响到接收方的操作 ( 如, 没有包处理过程 ) 同样, 另一台 Filer 也会将自己的 NVRAM 中的日志记录项拷贝到这台 Filer 的 NURAM 中当一台 Filer 不能从互连的光纤通道网络或硬盘上探测到另一台 Filer 的心跳 (HEARTBEAT) 或 I/O 活动, 他即认为这台 Filer 已出故障, 接管过程开始主要是接管出故障的 Filer 的 IP 和 MAC 地址文件系统和硬盘, 以及后台服务器进程 (daemon), 并将其使用的 NVRAM 中的日志记录项回现这个技术与 Filer 重新启动时所使用到的技术类似接管后, 正常工作的 Filer 中的每个后台服务器进程 (daemon) 具有两个标识符, 一个用于本地 Filer, 另一个用于另一台 Filer 285

287 15.5 磁带库产品介绍 STK L700E 自动磁带库产品介绍概述 StorageTek L700e 自动磁带库是 StorageTek 公司全新的 L- 系列自动磁带库产品的一员 L700e 自动磁带库是世界上最早能够本机支持 2GB 光纤通道的自动磁带库产品采用先进的高性能和高可靠性的机器人视觉识别磁带机和光纤通道技术, 使其具备无与伦比的高性能, 可以确保客户可靠快速地访问关键业务数据 L700e 自动磁带库采用的是 StorageTek 发明的独特的圆柱型库体结构, 它不但增加了单位面积存储磁带的数量, 而且可以减少机械手的移动距离, 从而提高了自动磁带库的总体性能 L700e 所有关键部件均为冗余设计并可现场热更换, 从而保证了整个磁带库系统的可靠性 L700e 自动磁带库同时混合支持多种磁带机和磁带介质, 可以满足用户对性能和容量的不同要求全新的 L700e 自动磁带库提供 PTP( 磁带传递口 ), 可以将 2 个 L700e 磁带库的库体互连在一起, 有效地将存储容量增加 2 倍 L700e 灵活的扩充性能, 使客户可以随着业务的增长轻松增加所需的存储容量和处理能力 L700e 配备了完善的管理软件和微码, 不但可以支持 UNIX NT 和 AS/400 等环境下的应用, 而且可以完全溶入系统管理的框架中利用内置的 WEB 服务器和 SNMP 代理模块可以将 L700e 自动磁带库的管理延伸到企业网络所能到达的任何角落 L700E 自动磁带库由如下主要部件组成 : 机器人系统 -- 机械手控制器机械手智能摄像视觉识别系统磁带存储槽 286

288 磁带存取口 (CAP) 磁带机驱动器机架磁带机驱动器控制管理软件等组成机器人系统 L700e 自动磁带库采用 StorageTek 第 6 代高性能机器人系统, 专利的高速旋转移动机械手系统, 每小时可以装 / 卸磁带 900 次, 即 450 交换 / 小时这意味着, 对服务器的任何装载磁带请求, 都可以在 4 秒钟之内完成 L700e 采用基于摄像机的智能视觉系统, 这是 StorageTek 公司的专利技术该视觉系统还配备多重冗余 LED 阵列照明光源, 提供照明的冗余这种视觉系统不但比传统的激光条形码阅读器的速度快, 而且具备更高的智能它可以快速准确地识别磁带带标和磁带库配置配合近距离精准传感器, 该视觉系统还可以自动地对机械手进行校准, 并迅速地识别放置在存储槽中不同类型的磁带, 其中包括 : 贴有带标的磁带 ( 各种类型 ) 无带标的磁带 ( 各种类型 ) 空的存储槽 StorageTek 独特的 4D 机械手和视觉系统使 L700e 可以同时读 / 写所用的系统应用, 多种应用共享 L700e 提供的大数据存储池智能的视觉系统使 L700e 的机械手具备了高智能的介质自适应技术 (AMT), 使其可以处理各种类型磁带介质的装 / 卸带操作, 永远不必变换磁带槽软件或机械手这种高智能的视觉系统可以极大地提高机器人系统的性能, 特别是可以大大地缩短对存放在自动磁带库内的磁带进行清点核对的时间 : 核对 216 盘磁带仅为 2 分钟核对 384 盘磁带仅为 3 分钟核对 678 盘磁带仅为 5 分钟 287

289 这种能力可以使 L700e 自动磁带库大大缩短灾难恢复的时间 L700e 的机器人系统的机械部件少, 可靠性高, 并具备免维护能力其平均无故障交换次数 (MEBF) 高达 200 万次以上 L700e 的机械手通常处于闭合状态, 在异常掉电情况下, 机械手能牢牢抓住磁带, 不会使磁带脱落造成磁带损坏容量配置单个 L700e 具有三种不同存储容量的配置 : 和 678 个磁带存储槽的配置而 2 个 L700e 通过 PTP 互连时, 磁带存储槽可达到 1344 个磁带机总数多达 40 个最大非压缩存储容量 268TB 最大非压缩吞吐量每小时 4320 GB 利用 StorageTek 公司的 ACSLS 自动磁带库服务器软件, 可以将多台自动磁带库统一管理起来这样可以做到对存储容量和性能的无限升级用户可以根据自己的应用对容量的需要, 选择相应配置如果用户的应用在最开始时对存储容量要求较少, 用户可先选择较小的配置 ; 随着应用存储容量的增加, 用户可以在现场对 L700e 磁带库进行扩充直到其最大配置 L700e 自动磁带库采用专利设计的非常完善的磁带存储槽, 它可以适合存放多种不同类型的盒式磁带该存储槽具备一定的倾斜角度, 使存放在其中的磁带不会滑落即使是在振动的环境中 ( 如 : 在地震多发地带海上石油勘探船上 ), 也能保证磁带不会震落, 确保存储在磁带库中数据的安全磁带机和磁带介质混装 L700e 自动磁带库可以支持一台至最多 40 台不同类型的磁带机, 包括 : DLT7000 DLT8000 SuperDLT T9840 T9940 和 LTO Ultrium L700e 还可以支持多种磁带机及介质的混合配置各种类型的磁带介质可以任意存放在磁带库中的任何磁带存储槽中, 多种磁带机可以同时混装在 L700e 自动磁带库中所有磁带机都可以带电热插拔更换故障驱动器和增加驱动器配置都不会中断 L700e 磁带库的正常运行用户可以根据其应用的需求特性来选择相应的磁带机技术如 : 需要保障数据的快速存取性能的应用, 可以配置 T9840 磁带机如 :HSM ( 分级存储管理 ) 大型数据仓库 288

290 需要存储的数据量很大而且要保证存储的高性能, 则可以选择 T9940 或 LTO 磁带机如 : 大量数据备份和恢复数字化媒体管理视频点播带机需要将大量数据存档保留但不要求高传输速率的, 则可选择 DLT7000 或 DLT8000 磁如果用户有多种类型的应用, 可以根据应用对容量和性能不同要求来选择多种磁带机的混合配置 L700e 具备的这种灵活性, 可以满足用户不同类型应用对磁带机性能和容量的不同要求同时也做到了既能承袭已有的技术产品又能支持未来新的磁带机技术产品, 最大限度地保护了用户的投资在 L700e 的磁带机机柜的上方留有外设安放空间, 可以安置 SCSI 交换机光纤通道桥接器光纤通道 HUB 光纤通道交换机和 UPS 等设备便于机房的空间管理盒式磁带存取口 (CAP) 盒式磁带是通过盒式磁带存取口 (CAP) 被送入或退出带库的 L700e 可以配置 1 或 2 个 CAP 每个 CAP 可同时处理 20 盘磁带的入库和出库当盒式磁带被送入带库时, 机械手上的智能视觉系统将直接读取贴在磁带背面上的条型码, 以便快速分配存储槽并记忆该磁带在带库中存放的位置如果没有条型码贴在盒式磁带上, 通常自动磁带库控制软件会指示机械手将该磁带装入某个磁带机内, 以读取其内部带标, 并利用带标来记忆该磁带在自动磁带库中存放的位置通过 CAP 进行磁带的入库和出库工作, 不中断自动磁带库的正常操作为了方便操作, L700e 的 CAP 配备了 5 盘磁带的磁带匣独立的平台支持各种计算平台和各种系统管理环境 L700e 自动磁带库支持所有主流的 UNIX 和 NT 平台 ACSLS 和 Library Manager 磁带库管理软件支持 L700e 的双库体互连, 以及运行不同备份软件的不同主机系统另外, 289

291 互连的 2 个磁带库配备独立的磁带库控制和数据路径, 确保系统的可用性扩展性和连接性 L700e 可以支持许多第三方的存储管理软件, 如 : CA Unicenter TNG ASO ARCserveIT Alexandria IBM SMS (HSM, RMM) Legato NetWorker Veritas NetBackup Backup Exec LXI MMS HelpSystem Robot/Save 利用 StorageTek 公司的 ACSLS 自动磁带库管理软件,L700e 磁带库可以被各种平台同时共享 L700e 还可以被多种系统管理框架软件来统一管理如 :IBM Tivoli HP OpenView 和 CA Uniceter TNG 完善的远程监控和管理功能做为选件,StorageTek L700e 可以配备内置 Web 服务器 Library Manager 磁带库管理软件与其它基于主机接口的产品不同,L700e 不需要任何外部服务器, 它可以直接通过以太网连接到任何 TCP/IP 网络上 L700e 内置的 Web 服务器, 使用户通过 Netscape 或 Internet Explorer 浏览器, 直接访问磁带库的相关信息包括 : 存储槽和磁带机活动情况统计信息磁带机和磁带库的配置故障报告 StorageTek L700e 的固件提供完全的远程管理功能, 包括对磁带机配置磁带库配置微码下载和远程复位等操作系统管理员将会非常喜欢嵌入在 L700e 内的 SNMP 代理模块, 它使得 L700e 可以直接纳入用户的系统管理框架中, 如 IBM Tivoli OpenView 和 UnicenterTNG 这个功能使用户可以从系统管理控制台或异地全面地管理 L700e 自动磁带库, 包括对带库运行的监控和异常提示等即使在系统管理框架软件失效的情况下, 用户 290

292 仍然可以利用 web 浏览器来监控磁带库的运行情况自动磁带库会自动收集性能统计信息, 包括 : 机械手对磁带的取 / 放操作统计信息完成的作业数量清洁带可用次数记录各种错误用户可以利用这些统计信息来分析和预测 L700e 自动磁带库的运行情况调整自动磁带库和网络的性能或更换清洁磁带等高可用性高可靠性和可服务性 L700e 配备了冗余的电源和冷却风扇系统, 固件包含了故障监控能力冗余的电源平时可以均衡负载, 当一个电源模块或风扇模块失效时, 另一个仍可以保障带库正常工作故障部件可以在带电工作状态下被更换, 而不会中断磁带库的运行 L700e 内的磁带机也可以被热更换当某个模块出现故障时,L700e 磁带库会自动发出警告警告的方式可以是电子邮件和寻呼机等多重方式, 这样可以及时地将故障的位置和类型通知给维护人员, 使设备能够得到及时维修 StorageTek L700e 支持 TapeAlert 协议, 它定义了标准的故障通知格式 L700e 的固件监视驱动器和磁带库的性能统计信息, 以便预报可能发生的故障当磁带机和磁带库的性能参数低于下限时,L700e 磁带库会自动发出警告 StorageTek L700e 不需要定期维护, 不需要润滑和调整皮带的松紧它采用高度集成化的电路设计, 减少了插板, 从而提高了可靠性 L700E 磁带库技术指标 L700E 磁带库技术指标如下表所列 : 表 5- L700E 磁带库功能数据磁带存储槽数量 216,384,678( 单库体 ), 双库体 (L700E):1344 外加 12 个诊断和清洁磁带槽 291

293 驱动数量多达 20 个 DLT 8000/SDLT 或 LTO 驱动器或多达 12 个 9840 驱动器, 或者 LTO 与 9840 混合库容量 (678 个槽 ) 非压缩压缩 DLT8000( 磁带容量 40GB) 27.1TB 54.2TB(2:1) LTO Gen1( 磁带容量 100GB) 67.8TB 135.6TB(2:1) LTO Gen2( 磁带容量 200GB) 135.6TB 261.2TB(2:1) 9840( 磁带容量 20GB) 13.6TB 40.8TB(3:1) 库吞吐量非压缩压缩 DLT8000 6MB/ 秒 (20 个驱动器 ) 432GB/ 小时 864GB/ 小时 LTO 15MB/ 秒 (20 个驱动器 ) 1.08TB/ 小时 2.16TB/ 小时 LTO Gen2 35MB/ 秒 2.52TB/ 小时 5.14TB/ 小时 MB/ 秒 (12 个驱动器 ) 432GB/ 小时 864GB/ 小时介质 DLT/SDLT/LTO 或 9840 平均磁带存取时间 5 秒 (9840 驱动器 ) 核查时间低于 3 分钟机械手控制 SCSI-3 介质交换命令集快速 / 带宽接口, 单端或差分 ASCLS SCSI 连结, 本机原配光纤通道选项条码阅读器标准的基于数字照相机的视觉系统校准自动 ( 带槽, 驱动器, 磁带存取端口 ) 驱动器清洁自动化, 由带库或软件启动磁带存取端口 (CAP) 标准,20 盘磁带的容量 ( 可选第二个 20 盘磁带的端口 ) 每个 CAP 包含 4 个 5 盘磁带一组的可移动磁带匣控制面板用户友好界面的配置和诊断控制, 状态显示和观察窗口自动自配置驱动器, 带槽和 CAP 可进行自配置可服务性带电更换的驱动器电源和风扇 ; 用于诊断的串行端口和以太网端口内部机架空间标准 19 英寸机架,13u 高 (22.75 英寸 ) MTTR( 平均修理时间 ) 低于 30 分钟表 5- L700E 磁带库可靠性 MEBF( 平均故障间交换次数 ) 2,000,000 MTBF( 平均故障间隔时间 ) 360,000 小时 ( 全面运行状态 ) 表 5- L700E 磁带库物理数据尺寸 : 宽 X 高 X 深英寸 ( 厘米 ) 61.3X72.0X37.5(155.7X184.6X95.3) 深度 44.1(112), 带扩充柜深度 30.3(77.7), 没有机壳或扩充柜 292

294 重量 ( 带库自身重量 ) 761 英镑 (345 公斤 );840 英镑 (381 公斤 ), 带扩充柜表 5- L700E 磁带库环境数据运行状态储存运输状态温度华氏摄氏 +59 至至至至至至 +60 湿度 20% 至 80% 10% 至 95% 10% 至 95% 湿度真空管 ( 最大, 非压缩 ) 华氏 +85 摄氏纬度 -250 至 10,000 英尺 (-76 至 3050 米 ) 表 5- L700E 磁带库电源电源输入 VAC@ 50-60Hz 单相自适应功耗 ( 最大 ) 库 1.75A@120V,0.88A@240V,716BTU/ 小时 DLT8000 驱动器 0.42A@240V,327BTU/ 小时 46VA/157BTU/hr LTO 驱动器 (HP IBM) 32VA/238BTU/hr 9840 驱动器 0.68A@240V,552BTU/ 小时表 5- L700E 磁带库有关认证安全性 CSA 认证 CAN/CSA-C22.0 号码 UL 列入 UL1950, 第三版 GS 授权至 EN60950, 第二版,1991+A1,A2,A3,A4 Nemko,Semko,Demko,Fimko 认证 EN 60950(1992) A1/A2/A3/A4/AII,EMKO-TSE(74-SEC)207/94 GB 测试认证辐射 FCC#47, 第 15 章,Subpart B,Class A;VCCI Class A 欧盟 CE 辐射标准 AS/NZS 3548:1996( 澳大利亚新西兰 );ICES-003 ( 加拿大 ) 免疫性欧盟 CE 免疫标准 LTO 磁带机产品介绍 LTO (Linear Tape Open) 是由 IBM HP 和 Seagate 公司联合开发的一种新型技术, 旨在推出一种磁带格式的开放标准 LTO 开放格式技术意味着不同厂家提供的带机产品和介质能够相互兼容 LTO Ultrium 是一种 1/2" 单轴线绕式加载磁带机, 它具有下述特点 : 293

295 每盒带具有 GB 的大容量 ; 持续传送速率达 15-35MB/ 秒 (56GB-112GB/ 小时 ); 专利陶瓷涂层金属微粒 (Ceramic Coated Metal Particle) 磁带 ; 4KB Memory- 盒带存储器 ; 1,000,000 次磁带通过次数 ; 为服务器进行备份恢复和归档的理想设备 ; 通过了磁带股东委员会 (TPC-the Tape Partners Committee) 标准组会议的认证 LTO Ultrium 磁带机是与 DLT,SDLT 同类的中档市场产品 Ultrium 格式的特点高容量 Ultrium 可使一个压缩盒式磁带具有 GB 的本地容量该盒式磁带小于现有的单轴盒式磁带高数据率 Ultrium 为第一代 8 信道版本提供了 MB/ 秒的数据传送速度为与数据传送速度较慢的系统相匹配, 另备有数据传送速度为 5-10 MB/ 秒的 4 信道版本可供使用广泛的应用范围在第一代 Ultrium 产品中提供 4 种不同的盒式磁带容量 ( 和 100 GB) 以及 4 信道和 8 信道磁头几何分布容量成倍增长的盒式磁带使该项技术可以与不同应用程序的容量性能和成本要求相匹配开放线性磁带盒记忆功能的功能性因提供多余文件记录及用户定义信息得到增强外部阅读程序使不将盒式磁带插入驱动器即直接存取多余文件记录及用户定义信息成为可能开放线性磁带技术 Ultrium 利用了开放线性磁带技术公认的纠错和数据压缩技术适应性只需要对盒式磁带数据交换需要的特性作出规定,Ultrium 格式保留了适应性这种适应性使性能特征排列要素可靠性控制器和界面的实现具有相当大的自由度 -- 同时盒式磁带在不同 Ultrium 磁带驱动器之间都可以互换一致的伺服系统伺服系统格式在全部产品的使用期当中都保持一致这一重要的优越性使生产商能够使投资得到有效的使用 294

296 多源性多种介质和驱动器来源减少了生产瓶颈, 还为原始设备制造商及终端用户的投资提供了保护符合性由独立机构进行的测试促进了对技术规范的符合性这样缩短了资格鉴定的周期简化了原始设备制造商的未来产品规划成熟的 LTO2 产品介绍 STK 在选用第三方产品的时候, 需要进行严格的性能测试, 兼容性, 稳定性测试, 目前 STK 已经按照测试要求进行测试, 目前已经通过测试的成熟的 LTO2 包括 : (1),HP LTO2 SCSI-LVD 驱动器, (2),IBM LTO2 FC 驱动器, 同时, 存储工程师正在严格测试 IBM LTO2 SCSI 驱动器和 SEAGATE LTO2 SCSI 驱动器, 估计在今年三季度初推出该成熟产品. 正如对 LTO1 驱动器的支持一样,StorageTek 将一如既往地支持 LTO 系列的三个生产厂家 (HP,IBM,SEGATE) 的全部 LTO 换代产品. 现将现有比较成熟的 HP-LTO2 和 IBM-LTO2 的相关性能指标对比如下 : 比较项目 HP IBM 容量速率容量 200GB 200GB 传输速率 ( 非压缩 ) 30M/S 35M/S 读写时间磁带装载 / 就绪时间 19s 15s 平均搜索时间 52s 49s 最大倒带时间 104/52s 98/49s 磁带卸载时间 13s 15s 磁带格式磁带格式 Ultrium Generation 2 Ultrium Generation 2 磁头数量 8 8 可靠性 MTBF HR( 满负荷 ) HR( 满负荷 ) 磁头寿命 60000HR 60000HR 不可更正错码率 1x x10-17 接口 STK 已完成测试 SCSI LVD FC/FCAL/FIBRIC STK 正在测试 SCSI HVD SCSI LVD 295

297 供电功率 46 VA 32VA Ultrium LTO2 技术规格 Ultrium 产品系列设计中的可扩展性来自于授权技术的结合与有效利用, 从而产生出了技术可靠的移动通路此种旗舰产品移动通路 (8 信道版本 ) 描述了一代又一代产品的改进过程第 1 代第 2 代 * 第 3 代 * 第 4 代 * 容量 100 GB 200 GB 400 GB 800 GB 传输速度 MB/ 秒 MB/ 秒 MB/ 秒 MB/ 秒数据记录方式 RLL 1,7 PRML PRML PRML 介质 MP MP MP 薄膜 LTO Ultrium Gen2 磁带机技术规格 : 性能持续传送速率 (MB/ 秒 ) 固有 35 ( 可自动调节匹配较慢的通道 ) 压缩 70 格式化容量固有 (GB) 200 压缩 (GB) 400 (200GB 盒带,2:1 压缩比 ) 平均文件访问时间 ( 秒 ) 49 到磁带头加载时间 ( 秒 ) < 15 从磁带头卸载时间 ( 秒 ) < 15 容量固有 (GB) 200 压缩 (GB) 400 (2:1 压缩比 ) 接口 ( 在 STK 磁带库中 ) 猝发传送速率 (MB/ 秒 ) LVD ( 低电压差分 ) Ultra 2 ( 快宽 ) HVD ( 高电压差分 ) Ultra 1 ( 快宽 ) 固有 FC - 选件磁带格式记录格式 384 磁道顺序层绕,8 同时磁道记录密度 93 kbit/ 英寸磁道密度 (tpi)

298 编码方法 RLL (1,7) 数据压缩 LTO-DC 可靠性平均无故障时间 ( 小时 ) 250,000,100% 占空因数磁头寿命 ( 小时 ) 30,000 ( 磁带移动小时数 ) 加载 / 卸载 ( 循环 ) 100,000 不可校正误码率 1x1017 bits 读不可检测误码率 1x1027 bits 读物理指标格式系数 51/4" 全高 ( 高 x 宽 x 深 ) 82.5 x 146 x 203 mm 环境限制运行温度 (oc) 非冷凝湿度 (%) 海拔高度 ( 英尺, 最大 ) 30,000 非运行温度 (oc) 包括介质非冷凝湿度 (%) 海拔高度 ( 英尺, 最大 ) 无规定电源电压 +5,+12 功耗 ( 瓦 ) 运行平均 20, 运行峰值 35, 带盒带备机状态 11 介质格式兼容性 Ultrium 标志介质 1/2" 单轴 Ultrium 盒带 297

299 第十六章专用术语参考表 16.1 SAN 专用术语 ABTS( 中止基本链路服务 ) 接受 ACC( 链路服务接受应答 ): 对扩展链路服务请求 ( 如 FLOGI) 的正常回答, 表示请求已被 Access fairness( 公平接入 ): 一个进程, 用于保障竞争节点能够接入到仲裁环路中 Access method( 接入方法 ): 接入到物理网络以传输数据的方法 ACK( 确认帧 ): 用于端对端的流量控制, 对 Class-1 和 Class-2 连接中一个或多个帧的顺利接收表示确认 Active copper( 活动铜缆 ): 允许设备之间连接距离达到 33 米的铜缆连接 Address identifier( 地址识别符 ): 一个 24 比特数字, 用来指示通信设备的链路层地址每个数据帧帧头中的两个地址标识符分别用于标识源 ID 和目的 ID Alias server( 别名服务器 ): 一个推荐标准,FC-PH-3 的组成部分它使用周知地址 FFFFF8, 并维护一个标识符映射表, 以支持多点广播组管理 AL_PA( 仲裁环路物理地址 ): 一个 8 比特值, 用来标识接入到仲裁环路中的设备 AL_TIME( 仲裁环路超时值 ): 在最坏的网络状况下, 广播一个字所需时间的两倍值其缺省值为 15 毫秒 (ms) ANSI( 美国国家标准学会 ): 美国的标准管理机构 ARB( 仲裁原语 ): 只用于仲裁环路拓扑结构, 作为节点环路端口 (L_Port) 的填充字传输, 表示该节点可以接入到环路中 Arbitrated Loop( 仲裁环路 ): 一个共享的 100 Mbps 光纤通道传输链路, 支持 126 个设备和一个到架构中的接入端口, 端口的仲裁环路物理地址 (AL_PA) 值越小, 其优先级越高 298

300 Arbitration( 仲裁 ): 解决对共享环路拓扑的竞争, 合理分配链路资源的方法 ARP( 地址解析协议 ):TCP/IP 协议组的一个组成部分, 用于将 IP 地址转换为以太网地址 ( 即链路层 MAC 地址 ) ASIC( 特定应用集成电路 ) ATM( 异步传输模式 ): 一种高速包交换技术, 用来通过局域网或广域网传输数据, 其数据包具有固定的长度它可提供网络中任意两点之间的连接, 并且各节点可同时进行数据传输 Bandwidth( 带宽 ): 电缆, 链路或系统传输数据的能力 BB_Credit( 缓冲区到缓冲区信用数 ): 用来决定一次可向接收方发送多少帧数据 Broadcast( 广播 ): 将一个数据包发送给架构中的所有 N_Port 端口 Bypass circuitry( 旁路电路 ): 当有效信号在传输中丢失时, 使用该电路自动绕过信号通路上的一个设备 CAM( 内容寻址内存 ) Camp on 推荐作为架构连接请求队列的优化手段, 以使连接请求的受理顺序更加合理 Cascade( 级联 ): 连接两个或更多的光纤通道集线器或交换机以增加端口数量或扩展网络覆盖范围通常最高级联数为 7 级但 SilkWorm 1000 交换机的级联数可达 32, SilkWorm 2000 交换机更高达 239 CDR( 时钟和数据恢复电路 ) CEConformité Européenne. Channel( 通道 ): 点对点链路, 用于将数据从网络中的一点传送到另一点 CIM( 通用信息模式 ): 一个管理结构, 允许使用一个通用程序管理各种完全不同的资源 Class 1 一种面向连接的服务级别, 需要对帧的发送和接收进行确认 Class 2 一种无连接的服务级别, 需要对 N_Port 端口之间帧的发送和接受进行确认 Class 3 一种无连接的服务级别, 无需对 N_Port 端口之间帧的发送和接受进行确认 299

301 Class 4 一种面向连接的服务级别, 允许使用虚电路的部分带宽 Class 6 面向连接的多点广播服务主要用于中央服务器和客户之间的视频广播知 Class F 一种无连接的服务级别, 对扩展端口 (E_Port) 之间数据的发送成功或失败进行通 CLS( 撤消原语 ): 只用于仲裁环路, 由一个 L_Port 端口发送至另一个 L_Port 端口, 用于关闭现有连接, 撤消对话 Community( 社区 ): 在简单网络管理协议 (SNMP) 中, 代理与管理站之间的关系集合, 主要包括对验证, 访问控制和代理特性的定义 Controller( 控制器 ): 一个计算机模块, 用于解释主机与外设之间的信号, 控制器通常为外设的一部分 COS( 服务级别 ) CRC( 循环冗余码校验 ): 一种编码测试方法, 用于对传输的数据进行错误检测与纠正 Credit( 信用值 ): 表示 F/FL_Port 端口向 N/NL_Port 端口提供的最大缓冲区的数量值, 以防止 N/NL_Port 端口发送过多的数据帧, 使接收缓冲区溢出定 Cut-through( 捷径交换 ): 一种交换技术, 允许在取得帧中的目的地址后立刻作出路由决 Datagram( 数据报 ): 一种 Class 3 光纤通道服务, 允许快速发送数据到与架构相连的多个设备, 无需接收确认 Dedicated simplex( 专用单工 ): 允许一个 N_Port 端口在保持一个 Class 1 连接的同时, 作为发起方初始化与另一个 N_Port 端口之间的对话 Disparity( 专用单工 ): 允许一个 N_Port 端口在保持一个 Class 1 连接的同时, 作为发起方初始化与另一个 N_Port 端口之间的对话 DLS( 动态负载均衡 ): 允许在 Fx 或 E_Port 端口发生变化时重新计算路由 Domain ID( 域标识符 ): 为 SilkWorm 2000 系列交换机分配的一个之间的唯一数字, 用于在架构中表示该交换机 300

302 DWDM( 密集波分多路复用 ): 见波分多路复用, 允许不同波长的波共用光纤 E_D_TOV( 故障检测超时值 ): 某项操作可允许的数据来回的最长时间, 超过此时间仍无回应, 即报错 EE_Credit( 端对端信用值 ): 未得到确认的帧的最大数目, 用于管理两个通信设备之间的帧交换 EIA( 电子工业协会 ) 8b/10b encoding(8b/10b 编码 ): 一种编码方案, 将一个 8 比特字节编码为两个 10 比特字符, 用于平衡高速传输的比特流中 1 和 0 的数量 ELP( 扩展链路进程 ) Emulex 一个主机总线适配器的品牌 EOF( 帧终止符 ): 一组固定比特序列, 标识帧的结束 E_Port ( 扩展端口 ): 用于连接两个交换机 Exchange( 交换 ): 高层光纤通道机制, 用于两个 N_Port 端口之间的单向或双向通信 Fabric( 交换 ): 高层光纤通道机制, 用于两个 N_Port 端口之间的单向或双向通信 FAN( 架构地址通知 ): 在环路重新初始化时, 保存仲裁环路物理地址和架构地址 ( 需要交换机支持 ) F_BSY( 架构端口繁忙帧 ): 架构发送此帧表示由于架构或目的 N_Port 端口繁忙而无法进行数据的发送工作 FCA( 光纤通道协会 ) FC-0 光纤通道网络的最底层, 即物理介质 FC-1 本层包括有 8b/10b 编码方案 FC-2 本层负责组帧和协议, 帧结构, 序列 / 交换管理和固定字符集的使用 FC-3 本层包括用于一个节点的多个 N_Port 端口的通用服务 301

303 FC-4 本层负责处理标准与配置文件, 服务于上层协议 ( 如 SCSI 和 IP) 到光纤通道协议的映射工作 FC-AL( 光纤通道仲裁环路 ) FC-AV Fibre Channel Audio Visual. FC-CT( 光纤通道通用传输 ) FC-FG( 光纤通道一般要求 ) FC-FLA( 光纤通道环路接入 ) FC-GS( 光纤通道通用服务 ) FC-GS-2( 光纤通道第二代通用服务 ) FC_IP( 用于 IP 协议的光纤通道 ) FC-PH( 光纤通道物理协议 ): 用于 FC-0, FC-1 和 FC-2 层的物理和信号协议, 同时还对链路信令, 物理介质类型和传输速度作了规定 FC-PH-2( 第二代物理接口 ) FC-PH-3( 第三代物理接口 ) F_RJT( 架构端口拒绝帧 ): 架构发送的一个命令帧, 用来指示帧发送请求被拒绝拒绝的原因可能为不支持服务级别, 帧头无效或无可用的 N_Port 端口 FC_SB( 光纤通道单字节 ) FC-SW( 光纤通道交换架构 ): 规定了光纤通道交换机互连和初始化的工具和算法, 以建立多交换机光纤通道架构 FC-SW-2( 第二代光纤通道交换架构 ): 规定了互连和初始化光纤通道交换机以组成多交换机光纤通道架构的算法和工具 FC_VI( 光纤通道虚拟接口 ) FCC( 联邦通信委员会 ) 302

304 FCIA( 光纤通道工业协会 ): 其任务是为光纤通道产品培育和拓展市场 FCLC( 光纤通道环路社团 ) FCP( 光纤通道协议 ): 定义了 SCSI 接口到光纤通道的映射 FDDI( 光纤分布式数据接口 ): 美国国家标准学会 (ANSI) 为城域网制定的网络结构标准, FDDI 网络基于光纤而建造, 可提供每秒 100 兆比特的传输能力 FFFFF5Class 6 多点广播服务器的周知光纤通道地址 FFFFF6 时钟同步服务器的周知光纤通道地址 FFFFF7 安全密钥分发服务器的周知光纤通道地址 FFFFF8 别名服务器的周知光纤通道地址 FFFFF9 服务质量 (QoS) 提供商的周知光纤通道地址 FFFFFA 管理服务器的周知光纤通道地址 FFFFFB 时间服务器的周知光纤通道地址 FFFFFC 目录服务器的周知光纤通道地址 FFFFFD 架构控制器的周知光纤通道地址 FFFFFEF_Port 端口的周知光纤通道地址 FFFFFF 周知广播地址 Fill word 周知广播地址 FL_Port( 架构环路端口 ): 用于将环路连接到架构上, 需要启用光纤环路接口卡 LED 它是环路中 NL_Port 端口接入架构的入口 Flash( 闪存 ): 一种可编程 NVRAM 存储器, 可保存其中数据 FLOGI( 架构登录 ): 节点逻辑连接到架构交换机上的过程 F_Port 一种同 N_Port 端口连接的架构端口 Fractional Bandwidth( 部分带宽 ): 使用链路的部分带宽传输数据, 每个 N_Port 端口最多 303

305 可有 254 个 Class 4 连接 Frame( 帧 ): 为网络传输而定义的数据单元, 由帧起始定界符 (SOF), 帧头, 数据部分, 循环冗余校验 (CRC) 以及帧终止符 (EOF) 几部分组成数据部分长度为个字节,CRC 长度为 4 字节 FRU( 可实地替换单元 ): 发生故障时可更换的部件 FSP( 光纤通道服务协议 ): 用于所有服务的通用 FC-4 级协议, 透明于架构类型和网络拓扑结构 FSPF( 光纤最短路径优先协议 ): 一种用于光纤通道交换机的路由协议 Full duplex( 全双工 ): 在一条连接上同时发送和接受数据的能力 Full fabric citizenship( 全架构成员 ): 可登录到名字服务的环路设备 Gateway( 网关 ): 用于连接不兼容网络的设备, 能够提供必要的软硬件转换工作 GBIC( 千兆比特接口转换器 ): 一个可拆卸的收发模块, 提供光纤通道与千兆比特物理层之间的转换 Gbps 每秒千兆比特 GBps 每秒千兆字节 Gigabit1,062,500,000 比特 GLM( 千兆比特链路模块 ): 一个半透明收发器, 具有串行 / 串并转换功能 G_Port( 通用端口 ): 支持 E_Port 端口或 F_Port 端口的功能 GUI( 图形用户界面 ) HBA( 主机总线适配器 ) 服务器或工作站总线与光纤通道网络之间的接口 HiPPI( 高性能并行接口 ): 一个 800Mbit/sec 的接口, 通常用于超级计算机环境 Hot swappable( 热替换 ): 可以在加电状态下进行替换的部件 HSSDC 高速串行数据连接 304

306 HTTP( 超文本传输协议 ): 用于 World Wide Web( 万维网 ) 的标准 TCP/IP 传输协议 Hub( 集线器 ): 光纤通道线路连接器, 用于将环路拓扑收缩为星型拓扑集线器能够自动识别一个活动节点, 并将其加入到环路中, 而停止工作的节点则被移出环路 Hunt Group( 寻找组 ): 以一个别名 ID 注册的多个 N_Por 端口, 以便架构将其路由至空闲端口 Idle( 空闲 ): 当链路中没有数据需要传输时, 连续发送的固定二进制序列, 以维持链路的活动也被用于维持比特, 字节和字的同步 In-band( 带内 ): 在光纤通道中用于管理协议的数据的传输 Initiator( 启动设备 ): 在光纤通道网络中, 同存储设备之间的事务的发起方, 可以是服务器或工作站 Intercabinet( 机柜间布线 ): 铜缆架设的一种规范, 允许机柜间连接距离长达 33 米 Intermix( 混合 ): 允许 Class 1 连接中的闲置带宽用于 Class 2 或 Class 3 连接 Interswitch( 交换机间连接 ): 见 ISL Intracabinet( 机柜内布线 ): 铜缆架设的一种规范, 允许机柜布线长度达到 13 米 IOD( 有序发送 ): 一个设置参数, 保证各帧按顺序发送, 否则便抛弃该帧 IP(Internet 协议 ):TCP/IP 协议组的组成部分, 负责与网络主机地址有关的工作 IPI 智能外设接口 ISL( 交换机间连接 ): 两交换机之间通过 E_Port 端口的连接 Isolated E_Port ( 隔离 E_Port 端口 ): 存在 ISL 连接, 但由于重叠的域 ID 或没有标识参数如 E_D_TOV, 而导致交换机间无数据传输, 此时 E_Port 端口便处于隔离状态 ISP(Internet 服务提供商 ) Jaycor 一个主机总线适配器的品牌 JBOD( 磁盘束 ): 多个磁盘被配置为仲裁环路的一个单元 305

307 Jitter( 抖动 ): 当字节流通过物理介质时, 时间同步的偏移 K28.5 一种特殊的 10 比特字符, 用来指示光纤通道命令帧的开始 LAN( 局域网 ): 传输距离小于 5 公里的网络 Latency( 存储转发时间 ): 数据帧在一个网络设备中停留的时间, 即从帧到达该设备到被转发之间的耗时 LED( 发光二级管 ): 一个位于交换机上的状态指示器, 通常有黄, 绿两种状态 Link( 链路控制设备 ): 一个终端卡, 对不同模式下的光纤通道链路进行物理和逻辑控制 LIFA( 环路初始架构分配帧 ): 包含由架构分配的所有仲裁环路物理地址 (AL_PA) 的位图, 是环路初始化过程中选定临时环路主控制器后发送的第一帧 LIHA( 环路初始化硬分配帧 ): 由一个比特序列表示的硬分配仲裁环路物理地址 (AL_PA), 是环路初始化过程中选定临时环路主控制器后发送的第三帧 LILP( 环路初始化硬分配帧 ): 由一个比特序列表示的硬分配仲裁环路物理地址 (AL_PA), 是环路初始化过程中选定临时环路主控制器后发送的第三帧 Link( 链路 ): 一个双向, 点对点串行数据通道 LIP( 环路初始化进程 ): 获取环路地址, 指示环路故障或重启节点的方法 LIPA( 环路初始化预分配 ): 在上一次环路初始化过程中未登录到架构中的设备在该帧中标记一个比特位 LIRP( 环路初始化位置报告帧 ): 在环路初始化过程中, 所有 L_Port 端口选定其 AL_PA 地址后发送的第一帧该帧被发送后, 在环路中巡视, 以便收集所有 L_Port 端口的相对物理位置信息该帧为可选帧 LISA( 环路初始化软分配帧 ): 在环路初始化过程中发送的第四帧该帧在选定了临时环路主控制器之后发送 LISM( 环路初始化主控制器选择帧 ): 在环路初始化过程中, 当 L_Port 端口选择仲裁环路物理地址 (AL_PA) 时发送的第一帧 306

308 Login server( 登录服务器 ): 处理登录请求的单元 LoomBrocade 公司第二代架构专用集成电路 (ASIC) 的代号第二代架构专用集成电路用于 SilkWorm 2xxx 系列交换机中 Looplet( 小环路 ): 由架构连接的私有仲裁环路 LPB( 环路端口旁路 ): 由一个节点环路端口 (L_Port) 发送的原语序列, 用来旁路另一个它指向的节点环路端口只用于仲裁环路 LPE( 环路端口启用 ): 由一个节点环路端口发送的原语序列, 用来激活被 LPB 原语旁路的另一个节点环路端口, 只用于仲裁环路 L_Port( 节点环路端口 ): 支持仲裁环路协议的端口 LPSM( 环路端口状态机 ): 监视和执行初始化任务并接入到架构的一套逻辑由节点环路端口管理, 以跟踪环路操作中不同阶段的状态 LR( 链路重启 ): 一个原语序列, 在两个 N_Port 端口 ( 点对点拓扑 ) 或一个 N_Port 端口与一个 F_Port 端口 ( 架构拓扑 ) 之间链路的初始化过程中使用期望的答应为一个 LRR 原语序列 ( 见下 ) LRR( 链路重启应答 ): 一个原语序列, 在两个 N_Port 端口 ( 点对点拓扑 ) 或一个 N_Port 端口与一个 F_Port 端口 ( 架构拓扑 ) 之间链路的初始化过程中使用, 作为对 LR 原语序列的回应, 期望一个空闲应答 LWL( 长波光纤 ): 连接器色码为蓝色, 基于 1300 毫米激光, 支持千兆比特 / 秒的链路速度 MAN( 城域网 ) Mbps( 兆比特 / 秒 ) MBps( 兆字节 / 秒 ) Metric( 步长 ): 一个分配给路由器的相对值, 用来帮助计算最短路径 MIA( 介质接口适配器 ): 光纤至铜缆之间的连接转换设备 307

309 MIB( 介质接口适配器 ): 光纤至铜缆之间的连接转换设备 MRK( 标记原语信号 ): 只用于仲裁环路中, 由 L_Port 端口发送, 用于实现收发方同步不同厂家对该信号有不同的定义 MTBF( 故障平均间隔 ) Multicast( 多点广播 ): 一种受限的广播, 将信息发送到网络中的一组 N_Port 端口上 Multimode( 多模光纤 ): 一种光纤规格, 允许设备之间的传输距离达到 500 米 Name Server/Service( 多模光纤 ): 一种光纤规格, 允许设备之间的传输距离达到 500 米 NAS( 网络存储设备 ): 一个连接到控制器的磁盘阵列, 通过该控制器接入到局域网中 NDMP( 网络数据管理协议 ): 用于磁带备份, 无需占用服务器资源 NIC( 网络接口卡 ) NL_Port( 节点环路端口 ): 支持仲裁环路协议的端口 Node( 节点 ): 光纤通道设备, 支持一个或多个端口 Node name( 节点名 ): 一个分配给光纤通道节点的 64 比特标识符 Non-OFC 一种激光收发器, 由于其低强度而无需开放式光纤控制 Nonparticipating Mode( 多加入模式 ): 当接入到环路中的设备超过 127 个, 从而无法获取仲裁环路物理地址时, 便转入此模式 NOS( 无操作原语序列 ): 一个原语序列, 在两个 N_Port 端口 ( 点对点拓扑 ) 或一个 N_Port 端口与一个 F_Port 端口 ( 架构拓扑 ) 之间链路的初始化过程中使用该原语序列表示发送端口检测到链路故障或接收放不在环路中 N_Port ( N_Port 端口 ): 架构或点对点连接中的光纤通道端口 OFC( 开放式架构控制 ): 一种允许或禁止高强度激光收发器的激光信号的方法 OLS( 离线原语序列 ): 一个原语序列, 在两个 N_Port 端口 ( 点对点拓扑 ) 或一个 N_Port 端口与一个 F_Port 端口 ( 架构拓扑 ) 之间链路的初始化过程中使用该原语序列表示发送端口正试图初始化一个 308

310 链路, 已识别 NOS 原语序列或即将离线期望的应答为链路重启原语 (LR) OLTP( 在线事务进程 ) Operation( 操作 ): 一个 FC-2 用语, 指建立区块 OPN( 连接建立原语信号 ): 只用于仲裁环路, 由获得仲裁进程的 L_Port 端口发送, 以建立与环路中其它端口的会话 Ordered set( 有序集 ): 一组低层协议, 对帧传输, 初始化和介质访问进行管理, 并区分光纤通道中的控制信息和数据 Originator ( 发起方 ): 启动对话的 N_Port 端口 Out-of-band( 带外 ): 在光纤通道网络之外 ( 通常是在以太网 ) 进行的管理协议信息的传输 OX_ID ( 发起方会话标识符 ): 数据帧帧头中的一个两字节域, 用来指示帧所属的连接 Parallel( 并行 ): 在多条线路上同时传输数据位 Participating Mode( 加入模式 ):L_Port 端口的正常操作模式, L_Port 端口取得仲裁环路物理地址后即工作在此模式下 Passive copper A low-cost copper fibre channel connection allowing distances up to 13 meter s (14 yards) between devices. PBC ( 端口旁路电路 ): 集线器或磁盘设备中的一个电路, 用于打开或关闭一个环路以加入或移走节点 PLDA( 私有环路直接连接 ): 一个逻辑环路 PLOGI 一个端口对端口登录进程通过该过程, 发起方同目标建立对话 Point to Point( 点对点 ): 两设备之间专用的光纤通道连接 Port( 端口 ): 一个光纤通道入口, 用于将节点连接到网络中 Port Log( 端口日志 ): 交换机所有活动的一份记录 Port Log Dump( 端口日志查看 ): 一个读取端口日志的命令, 以查看交换机中发生的事件 Port name( 端口名 ): 一个分配给光纤通道端口的 64 比特标识符 309

311 POST( 加电自检 ): 交换机检查其部件的例行程序 Primitive sequence( 原语序列 ): 一个顺序比特集, 用于指示或启动网络介质的状态转换, 至少需要连续发送三遍, 接收方才会做出应答 Primitive signals ( 原语信号 ): 一个顺序比特集, 用于指示活动或事件只需发送一次, 对方即会作出应答空闲 (Idle) 和就绪 (R_RDY) 用于所有的三种拓扑结构 (ARB,OPN 和 CLS) 中,MRK 只用于仲裁环路中 Private device( 专用设备 ): 支持环路, 可识别 8 比特地址, 但不能登录到架构中 Private loop( 专用环路 ): 未连接到架构中的仲裁环路 Private loop device( 专用环路设备 ): 未连接到结构中的仲裁环路设备, Private NL_Port( 专用 NL_Port 端口 ): 公共或专用环路中的一个 NL_Port 端口, 只与环路中的其它端口通信, 与架构之间不进行通信 PSU 电源 Public device( 公共设备 ): 既支持环路, 又能够登录到架构中的设备 Public loop( 公共环路 ): 连接到架构上的一个仲裁环路 Public loop device( 公共环路设备 ): 一个支持架构登录和服务的仲裁环路设备 Public NL_Port( 公共 NL_Port 端口 ): 既可与环路中其它端口通信, 又可通过 FL_Port 端口与架构中的 N_Port 端口通信的 NL_Port 端口 Qlogic( 公共 NL_Port 端口 ): 既可与环路中其它端口通信, 又可通过 FL_Port 端口与架构中的 N_Port 端口通信的 NL_Port 端口 QoS( 服务质量 ) Queue( 队列 ): 在将帧发送到环路中之前, 在每个仲裁环路物理地址处收集帧的机制 QuickLoop( 快速环路 ):Brocade 公司的一个软件产品, 允许一个交换机的多端口组成一个逻辑私有环路直接连接 (PLDA) RAID( 廉价磁盘冗余阵列 ): 服务器可将其视为单一卷的一组磁盘, 通过磁盘镜像或奇 310

312 偶校验技术而具备容错性间 R_A_TOV( 资源分配超时值 ): 用于超时操作中, 指一个帧在架构中的最长允许停留时 Receiver( 接收方 ): 进行信号检测及处理工作的设备 Redundancy( 冗余 ): 维持多个同功能的部件以获得高可用性 Remote switch( 远程交换机 ): 一个通过计算机网络技术网关跨越 ATM 网络的可选设备 Repeater( 中继器 ): 通过恢复时钟再生并传输外发信号的设备 Responder( 中继器 ): 通过恢复时钟再生并传输外发信号的设备 Retimer( 重定时器 ): 使用独立时钟产生外发信号的设备 Route( 路由 ): 两交换机之间的一条通路 R_RDY( 接受方就绪 ): 一个原语信号, 表示接收方准备接收数据 RSCN( 状态改变通知 ): 交换机具备的一项功能, 负责在架构本身或其内部状态发生改变时, 通知注册的节点 R_T_TOV( 收发方超时值 ): 接收方采用此值来检测收发方同步是否丢失连接 RX_ID( 应答方连接标识符 ): 帧头中的一个两字节域, 应答方利用其值来指示帧所属的 S_ID( 源 ID): 帧头中一个三字节域, 其值为该帧发送端口的地址标识符目的 SAN( 存储区网络 ): 通过光纤将计算设备和磁盘或磁带阵列相连组成的网络, 用于存储 SCR( 状态改变注册 ): 使用此命令进行注册的设备才可以接收 RSCN 通知 SCSI( 小型计算机系统接口 ): 一个并行总线基础结构极其协议, 用于在米的距离上传输大的数据块 SCSI-2 总线结构的更高版本 311

313 SCSI-3 用于串行线路的 SCSI 总线标准连接 SEQ_ID( 序列标识符 ): 帧头中的一个单字节域连接的应答方利用其值标识帧所属的 Sequence( 帧序列 ): 从一个 N_Port 端口到另一个 N_Port 端口发送的一组相关帧 Sequence initiator( 序列发起方 ): 产生并发送一个新序列的 N_Port 端口 Sequence recipient( 序列接收方 ): 特定序列的目的 N_Port 端口路 SERDES( 串行并行转换电路 ): 将串行比特流转换为并行字符或进行反向转换工作的电 Serial( 串行 ): 在单一线路上顺序进行数据比特传输 Server( 服务器 ): 一个中央计算机 : 处理终端用户请求或运行应用程序 SES(SCSI 接口独立设备服务 ):SCSI 协议组的一个子集, 用来监视独立设备的温度, 供电和风扇状态 SilkWormBrocade 公司系列交换机品牌 Single mode( 单模光纤 ): 一种光纤规格, 允许设备之间的传输距离达到 10 公里 slink service(slink 服务 ): 位于架构与一个 N_Port 端口或两个 N_Port 端口之间, 用于登录, 序列 / 传输管理和维持连接的设备构 SMI( 管理信息结构 ): 一个用于设置或获取简单网络管理协议 (SNMP) 管理变量的符号结 SNMP( 简单网络管理协议 ):TCP/IP 协议组中的一个协议, 用于 TCP/IP 网络的管理, 采用代理和工作站的管理方式 SNS( 简单名字服务器 / 服务 ): 由架构服务器提供的一种服务, 用于存储架构相关对象的名字, 地址和属性信息可在高速缓冲区保留 15 分钟也被称为目录服务 SOF ( 帧起始符 ): 一组固定比特, 标识帧的开始和服务级别 SoIP(IP 网络上的 SCSI 接口 ) 312

314 SONET( 同步光纤网络 ): 一个光纤网络标准, 可提供积木式组件和灵活的净荷映射 Special character( 特殊字符 ): 一个 10 比特字符, 无对应的 8 比特值, 但仍被视为有效值, 用于表示某一传输字是一个有序比特集它是唯一可能包含连续 5 个 1 或 5 个 0 的字符 SRM( 存储资源管理 ): 对磁盘卷和文件资源的管理 Stealth mode( 窃用模式 ): 一些交换机使用 QuickLoop 程序以取得同 Brocade 交换机相似的工作特性, 这种方法称为窃用模式 Storage( 存储设备 ): 用于存储数据的设备, 如磁盘或磁带 Store-and-forward( 存储设备 ): 用于存储数据的设备, 如磁盘或磁带 Striping( 磁盘条纹 ): 一种 RAID 技术, 将文件分割成块写多个磁盘中, 带奇偶校验或不带奇偶校验 Switch( 交换机 ): 一种架构设备, 可为每个端口提供全部带宽并通过链路层地址实现高速数据路由 SWL ( 短波光纤 ): 连接器色码为黑色, 基于 850 毫米激光, 支持千兆比特 / 秒的链路速度 T11(T11 标准委员会 ): 一个标准委员会, 致力于为中央计算机收发数据制订标准 FC-2 Tachyon 由 HP 公司开发的一种芯片, 可用于多种设备, 在一个芯片上集成有 FC-0 到 Target( 存储目标 ): 光纤通道网络中的一个磁盘阵列或磁带机 TCP/IP( 传输控制协议 / 网际协议 ):Internet 的标准协议组 Telnet 基于 TCP/IP 的远程虚拟终端 Tenancy( 链路租用 ): 网络设备对仲裁环路的临时占用, 以便进行数据传输 Time server( 时间服务器 ): 一种光纤通道服务, 可管理所有定时器 Topology( 拓扑 ): 网络结构中设备的物理或逻辑布局 TPC( 第三方拷贝 ): 一种磁带备份协议, 无需占用服务器资源 313

315 Transceiver( 第三方拷贝 ): 一种磁带备份协议, 无需占用服务器资源 Translative mode( 转移模式 ): 允许公用设备同专用设备跨架构进行通信 Transmission character( 传输字符 ): 在光纤通道中连续传输的有效或无效字符 Transmission word( 传输字符 ): 在光纤通道中连续传输的有效或无效字符知 Trap( 陷阱 ): 简单网络管理协议的一种机制, 代理通过该机制向管理站发送重大事件通 TTL( 生存期 ): 一个条目在缓存中的存留时间 Tunneling( 隧道技术 ): 一种在不同网络间传输数据的技术, 适用情况 : 源主机与目的主机所在网络为同一类型, 中间转发网络为其它类型 U_Port ( 隧道技术 ): 一种在不同网络间传输数据的技术, 适用情况 : 源主机与目的主机所在网络为同一类型, 中间转发网络为其它类型 ULP ( 高层协议 ): 用于光纤通道介质与 FC-4 层之间的协议代表性的有 SCSI,IP, HiPPI 和 IPI 协议 Unicast( 高层协议 ): 用于光纤通道介质与 FC-4 层之间的协议代表性的有 SCSI,IP, HiPPI 和 IPI 协议 VAR( 增值转售商 ) VCSEL( 垂直表面激光发射器 ): 一种经改良的, 更加可靠的激光发射器 Virtual circuit( 虚电路 ):N_Port 端口之间的一条单向通路, 允许几个传输共用全部带宽 WAN( 广域网 ) WDM ( 广域网 ) 一的 World-Wide Name 用于架构节点和端口的一个 64 比特注册标识符该标识符是全球唯 Zoning( 分区 ): 架构交换机或集线器的一项功能, 允许按照节点的物理端口, 节点名或节点地址对节点进行分段 314

316 16.2 NAS 技术术语最大存储容量最存储大存储容量是指 NAS 存储设备所能存储数据容量的极限, 通俗的讲, 就是 NAS 设备能够支持的最大硬盘数量乘以单个硬盘容量就是最大存储容量这个数值取决于 NAS 设备的硬件规格不同的硬件级别, 适用的范围不同, 存储容量也就有所差别通常, 一般小型的 NAS 存储设备会支持几百 GB 的存储容量, 适合中小型公司作为存储设备共享数据使用, 而中高档的 NAS 设备应该支持 T 级别的容量 (1T=1000G) 同普通电脑类似,NAS 产品也都具有自己的处理器 (CPU) 系统, 来协调控制整个系统的正常运行其采用的处理器也常常与台式机或服务器的 CPU 大体相同目前主要有以下几类 (1)Intel 系列处理器从奔腾时代开始,Intel( 英特尔 ) 推出了专用于服务器的 CPU Pentium Pro, 即高能奔腾 ; 进入奔腾三时代之后, 英特尔又推出了相应的服务器 ( 工作站 ) 的 CPU Xeon, 即至强 ; 奔腾四相对应的服务器 CPU 也称为 Xeon ( 至强 ) 如联想万全 4200 服务器最大支持 4 颗 Intel Pentium Xeon 700 MHz CPU, 内置 1MB 或 2MB 全速缓存这款服务器是联想的高端企业级服务器产品, 是大型企业重要行业等关键部门处理大数据量业务关键任务时不错的选择规格 : 目前 INTEL 的 CPU 的产品线也是非常的长, 下面是各种流行处理器的技术参数和 315

317 注 : a.atc 是 Advanced Transfer Cache. 以 "E" 命名的处理器带有 ATC b. 以 "B" 命名的处理器的 front-side bus 是 133MHZ Intel 现在生产的 CPU 中,Pentium 4( 奔腾 4) 和 Celeron( 赛扬 ) 是面向 PC 的, Xeon( 至强 ) XeonMP 和 Itanium( 安腾 ) 是面向工作站和服务器的其中 Itanium 是与其他 CPU 完全不同的 64 位 CPU, 设计时并没有考虑用于现有的 Windows 应用其他的处理器虽然在最高工作频率 FSB( 前端总线频率 ) 和缓存容量等方面各有不同, 但内部设计基本相同, 同时可保证软件兼容 Pentium 4(Celeron) 和 Xeon( 至强 ) 的最大差别是 Xeon 能构建多处理器系统, 而 P4 不行 P4 组建的系统中只能用一个 CPU,Xeon 可以用 2 块 CPU 组建双处理器系统, 而 Xeon MP 可以用 4 块以上 CPU 组建系统 MP 也就是 Multi Processing Platform ( 多处理器平台 ) 316

318 多处理器系统可以用于三维图形制作和动画文件编码等单处理器无法实现的高处理速度应用, 还可用于服务器 ( 工作站 ) 中数据库处理等高负荷高速度应用中此外,P4( 奔腾 4) 用 478 针封装,Xeon( 至强 ) 用 604 针封装, 而且支持它们的芯片组也不同, 因而不能互换使用 (4)AMD 系列处理器 AMD 也生产面向工作站和服务器的 Athlon MP 处理器其内部设计与 Athlon XP 基本相同, 但支持双 CPU MP 也就是 Multi Processing Platform ( 多处理器平台 ) 的缩写 317

319 (5)PA-RISC 型处理器 HP( 惠普 ) 公司的 RISC 芯片 PA-RISC 于 1986 年问世第一款芯片的型号为 PA-8000, 主频为 180MHz, 后来陆续推出 PA 8200 PA-8500 和 PA-8600 等型号 HP 公司开发的 64 位微处理器 PA-8700 于 2001 年上半年正式投入服务器和工作站的使用这种新型处理器的设计主频达到 800MHz 以上 PA-8700 使用的工艺是 0.18 微米 SOI 铜 CMOS 工艺, 采用 7 层铜导体互连, 芯片上的高速成缓存达到 2.25MB, 比 PA-8600 增加了 50% HP 公司陆续推出 PA-8800 和 PA-8900 处理器, 其主频分别达到 1GHz 和 1.2GHz RA-RISC 同时也是 IA-64 的基础在未来的 IA-64 芯片中, 会继续保持许多 PA-RISC 芯片的重要特性, 包括 PA-RISC 的虚拟存储架构统一数据格式浮点运算多媒体和图形加速等 (6)PowerPC 处理器二十世纪九十年代,IBM( 国际商用机器公司 ) Apple( 苹果公司 ) 和 Motorola( 摩托罗拉 ) 公司开发 PowerPC 芯片成功, 并制造出基于 PowerPC 的多处理器计算机 PowerPC 架构的特点是可伸缩性好方便灵活第一代 PowerPC 采用 0.6 微米的生产工艺, 晶体管的集成度达到单芯片 300 万个 1998 年, 铜芯片问世, 开创了一个新的历史纪元 2000 年,IBM 开始大批推出采用铜芯片的产品, 如 RS/6000 的 X80 系列产品铜技术取代了已经沿用了 30 年的铝技术, 使硅芯片多 CPU 的生产工艺达到了 0.20 微米的水平, 单芯片集成 2 亿个晶体管, 大大提高了运算性能而 1.8V 的低电压操作 ( 原为 2.5V) 大大降低了芯片的功耗, 容易散热, 从而大大提高了系统的稳定性 (7)MIPS 处理器 MIPS 技术公司是一家设计制造高性能高档次及嵌入式 32 位和 64 位处理器的厂商, 在 RISC 处理器方面占有重要地位 1984 年,MIPS 计算机公司成立 1992 年,SGI 收购了 MIPS 计算机公司 1998 年,MIPS 脱离 SGI, 成为 MIPS 技术公司 MIPS 公司设计 RISC 处理器始于二十世纪八十年代初,1986 年推出 R2000 处理器,1988 年推 R3000 处理器,1991 年推出第一款 64 位商用微处器 R4000 之后又陆续推出 R8000( 于 318

320 1994 年 ) R10000( 于 1996 年 ) 和 R12000( 于 1997 年 ) 等型号随后,MIPS 公司的战略发生变化, 把重点放在嵌入式系统 1999 年,MIPS 公司发布 MIPS32 和 MIPS64 架构标准, 为未来 MIPS 处理器的开发奠定了基础新的架构集成了所有原来 NIPS 指令集, 并且增加了许多更强大的功能 MIPS 公司陆续开发了高性能低功耗的 32 位处理器内核 (core)mips324kc 与高性能 64 位处理器内核 MIPS64 5Kc 2000 年, MIPS 公司发布了针对 MIPS32 4Kc 的版本以及 64 位 MIPS 64 20Kc 处理器内核一般针对中小型公司使用 NAS 产品采用 AMD 的处理器或 Intel PIII/PIV 等处理器而大规模应用的 NAS 产品则使用 Intel Xeon 处理器或者 RISC 型处理器等但是也不能一概而论, 视具体应用和厂商规划而定内存 NAS 从结构上讲就是一台精简型的电脑, 每台 NAS 设备都配备了一定数量的内存, 而且大多用户以后可以扩充在 NAS 设备中, 常见的内存类型由 SDRAM( 同步内存 ) FLASH ( 闪存 ) 等不同的 NAS 产品出厂时配备的内存容量不同, 一般为几十兆到数 GB (1GB=1000MB) 容量不等, 这取决于 NAS 产品的应用范围, 一般来讲, 应用在小规模的局域网当中的 NAS, 如果只是应付几台设备的访问,64M 以下内存容量即可如果是上百个节点以上的访问, 就得需要上 G 容量的内存当然, 这不是绝对的因素,NAS 产品的综合性能发挥还取决于它的处理器能力硬盘速度及其网络实际环境等因素的制约总之, 选购 NAS 产品时, 应该综合考虑各个方面的性能参数接口 NAS 产品的外部接口比较简单, 由于只是通过内置网卡与外界通讯, 所以一般只具有以太网络接口, 通常是 RJ45 规格, 而这种接口网卡一般都是 100M 网卡或 1000M 网卡另外, 也有部分 NAS 产品需要与 SAN( 存储区域网络 ) 产品连接提供更为强大的功能, 所以也可能会有 FC(Fiber Channel 光纤通道 ) 接口预置软件系统预制操作系统是指 NAS 产品出厂时随机带的操作系统或者管理软件目前 NAS 产品一 319

321 般带有以下几种系统软件精简的 WINDOWS2000 系统这类系统只是保留了 WINDOWS2000 SERVER 系统核心网络中最重要的部分, 能够驱动 NAS 产品正常工作存储工程师可以把它理解为 WINDOWS2000 的精简版 FreeBSD 嵌入式系统 FreeBSD 是类 UNIX 系统, 在网络应用方面具备极其优异的性能 Linux 嵌入式系统 Linux 系统类似于 UNIX 操组系统, 但相比之下具有界面友好内核升级迅速等特点常常用来作为电器等产品的嵌入式控制系统操作系统目前 NAS 产品主要支持以下几类操作系统 : 1. Windows 类对于这类操作系统相信用过电脑的人都不会陌生, 这是全球最大的软件开发商 --Microsoft( 微软 ) 公司开发的 Microsoft 公司的 Windows 系统不仅在个人操作系统中占有绝对优势, 它在网络操作系统中也是具有非常强劲的力量这类操作系统配置在整个局域网配置中是最常见的, 但由于它对服务器的硬件要求较高, 且稳定性能不是很高, 所以微软的网络操作系统一般只是用在中低档服务器中, 高端服务器通常采用 UNIX LINUX 或 Solairs 等非 Windows 操作系统在局域网中, 微软的网络操作系统主要有 :Windows NT 4.0 Serve Windows 2000 Server/Advance Server, 以及最新的 Windows 2003 Server/ Advance Server 等, 工作站系统可以采用任一 Windows 或非 Windows 操作系统, 包括个人操作系统, 如 Windows 9x/ME/XP 等 2. NetWare 类 NetWare 操作系统虽然远不如早几年那么风光, 在局域网中早已失去了当年雄霸一方的气势, 但是 NetWare 操作系统仍以对网络硬件的要求较低 ( 工作站只要是 286 机就可以了 ) 而受到一些设备比较落后的中小型企业, 特别是学校的青睐人们一时还忘不了它在无盘工作站组建方面的优势, 还忘不了它那毫无过份需求的大度且因为它兼容 DOS 命令, 其 320

322 应用环境与 DOS 相似, 经过长时间的发展, 具有相当丰富的应用软件支持, 技术完善可靠目前常用的版本有和 4.10 V4.11,V5.0 等中英文版本,NetWare 服务器对无盘站和游戏的支持较好, 常用于教学网和游戏厅目前这种操作系统有市场占有率呈下降趋势, 这部分的市场主要被 Windows NT/2000 和 Linux 系统瓜分了 3. Unix 系统目前常用的 UNIX 系统版本主要有 :Unix SUR4.0 HP-UX 11.0,SUN 的 Solaris8.0 等支持网络文件系统服务, 提供数据等应用, 功能强大, 由 AT&T 和 SCO 公司推出这种网络操作系统稳定和安全性能非常好, 但由于它多数是以命令方式来进行操作的, 不容易掌握, 特别是初级用户正因如此, 小型局域网基本不使用 Unix 作为网络操作系统,UNIX 一般用于大型的网站或大型的企事业局域网中 UNIX 网络操作系统历史悠久, 其良好的网络管理功能已为广大网络用户所接受, 拥有丰富的应用软件的支持目前 UNIX 网络操作系统的版本有 :AT&T 和 SCO 的 UNIXSVR3.2 SVR4.0 和 SVR4.2 等 UNIX 本是针对小型机主机环境开发的操作系统, 是一种集中式分时多用户体系结构因其体系结构不够合理,UNIX 的市场占有率呈下降趋势 4. Linux 这是一种新型的网络操作系统, 它的最大的特点就是源代码开放, 可以免费得到许多应用程序目前也有中文版本的 Linux, 如 REDHAT( 红帽子 ), 红旗 Linux 等在国内得到了用户充分的肯定, 主要体现在它的安全性和稳定性方面, 它与 Unix 有许多类似之处网络管理网络管理, 是指网络管理员通过网络管理程序对网络上的资源进行集中化管理的操作, 包括配置管理性能和记账管理问题管理操作管理和变化管理等一台设备所支持的管理程度反映了该设备的可管理性及可操作性种 : 一般的网络满足 SNMP MIB I / MIB II 统计管理功能常见的网络管理方式有以下几 (1) SNMP 管理技术 (2) RMON 管理技术 (3) 基于 WEB 的网络管理 SNMP 是英文 Simple Network Management Protocol 的缩写, 中文意思是简单网络管理协议 SNMP 首先是由 Internet 工程任务组织 (Internet Engineering Task Force)(IETF) 的研究小组为了解决 Internet 上的路由器管理问题而提出的 321

323 SNMP 是目前最常用的环境管理协议 SNMP 被设计成与协议无关, 所以它可以在 IP,IPX, AppleTalk,OSI 以及其他用到的传输协议上被使用 SNMP 是一系列协议组和规范 ( 见下表 ), 它们提供了一种从网络上的设备中收集网络管理信息的方法 SNMP 也为设备向网络管理工作站报告问题和错误提供了一种方法目前, 几乎所有的网络设备生产厂家都实现了对 SNMP 的支持领导潮流的 SNMP 是一个从网络上的设备收集管理信息的公用通信协议设备的管理者收集这些信息并记录在管理信息库 (MIB) 中这些信息报告设备的特性数据吞吐量通信超载和错误等 MIB 有公共的格式, 所以来自多个厂商的 SNMP 管理工具可以收集 MIB 信息, 在管理控制台上呈现给系统管理员通过将 SNMP 嵌入数据通信设备, 如交换机或集线器中, 就可以从一个中心站管理这些设备, 并以图形方式查看信息目前可获取的很多管理应用程序通常可在大多数当前使用的操作系统下运行, 如 Windows3.11 Windows95 Windows NT 和不同版本 UNIX 的等一个被管理的设备有一个管理代理, 它负责向管理站请求信息和动作, 代理还可以借助于陷阱为管理站提供站动提供的信息, 因此, 一些关键的网络设备 ( 如集线器路由器交换机等 ) 提供这一管理代理, 又称 SNMP 代理, 以便通过 SNMP 管理站进行管理网络协议网络协议即网络中 ( 包括互联网 ) 传递管理信息的一些规范如同人与人之间相互交流是需要遵循一定的规矩一样, 计算机之间的相互通信需要共同遵守一定的规则, 这些规则就称为网络协议一台计算机只有在遵守网络协议的前提下, 才能在网络上与其他计算机进行正常的通信网络协议通常被分为几个层次, 每层完成自己单独的功能通信双方只有在共同的层次间才能相互联系常见的协议有 :TCP/IP 协议 IPX/SPX 协议 NetBEUI 协议等在局域网中用得的比较多的是 IPX/SPX. 用户如果访问 Internet, 则必须在网络协议中添加 TCP/IP 协议 TCP/IP 是 transmission Control Protocol/Internet Protocol 的简写, 中文译名为传输控制协议 / 互联网络协议 ) 协议, TCP/IP( 传输控制协议 / 网间协议 ) 是一种网络通信协议, 它规范了网络上的所有通信设备, 尤其是一个主机与另一个主机之间的数据往来格式以及传送方式 TCP/IP 是 INTERNET 的基础协议, 也是一种电脑数据打包和寻址的标准方法在数据传送中, 可以形象地理解为有两个信封,TCP 和 IP 就像是信封, 要传递的信息被划分成若干段, 每一段塞入一个 TCP 信封, 并在该信封面上记录有分段号的信息, 再将 TCP 信封塞入 IP 大信封, 发送上网在接受端, 一个 TCP 软件包收集信封, 抽出数据, 按发送前的顺序还原, 并加以校验, 若发现差错,TCP 将会要求重发因此,TCP/IP 在 INTERNET 中几乎可以无差错地传送数据对普通用户来说, 并不需要了解网络协议的整个结构, 仅需了解 IP 的地址格式, 即可与世界各地进行网络通信 IPX/SPX 是基于施乐的 XEROX S Network System(XNS) 协议, 而 SPX 是基于施乐的 XEROX S SPP(Sequenced Packet Protocol: 顺序包协议 ) 协议, 它们都是由 novell 公司开发出来应用于局域网的一种高速协议它和 TCP/IP 的一个显著不同就是它不使用 ip 地址, 而是使用网卡的物理地址即 (MAC) 地址在实际使用中, 它基本不需要什么设置, 装上就可以使用了由于其在网络普及初期发挥了巨大的作用, 所以得到了很多厂商的支持, 包括 microsoft 等, 到现在很多软件和硬件也均支持这种协议 322

NetBEUI 即 NetBios Enhanced User Interface, 或 NetBios 增强用户接口它是 NetBIOS 协议的增强版本, 曾被许多操作系统采用, 例如 Windows for Workgroup Win 9x 系列 Windows NT 等 NETBEUI 协议在许多情形下很有用, 是 WINDOWS98 之前的操作系统的缺省协议总之 NetBEUI

324 NetBEUI 即 NetBios Enhanced User Interface, 或 NetBios 增强用户接口它是 NetBIOS 协议的增强版本, 曾被许多操作系统采用, 例如 Windows for Workgroup Win 9x 系列 Windows NT 等 NETBEUI 协议在许多情形下很有用, 是 WINDOWS98 之前的操作系统的缺省协议总之 NetBEUI 协议是一种短小精悍通信效率高的广播型协议, 安装后不需要进行设置, 特别适合于在网络邻居传送数据所以可以除了 TCP/IP 协议之外, 局域网的计算机最好也安上 NetBEUI 协议另外还有一点要注意, 如果一台只装了 TCP/IP 协议的 WINDOWS98 机器要想加入到 WINNT 域, 也必须安装 NetBEUI 协议网络文件协议网络文件系统是基于网络的分布式文件系统, 其文件系统树的各节点可以存在于不同的联网计算机甚至不同的系统平台上, 可以用来提供跨平台的信息存储与共享当今最主要的两大网络文件系统是 Sun 提出的 NFS(Network File System) 以及由微软 EMC 和 NetApp 提出的 CIFS(Common Internet File System), 前者主要用于各种 Unix 平台, 后者则主要用于 Windows 平台, 存储工程师熟悉的网上邻居的文件共享方式就是基于 CIFS 系统的其他著名的网络文件系统还有 Novell 公司的 NCP( 网络控制协议 ) Apple 公司的 AFP 以及卡内基 - 梅隆大学的 Coda 等,NAS 的主要功能之一便是通过各种网络文件系统提供存储服务网络备份软件目前在数据存储领域可以完成网络数据备份管理的软件产品主要有 Legato 公司的 NetWorker IBM 公司的 Tivoli Veritas 公司的 NetBackup 等另外有些操作系统, 诸如 Unix 的 tar/cpio Windows2000/NT 的 Windows Backup Netware 的 Sbackup 也可以作为 NAS 的备份软件 NetBackup NetBackup 是 Veritas 公司推出的适用于中型和大型的存储系统的备份软件, 可以广泛的支持各种开放平台另外该公司还推出了适合低端的备份软件 Backup Exec NetWorker NetWorker 是 Legato 公司推出的备份软件, 它适用于大型的复杂网络环境, 具有各种先进的备份技术机制, 广泛的支持各种开放系统平台值得一提的是, NetWorker 中的 Cellestra 技术第一个在产品上实现了 Serverless Backup( 无伺服器备份 ) 的思想 323

325 IBM Tivoli IBM Tivoli 是 IBM 公司推出的备份软件, 与 Veritas 的 NetBackup 和 Legato 的 NetWorker 相比,Tivoli Storage Manager 更多的适用于 IBM 主机为主的系统平台, 其强大的网络备份功能可以胜任大规模的海量存储系统的备份需要此外,CA 公司原来的备份软件 ARCServe, 在低端市场具有相当广泛的影响力其新一代备份产品 --BrightStor, 定位直指中高端市场, 也具有不错的性能选购备份软件时, 应该根据不同的用户需要选择合适的产品, 理想的网络备份软件系统应该具备以下功能 : 集中式管理网络存储备份管理系统对整个网络的数据进行管理利用集中式管理工具的帮助, 系统管理员可对全网的备份策略进行统一管理, 备份服务器可以监控所有机器的备份作业, 也可以修改备份策略, 并可即时浏览所有目录所有数据可以备份到同备份服务器或应用服务器相连的任意一台磁带库内全自动的备份备份软件系统应该能够根据用户的实际需求, 定义需要备份的数据, 然后以图形界面方式根据需要设置备份时间表, 备份系统将自动启动备份作业, 无需人工干预这个自动备份作业是可自定的, 包括一次备份作业每周的某几日每月的第几天等项目设定好计划后, 备份作业就会按计划自动进行数据库备份和恢复在许多人的观念里, 数据库和文件还是一个概念当然, 如果你的数据库系统是基于文件系统的, 当然可以用备份文件的方法备份数据库但发展至今, 数据库系统已经相当复杂和庞大, 再用文件的备份方式来备份数据库已不适用是否能够将需要的数据从庞大的数据库文件中抽取出来进行备份, 是网络备份系统是否先进的标志之一在线式的索引备份系统应为每天的备份在服务器中建立在线式的索引, 当用户需要恢复时, 只需点取在线式索引中需要恢复的文件或数据, 该系统就会自动进行文件的恢复归档管理用户可以按项目时间定期对所有数据进行有效的归档处理提供统一的 Open Tape Format 数据存储格式从而保证所有的应用数据由一个统一的数据格式作为永久的保存, 保证数据的永久可利用性有效的媒体管理 324

326 备份系统对每一个用于作备份的磁带自动加入一个电子标签, 同时在软件中提供了识别标签的功能, 如果磁带外面的标签脱落, 只需执行这一功能, 就会迅速知道该磁带的内容满足系统不断增加的需求备份软件必须能支持多平台系统, 当网络上连接上其它的应用服务器时, 对于网络存储管理系统来说, 只需在其上安装支持这种服务器的客户端软件即可将数据备份到磁带库或光盘库中网站浏览器支持网站浏览器支持是指能否够通过 WEB( 就是 WWW, 俗称互联网 ) 手段对 NAS 产品进行管理, 以及管理时使用的浏览器类型绝大部分的 NAS 产品都支持 WEB 管理, 这样的好处是管理方便, 用户在任何地方只要能够上网就可以轻松的管理 NAS 设备目前 NAS 产品支持的常用浏览器有微软的 IE(Internet Explorer) 浏览器以及网景公司的 Netscape 浏览器网络服务网络服务是指 NAS 产品在运行时系统能够提供何种服务典型的网络服务有 DHCP DNS FTP Telnet WINS SMTP 等 DHCP DHCP 的全名是 Dynamic Host Configuration Protocol, 即动态主机配置协议在使用 DHCP 的网络里, 用户的计算机可以从 DHCP 服务器那里获得上网的参数, 几乎不需要做任何手工的配置就可以上网一般情况下,DHCP 服务器会尽量保持每台计算机使用同一个 IP 地址上网如果计算机长时间没有上网或配置为使用静态地址上网,DHCP 服务器就会把这个地址分配给其他计算机 WINS WINS 是 Windows Internet Name Service 的简称, 中文为 Windows 网际命名服务, WINS 服务器主要用于 NetBIOS 名字 ( 计算机名称 ) 服务, 它处理的是 NetBIOS 计算机名 (Computer Name), 所以也被称为 NetBIOS 名字服务器 (NBNS,NetBIOS Name Server) WINS 服务器可以登记 WINS-enabled 工作站 ( 下面简称为 WINS 工作站 ) 的计算机名 IP 地址 DNS 域名等数据, 当工作站查询名字时, 它又可以将这些数据提供给工作站 DNS DNS,Domain Name System 或者 Domain Name Service( 域名系统或者余名服务 ) 域名系统为 Internet 上的主机分配域名地址和 IP 地址用户使用域名地址, 该系统就会自动把域名地址转为 IP 地址域名服务是运行域名系统的 Internet 工具执行域名服务的服务器称之为 DNS 服务器, 通过 DNS 服务器来应答域名服务的查询 FTP 文件传输协议 FTP(File Transfer Protocol) 是 Internet 传统的服务之一 FTP 使用户 325

327 能在两个联网的计算机之间传输文件, 它是 Internet 传递文件最主要的方法使用匿名 (Anonymous)FTP, 用户可以免费获取 Internet 丰富的资源除此之外,FTP 还提供登录目录查询文件操作及其他会话控制功能 SMTP SMTP(Simple Mail Transfer Protocol) 即简单邮件传输协议, 它是一组用于由源地址到目的地址传送邮件的规则, 由它来控制信件的中转方式 SMTP 协议属于 TCP/IP 协议族, 它帮助每台计算机在发送或中转信件时找到下一个目的地通过 SMTP 协议所指定的服务器, 存储工程师就可以把寄到收信人的服务器上了, 整个过程只要几分钟 SMTP 服务器则是遵循 SMTP 协议的发送邮件服务器, 用来发送或中转你发出的电子邮件 Telnet 有的时候存储工程师需要运行一些很大的程序, 而自己的 PC 又达不到运行这个程序所必须的配置, 在这种情况下, 存储工程师可以通过网络连接上一台功能强大的计算机, 并且把自己的 PC 模拟成那台计算机的终端, 进而达到在该计算机上运行程序的目的这种利用网络远程登录到其他计算机上, 并且以虚拟终端方式遥控程序运行的做法就是 TELNET 随着计算机硬件的发展, 目前 TELNET 在一般网络用户中已经不是很普遍了, 但是对于网络管理员来说, 它仍然是个得力助手网络安全网络安全是指网络系统的硬件软件及其系统中的数据受到保护, 不受偶然的或者恶意的原因而遭到破坏更改泄露, 系统连续可靠正常地运行, 网络服务不中断网络安全实际上包括两部分 : 网络的安全和主机系统的安全网络安全主要通过设置防火墙来实现, 也可以考虑在路由器上设置一些数据包过滤的方法防止来自 Internet 上的黑客的攻击至于系统的安全则需根据不同的操作系统来修改相关的系统文件, 合理设置用户权限和文件属性 NAS 产品的网络安全应具有以下四个方面的特征 : 保密性 : 信息不泄露给非授权用户实体或过程, 或供其利用的特性完整性 : 数据未经授权不能进行改变的特性即信息在存储或传输过程中保持不被修改不被破坏和丢失的特性可用性 : 可被授权实体访问并按需求使用的特性即当需要时能否存取所需的信息例如网络环境下拒绝服务破坏网络和有关系统的正常运行等都属于对可用性的攻击 ; 可控性 : 对信息的传播及内容具有控制能力认证认证的官方含义是 : 由可以充分信任的第三方证实某一经鉴定的产品或服务符合特定标准或规范性文件的活动 NAS 产品的认证通常是指是否通过国际上通用的安全标准 326

328 常见的认证有以下几个 : 1. FCC 认证 FCC ( Federal Communications Commission, 美国联邦通信委员会 ) 通过控制无线电广播电视电信卫星和电缆来协调国内和国际的通信 2.CSA 认证 CSA(Canadian Standards Association) 提供对机械建材电器电脑设备办公设备环保医疗防火安全运动及娱乐等方面的所有类型的产品提供安全认证 3. CE 认证 CE(CONFORMITE EUROPEENNE) 提供产品是否符合有关欧洲指令规定的主要要求 (Essential Requirements) 4.TUV 认证 TUV 提供对无线电及通讯类产品认证的咨询服务 5.UL 认证 UL(Underwriter Laboratories Inc.) 采用科学的测试方法来研究确定各种材料装置产品设备建筑等对生命财产有无危害和危害的程度 ; 确定编写发行相应的标准和有助于减少及防止造成生命财产受到损失的资料, 同时开展实情调研业务 NAS NAS 是英文 Network Attached Storage 的缩写, 中文意思是网络附加存储按字面简单说就是连接在网络上, 具备资料存储功能的装置, 因此也称为网络存储器或者网络磁盘阵列从结构上讲,NAS 是功能单一的精简型电脑, 因此在架构上不像个人电脑那么复杂, 在外观上就像家电产品, 只需电源与简单的控制钮, 结构图如下 : 327

NAS 是一种专业的网络文件存储及文件备份设备, 它是基于 LAN( 局域网 ) 的, 按照 TCP/IP 协议进行通信, 以文件的 I/O( 输入 / 输出 ) 方式进行数据传输在 LAN 环境下,NAS 已经完全可以实现异构平台之间的数据级共享, 比如 NT UNIX 等平台的共享一个 NAS 系统包括处理器, 文件服务管理模块和多个硬盘驱动器 ( 用于数据的存储 ) NAS

329 NAS 是一种专业的网络文件存储及文件备份设备, 它是基于 LAN( 局域网 ) 的, 按照 TCP/IP 协议进行通信, 以文件的 I/O( 输入 / 输出 ) 方式进行数据传输在 LAN 环境下,NAS 已经完全可以实现异构平台之间的数据级共享, 比如 NT UNIX 等平台的共享一个 NAS 系统包括处理器, 文件服务管理模块和多个硬盘驱动器 ( 用于数据的存储 ) NAS 可以应用在任何的网络环境当中主服务器和客户端可以非常方便地在 NAS 上存取任意格式的文件, 包括 SMB 格式 (Windows)NFS 格式 (Unix, Linux) 和 CIFS(Common Internet File System) 格式等等典型的 NAS 的网络结构如下图所示 : DAS DAS 即直连方式存储, 英文全称是 Direct Attached Storage 中文翻译成直接附加存储顾名思义, 在这种方式中, 存储设备是通过电缆 ( 通常是 SCSI 接口电缆 ) 直接到服务器的 I/O( 输入 / 输入 ) 请求直接发送到存储设备 DAS, 也可称为 SAS(Server-Attached Storage, 服务器附加存储 ) 它依赖于服务器, 其本身是硬件的堆叠, 不带有任何存储操作系统 DAS 的适用环境为 : 1) 服务器在地理分布上很分散, 通过 SAN( 存储区域网络 ) 或 NAS( 网络直接存储 ) 在它们之间进行互连非常困难时 ( 商店或银行的分支便是一个典型的例子 ); 328

2) 存储系统必须被直接连接到应用服务器 ( 如 Microsoft Cluster Server 或某些数据库使用的原始分区 ) 上时 ; 3) 包括许多数据库应用和应用服务器在内的应用, 它们需要直接连接到存储器上, 群件应用和一些邮件服务也包括在内典型 DAS 结构如图所示 : 对于多个服务器或多台 PC 的环境,

330 2) 存储系统必须被直接连接到应用服务器 ( 如 Microsoft Cluster Server 或某些数据库使用的原始分区 ) 上时 ; 3) 包括许多数据库应用和应用服务器在内的应用, 它们需要直接连接到存储器上, 群件应用和一些邮件服务也包括在内典型 DAS 结构如图所示 : 对于多个服务器或多台 PC 的环境, 使用 DAS 方式设备的初始费用可能比较低, 可是这种连接方式下, 每台 PC 或服务器单独拥有自己的存储磁盘, 容量的再分配困难 ; 对于整个环境下的存储系统管理, 工作烦琐而重复, 没有集中管理解决方案所以整体的拥有成本 (TCO) 较高目前 DAS 基本被 NAS 所代替下面是 DAS 与 NAS 的比较 329

331 330

展开

水晶分析师

水晶分析师大数据时代的挑战产品定位体系架构功能特点大数据处理平台行业大数据应用 IT 基础设施数据源 Hadoop Yarn 终端统一管理和监控中心(Deploy,Configure,monitor,Manage) Master Servers TRS CRYSTAL MPP Flat Files Applications&DBs ETL&DI Products 技术指标 1 TRS