数 据 存 储 数 据 存 储 的 重 要 性 Internet 正 在 使 存 储 技 术 发 生 革 命 性 的 变 化 这 种 变 化 主 要 表 现 在 三 个 方 面 : 首 先 是 存 储 容 量 的 急 膨 胀 其 次 是 数 据 就 绪 时 间 的 延 展 今 天,Internet 使 网 络 数 据 必 须 保 证 每 天 24 小 时 每 周 7 天 每 年 365 天 处 于 就 绪 状 态 最 后, 数 据 存 储 的 结 构 不 同 了 在 Internet 和 全 球 化 电 子 商 务 的 时 代, 数 据 应 该 是 面 向 全 世 界 的, 数 据 从 存 取 只 应 该 受 到 安 全 机 制 的 管 理, 而 不 应 受 到 地 域 空 间 的 约 束 对 一 个 企 业 来 说, 网 络 数 据 的 安 全 性 是 极 为 重 要 的, 一 旦 重 要 的 数 据 被 破 坏 或 丢 失, 就 会 对 企 业 日 常 生 产 造 成 重 大 的 影 响, 甚 至 是 难 以 弥 补 的 损 失 根 据 3M 公 司 的 最 新 调 查, 对 于 市 场 营 销 部 门 来 说, 恢 复 数 据 至 少 需 要 19 天, 耗 资 17,000 美 元 ; 对 于 财 务 部 来 说, 这 一 过 程 至 少 需 要 21 天, 耗 资 19,000 美 元 ; 而 对 于 工 程 部 门 来 说, 这 一 过 程 将 延 至 42 天, 耗 资 达 98,000 美 元 而 且 在 恢 复 过 程 中, 整 个 部 门 实 际 上 是 处 在 瘫 痪 状 态 在 今 天, 长 达 42 天 的 瘫 痪 足 以 导 致 任 何 一 家 公 司 破 产! 而 唯 一 可 以 将 损 失 降 至 最 小 的 行 之 有 效 的 办 法 莫 过 于 选 择 一 个 好 的 数 据 的 存 储 成 为 数 据 驱 动 型 的 企 业 快 速 变 化 的 业 务 条 件 和 IT 功 能 正 在 推 动 企 业 和 政 府 成 为 数 据 驱 动 型 试 题, 以 便 保 持 效 力 通 过 采 用 预 测 分 析 作 为 一 项 核 心 能 力, 企 业 可 以 揭 示 隐 藏 在 新 的 非 结 构 化 数 据 和 机 器 生 成 的 数 据 中 的 深 入 信 息, 同 时 改 进 和 加 速 决 策 制 定 Apache Hadoop 已 很 快 成 为 用 于 大 数 据 工 作 的 首 选 平 台, 但 是 仍 然 很 难 得 到 全 面 采 用 许 多 早 期 采 用 者 发 现, 由 于 技 能 短 缺 和 沉 重 的 软 件 开 发 负 担,Hadoop 的 实 施 成 本 非 常 高 昂 通 过 用 结 构 化 查 询 语 言 (SQL) 的 强 大 功 能 来 增 强 Hadoop, 从 而 解 决 其 复 杂 性 和 实 施 成 本, 加 快 部 署 数 据 发 掘 模 型 开 发 和 应 用 程 序 开 发 速 度, 同 时 提 高 总 体 信 息 可 用 性 为 什 么 选 择 Hadoop 和 SQL 希 望 使 用 Hadoop 快 速 取 得 业 务 成 果 的 组 织 往 往 受 到 其 复 杂 性 的 阻 碍 虽 然 Hadoop 对 于 非 结 构 化 数 据 分 析 来 说 功 能 强 大, 但 是 对 于 传 统 结 构 化 数 据 分 析 来 说 仍 然 非 常 复 杂 通 过 将 快 速 成 熟 的 SQL 查 询 处 理 引 擎 与 Hadoop 集 成, 用 户 可 以 通 过 为 分 析 处 理 中 的 每 个 步 骤 选 择 适 当 的 工 具 来 实 现 更 强 的 项 目 敏 捷 性 并 简 化 开 发 SQL 处 理 补 充 了 MapReducehe 其 他 Hadoop 开 发 方 法, 从 而 简 化 了 同 时 分 析 非 结 构 化 数 据 和 结 构 化 数 据 的 任
务 存 储 的 选 择 对 大 数 据 成 功 的 重 要 性 大 数 据 正 在 成 为 许 多 企 业 重 要 的 工 具, 而 且 随 着 数 据 本 身 的 快 速 增 长, 用 户 部 署 的 存 储 和 数 据 管 理 解 决 方 案 变 得 越 来 越 重 要 随 着 用 户 面 临 各 种 挑 战, 比 如 实 施 分 析 工 具 盒 掌 握 大 型 数 据 文 件, 它 们 也 需 要 在 各 种 不 同 的 存 储 方 案 中 找 到 最 好 的 工 具 BDA 存 储 方 案 BDA 的 存 储 方 案 从 技 术 角 度, 可 分 为 DatawareHouse 版 本 BDA Storage DW,Hadoop 版 本 BDA Storage HD; 从 存 储 的 数 据 类 型 角 度, 可 分 为 主 数 据 存 储 (Master Data Storage), 元 数 据 存 储 (Metadata Storage) 从 现 有 的 系 统 中 获 取 最 新 信 息, 并 提 供 了 先 进 的 技 术 和 流 程, 用 于 自 动 准 确 及 时 地 分 发 和 分 析 整 个 企 业 中 的 数 据, 并 对 数 据 进 行 验 证 BDA DatawareHouse 产 品 示 意 图 : 主 要 特 性 : 无 共 享 /MPP 核 心 架 构 Storage DW 将 数 据 平 均 分 布 到 系 统 的 所 有 节 点 服 务 器 上, 所 以 节 点 存 储 每 张 表 或 表 分 区 的 部 分 行, 所 有 数 据 加 载 和 查 询 都 是 自 动 在 各 个 节 点 服 务 器 上 并 行 运 行, 并 且 该 架 构 支 持 扩 展 到 上 万 个 节 点
混 合 的 存 储 和 执 行 ( 按 列 或 按 行 ) Storage DW 支 持 混 合 按 列 或 按 行 存 储 数 据, 每 张 表 或 表 分 区 可 以 由 管 理 员 根 据 应 用 需 要, 分 别 指 定 存 储 和 压 缩 方 式 多 层 次 的 容 错 能 力 Storage DW 包 含 多 层 次 容 错 和 冗 余 能 力, 这 是 云 计 算 架 构 软 件 的 一 个 重 要 特 征 该 功 能 保 证 整 个 数 据 仓 库 系 统 在 遇 到 硬 件 软 件 的 故 障 的 情 况 下, 仍 然 自 动 继 续 运 行 在 线 系 统 扩 容 ( 永 不 停 机 ) 在 系 统 中 增 加 节 点 服 务 器 即 可 增 加 存 储 容 量, 处 理 性 能 和 加 载 性 能 当 系 统 扩 展 时, 数 据 仓 库 保 持 在 线, 并 且 完 全 可 用, 扩 展 进 程 在 后 台 运 行 增 加 节 点 服 务 器, 性 能 和 容 量 线 性 增 加 负 载 管 理 (Workload Management) 具 有 系 统 资 源 管 控 能 力, 并 且 可 控 制 给 各 个 查 询 分 配 各 自 系 统 资 源 允 许 管 理 员 指 派 资 源 队 列, 从 而 管 理 数 据 仓 库 的 队 列 进 入 执 行 情 况 在 运 行 的 查 询 的 优 先 级 可 以 随 时 调 整 PB 级 的 装 载 能 力 基 于 MPP Scatter/Gather 流 技 术 的 高 性 能 并 行 加 载 功 能 加 载 速 度 随 着 节 点 线 性 增 加, 实 际 超 过 4TB/ 小 时
灵 活 的 外 部 数 据 访 问 数 据 仓 库 软 件 可 在 任 意 外 部 数 据 源 上 并 行 运 行 常 规 SQL, 不 论 外 部 数 据 源 的 位 置, 格 式 或 存 储 介 质 数 据 库 内 压 缩 利 用 业 界 领 先 的 压 缩 技 术, 进 一 步 提 高 性 能, 并 极 大 地 节 省 了 数 据 存 储 空 间 用 户 可 获 得 3-10 倍 的 空 间 节 省, 并 且 同 时 获 得 相 应 有 效 I/O 性 能 提 升 多 层 次 表 分 区 能 力 允 许 灵 活 地 按 照 时 间 范 围 值 域 划 分 表 分 区 表 分 区 由 DDL 设 定, 分 区 层 级 不 限 数 据 仓 库 软 件 的 查 询 优 化 器 自 动 从 查 询 执 行 计 划 中 略 去 不 涉 及 的 表 分 区 索 引 功 能 Storage DW 支 持 各 种 数 据 库 索 引 技 术, 包 括 B-Tree,Bitmap 等 等 按 列 存 储 按 行 存 储 数 据 库 表 都 支 持 索 引 完 全 遵 从 SQL 最 新 标 准 遵 从 SQL-92, SQL-99, 至 SQL 2003 标 准, 并 包 括 SQL 2003 OLAP 扩 展 项 所 有 SQL 查 询 都 是 在 系 统 上 并 行 执 行 原 生 MapReduce 功 能 MapReduce 由 Google 发 明, 已 被 证 实 为 一 个 高 扩 展 性 的 文 本 非 结 构 化 数 据 分 析 的 技 术 Storage DW 的 并 行 数 据 库 软 件 核 心 可 原 生 运 行 MapReduce 程 序 支 持 SQL 2003 OLAP 扩 展 标 准 对 SQL 语 言 包 括 其 OLAP 扩 展 标 准, 都 是 在 Storage DW 数 据 仓 库 软 件 实 现 并 行 执 行 全 面 支 持 SQL 2003 OLAP 标 准, 包 括 Window 函 数,Rollup,Cube 等 等 客 户 端 访 问 及 第 三 方 工 具 支 持 完 全 支 持 数 据 库 技 术 接 口 标 准, 例 如 : SQL, ODBC, JDBC, OLEDB 等 同 时, 广 泛 地 支 持 各 个 BI 和 ETL 软 件 工 具 综 上 所 述,Storage DW 数 据 仓 库 软 件 技 术 构 成 如 下 图 :
BDA Storage HD 高 性 能 的 True SQL 支 持 在 Hadoop HDFS 分 布 式 文 件 系 统 上 提 供 ANSI SQL 的 访 问 支 持, 为 Hadoop 带 来 True SQL 支 持 和 高 性 能 的 并 行 计 算,H 强 有 力 的 替 代 目 前 Hadoop 中 类 SQL LIKE 工 具 如 HIVE Impala 等, 为 Hadoop Cluster 提 供 高 级 数 据 库 服 务 功 能 ; 并 行 数 据 流 方 式 访 问 采 用 外 部 表 并 行 数 据 流 方 式 访 问 多 种 数 据 格 式 文 件 进 行 SQL 计 算, 具 有 以 下 功 能 : SQL 中 的 数 据 表 可 以 来 源 与 多 个 存 储 格 式, 即 Join 来 源 于 多 个 格 式 的 外 部 表 ; 目 前 支 持 RCFiles 文 件 HBase 数 据 Sequence 文 件 Text 文 件 Avro 文 件 高 级 数 据 分 析 功 能 接 入 开 源 数 据 挖 掘 算 法 函 数, 为 Hadoop 带 来 并 行 化 的 数 据 挖 掘 计 算, 实 现 丰 富 的 数 据 挖 掘 算 法, 如 贝 叶 斯 分 析 线 性 回 归 逻 辑 回 归 决 策 树 随 机 森 林 关 联 规 则 k-means
等 等 统 一 安 装 部 署 通 过 自 动 化 统 一 安 装 部 署 版 本 升 级 集 群 扩 展 的 工 具, 存 储 Hadoop 的 节 点 信 息 配 置 信 息 服 务 信 息 等 Meta Data, 管 理 Hadoop 服 务 的 安 装 集 中 式 监 控 管 理 工 具 实 现 启 动 / 停 止 Hadoop, 监 控 节 点 健 康 状 态 资 源 消 耗 Mapreduce 作 业 等 ; 虚 拟 化 节 点 支 持 增 强 对 Hadoop 部 署 在 Vmware 虚 拟 化 节 点 上 的 支 持, 使 得 虚 拟 化 节 点 上 的 Hadoop 更 加 具 有 灵 活 性, 让 Hadoop 自 动 识 别 虚 拟 节 点 和 物 理 节 点 间 的 拓 扑 结 构, 能 够 更 好 地 平 衡 节 点 资 源 使 用 和 更 优 数 据 复 制 策 略 ; 主 数 据 管 理 解 决 方 案 具 有 以 下 特 性 :
1) 在 企 业 层 面 上 整 合 了 现 有 纵 向 结 构 中 的 客 户 信 息 以 及 其 他 知 识 和 深 层 次 信 息 2) 共 享 所 有 系 统 中 的 数 据, 使 之 成 为 一 系 列 以 客 户 为 中 心 的 业 务 流 程 和 服 务 3) 实 现 对 于 客 户 产 品 和 供 应 商 都 通 用 的 主 数 据 形 式, 加 速 数 据 输 入 检 索 和 分 析 4) 支 持 数 据 的 多 用 户 管 理, 包 括 限 制 某 些 用 户 添 加 更 新 或 查 看 维 护 主 数 据 的 流 程 的 能 力 5) 集 成 产 品 信 息 管 理, 客 户 关 系 管 理 客 户 数 据 集 成 以 及 对 主 数 据 进 行 分 析 的 其 他 解 决 方 案 主 数 据 存 储 提 供 以 下 功 能 : A) 匹 配 与 合 并 逻 辑, 用 于 从 一 个 或 多 个 源 系 统 识 别 并 整 合 重 复 记 录 B) 宽 泛 的 单 元 格 级 别 关 联 和 历 史 记 录, 为 数 据 内 容 提 供 了 详 细 的 审 计 跟 踪 C) 适 用 于 跨 所 有 数 据 源 和 应 用 程 序 的 所 有 关 系 数 据 的 中 央 资 料 库 这 些 功 能 将 极 大 降 低 数 据 仓 库 有 关 的 总 体 开 发 和 维 护 工 作 元 数 据 管 理 元 数 据 管 理 是 一 个 根 据 使 用 这 些 资 产 的 方 式 来 管 理 组 织 的 数 据 资 产 的 流 程 此 流 程 能 集 成 链 接 和 集 中 管 理 多 个 来 源 的 元 数 据, 便 于 在 整 个 组 织 内 妥 善 维 护 分 析 消 费 和 解 释 数 据 当 从 业 务 元 数 据 和 技 术 元 数 据 中 得 出 数 据 的 含 义 时, 可 以 更 有 效 地 汇 总 和 集 成 数 据 简 言 之, 当 有 效 管 理 元 数 据 时, 数 据 变 得 更 有 价 值 IT 组 织 需 要 有 效 的 元 数 据 管 理 解 决 方 案 以 达 到 : (1) 简 化 数 据 发 现 和 跟 踪 数 据 中 央 目 录 (2) 通 过 重 复 使 用 数 据 加 强 一 致 性 并 消 除 冗 余, 从 而 提 高 工 作 效 率 并 降 低 项 目 付 时 间 (3) 减 少 因 人 员 流 动 而 导 致 知 识 流 失 的 风 险 (4) 增 加 了 向 业 务 用 户 报 告 的 数 据 交 付 的 信 心 (5) 通 过 制 定 更 有 效 的 开 发 流 程 来 提 高 IT 部 门 对 业 务 的 响 应 度 我 们 公 司 Data Storage( 数 据 存 储 ) 技 术 支 持 :. 各 种 平 台 数 据 的 存 储. 历 史 数 据 的 存 储. 各 种 文 件 数 据 的 存 储 主 要 优 点 : 集 中 化 备 份 管 理 跨 不 同 操 作 系 统 保 护 您 的 关 键 应 用 程 序 和 数 据 库, 同 时 集 中 执 行 管 理 并 加 快 总 体 备 份 速 度
集 中 化 复 制 备 份 以 实 时 或 接 近 于 实 时 的 方 式 将 电 子 数 据 拷 贝 移 动 到 本 地 或 远 程 信 息 存 储 库 连 续 数 据 保 护 自 动 为 每 一 次 数 据 更 改 保 存 一 个 拷 贝, 以 便 您 能 够 将 数 据 恢 复 到 任 何 一 时 间 点 分 析 和 报 告 收 集 关 联 备 份 操 作 和 相 关 信 息 并 发 出 警 报, 包 括 对 备 份 失 败 执 行 根 本 原 因 分 析 简 化 管 理 使 用 管 理 控 制 台 查 看 保 护 盒 恢 复 活 动, 并 确 定 向 何 处 分 配 更 多 的 资 源 系 统 要 求 主 机 平 台 HP/UX on Itanium: 11iv3 (11.31) IBM AIX R64 on POWER architecture 7.1 IBM z/os: V1R11 或 以 上 版 本 Linux x64 (64-bit): Novell SuSE 11 SP1; Red Hat Enterprise Linux 6.1; Oracle Linux 6.1 Microsoft Windows on x64 (64-bit): Desktop: Windows 7 x64 SP1; Windows 8 x64 Server: Windows Server 2008 x64 SP2 Family; Windows Server 2008 R2 SP1 Family; Windows Server 2012 Family Solaris on SPARC: Version 10 Update 9 Solaris on x64 (x64-86): Version 10 Update 9; Version 11 客 户 端 Microsoft Windows (32-bit): Windows 7 x86-64; Windows 8 x86-64 Microsoft Windows (64-bit): Windows 7 x64 SP1; Windows 8 x64