第 8 卷 第 2 期 2013 年 6 月 震 灾 防 御 技 术 Technology for Earthquake Disaster Prevention Vol. 8, No. 2 Jun., 2013 周 娜, 李 永 红, 李 晓 京, 张 蕾,2013. 地 震 行 业 Oracle 数 据 库 维 护 现 状 分 析 及 对 策. 震 灾 防 御 技 术,8(2): 216 220. 1 地 震 行 业 Oracle 数 据 库 维 护 现 状 分 析 及 对 策 周 1 娜 ) 李 永 红 2 ) 李 晓 京 1 ) 张 蕾 1 ) 1) 中 国 地 震, 北 京 100045 2) 山 东 省 地 震 局, 济 南 250014 摘 要 地 震 行 业 Oracle 数 据 库 系 统 支 撑 了 信 息 前 兆 应 急 日 常 办 公 等 多 种 业 务 应 用, 是 业 务 运 行 的 基 础 保 障, 因 此 分 析 数 据 库 运 行 维 护 的 状 况, 并 提 出 可 行 性 建 议 具 有 重 要 的 意 义 本 文 总 结 了 近 4 年 来 Oracle 数 据 库 运 行 维 护 过 程 中 出 现 的 问 题, 归 纳 了 影 响 数 据 库 运 行 的 各 种 因 素, 提 供 了 数 据 库 运 行 维 护 过 程 中 的 关 键 点, 对 于 指 导 数 据 库 的 稳 定 健 康 可 靠 运 行 具 有 一 定 的 参 考 意 义 关 键 词 : 地 震 数 据 库 维 护 现 状 对 策 引 言 在 整 个 IT 产 品 的 寿 命 周 期 中, 运 营 阶 段 的 成 本 占 了 整 个 成 本 的 约 70% 80%( 其 余 的 成 本 花 费 在 产 品 开 发 和 采 购 上 ), 而 运 行 维 护 作 为 运 行 服 务 的 重 要 组 成 部 分, 已 成 为 人 们 关 心 的 重 要 课 题 ( 李 淑 娟 等,2008) 地 震 行 业 Oracle 数 据 库 系 统 支 撑 了 信 息 前 兆 应 急 日 常 办 公 等 多 种 应 用, 已 成 为 地 震 业 务 政 务 系 统 运 行 的 基 础 保 障 数 据 库 系 统 的 运 行 水 平 直 接 决 定 了 业 务 系 统 的 运 行 质 量 本 文 总 结 了 近 4 年 来 Oracle 数 据 库 运 行 维 护 过 程 中 出 现 的 问 题, 归 纳 了 影 响 数 据 库 运 行 的 各 种 因 素, 提 供 了 数 据 库 运 行 维 护 过 程 中 的 关 键 点, 对 指 导 数 据 库 的 稳 定 健 康 可 靠 运 行 可 提 供 参 考 1 现 状 目 前,Oracle 数 据 库 系 统 主 要 集 中 分 布 在 国 家 中 心 41 个 区 域 中 心 33 个 应 急 中 心 300 个 县 节 点 300 个 台 站, 其 中 双 机 系 统 79 套, 单 机 系 统 600 套 而 支 撑 行 业 数 据 库 运 行 的 硬 件 平 台 多 样, 部 署 方 式 复 杂, 具 体 表 现 在 以 下 几 个 方 面 (1) 数 据 库 系 统 的 部 署 环 境 多 样 复 杂 双 机 数 据 库 IT 环 境 涉 及 到 IBM 服 务 器 曙 光 服 务 器 和 SUN 服 务 器 系 统, 以 及 数 据 存 储 系 统 EMC 与 HDS (2) 数 据 库 系 统 的 技 术 结 构 复 杂, 管 理 难 度 高 系 统 大 多 采 用 Unix 和 Linux 系 统, 数 据 库 使 用 Oracle 10g RAC, 存 储 使 用 Oracle ASM 管 理 1 基 金 项 目 中 国 地 震 青 年 基 金 项 目 资 助 [ 收 稿 日 期 ] 2012-12-23 [ 作 者 简 介 ] 周 娜, 女, 生 于 1978 年 中 国 地 震 信 息 网 络 部 工 程 师 主 要 从 事 计 算 机 网 络 维 护 数 据 库 管 理 等 方 面 的 工 作 E-mail:zhouna@seis.ac.cn
2 期 周 娜 等 : 地 震 行 业 Oracle 数 据 库 维 护 现 状 分 析 及 对 策 217 (3) 数 据 库 系 统 地 域 分 散 主 要 集 中 分 布 在 国 家 中 心 41 个 区 域 中 心 33 个 应 急 中 心 300 个 县 节 点 和 300 个 台 站 (4) 系 统 管 理 分 散 各 级 节 点 自 行 管 理 维 护 在 部 分 节 点 内 部, 服 务 器 和 操 作 系 统 一 般 按 照 业 务 应 用 分 多 个 运 行 维 护 小 组, 各 自 管 理 维 护 以 上 特 点 决 定 了 地 震 行 业 数 据 库 运 行 维 护 是 一 个 复 杂 而 艰 巨 的 任 务, 需 要 总 结 多 年 来 数 据 库 运 维 过 程 中 出 现 的 问 题, 制 定 合 理 的 运 行 维 护 策 略, 以 保 证 数 据 库 系 统 的 正 常 运 行 2 运 行 维 护 事 件 分 析 为 了 更 好 地 分 析 数 据 库 运 行 维 护 过 程 中 出 现 的 问 题, 作 者 分 析 整 理 了 近 4 年 来 数 据 库 运 行 维 护 过 程 中 出 现 的 各 类 问 题, 其 中 系 统 故 障 6 类 存 储 故 障 5 类 网 络 故 障 3 类 ASM 故 障 11 类 CRS 故 障 8 类 数 据 库 本 身 故 障 12 类 及 其 它 故 障 4 类, 具 体 故 障 如 表 1 所 示 表 1 数 据 库 故 障 分 析 一 览 表 Table 1 List of failure analysis for the database 故 障 大 类 故 障 小 类 节 点 (1)ORA-27125 问 题 (2)suse rsh 问 题 suse 平 台 宁 夏 等 1. 系 统 故 障 (3)suse10 上 raw1/2 映 射 系 统 重 启 后 丢 失 suse 平 台 天 津 一 测 等 (4) 时 间 不 同 步 错 误 甘 肃 等 (5)/opt 文 件 系 统 满 (6)swap 区 空 间 不 够 (1) 磁 盘 不 能 正 常 dd,label 丢 失 防 灾 学 校 (2) 存 储 odm 库 损 坏 问 题 广 东 2. 存 储 故 障 (3) 存 储 不 能 正 常 dd 山 西 应 急 平 台 (4)hds 存 储 安 装 问 题 (5)ocr 坏 (1)vip 不 能 正 常 启 动 四 川 等 应 急 平 台 陕 西 等 北 京 等 3. 网 络 故 障 (2) 修 改 ip 地 址 问 题 (3) 修 改 vip 地 址 黑 龙 江 等 4.ASM 故 障 (1)Asm 实 例 启 动 问 题 (2)asm 一 节 点 报 错 ORA-15032: not all alterations performed ORA-15063: ASM discovered an insufficient number of disks for diskgroup "DG1 (3)ibm+hds 出 现 坏 块 (4)asmcmd 字 符 集 问 题 (5)asm 加 盘 减 盘 故 障 处 理 (6)asm 扩 充 磁 盘 问 题 (7)dg2 hang 黑 龙 江 信 息 应 急 平 台 应 急 平 台
218 震 灾 防 御 技 术 7 卷 续 表 故 障 大 类 故 障 小 类 节 点 ASM 故 障 CRS 故 障 (8)asm 慢 问 题 (9) 建 asm 的 时 候 点 create new 没 有 反 映 (10)asm 归 档 满 导 致 数 据 无 法 登 陆 (11) 其 它 asm 相 关 问 题 咨 询 (1)crs 重 启 问 题 (2)suse10crs 不 能 自 动 重 启 问 题 (3)suse10vipca 问 题 (4)crs 状 态 offline (5)crs 状 态 Abort(coredump) (6) 安 装 ORACLE 集 群 CRS, 运 行 root.sh 时, 报 错 [ CSSCLNT][1]clsssInitNative: connect failed, rc 9 failure at final check of oracle crs stack.10 (7)crs 安 装 Failure at final check of Oracle CRS stack. 10 (8)crs hang 问 题 (1)ORA-00600: internal error code, arguments: [qertbfetchbyrowid], [], [], [], [], [], [], [] (2) 表 空 间 不 能 删 除 (3)ORA-27102 out of memory (4)ORA-27123: unable to attach to shared memory segment IBM AIX RISC System/6000 Error: 13: Permission denied (5)opt 满 青 海 信 息 网 络 系 统 信 息 应 急 平 台 云 南 等 suse 平 台 应 急 系 统 北 京 等 广 西 应 急 平 系 统 应 急 系 统 重 庆 应 急 信 息 应 急 系 统 6. 数 据 库 故 障 (6) 前 兆 suse10 升 级 问 题 宁 夏 (7) 表 空 间 数 据 文 件 建 到 本 地 导 致 数 据 不 正 常 信 息 应 急 系 统 (8) 数 据 库 登 不 上, 已 超 过 最 大 连 接 数 天 津 (9)ORA-00600: internal error code, arguments: [3705], [1], [1], [2], [8], [], [], [] (10)ORA-00205: error in identifying control file, check alert log for more info (11)ORA-00600: internal error code, arguments: [kccchb_3], [10346], [10345], [10345], [], [], [], [] 海 南 天 津 重 庆 应 急 (12) 其 它 问 题 咨 询 (1) 机 房 异 常 断 电 导 致 数 据 问 题 7. 其 它 故 障 (2) 网 络 交 换 机 故 障 导 致 数 据 问 题 (3) 更 换 存 储 导 致 数 据 问 题 (4) 其 它 不 正 常 操 作 导 致 数 据 问 题 进 一 步 对 表 1 中 7 大 类 故 障 进 行 分 析, 可 以 看 出 存 在 以 下 问 题 : (1) 操 作 系 统 平 台 存 在 兼 容 性 问 题
2 期 周 娜 等 : 地 震 行 业 Oracle 数 据 库 维 护 现 状 分 析 及 对 策 219 如 部 分 省 局 数 据 库 运 行 在 曙 光 服 务 器 上, 操 作 系 统 为 SUSE, 操 作 系 统 与 后 台 存 储 系 统 之 间 的 衔 接 容 易 出 故 障, 如 : 表 1 中 的 系 统 故 障 (2) 和 (3) 而 采 用 IBM 和 SUN 硬 件 平 台 的 节 点 数 据 库 系 统 就 没 有 类 似 问 题 的 发 生 (2) 存 储 系 统 平 台 存 在 兼 容 性 问 题 如 应 急 数 据 库 系 统 部 署 在 HDS 之 上,HDS 经 常 容 易 发 生 数 据 坏 块 的 情 况, 造 成 数 据 库 故 障, 如 : 表 1 中 的 存 储 故 障 (3) ( 4); ASM 故 障 的 (1) ( 2); CRS 故 障 的 (5) ( 8) 等 (3) 日 常 维 护 存 在 问 题 在 操 作 系 统 和 存 储 系 统 软 硬 件 平 台 不 出 现 问 题 的 情 况 下, 需 要 维 护 人 员 每 天 每 周 和 每 月 定 时 做 很 多 工 作, 如 : 查 看 磁 盘 空 间 使 用 情 况 数 据 库 告 警 日 志 等 而 目 前 缺 乏 统 一 的 规 章 制 度 与 规 范, 督 促 维 护 人 员 完 成 这 些 日 常 工 作, 维 护 工 作 的 好 坏 基 本 上 取 决 于 维 护 人 员 的 责 任 心 再 者, 运 行 维 护 人 员 的 水 平 较 低, 一 些 基 本 的 数 据 库 维 护 工 作 难 以 很 好 的 完 成 如 果 有 一 套 健 全 的 规 章 制 度 与 规 范, 同 时 还 有 一 批 具 有 较 高 数 据 库 运 行 维 护 经 验 的 管 理 人 员, 那 么 上 述 7 大 类 故 障 中 的 大 多 数 故 障 是 可 以 提 前 预 防 的 (4) 数 据 库 管 理 和 维 护 缺 乏 科 学 依 据 缺 乏 一 套 有 效 的 数 据 库 监 控 系 统 来 对 数 据 库 运 行 状 态 的 各 关 键 指 标 信 息 进 行 数 据 搜 集 和 统 计, 完 成 如 日 常 性 能 监 控 每 月 性 能 评 估 数 据 库 审 计 等 人 工 工 作 量 大, 难 以 完 成 的 工 作, 将 数 据 库 隐 患 消 灭 在 萌 芽 状 态 ( 秦 士 兵,2012) 而 在 数 据 库 运 行 维 护 中 凸 显 出 来 的 主 要 问 题 有 : (1) 运 行 维 护 管 理 制 度 不 健 全 目 前 Oracle 数 据 库 管 理 被 动 分 散 管 理 规 范 不 完 善, 如 : 缺 乏 统 一 的 备 份 与 管 理 策 略 安 全 策 略 管 理 流 程 等 (2) 运 行 维 护 人 员 技 术 水 平 较 低 相 对 于 专 业 的 Oracle 数 据 库 运 行 维 护 人 员 而 言, 目 前 行 业 内 的 技 术 人 员 在 数 据 库 方 面 的 运 行 维 护 技 能 水 平 较 低, 技 术 人 员 相 对 不 固 定 虽 然 技 术 人 员 通 过 了 每 年 的 技 术 培 训, 但 在 提 高 运 行 维 护 的 能 力 方 面 还 有 待 进 一 步 提 高 (3) 运 行 维 护 技 术 平 台 亟 待 建 立 缺 乏 数 据 库 基 础 运 行 环 境 ( 操 作 系 统 存 储 系 统 和 网 络 ) 的 统 一 故 障 预 警 及 故 障 监 测 机 制 管 理 员 对 系 统 故 障 的 反 应 速 度 无 法 提 高, 一 般 是 在 出 现 问 题 以 后 才 进 行 查 找 及 处 理, 难 以 充 分 保 障 关 键 业 务 系 统 的 可 用 性, 无 法 做 到 主 动 式 系 统 管 理 3 对 策 与 建 议 针 对 数 据 库 运 行 维 护 过 程 中 出 现 的 问 题, 应 该 从 运 行 维 护 的 组 织 架 构 流 程 制 度 规 范 技 术 支 撑 平 台 ( 蒋 晓 玲 等,2012) 等 方 面 着 手, 以 求 提 高 行 业 数 据 库 的 运 行 维 护 水 平 和 能 力 (1) 完 善 行 业 数 据 库 运 行 管 理 制 度 以 提 高 数 据 库 运 行 水 平 和 管 理 能 力 为 目 标, 建 立 一 套 完 整 的 流 程 管 理 规 范, 同 时 结 合 必 要 的 工 具 管 理 软 件, 使 主 机 存 储 和 数 据 库 系 统 得 到 责 任 保 障, 保 证 数 据 库 系 统 连 续 稳 定 运 行 (2) 加 强 人 员 培 训 一 般 来 说, 地 震 行 业 比 较 注 重 硬 件 平 台 建 设, 而 对 流 程 和 人 员 的 软 平 台 建 设 有 所 忽 略 由 于 当 前 人 员 的 技 术 水 平 还 较 低, 再 加 之 相 关 培 训 的 不 足, 因 此 解 决 实 际 问 题 的 能 力 和 效 率 较 低 为 此 需 要 开 展 相 关 的 技 术 培 训, 以 提 高 地 震 系 统 数 据 库 的 运 行 和 维 护 技 能 (3) 建 立 数 据 库 运 行 维 护 技 术 支 撑 平 台
220 震 灾 防 御 技 术 7 卷 应 建 立 数 据 库 基 础 运 行 环 境 ( 操 作 系 统 存 储 系 统 和 网 络 ) 的 统 一 故 障 预 警 及 故 障 监 测 机 制, 由 过 去 的 被 动 式 管 理 转 变 为 主 动 式 管 理, 以 提 高 数 据 库 管 理 人 员 对 系 统 故 障 的 反 应 速 度, 保 障 关 键 业 务 系 统 的 可 用 性 (4) 建 立 数 据 库 运 行 维 护 知 识 库 开 展 数 据 库 知 识 转 移 工 作, 建 立 一 套 持 续 机 制, 确 保 维 护 知 识 和 技 能 的 传 承 将 数 据 库 运 行 维 护 中 的 每 次 事 件 故 障 或 者 问 题 解 决 过 程 中 所 获 得 的 解 决 方 法 和 维 护 经 验 都 记 录 下 来, 建 立 一 个 知 识 库, 以 提 高 对 出 现 的 事 件 及 问 题 的 处 理 效 率 4 结 语 Oracle 数 据 库 系 统 的 运 行 维 护 是 一 个 需 要 长 期 面 对 的 研 究 课 题, 应 结 合 IT 行 业 运 行 维 护 的 相 关 管 理 理 论, 进 行 不 断 的 开 发 和 完 善 本 文 仅 针 对 目 前 存 在 的 问 题 提 出 了 一 些 方 向 上 的 解 决 办 法 在 未 来 的 发 展 中, 还 需 要 将 成 熟 的 管 理 理 论 与 具 体 的 需 求 及 目 标 结 合 起 来, 以 探 求 出 解 决 具 体 问 题 的 方 案 参 考 文 献 蒋 晓 玲, 林 钟 灵,2012. 基 于 ITIL 的 油 气 田 信 息 系 统 运 行 维 护 体 系 的 构 建 以 中 国 石 油 西 南 油 气 田 为 例. 天 然 气 工 业,32(s1):162 164. 李 淑 娟, 赵 泽 宇, 宓 詠,2008. 信 息 化 校 园 应 用 的 运 维 监 控 保 障 研 究. 实 验 技 术 与 管 理,25(8):11 14. 秦 士 兵,2012. 电 力 企 业 信 息 系 统 中 Oracle 数 据 库 运 维 管 理. 中 国 新 技 术 新 产 品,21:41 42. Analysis of Problems in Operation and Maintenance of Oracle Earthquake Database and Their Resolutions Zhou Na 1), Li Yonghong 2), Liu Xiaojing 1) and Zhang Lei 1) 1) China Earthquake Networks Center, Beijing 100045, China 2) Earthquake Administration of Shandong Province, Jinan 250014, China Abstract The Oracle earthquake database system provides a support to many earthquake applications, such as earthquake information, precursor, emergency response and related daily office work. It is very significant to analyze of operation status and to keep good maintenance of Oracle seismic database. In this article, we collected the problems occurring during operation and maintenance of Oracle earthquake database in the past 4 years and summarized the possible factors resulting in these problems. We then propose some suggestions to resolve these problems. This work provides a guideline for the stability, health and reliability of the operation of the earthquake database. Key words: Earthquake database; Maintaining status; Strategy