Reducing Client Incidents through Big Data Predictive Analytics

Similar documents
白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

2013_6_3.indd

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

校友会系统白皮书feb_08

Quantum View SM Manage

国 家 图 书 馆 年 鉴 0 重 点 文 化 工 程 一 中 华 古 籍 保 护 计 划 0 年, 国 家 图 书 馆 ( 国 家 古 籍 保 护 中 心 ) 根 据 文 化 部 要 求, 围 绕 习 近 平 总 书 记 关 于 弘 扬 中 华 优 秀 传 统 文 化 系 列 讲 话 精 神, 对

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

第 02 期 1 医 疗 信 息 现 状 20% EMR Electronic Medical Record HIS HIS [1-2] 张 肖 等 : 基 于 大 数 据 的 医 疗 健 康 创 新 应 用 2 大 数 据 环 境 下 医 疗 数 据 特 征 分 析 PC [3]

合集

「西醫基層總額支付委員會《第28次委員會議紀錄

untitled

迅闪2009帮助手册(xshelp)

電機工程系認可證照清單 /7/1

<4D F736F F D20B9FABCD2B7F8C9E4B0B2C8ABC9EAB1A8CFB5CDB3C8EDBCFEB2D9D7F7CBB5C3F E646F63>

是 证 券 市 场 的 后 来 者, 但 在 前 景 广 阔 的 道 路 上 前 行, 终 将 成 为 这 个 市 场 的 领 先 者, 这 里 会 给 你 一 个 巨 大 的 舞 台, 这 里 有 你 需 要 的 机 会, 这 里 欢 迎 优 秀 的 你! 二 招 收 条 件 1. 遵 守 国 家

信 息 化 研 究

Azure_s

Microsoft Word - PKUCS计算机教育 doc


团 学 要 闻 我 校 召 开 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 3 月 17 日, 我 校 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 在 行 政 办 公 楼 五 楼 会 议 室 举 行, 校 团 委 委 员 各 院 ( 系 ) 团 委 书 记 校 学 生

CH01.indd

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

6-1 Table Column Data Type Row Record 1. DBMS 2. DBMS MySQL Microsoft Access SQL Server Oracle 3. ODBC SQL 1. Structured Query Language 2. IBM

學 科 100% ( 為 單 複 選 題, 每 題 2.5 分, 共 100 分 ) 1. 請 參 閱 附 圖 作 答 : (A) 選 項 A (B) 選 項 B (C) 選 項 C (D) 選 項 D Ans:D 2. 下 列 對 於 資 料 庫 正 規 化 (Normalization) 的 敘

Microsoft Word - iWeb User Manual _TCh_2009.doc

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

Microsoft Word htm

附3

2014年大学生村官考试公共基础知识:社会革命和社会改革

朝陽科技大學八十八學年度招考碩士班簡章目錄

Seagate_Dashboard_UG.book

复 变 函 数 与 积 分 变 换 常 微 分 方 程 数 值 分 析 数 值 分 析 课 程 实 习 微 分 方 程 数 值

Acronis True Image 2015

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

untitled

目錄

RTX3.2.0标准版 - 技术白皮书

幻灯片 1

看 数 据, 在 人 群 中 找 到 自 己 2015 年 有 749 万 本 科 毕 业 生 估 算 全 国 985 高 校 毕 业 生 人 数 : 约 17 万 占 毕 业 生 人 数 的 2.26%; 估 算 全 国 一 本 高 校 毕 业 生 人 数 : 约 万, 占 毕 业

PowerPoint 演示文稿

COP中文范本

冶金企业安全生产监督管理规定

<4D F736F F D20BAECB1A6C0F6A3BAB7C7B9ABBFAAB7A2D0D0B9C9C6B1C4BCBCAFD7CABDF0CAB9D3C3B5C4BFC9D0D0D0D4B1A8B8E62E646F63>


% ~ AAA

98年度即測即評學科測試與即測即評即發證技術士技能檢定簡章

Microsoft Word 箕æ−¥ï¼‹å®ı稿;

ebook 132-2

Panaboard Overlayer help

untitled

Microsoft Word - MIS.doc

新疆医科大学

第二部分 成果简介

201316

F4

2 目 录 第 一 部 分 县 级 填 报 角 色 系 统 登 录 信 息 管 理 站 内 信 息 查 看 信 息 回 复 信 息 信 息 查 询 新 建

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

软 件 工 程 专 业 习 指 南 目 录 一 软 件 工 程 专 业 设 置 背 景 与 发 展 前 景... 3 二 软 件 工 程 专 业 实 践 教 条 件... 4 三 软 件 工 程 专 业 课 程 类 型 及 核 方 式 软 件 工 程 专 业 课 程 类 型...7

温州市政府分散采购

The Cisco Networking Academy NetRiders Contest Official Rules

十 二 五 是 我 国 全 面 建 设 小 康 社 会 和 构 建 社 会 主 义 和 谐 社 会 的 关 键 时 期, 我 省 环 境 信 息 化 建 设 要 以 邓 小 平 理 论 和 三 个 代 表 重 要 思 想 为 指 导, 全 面 贯 彻 落 实 科 学 发 展 观, 紧 密 围 绕 环

XXX专业本科人才培养方案

信息

Paratune用户手册

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

根据《省教育厅关于启动2008年高等学校优秀多媒体教学课件遴选建设工作的通知》(苏教高〔2008〕19号)精神,在学校推荐基础上,经专家评审委员会评审,共评选出优秀多媒体教学课件180项,其中特等奖5项,一等奖30项,二等奖145项

目 录 软 件 概 述 软 件 用 途 软 件 运 行 系 统 配 置... 3 使 用 入 门 软 件 登 录 与 退 出 页 面 介 绍... 6 组 别 账 号 编 辑 组 别 编 辑.

附件:

CA-C750К

教育软件测试方向职业生涯规划方案

宁夏专业技术人员服务平台

声 明 本 公 司 及 全 体 董 事 监 事 高 级 管 理 人 员 承 诺 不 存 在 任 何 虚 假 记 载 误 导 性 陈 述 或 重 大 遗 漏, 并 对 其 真 实 性 准 确 性 完 整 性 承 担 个 别 和 连 带 的 法 律 责 任 本 公 司 负 责 人 和 主 管 会 计 工

<4D F736F F D D352DBED6D3F2CDF8D7E9BDA8D3EBB9DCC0EDCFEEC4BFBDCCB3CCD5FDCEC42E646F63>

經濟統計資料庫管理資訊系統

FAQ -PowerDesigner9.5.DOC

可视化管理系统在银行业数据中心的应用

XXXXXXXX

聚 焦 大 众 金 秋 十 月, 让 爱 走 动 引 领 大 众 金 秋 十 月 又 重 阳 清 早, 大 众 汽 车 租 赁 公 司 的 爱 心 小 队 一 行 十 余 人 就 带 着 早 已 备 好 的 节 日 慰 问 品 来 到 提 篮 桥 街 道 敬 老 院, 为 那

Microsoft Word - ¸ê°T³q³ø273´Á.doc

WP_ARIS_PPM_CN.PDF

使用 Scene7 Media Portal

使用 Scene7 Media Portal

30.00% 25.00% 25.00% 22.50% 20.00% 15.00% 12.50% 15.00% 12.50% 10.00% 7.50% 5.00% 2.50% 2.50% 0.00% 文 学 理 学 工 学 法 学 教 育 学 管 理 学 历 史 学 艺 术 学 ( 三 ) 学 生

经 与 相 关 院 系 协 商 研 究, 现 确 定 学 年 试 验 班 学 生 培 养 与 选 专 业 的 工 作 程 序 与 基 本 原 则 如 下 : 第 一 条 试 验 班 的 学 生 入 学 后 根 据 个 人 兴 趣 特 长 并 参 考 所 在 试 验 班 内 各 专

Oracle Database 10g: SQL (OCE) 的第一堂課

基于ECO的UML模型驱动的数据库应用开发1.doc

管理心理学(七)

AVG AntiVirus User Manual

浙 江 银 江 电 子 股 份 有 限 公 司 首 次 公 开 发 行 股 票 并 在 创 业 板 上 市 招 股 意 向 书 发 行 股 票 类 型 : 人 民 币 普 通 股 (A 股 ) 预 计 发 行 股 数 : 2,000 万 股 每 股 面 值 : 人 民 币 1.00 元 每 股 发

Chapter 2

<4D F736F F D203939BAD3B3D5A468AF5AA9DBA5CDA6D2B8D5C2B2B3B B371B94C>

计算机与电信(二十七).doc

附件2

《教育信息化前沿》

福 建 顶 点 软 件 股 份 有 限 公 司 首 次 公 开 发 行 股 票 招 股 说 明 书 发 行 股 票 类 型 人 民 币 普 通 股 (A 股 ) 本 次 拟 发 行 股 数 每 股 面 值 每 股 发 行 价 预 计 发 行 日 期 预 计 上 市 的 证 券 交 易 所 发 行 后

目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..

一 Grass 是 什 么 1 简 介 GRASS (Geographic Resources Analysis Support System, 地 理 资 源 分 析 支 持 系 统 ) 是 最 负 盛 名 的 开 源 地 理 信 息 系 统 (GIS) 以 下 是 它 的 一 些 特 点 : 1

目 录 欢 迎 使 用 产 品 介 绍 产 品 概 述 产 品 特 点 代 理 商 系 统 使 用 说 明 登 陆 基 本 信 息 分 销 商 管 理 帐 户


Transcription:

IT@lntel 白 皮 书 英 特 尔 IT 部 门 IT 最 佳 实 践 大 数 据 预 测 分 析 2013 年 12 月 通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 总 体 概 述 相 比 过 去 的 被 动 反 应, 我 们 现 在 能 够 更 容 易 主 动 找 出 客 户 端 问 题, 并 及 时 将 其 修 复 以 免 问 题 扩 大, 从 而 为 企 业 节 约 大 量 成 本 Ajay Chandramouly 英 特 尔 IT 大 数 据 领 域 负 责 人 Ravindra Narkhede 英 特 尔 IT 企 业 SM 架 构 师 Vijay Mungara 英 特 尔 IT 大 数 据 架 构 师 在 概 念 验 证 (proof of concept, 简 称 PoC) 中, 英 特 尔 IT 将 自 然 语 言 处 理 和 统 计 建 模 应 用 于 PC 客 户 端 事 件 日 志 和 IT 帮 助 中 心 事 故 报 告, 并 预 测 到 之 后 28 天 内 发 生 的 20% 的 事 故 相 比 过 去 的 被 动 反 应, 我 们 现 在 能 够 更 主 动 找 出 并 解 决 可 能 会 发 生 的 客 户 端 问 题, 以 免 问 题 扩 大, 从 而 有 望 为 企 业 节 约 大 量 成 本 在 2013 年, 英 特 尔 IT 设 定 了 目 标, 在 应 用 了 高 级 自 然 语 言 处 理 和 信 息 检 索 技 年 底 之 前 将 所 有 已 知 并 应 受 到 重 视 的 报 告 术, 后 者 支 持 将 机 器 信 息 ( 事 件 数 据 ) IT 事 故 ( 发 生 在 客 户 端 服 务 器 和 其 他 与 内 部 客 户 信 息 ( 事 故 报 告 ) 进 行 关 联 设 备 上 ) 减 少 40% 我 们 意 识 到 客 户 端 将 数 百 万 个 事 件 和 数 千 个 事 故 分 类, 而 是 造 成 各 类 事 故 的 主 要 元 凶, 所 以 使 且 在 预 测 其 他 客 户 端 会 发 生 的 事 故 方 面 用 Apache Hadoop* 软 件 的 英 特 尔 发 行 版 的 准 确 程 度 达 78% ( 使 用 Hadoop 版 本 2.2) 设 计 了 一 种 客 户 创 建 了 数 据 可 视 化 的 报 表, 以 帮 助 IT 端 事 故 预 测 概 念 验 证 (proof of concept, 支 持 员 工 快 速 确 定 问 题 的 发 生 概 率 严 简 称 PoC) 我 们 将 文 本 分 析 功 能 应 用 于 重 程 度 及 分 布 情 况, 更 准 确 地 制 定 修 复 数 百 万 个 客 户 端 事 件 日 志 和 数 千 份 客 户 端 措 施 及 其 他 主 动 支 持 服 务 事 故 报 告, 发 现 了 其 中 一 些 关 联 数 据, 并 据 此 来 预 测 和 解 决 客 户 端 问 题, 避 免 我 们 的 客 户 端 事 故 预 测 解 决 方 案 结 合 了 数 问 题 扩 大 据 挖 掘 和 预 测 分 析 功 能, 可 帮 助 我 们 在 那 些 基 本 上 被 曾 经 忽 视 的 数 据 中 获 取 价 值 在 实 施 概 念 验 证 时, 我 们 完 成 了 几 项 工 这 一 新 功 能 将 帮 助 我 们 及 时 解 决 众 多 客 户 作 端 问 题, 以 免 影 响 用 户 工 的 作 效 率 该 解 开 发 了 一 种 大 数 据 预 测 分 析 解 决 方 案, 决 方 案 的 要 素 还 有 望 协 助 发 掘 其 他 数 据 日 它 能 够 从 95,000 多 个 客 户 端 系 统 每 天 志 中 的 新 价 值, 例 如 从 英 特 尔 制 造 供 应 产 生 先 前 很 少 被 注 意 到 的 数 百 万 个 链 营 销 市 场 研 究 和 其 他 运 营 环 节 中 收 Windows* 事 件 记 录 中 获 取 价 值 集 到 的 数 据 Guillermo Rueda 英 特 尔 IT 大 数 据 架 构 师 Asoka Diggs 英 特 尔 IT 企 业 架 构 师

IT@Intel 白 皮 书 通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 目 录 总 体 概 述... 1 背 景... 2 概 念 验 证... 3 事 故 预 测 的 解 决 方 案 架 构... 3 主 要 工 具... 4 数 据 收 集... 5 大 数 据 文 本 分 析... 6 实 现 数 据 管 理... 7 从 可 视 化 数 据 发 现 信 息... 8 结 果... 9 后 续 步 骤...10 结 论...10 相 关 信 息...10 缩 写 词...10 IT@INTEL IT@Intel 计 划 将 全 球 各 地 的 IT 专 业 人 员 及 其 在 我 们 企 业 中 的 同 仁 紧 密 联 系 在 一 起, 共 同 分 享 经 验 教 训 方 法 和 战 略 我 们 的 目 标 十 分 简 单 : 分 享 英 特 尔 IT 的 最 佳 实 践, 获 得 业 务 价 值 并 实 现 IT 竞 争 优 势 如 欲 了 解 更 多 信 息, 请 访 问 www.intel.com/cn/it 或 联 系 您 当 地 的 英 特 尔 代 表 背 景 英 特 尔 全 球 计 算 环 境 共 包 括 超 过 95,000 台 企 业 客 户 端 电 脑 在 一 个 客 户 端 上 出 现 的 问 题 往 往 很 快 会 在 成 百 上 千 个 类 似 的 客 户 端 中 发 生, 而 且 也 可 能 会 出 现 在 其 他 IT 设 备 中 使 客 户 端 处 于 最 稳 定 的 状 态 成 为 高 度 优 先 事 项, 因 为 系 统 和 应 用 错 误 及 崩 溃 会 严 重 影 响 用 户 的 工 作 效 率, 丢 失 未 保 存 的 工 作 内 容, 并 大 幅 度 增 加 IT 运 营 成 本 积 极 主 动 去 解 决 客 户 端 的 问 题 一 直 以 来 都 是 IT 的 目 标, 而 且 对 于 我 们 在 2013 年 实 现 将 IT 设 备 的 重 要 事 故 数 量 降 低 40% 的 目 标 来 说 至 关 重 要 我 们 将 客 户 端 事 故 定 义 为 会 影 响 其 正 常 使 用 的 问 题, 如 系 统 和 应 用 错 误 恶 意 软 件 感 染 等 总 体 来 看, 客 户 端 系 统 造 成 了 约 80% 的 企 业 事 故, 从 数 量 上 而 言 是 事 故 发 生 的 主 要 元 凶, 因 此 是 IT 成 本 节 约 的 首 要 目 标 IT 拥 有 海 量 的 系 统 信 息, 可 以 从 中 找 到 大 量 客 户 端 事 故 的 根 本 原 因 主 要 信 息 源 包 括 客 户 在 帮 助 请 求 中 报 告 的 事 故, 和 客 户 机 生 成 的 事 件 日 志 数 据 事 件 是 Windows* 事 件 日 志 系 统 记 录 的 问 题 这 些 日 志 记 录 着 各 类 事 件, 从 组 件 未 成 功 启 动 到 操 作 未 成 功 完 成 事 件 被 分 类 为 危 险 错 误 信 息 和 审 计 以 医 疗 情 境 作 为 类 比, 事 故 就 像 特 定 患 者 的 抱 怨, 每 日 的 事 件 日 志 就 像 综 合 的 实 验 室 报 告, 详 细 描 述 血 样 中 可 能 失 常 的 所 有 因 素 而 要 实 现 准 确 的 诊 断, 二 者 通 常 是 缺 一 不 可 主 动 分 析 事 件 日 志 存 在 的 挑 战 在 于 事 件 日 志 的 数 据 量 极 其 庞 大, 每 台 机 器 每 天 会 产 生 约 2,000 条 日 志, 关 键 事 件 平 均 为 40 条 95,000 多 台 客 户 端 每 天 可 以 产 生 多 达 1900 万 个 事 件, 一 个 季 度 则 能 在 企 业 中 产 生 多 达 300GB 的 数 据 做 出 准 确 预 测 需 要 一 天 以 上 的 数 据 量 我 们 认 为 一 年 数 据 量 的 理 想 水 平 为 1TB 在 实 施 客 户 端 事 故 预 测 概 念 验 证 (PoC) 之 前, 事 件 日 志 的 信 息 量 极 其 庞 大 多 数 的 信 息 都 未 经 过 分 析 和 使 用 问 题 支 持 人 员 只 会 在 发 生 特 定 客 户 端 事 故 时 访 问 客 户 端 的 事 件 日 志 即 使 将 事 件 日 志 信 息 与 员 工 针 对 特 定 客 户 端 的 帮 助 请 求 作 关 联, 也 需 要 耗 费 大 量 的 时 间 和 人 工 为 了 处 理 这 类 工 作, 许 多 IT 部 门 放 弃 了 通 过 扩 展 容 量 来 预 测 有 可 能 发 生 事 故 的 长 期 目 标 在 2009 年, 英 特 尔 IT 在 从 被 动 式 转 型 至 主 动 式 问 题 管 理 方 面 取 得 了 重 大 进 展 我 们 开 发 了 一 种 工 具, 它 可 以 从 数 千 台 客 户 端 中 收 集 蓝 屏 系 统 崩 溃 数 据, 并 从 数 据 的 分 析 中 找 出 问 题 根 源 借 助 该 工 具, 我 们 能 够 将 问 题 分 类 和 优 先 排 序 我 们 部 署 针 对 最 优 先 问 题 的 解 决 方 案, 将 每 周 的 蓝 屏 次 数 从 5,500 减 少 到 2,500 以 内, 而 且, 经 常 能 够 发 现 那 些 可 能 会 有 相 同 问 题 出 现 的 客 户 端, 从 而 及 时 修 复, 避 免 发 生 故 障 2 www.intel.com/cn/it

通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 IT@Intel 白 皮 书 为 了 奠 定 成 功 的 基 础, 我 们 设 定 了 概 念 验 证 目 标, 旨 在 帮 助 IT 支 持 人 员 彻 底 处 理 任 何 特 定 事 故, 确 保 不 再 复 发 我 们 想 要 开 发 一 种 解 决 方 案, 它 能 够 在 相 似 的 机 器 中 将 客 户 端 事 故 与 事 件 日 志 相 互 匹 配, 然 后 分 析 数 据 来 找 出 问 题 的 根 源 然 后, 该 解 决 方 案 可 应 用 至 整 个 企 业, 防 止 相 同 问 题 复 发 概 念 验 证 为 了 增 强 英 特 尔 IT 主 动 式 的 客 户 端 系 统 问 题 管 理 功 能, 英 特 尔 IT 实 施 了 一 项 概 念 验 证, 专 注 于 使 用 基 本 被 忽 视 的 海 量 客 户 端 事 件 日 志 数 据 我 们 的 大 数 据 平 台 基 于 Apache Hadoop* 软 件 的 英 特 尔 发 行 版 ( 以 下 简 称 英 特 尔 发 行 版 )( 使 用 Hadoop 2.2) 将 文 本 分 析 功 能 应 用 于 数 百 万 客 户 端 事 件 日 志 和 客 户 端 事 故 报 告 我 们 使 用 数 据 可 视 化 解 决 方 案 来 比 较 结 果 和 发 现 其 中 的 关 联, 从 而 能 够 追 溯 到 客 户 端 问 题 在 工 作 环 境 中 首 次 现 身 的 情 况 然 后, 我 们 在 其 他 用 户 不 知 道 他 们 的 客 户 端 设 备 是 否 有 相 同 的 情 况 下 预 测 可 能 会 出 现 的 问 题, 而 且 多 数 情 况 下 能 够 在 问 题 发 生 之 前 采 取 修 复 措 施 本 节 将 首 先 描 述 解 决 方 案 架 构 和 主 要 工 具, 然 后 探 讨 数 据 的 收 集 与 分 析, 我 们 实 现 管 理 海 量 数 据 的 解 决 方 案, 以 及 我 们 使 用 商 用 工 具 实 施 可 视 化 分 析 技 术 的 情 况 各 章 节 提 到 的 一 个 重 要 概 念 是 我 们 使 用 的 分 组 构 造 (grouping construct), 称 为 症 状 (symptom) 相 关 章 节 对 症 状 会 有 更 为 全 面 的 描 述 症 状 为 一 组 客 户 端 事 件, 它 们 基 本 别 无 二 致, 只 是 在 不 同 的 时 间 发 生 在 不 同 的 机 器 上 为 了 奠 定 成 功 的 基 础, 我 们 设 定 了 概 念 验 证 的 目 标, 旨 在 帮 助 IT 支 持 人 员 彻 底 处 理 任 何 特 定 事 故, 确 保 不 再 复 发 事 故 预 测 的 解 决 方 案 架 构 三 V 容 量 (volume) 多 样 化 (variety) 和 速 度 (velocity) 促 使 我 们 做 出 使 用 大 数 据 解 决 方 案 的 决 策 三 V 是 大 数 据 最 显 著 的 属 性 对 于 我 们 的 概 念 验 证, 容 量 指 我 们 需 要 处 理 的 数 据 量 在 5 个 月 内 收 集 的 超 过 2 亿 行 事 件 数 据 多 样 化 指 事 故 非 结 构 化 文 本 数 据 和 XML 格 式 事 件 数 据 的 合 并, 用 户 需 要 对 合 并 的 数 据 分 析 才 能 获 得 其 关 联 资 料 以 及 IT 洞 察 速 度 指 每 日 持 续 记 录 且 日 益 增 多 的 事 件 它 还 指 支 持 员 工 在 分 析 与 合 并 事 件 和 事 故 数 据 时 必 须 采 取 的 速 度, 以 作 准 确 诊 断, 并 采 取 措 施 防 止 其 他 客 户 端 中 发 生 事 故 在 我 们 基 于 英 特 尔 发 行 版 的 事 故 预 测 解 决 方 案 架 构 中 ( 见 图 1), 从 我 们 IT 服 务 管 理 请 求 系 统 中 收 集 的 事 故 数 据 和 事 件 数 据 每 天 都 被 迁 移 至 该 平 台 然 后, 这 些 数 据 会 在 Hadoop 集 群 中 经 过 文 本 分 析 处 理, 得 出 事 故 和 事 件 数 据 的 相 似 资 料 传 统 客 户 端 问 题 管 理 方 面 的 困 难 客 户 端 问 题 管 理 包 括 诊 断 事 故 发 生 的 根 本 原 因, 并 确 定 根 本 解 决 之 道, 阻 止 发 生 更 多 事 故 它 具 有 两 个 主 要 目 标 : 防 止 事 故 复 发, 尽 量 减 小 无 法 避 免 的 事 故 的 影 响 传 统 的 客 户 端 问 题 管 理 专 注 于 使 用 最 明 显 的 事 故 数 据, 识 别 事 故 趋 势, 并 设 法 分 析 根 本 原 因 该 措 施 为 被 动 式 方 案, 因 为 它 需 要 用 户 ( 内 部 客 户 ) 联 系 服 务 台, 告 知 服 务 质 量 下 降 或 影 响 他 们 工 作 效 率 的 配 置 ( 硬 件 或 软 件 ) 问 题, 表 达 他 们 的 不 满 当 用 户 遇 到 具 破 坏 力 的 事 故 时,IT 支 持 人 员 可 帮 助 修 复 该 问 题 但 在 问 题 得 到 解 决 前, 用 户 的 工 作 效 率 会 受 到 影 响 有 关 这 些 事 故 的 数 据 的 通 常 较 强 主 观, 因 为 它 由 用 户 和 支 持 人 员 记 录 如 果 发 生 多 个 类 似 的 事 故, 而 且 它 们 都 被 正 确 记 录,IT 支 持 人 员 可 能 从 中 找 出 事 故 发 生 的 趋 势 但 这 种 模 式 存 在 一 个 严 重 的 不 足 : 完 全 依 赖 于 用 户 报 告 问 题 根 据 我 们 的 经 验, 用 户 不 一 定 会 报 告 问 题 他 们 可 能 会 容 忍 系 统 崩 溃, 不 愿 意 花 时 间 与 支 持 人 员 联 系, 避 免 麻 烦 他 们 甚 至 可 能 认 为 系 统 易 于 发 生 故 障, 但 从 不 将 情 况 告 诉 IT 这 类 质 量 参 差 不 齐 的 报 告 使 了 解 问 题 趋 势 和 判 断 问 题 蔓 延 情 况 变 得 颇 为 困 难 www.intel.com/cn/it 3

IT@Intel 白 皮 书 通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 此 次 概 念 验 证 使 用 了 一 个 Hadoop 服 务 器 集 群 我 们 使 用 MapReduce, 并 在 Hadoop 集 群 上 使 用 并 行 的 分 布 式 算 法 处 理 大 型 数 据 集 MapReduce 流 程 包 括 一 个 Map 程 序 来 将 数 据 过 滤 和 分 类, 以 及 一 个 Reduce 程 序 把 数 据 汇 总 在 我 们 的 概 念 验 证 中,Map 和 Reduce 程 序 对 文 本 过 滤 分 类 和 汇 总 后, 获 得 了 常 用 词 汇 的 使 用 频 率 等 结 果 每 种 MapReduce 算 法 可 能 在 集 群 的 任 何 节 点 中 被 执 行 另 外,Hadoop 提 供 一 种 分 布 式 文 件 系 统, 名 为 Hadoop 分 布 式 文 件 系 统 (Hadoop Distributed File System, 简 称 HDFS*) 它 可 将 数 据 存 储 在 计 算 节 点 上 HDFS 可 跨 集 群 提 供 较 高 的 聚 合 带 宽, 实 现 较 快 的 处 理 速 度 MapReduce 和 HDFS 用 于 确 保 该 框 架 可 自 动 解 决 任 何 节 点 故 障, 所 以 较 为 稳 定 主 要 工 具 项 目 的 范 围 如 此 广 和 复 杂, 其 挑 战 在 于 没 有 单 个 IT 员 工 具 备 所 使 用 的 技 术 涉 及 到 的 综 合 知 识 为 了 掌 握 必 要 的 知 识, 我 们 采 用 了 团 队 协 作 的 方 案 除 了 Hadoop 和 Linux* 与 英 特 尔 发 行 版 一 起 使 用 的 开 源 操 作 系 统 方 面 的 专 业 知 识 外, 我 们 还 招 聘 了 具 有 下 列 关 键 技 术 专 业 的 团 队 成 员 来 帮 助 我 们 在 使 用 工 具 时 遇 到 各 种 局 限 之 际 寻 找 解 决 方 案 问 题 管 理 员 可 视 化 ETL 本 地 提 取 转 换 和 加 载 (ETL) 模 型 事 故 和 事 件 数 据 事 故 数 据 源 1 Incident Data Incident SourcenData Sourcen 事 故 服 务 管 理 数 据 仓 库 事 故 数 据 ETL Sqoop* 预 测 数 据 Java* 开 放 式 自 然 语 言 处 理, Porter Stemming,Lucene Analyzer HIVE* 事 件 日 志 事 件 日 志 定 时 导 入 (24 小 时 读 取 ) HDFS* Apache Hadoop* 软 件 的 英 特 尔 发 行 版 ( 使 用 Hadoop 2.2) 数 据 来 源 事 件 数 据 仓 库 目 标 图 1. 预 测 事 故 的 解 决 方 案 架 构 使 用 Apache Hadoop* 软 件 的 英 特 尔 发 行 版 ( 使 用 Hadoop 2.2), 处 理 数 据 并 实 施 文 本 分 析, 以 找 到 客 户 端 事 件 日 志 和 客 户 端 事 故 报 告 之 间 有 何 相 似 的 地 方 4 www.intel.com/cn/it

通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 IT@Intel 白 皮 书 HIVE* Hive 是 一 种 构 建 于 Hadoop 之 上 的 数 据 仓 库 基 础 架 构, 可 提 供 数 据 汇 总 查 询 和 分 析 功 能 它 针 对 关 系 型 数 据 库 管 理 系 统 (relational database management system, 简 称 RDBMS) 采 用 了 一 种 简 易 的 语 法 ( 开 发 人 员 称 其 为 HiveQL), 同 时 保 持 了 对 MapReduce 算 法 的 全 面 支 持 除 使 用 Java* 开 发 的 事 件 解 析 流 程 和 Java 中 使 用 Apache OpenNLP* 函 数 库 的 文 本 分 析 功 能, 概 念 验 证 中 使 用 的 所 有 逻 辑 都 使 用 了 HiveQL 开 发 使 用 Hive 时 我 们 遇 到 了 几 个 问 题 : Hive 无 法 使 用 更 新 命 令 来 更 新 表 格, 因 此 我 们 只 得 采 取 两 步 更 新 流 程 因 为 Hive 无 法 自 动 生 成 标 识 列 (identity column), 所 以 我 们 实 施 了 一 项 Java 功 能, 以 创 建 一 个 由 用 户 定 义 的 通 用 功 能 为 症 状 列 出 个 别 的 标 识 符 由 于 Hive 不 支 持 在 现 有 表 格 中 加 插 新 的 列 (column), 所 以 每 当 有 此 必 要 时, 我 们 都 会 创 建 一 个 新 表 格, 并 迁 移 现 有 数 据 该 两 步 流 程 增 加 了 处 理 步 骤 JAVA Java 是 供 通 用 型 计 算 机 使 用 的 一 种 广 泛 以 物 件 为 导 向 的 语 言 我 们 使 用 Java 处 理 各 类 任 务, 并 将 它 主 要 用 于 事 件 XML 解 析 :Java 读 取 XML 事 件 数 据, 并 将 所 有 字 段 解 析 为 Hive 表 格 我 们 还 使 用 Java 创 建 一 种 由 用 户 定 义 的 通 用 功 能 来 为 症 状 列 出 个 别 的 标 识 符 在 使 用 Java 时 我 们 确 实 面 临 一 些 挑 战 例 如, 在 遇 到 Java 数 据 库 连 接 引 起 的 一 些 常 见 内 存 问 题 后, 我 们 转 而 使 用 HDFS 处 理 该 任 务 在 启 动 Java 虚 拟 机 处 理 映 射 任 务 时, 我 们 还 会 遇 到 Java 内 存 堆 空 间 错 误 我 们 对 该 问 题 的 解 决 办 法 是 将 Hadoop 任 务 配 置 设 置 (mapred.child. java.opts) 中 的 大 小 设 置 (size setting) 更 改 在 Java ARchive(JAR) 中 物 件 之 间 的 依 赖 关 系 也 会 给 我 们 带 来 问 题, 特 别 是 在 我 们 将 函 数 库 与 Hadoop 集 群 同 步 的 时 候 我 们 的 应 对 方 式 是 将 相 关 的 JAR 复 制 到 Hadoop 的 分 布 式 高 速 缓 存 中, 经 由 HDFS 高 效 地 将 我 们 的 函 数 库 与 集 群 中 的 所 有 节 点 同 步 APACHE OPENNLP Apache OpenNLP( NLP 即 natural language processing, 自 然 语 言 处 理 ) 是 一 种 用 于 处 理 自 然 语 言 文 本 的 机 器 学 习 工 具 集 该 工 具 集 支 持 标 记 化 句 子 切 分 特 定 的 语 法 类 标 记 分 块 解 析 和 其 他 语 言 处 理 任 务 在 我 们 的 事 故 预 测 解 决 方 案 中,OpenNLP 可 使 用 将 NLP 技 术 应 用 于 特 定 事 件 或 客 户 端, 收 集 输 入 信 息 到 词 袋 一 种 文 本 分 析 技 术 通 过 标 记 化 停 用 词 和 词 干 法,NLP 可 清 理 非 结 构 化 文 本, 以 便 将 数 据 再 作 进 一 步 处 理, 为 事 故 预 测 提 供 便 利 SQOOP* Sqoop 是 一 种 命 令 行 (command line) 界 面 应 用 程 序, 用 于 在 关 系 型 数 据 库 和 Hadoop 之 间 传 输 数 据 在 概 念 验 证 中, 我 们 使 用 了 Sqoop 将 RDBMS 中 的 历 史 数 据 传 输 至 Hadoop 集 群 我 们 面 临 的 一 个 挑 战 是,Sqoop 使 用 逗 号 作 为 分 隔 符 传 输 符 分 隔 文 本 被 特 定 字 符 分 隔 为 有 意 义 数 据 块 的 文 本 由 于 我 们 的 数 据 包 含 逗 号, 我 们 会 在 hive-delimsreplacement 选 项 中 使 用 \t 转 义 符 Sqoop 的 另 一 个 问 题 在 于 传 输 大 的 表 格 数 据 时 会 出 现 重 复 的 行 (row) 对 此, 我 们 会 增 加 一 个 压 缩 表 格 解 压 的 步 骤 数 据 可 视 化 解 决 方 案 数 据 可 视 化 软 件 提 供 必 要 的 treemap heatmap 和 其 他 可 视 化 工 具, 用 于 处 理 查 找 监 控 和 分 析 大 型 数 据 集 它 的 探 索 功 能 可 帮 助 问 题 管 理 员 深 入 获 取 外 部 的 更 多 详 情, 或 因 为 有 了 大 概 的 了 解, 发 现 以 前 不 为 人 知 的 趋 势 交 互 式 过 滤 器 支 持 他 们 将 不 相 关 的 数 据 和 内 容 从 分 析 中 删 除, 使 其 真 实 的 情 况 更 容 易 被 发 现 数 据 收 集 我 们 的 事 故 预 测 概 念 验 证 使 用 了 两 个 数 据 集 : 客 户 之 声 (voice of the customer, 简 称 VOC) 数 据, 包 含 英 特 尔 员 工 主 要 向 IT 帮 助 中 心 报 告 的 客 户 端 问 题 员 工 使 用 电 话 网 络 传 真 或 电 子 邮 件 提 供 问 题 的 资 料 机 器 之 声 (voice of the machine, 简 称 VOM) 数 据, 包 含 客 户 机 每 天 生 成 的 所 有 事 件 日 志 事 件 转 发 系 统 每 天 都 可 收 集 该 数 据 每 个 数 据 集 被 收 集 到 各 自 的 容 器 中, 后 者 再 将 数 据 传 送 至 用 于 关 联 二 者 的 事 故 预 测 解 决 方 案 架 构 此 处 的 相 似 之 处 为 两 个 数 据 集 都 基 于 文 本 用 户 表 述 他 们 的 问 题 时, 用 的 是 语 言 字 句 事 件 日 志 由 错 误 和 警 告 组 成, 它 们 包 含 代 码 和 基 于 文 本 的 描 述 内 容 该 内 容 可 描 述 客 户 端 系 统 上 的 特 定 应 用 在 特 定 时 间 发 生 了 什 么 对 于 用 户 而 言, 许 多 错 误 和 警 告 可 能 并 不 显 而 易 见 但 是, 从 应 用 程 序 没 有 响 应 到 系 统 出 现 问 题 或 者 崩 溃, 其 他 的 错 误 和 警 告 可 能 会 相 当 明 显 www.intel.com/cn/it 5

IT@Intel 白 皮 书 通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 事 件 机 器 之 声 事 故 客 户 之 声 词 袋 文 本 分 析 使 用 停 用 词 词 干 法 和 词 根 法, 将 句 子 转 化 为 标 记, 再 从 比 较 中 以 找 出 其 相 似 之 处 图 2. 为 了 将 事 件 ( 机 器 之 声 ) 与 事 故 ( 客 户 之 声 ) 进 行 相 互 匹 配, 此 次 概 念 验 证 采 用 了 词 袋 文 本 分 析 功 能 来 准 备 数 据, 以 便 于 发 现 其 相 似 之 处 大 数 据 文 本 分 析 过 去, 人 们 不 可 能 花 耗 时 间 来 手 动 分 类 和 解 释 VOM 数 据 中 包 含 的 数 亿 个 事 件 日 志 因 此, 查 找 那 些 与 客 户 报 告 的 事 故 相 关 的 并 且 它 们 同 样 适 用 于 其 他 事 故 可 用 于 预 测 未 来 事 故 的 事 件 等 活 动, 便 由 于 性 价 比 不 足 和 失 去 时 效 而 变 得 没 有 价 值 英 特 尔 IT 日 益 频 繁 地 使 用 大 数 据 平 台 梳 理 海 量 的 结 构 化 和 非 结 构 化 数 据, 以 便 为 英 特 尔 业 务 部 门 提 供 高 级 商 业 智 能 有 鉴 于 此, 我 们 也 开 始 考 虑 使 用 这 种 平 台 来 预 测 事 故 我 们 也 考 察 了 传 统 解 决 方 案, 如 RDBMS, 但 是 在 基 于 维 度 数 据 模 型 的 一 次 查 询 中, 就 花 了 32 个 小 时 我 们 还 考 察 了 跨 平 台 以 文 档 为 导 向 的 NoSQL 数 据 库 系 统 最 后, 考 虑 到 数 据 量 数 据 的 非 结 构 化 性 质 以 及 解 决 方 案 的 平 台 需 要 稳 定 运 行, 我 们 选 择 了 基 于 英 特 尔 发 行 版 的 Apache Hadoop 解 决 方 案 为 了 找 到 特 定 事 故 涉 及 的 VOC 和 VOM 数 据 的 关 系, 我 们 使 用 了 词 袋 模 型 这 种 处 理 自 然 语 言 和 检 索 信 息 的 简 化 技 术, 可 将 句 子 或 文 档 中 的 文 本 当 作 为 无 序 词 汇 集 合 来 处 理 无 论 语 法 和 词 序 如 何, 词 袋 技 术 都 会 专 注 于 当 前 的 词 汇, 并 可 能 考 虑 词 汇 的 出 现 频 率 等 条 件 在 词 袋 分 析 中, 所 有 句 子 首 先 通 过 标 记 化 转 化 为 词 汇 标 记 是 一 个 或 多 个 字 符 组 成 的 串 就 我 们 的 情 况 而 言, 它 指 组 成 词 汇 形 成 重 要 组 的 字 母 我 们 可 使 用 下 列 各 种 清 除 技 术 提 升 我 们 保 留 的 用 于 分 析 的 词 汇 质 量 : 停 用 词 停 用 列 表 用 于 从 文 本 中 删 除 与 上 下 文 不 相 关 或 不 够 具 体 的 各 种 词 根 根 据 停 用 列 表 待 删 除 的 词 汇 包 括 冠 词 ( 如 a 或 the) 介 词 ( 如 of 或 for) 指 示 词 ( 如 this 或 that) 另 外, 一 些 动 词 和 谓 语 被 认 为 无 关 紧 要 ( 如 have can may 和 would) 词 干 法 在 该 步 骤 中, 词 汇 被 简 化 为 词 干 或 曲 折 词 根 (inflectional root), 以 便 更 容 易 与 其 他 包 含 相 同 词 干 的 词 汇 匹 配 例 如, 包 含 相 同 词 干 的 名 词 和 动 词 ( 如 crash crashes crashed 和 crashing) 会 简 化 为 crash, 以 便 于 匹 配 词 根 法 在 某 些 情 况 下, 词 汇 无 需 经 过 词 干 法 处 理, 只 需 简 化 为 核 心 词 根 例 如,failure 这 类 词 汇 可 简 化 为 其 词 根 fail, 从 而 更 容 易 与 所 有 词 根 为 fail 的 词 汇 匹 配 在 应 用 上 述 文 本 分 析 技 术 之 前, 我 们 先 将 数 据 整 理 一 下, 具 体 做 法 是 搜 索 句 子 中 已 知 的 关 键 字 的 缩 写 词, 并 将 它 们 替 换 为 完 整 的 形 式, 以 改 进 分 析 结 果 例 如, 我 们 会 将 IE 替 换 为 Internet Explorer 为 了 将 事 件 模 式 与 客 户 端 事 故 进 行 匹 配, 我 们 根 据 其 独 特 的 名 称, 对 来 自 相 同 客 户 端 的 VOM 事 件 和 VOC 信 息 作 文 本 分 析 ( 见 图 2) 在 完 成 文 本 分 析 之 后, 我 们 采 用 了 一 种 基 于 Jaccard 相 似 系 数 用 于 比 较 两 个 数 据 集 相 似 点 和 多 样 化 的 统 计 数 值 的 算 法, 以 找 到 处 理 的 VOM 事 件 和 VOC 事 故 之 间 的 相 似 点 该 算 法 会 计 算 VOM 事 件 和 VOC 事 故 的 常 用 词 汇 的 数 量, 然 后 除 以 词 汇 总 数 6 www.intel.com/cn/it

通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 IT@Intel 白 皮 书 Jaccard 相 似 系 数 可 测 量 出 两 个 样 品 集 (A 和 B) 之 间 的 相 似 点, 具 体 方 法 是 将 交 集 的 大 小 ( 在 本 例 中 指 事 件 日 志 和 事 故 报 告 同 时 使 用 一 个 常 用 词 汇 的 次 数 ) 除 以 两 个 样 品 集 中 的 总 词 汇 数 J(A,B) = A B A B 该 算 法 可 过 滤 掉 所 有 相 似 指 标 小 于 可 调 阀 值 的 样 品 集 对, 提 供 最 佳 的 匹 配 结 果 : 事 故 和 关 联 的 症 状, 问 题 管 理 员 将 需 要 用 它 们 来 分 析 根 本 的 原 因 这 些 匹 配 结 果 还 能 帮 助 问 题 管 理 员 准 确 预 测 最 有 可 能 蔓 延 至 整 个 企 业 的 事 故 实 现 数 据 管 理 此 次 概 念 验 证 中 使 用 的 事 故 数 据, 来 源 于 我 们 历 时 5 年 从 IT 服 务 管 理 系 统 中 收 集 到 的 资 料 事 件 数 据 的 来 源 乃 过 去 约 6 个 月 内 从 Windows Event Framework 所 收 集 到 的 这 些 数 据 包 含 100 个 事 故 和 超 过 2.2 亿 个 事 件 我 们 可 使 用 事 件 ID 来 把 事 件 分 组 这 种 ID 是 一 种 独 特 的 标 识 符, 由 客 户 端 的 操 作 系 统 制 造 商 为 方 便 用 户 参 考 编 码 而 成 为 了 将 事 件 ID 的 数 量 减 少 到 可 管 理 的 水 平, 我 们 只 考 虑 至 少 包 含 1,000 个 实 例 的 事 件 ID, 因 此 数 据 集 包 含 的 事 件 数 量 仅 超 过 2200 万. 根 据 帕 累 托 原 则 ( 认 为 在 一 系 列 问 题 中, 约 80% 由 20% 的 原 因 所 造 成 ), 我 们 重 点 关 注 环 境 中 20% 的 事 件 ID( 见 图 3) 我 们 发 现, 超 过 80% 的 事 件 分 组 在 12 个 事 件 ID 中 将 事 件 分 组 为 症 状 为 了 降 低 问 题 的 复 杂 程 度 并 改 进 根 源 分 析, 我 们 使 用 了 名 为 症 状 的 分 组 概 念 这 一 概 念 可 帮 助 我 们 对 基 本 相 同 的 事 件 分 组 症 状 指 一 组 彼 此 相 同 的 单 个 事 件, 它 们 唯 一 的 不 同 之 处 在 于 记 录 的 时 间 和 日 期, 以 及 发 在 哪 个 客 户 端 上 我 们 将 XML 标 记 作 为 症 状 特 征 的 基 础, 因 为 所 有 的 事 件 数 据 都 为 XML 格 式, 而 且 XML 字 段 包 含 超 过 50 个 不 同 的 XML 标 记 或 列 (column), 因 特 定 事 件 ID 的 特 征 的 不 同 而 表 示 不 同 的 数 据 元 素 100 症 状 的 累 积 百 分 比 ( 按 事 件 ID) 注 : 并 未 列 出 所 有 的 100% 累 积 事 件 ID 80 60 累 积 频 率 40 20 0 20% 的 症 状 症 状 ( 事 件 ID) 图 3. 根 据 帕 累 托 原 则, 我 们 重 点 关 注 环 境 中 20% 的 事 件 ID( 蓝 色 条 ) 在 本 累 积 频 率 分 析 直 方 图 中, 从 左 至 右 我 们 会 看 到 累 积 的 百 分 比 总 数, 因 为 最 大 事 件 百 分 比 所 表 示 的 事 件 ID 被 添 加 至 事 件 百 分 比 第 二 大 的 事 件 ID 中, 以 此 类 推 根 据 我 们 的 结 果, 蓝 色 条 显 示 12 个 事 件 ID 总 共 表 示 80% 的 事 件 我 们 将 这 12 个 事 件 ID 作 为 初 步 工 作 的 重 点 www.intel.com/cn/it 7

IT@Intel 白 皮 书 通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 为 了 识 别 症 状, 我 们 获 得 了 问 题 管 理 员 的 专 业 帮 助 例 如, 对 于 事 件 ID 1000, 问 题 管 理 员 帮 助 我 们 翻 译 并 确 定 了 所 有 的 关 键 字 段 选 择 的 这 些 字 段 中 的 特 定 数 值 组 合 或 模 式 构 成 了 一 个 独 特 的 症 状 ( 见 图 4) 为 了 找 到 我 们 独 特 的 症 状 列 表, 我 们 使 用 了 12 个 select distinct 声 明, 其 中 每 一 个 都 针 对 12 个 事 件 ID 中 的 一 个, 这 些 ID 表 示 我 们 所 见 的 企 业 中 80% 的 事 件 Select distinct 声 明 是 应 用 于 忽 略 重 复 数 值 仅 列 出 不 同 数 值 的 表 格 的 命 令 该 流 程 让 我 们 能 够 识 别 新 事 件 中 的 新 症 状, 同 时 将 信 息 添 加 至 现 有 的 已 识 别 症 状 中 在 我 们 的 症 状 数 据 库 中, 该 表 格 每 天 都 会 得 到 更 新 我 们 将 症 状 概 念 应 用 至 2 亿 个 事 件 行 (5 个 月 的 事 件 数 ) 中, 事 件 分 组 变 为 更 易 于 管 理 症 状 数 低 于 145,000 的 数 据 集 一 旦 从 文 本 分 析 流 程 和 Jaccard 相 似 指 标 中 发 现 事 件 VOM 和 事 故 VOC 之 间 的 关 系, 我 们 就 会 适 应 相 同 的 指 标 过 滤 症 状, 以 找 到 其 与 事 故 之 间 的 相 似 点 该 步 骤 可 帮 助 我 们 判 断 症 状 对 于 事 故 有 多 重 要 然 后, 问 题 管 理 员 能 够 集 中 专 心 处 理 与 大 量 事 故 高 度 相 似 的 症 状 从 可 视 化 数 据 发 现 信 息 数 据 可 视 化 软 件 是 我 们 解 决 方 案 的 重 要 元 素, 能 够 提 供 一 种 快 速 准 确 的 方 式 查 看 和 解 释 数 据 如 果 没 有 这 种 可 视 化 工 具, 数 据 就 需 要 统 计 员 的 解 释 和 剖 析, 从 而 给 问 题 管 理 员 亲 自 分 析 造 成 了 障 碍 通 过 treemaps heatmaps 和 其 他 可 视 化 工 具, 我 们 的 数 据 可 视 化 解 决 方 案 能 够 帮 助 问 题 管 理 员 轻 松 处 理 过 滤 和 理 解 数 据, 识 别 最 可 能 帮 助 达 成 主 动 识 别 复 发 事 故 业 务 目 标 的 事 故 和 症 状 症 状 定 义 文 本 分 析 相 似 指 标 翻 译 并 定 义 事 件 ID 关 键 字 段 例 如 : 问 题 管 理 员 检 查 的 事 件 1000 20% 的 症 状 ( 按 事 件 ID) 注 : 累 积 频 率 高 于 80% 的 事 件 ID 未 列 出 事 件 机 器 之 声 事 故 客 户 之 声 症 状 相 对 事 故 的 重 要 100 80 重 要 事 件 升 至 顶 部 累 积 频 率 60 40 事 件 1000 重 要 程 度 20 0 30 847 25 1268 1000 30 11000 6444 527 9120 32 8642 症 状 ( 按 事 件 ID) 症 状 表 格 症 状 基 于 事 件 分 组 词 袋 文 本 分 析 使 用 停 用 词 词 干 法 和 词 根 法, 将 句 子 转 化 为 标 记 并 作 比 较, 以 找 出 其 相 似 之 处 症 状 Select Distinct 命 令 可 定 义 新 症 状 症 状 数 据 库 约 145,000 条 症 状 定 义 图 4. 我 们 的 解 决 方 案 包 括 将 具 有 相 似 特 征 的 事 件 分 组 为 症 状, 将 许 多 事 件 整 合 为 单 个 症 状, 创 建 了 更 易 于 管 理 的 数 据 集 在 文 本 分 析 阶 段, 我 们 计 算 事 故 和 事 件 之 间 的 相 似 点, 然 后, 使 用 相 似 点 根 据 关 联 事 故 的 数 量 判 断 症 状 有 多 重 要 8 www.intel.com/cn/it

通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 IT@Intel 白 皮 书 图 5 是 所 有 症 状 ( 按 应 用 ) 的 heatmap 视 图, 包 括 每 个 症 状 及 关 联 事 故 的 详 细 信 息 症 状 在 heatmap 上 命 令 的 框 越 大, 与 其 相 关 的 事 故 数 量 越 多 按 症 状 ID 系 统 制 造 商 客 户 端 名 称 操 作 系 统 版 本 地 理 位 置 和 其 他 重 要 信 息 将 数 据 分 类 这 可 以 帮 助 轻 松 找 到 一 种 关 系, 如 症 状 是 否 与 特 定 的 电 脑 型 号 相 关 ( 见 图 6) 问 题 管 理 员 可 将 数 据 过 滤, 以 确 定 哪 些 搭 载 特 定 处 理 器 的 电 脑 正 遭 遇 特 定 症 状 当 事 故 和 事 件 数 据 独 立 时, 很 难 找 出 这 种 关 联 但 是 现 在 我 们 使 用 事 故 预 测 模 型, 可 轻 松 对 这 类 相 关 点 转 为 可 视 化 的 报 告, 得 出 结 论, 并 采 取 相 应 的 措 施 进 一 步 研 究 可 以 得 出 事 故 详 情 事 故 与 事 件 基 于 Jaccard 相 似 系 数 的 相 似 程 度 非 常 高 (0.80) 这 意 味 着 事 故 和 事 件 使 用 了 常 用 词 汇 结 果 通 过 应 用 大 数 据 解 决 方 案 NLP 和 统 计 建 模, 我 们 的 客 户 端 事 故 预 测 概 念 验 证 证 明 有 能 力 预 测 到 在 随 后 的 28 天 内 20% 有 可 能 出 现 的 事 故 我 们 能 够 将 数 百 万 个 事 件 和 数 千 个 事 故 分 类, 在 预 测 未 来 事 故 方 面 的 准 确 程 度 可 实 现 78%, 从 而 有 望 为 英 特 尔 节 约 大 量 成 本 将 客 户 端 问 题 管 理 转 变 得 为 更 主 动, 能 够 将 问 题 管 理 员 每 周 面 对 的 事 故 的 当 前 基 准 减 少 约 20% 事 故 数 量 减 少 的 话, 员 工 的 工 作 效 率 获 得 提 升, 由 于 系 统 崩 溃 而 造 成 的 工 作 内 容 丢 失 的 次 数 下 降, 以 及 员 工 对 于 客 户 端 更 强 的 信 心, 都 有 助 于 实 现 更 大 价 值 关 于 事 故 预 测 准 确 程 度, 图 7 提 供 了 一 份 四 周 的 数 据 快 照, 该 快 照 被 用 于 预 测 在 随 后 四 周 会 出 现 的 事 故 此 次 概 念 验 证 预 测 会 发 生 150 个 事 故 事 实 上, 事 故 的 总 数 量 为 220 从 统 计 上 来 说,78% 的 准 确 度 ( 作 为 回 归 模 型 的 R 方 计 算 ) 被 认 为 非 常 接 近 预 测 值 图 5. Heatmap 症 状 视 图 ( 按 应 用 ) 包 含 每 个 症 状 及 相 关 事 故 的 详 细 信 息 症 状 在 heatmap 上 命 令 的 框 越 大, 与 其 相 关 的 事 故 数 量 越 多 图 6. 该 图 表 根 据 笔 记 本 电 脑 型 号 过 滤 得 出, 不 同 颜 色 表 示 与 特 定 症 状 相 关 的 型 号 进 一 步 研 究 事 故 详 情, 可 以 得 出 事 故 与 事 件 之 间 的 相 似 度 INC001246939 相 似 度 :0.80 型 号 性 能 图 表 600 症 状 完 美 模 型 500 400 预 测 数 量 300 200 100 0 0 100 200 300 400 500 600 实 际 数 量 图 7. 概 念 验 证 后 三 周 内 的 数 据 快 照 显 示 了 准 确 程 度 所 有 具 有 相 关 事 故 的 症 状 ( 图 表 中 的 每 个 点 ) 表 明, 预 测 结 果 和 每 个 症 状 实 际 相 关 的 事 故 的 实 际 数 量 比 较 接 近 www.intel.com/cn/it 9

IT@Intel 白 皮 书 通 过 大 数 据 预 测 分 析 减 少 客 户 端 事 故 如 果 问 题 管 理 员 每 周 都 针 对 我 们 的 系 统 所 预 测 的 事 故 实 施 解 决 方 案, 他 们 就 可 大 幅 度 减 少 报 告 给 帮 助 中 心 的 问 题 数 量 需 要 指 出 的 是, 此 次 概 念 验 证 中 最 耗 时 的 阶 段 为 数 据 准 备 在 该 项 目 中, 我 们 大 约 60-80% 的 工 作 都 用 于 理 解 数 据, 并 实 施 数 据 整 理 数 据 加 载 和 数 据 迁 移 这 些 任 务 完 成 之 后, 剩 下 的 工 作 只 需 要 很 少 的 管 理 时 间 后 续 步 骤 概 念 验 证 证 明 我 们 有 能 力 预 测 下 月 可 能 发 生 的 很 多 事 故, 而 且 相 当 准 确 为 了 进 一 步 增 强 我 们 主 动 管 理 事 故 预 测 的 能 力, 防 止 它 们 成 为 现 实, 我 们 将 采 取 下 列 步 骤 : 实 施 高 级 NLP 中 的 更 多 技 术, 令 文 本 分 析 模 型 更 为 可 靠, 以 便 更 高 效 计 算 事 故 与 事 件 之 间 的 相 似 点 根 据 预 测 到 的 事 故, 制 定 主 动 问 题 管 理 的 业 务 流 程 量 化 预 测 分 析 工 作 减 少 的 事 故 数 量, 评 估 改 进 效 果 和 价 值 开 发 并 发 的 统 计 模 型 和 算 法, 减 少 误 报 ( 模 型 表 述 错 误 的 事 故 和 事 件 相 关 ) 和 漏 报 ( 模 型 并 未 将 应 该 相 关 的 事 故 和 事 件 进 行 关 联 ), 再 作 进 一 步 分 析 结 论 专 为 问 题 管 理 而 设 的 客 户 端 事 故 预 测 为 服 务 台 提 供 了 预 测 分 析 功 能, 帮 助 他 们 在 解 决 客 户 端 问 题 方 面 从 被 动 变 为 主 动 获 得 客 户 端 事 故 预 测 的 能 力 可 帮 助 英 特 尔 IT 将 当 前 的 基 线 降 低 20% 这 意 味 着 每 年 的 事 故 量 可 减 少 约 20%, 有 力 地 帮 助 我 们 实 现 显 著 减 少 企 业 中 所 有 设 备 事 故 数 量 的 目 标 IT 服 务 管 理 的 共 同 目 标 是 英 特 尔 IT 也 不 例 外 确 保 相 同 的 事 故 不 会 再 次 发 生 发 生 一 次 是 事 故, 发 生 两 次 就 成 了 恶 性 循 环 了 我 们 使 用 全 新 的 大 数 据 技 术 高 级 文 本 分 析 功 能 预 测 分 析 功 能 和 数 据 可 视 化 工 具, 帮 助 问 题 管 理 员 预 测 客 户 端 问 题 查 找 问 题 根 源 并 在 问 题 扩 大 之 前 将 之 解 决 我 们 的 客 户 端 事 故 预 测 解 决 方 案 结 合 数 据 挖 掘 和 预 测 分 析 功 能, 可 帮 助 我 们 从 曾 经 基 本 被 忽 视 的 数 据 中 获 取 重 要 价 值 这 类 数 据 可 帮 助 我 们 及 时 解 决 众 多 客 户 端 问 题, 以 免 影 响 用 户 工 作 效 率 通 过 将 英 特 尔 发 行 版 Java Hive 和 NoSQL 工 具 与 预 测 分 析 算 法 结 合 使 用, 我 们 将 有 望 在 数 据 日 志 中 挖 掘 到 有 益 于 许 多 其 他 数 据 类 型 的 价 值 我 们 期 望 该 解 决 方 案 能 够 全 面 或 部 分 应 用 于 英 特 尔 制 造 供 应 链 营 销 市 场 研 究 和 其 他 运 营 环 节 相 关 信 息 如 欲 查 找 相 关 主 题 的 内 容, 请 访 问 : www.intel.com/cn/it 通 过 主 动 问 题 管 理 来 提 高 客 户 端 的 稳 定 度 英 特 尔 IT 部 门 实 施 Apache Hadoop* 软 件 的 最 佳 实 践 如 欲 了 解 有 关 英 特 尔 IT 部 门 最 佳 实 践 的 更 多 信 息, 请 访 问 : www.intel.com/cn/it 缩 写 词 JAR NLP PoC Java 归 档 自 然 语 言 处 理 概 念 验 证 RDBMS 关 系 型 数 据 库 管 理 系 统 VOC VOM 客 户 之 声 机 器 之 声 本 文 旨 在 提 供 一 般 的 信 息, 并 非 特 定 指 南 建 议 ( 包 括 潜 在 的 节 约 成 本 ) 基 于 英 特 尔 的 经 验, 而 且 仅 为 估 值 英 特 尔 不 保 证 或 担 保 他 人 会 得 出 类 似 结 果 本 文 件 中 包 含 关 于 英 特 尔 产 品 的 信 息 本 文 件 不 构 成 对 任 何 知 识 产 权 的 授 权, 包 括 明 示 的 暗 示 的, 也 无 论 是 基 于 禁 止 反 言 的 原 则 或 其 他 除 相 关 产 品 的 英 特 尔 销 售 条 款 与 条 件 中 列 明 之 担 保 条 件 以 外, 英 特 尔 公 司 不 对 销 售 和 / 或 使 用 英 特 尔 产 品 做 出 其 它 任 何 明 确 或 隐 含 的 担 保, 包 括 对 适 用 于 特 定 用 途 适 销, 或 不 侵 犯 任 何 专 利 版 权 或 其 它 知 识 产 权 的 担 保 英 特 尔 和 Intel 标 识 是 是 英 特 尔 在 美 国 和 / 或 其 他 国 家 的 商 标 * 其 他 的 名 称 和 品 牌 可 能 是 其 他 所 有 者 的 资 产 英 特 尔 公 司 2013 年 版 权 所 有 所 有 权 保 留 请 注 意 环 保 1213/ACHA/KC/PDF 329829-001