白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

Similar documents
Reducing Client Incidents through Big Data Predictive Analytics

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

合集

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

Azure_s

白皮书 英特尔 IT Apache Hadoop* 英特尔分发版软件的最佳实践 目录 业务挑战 要点概述... 1 业务挑战... 2 Hadoop* 分发版注意事项... 3 Hadoop* 基础架构注意事项... 4 数据集成注意事项... 4 解决方案... 4 选择 Had

An ERP Platform Strategy Based on Industry-standard Servers

GBase 8a 案 例 集, 天 津 南 大 通 用 数 据 技 术 股 份 有 限 公 司 GBASE 版 权 所 有 2016, 保 留 所 有 权 利 如 果 通 过 本 文 的 介 绍, 使 您 了 解 GBase 8a 恰 是 您 巟 作 中 需 要 的 数 据 库 产 品, 戒 者 是

专科疾病诊治(二十)

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

自由軟體社群發展經驗與 Linux認證介紹

云 计 算 集 群 架 构 师 高 居 服 务 器 / 系 统 / 运 维 / 架 构 职 业 方 向 的 塔 尖 在 最 活 跃 的 移 动 互 联 网 时 代, 云 端 架 构 师 年 薪 普 遍 超 过 25 万 九 年 三 万 多 名 高 端 学 员, 全 国 唯 一 的 自 主 高 端 成

Microsoft Word - PKUCS计算机教育 doc

2013_6_3.indd

目 录 第 一 部 分 本 科 教 育 基 本 情 况... 1 一 学 校 办 学 定 位... 1 二 本 科 人 才 培 养 目 标 及 服 务 面 向... 2 三 教 学 工 作 中 心 地 位 落 实 情 况 领 导 认 识 到 位 教 学 投 入 到 位

温州市政府分散采购

(DMO) 1 1 Microsoft Windows SQL Server 2005 SQL Server Analysis ServicesNotification Services SQL Server 8 SQL Server IP SQL Server 2005 SQL Server 20

小儿疾病防治(四).doc

目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..

經濟統計資料庫管理資訊系統

国 家 图 书 馆 年 鉴 0 重 点 文 化 工 程 一 中 华 古 籍 保 护 计 划 0 年, 国 家 图 书 馆 ( 国 家 古 籍 保 护 中 心 ) 根 据 文 化 部 要 求, 围 绕 习 近 平 总 书 记 关 于 弘 扬 中 华 优 秀 传 统 文 化 系 列 讲 话 精 神, 对

02 责任编辑 张晋芬 2 16:06:31

BYOD IP+Optical (IP NGN) API 4. End-to-End (Service Aware) 5. IP NGN (IP Next Generation Network) ( ) Prime Carrier Management Access Edge Co

untitled

V A. 1 Hyper-V R2 V C. A. Hyper-V B. Microsoft SCOM 20 V C. MAP D. Microsoft SCVMM 2008 V B. V D. 2. IT IT 2

Microsoft Word _4

郑州大学(下).doc

厨房小知识(六)

广 东 纺 织 职 业 技 术 学 院 发 展 党 员 公 示 制 实 施 办 法 关 于 推 荐 优 秀 团 员 作 为 党 的 发 展 对 象 工 作 的 意 见 后 勤 管 理 工 作 广 东 纺 织 职 业 技 术 学 院 新 引 进 教 职 工 周 转 房 管 理


游戏攻略大全(五十).doc

金融英语证书考试大纲


健康知识(二)

中南财经大学(二).doc

广西大学(一).doc

根据学校教学工作安排,2011年9月19日正式开课,也是我校迁址蓬莱的第一学期开学

山东大学(一).doc

2

主 编 : 杨 林 副 主 编 : 张 新 民 邹 兰 曹 纯 纯 周 秋 婷 李 雅 清 黄 囡 囡 评 审 顾 问 : 杨 林 张 新 民 评 审 : 张 新 民 邹 兰 曹 纯 纯 周 秋 婷 李 雅 清 黄 囡 囡 李 忆 萍 徐 如 雪 文 字 编 辑 : 曹 纯 纯 邹 兰 李 雅 清

最新文物管理执法全书(十四).doc

园林常识(二).doc

前 言 二 一 六 年 四 月 四 日, 兒 童 節, 誕 生 了 一 件 美 事 : 中 國 作 家 曹 文 軒 在 意 大 利 博 洛 尼 亞 國 際 童 書 展 榮 獲 國 際 安 徒 生 文 學 獎, 是 該 獎 創 設 六 十 年 來, 第 一 位 摘 桂 的 中 國 作 家, 意 義 重

湖 南 科 技 大 学

上海外国语大学(二).doc

2009 陳 敦 德

切 实 加 强 职 业 院 校 学 生 实 践 能 力 和 职 业 技 能 的 培 养 周 济 在 职 业 教 育 实 训 基 地 建 设 工 作 会 议 上 的 讲 话 深 化 教 育 教 学 改 革 推 进 体 制 机 制 创 新 全 面 提 高 高 等 职 业 教 育 质 量 在

鸽子(三)

兽药基础知识(四)

园林植物卷(十).doc

园林植物卷(十七).doc

临床手术应用(三)

家装知识(二十)

医疗知识小百科

家庭万事通(一)

家装知识(三)

园林绿化(一)

园林植物卷(十五).doc

最新监察执法全书(一百五十).doc

兽药基础知识(三)

奥运档案(四).doc

最新监察执法全书(五十).doc

最新执法工作手册(三百八十四)

中华美食大全4

动物杂谈_二_.doc

抗非典英雄赞歌(三)

新时期共青团工作实务全书(三十五)

经济法法律法规第十九卷

游戏攻略大全(五十九).doc

火灾安全实例

兽药基础知识(七)

实用玉米技术(二)

中国政法大学(一).doc

水产知识(一)

招行2002年半年度报告全文.PDF

(Microsoft Word - outline for Genesis 9\243\2721\243\25529.doc)

穨Shuk-final.PDF

2

國立中山大學學位論文典藏.PDF

Microsoft Word mpc-min-chi.doc

( ) 1

穨cwht.PDF

900502_Oasis.indb

bnb.PDF

untitled

Microsoft Word - om388-rnt _excl Items 16 & 38_ _final_for uploading_.doc

% 25% (i) 95% 96,290,900 (ii) 99.9% 17,196,000 (iii) 99.9% 89,663,100 2

¨Æ·~½g¡ã¾·~¤ÀÃþ

公務員懲戒法實務及新制

大小通吃-糖尿病


98825 (Project Sunshine) Chi_TC_.indb

游戏攻略大全(五十二).doc

游戏攻略大全(五十一).doc

WP_ARIS_PPM_CN.PDF

ù °¨ ®Ñ ²Ä Á¿

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

<4D F736F F D20CEF7B2D8B4F3D1A7B1BEBFC6BDCCD1A7B9A4D7F7CBAEC6BDC6C0B9C0D7D4C6C0B1A8B8E62E646F63>

Transcription:

IT@Intel 白 皮 书 英 特 尔 IT 部 门 大 数 据 和 商 业 智 能 2013 年 10 月 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 要 点 概 述 仅 在 五 周 之 内, 我 们 就 实 施 了 基 于 Apache Hadoop* 英 特 尔 分 发 版 的 低 成 本 可 完 全 实 现 的 大 数 据 平 台, 这 为 英 特 尔 带 来 了 价 值 数 百 万 美 元 的 BI 成 果 Ajay Chandramouly 英 特 尔 IT 部 门 大 数 据 领 域 负 责 人 Sonja Sandeen 英 特 尔 IT 部 门 大 数 据 产 品 经 理 Chandhu Yalla 英 特 尔 IT 部 门 大 数 据 工 程 经 理 Yatish Goel 英 特 尔 IT 部 门 BI 技 术 集 成 人 员 在 认 识 到 大 数 据 对 于 商 业 智 能 (business intelligence, 以 下 简 称 BI) 的 价 值 后, 英 特 尔 于 2011 年 开 始 研 发 基 于 Apache Hadoop* 开 源 软 件 框 架 的 大 数 据 平 台 在 收 到 多 家 厂 商 的 产 品 分 析 和 技 术 评 估 报 告 后, 我 们 仅 仅 在 五 周 之 内 就 实 施 完 成 了 基 于 Apache Hadoop* 英 特 尔 分 发 版 (Intel Distribution) 的 低 成 本 可 完 全 实 现 的 大 数 据 平 台 该 平 台 目 前 支 持 三 个 使 用 案 例 ( 更 多 使 用 案 例 正 在 开 发 中 ), 为 英 特 尔 带 来 了 价 值 数 百 万 美 元 的 BI 成 果 我 们 发 现, 为 实 施 Hadoop* 选 择 的 硬 全 面 和 我 们 的 现 有 BI 环 境, 以 及 安 全 件 网 络 和 软 件 都 会 对 性 能 总 体 拥 有 管 理 和 分 析 工 具 集 成 成 本 和 投 资 回 报 产 生 显 著 影 响 要 获 得 为 未 来 添 加 更 加 经 济 高 效 灵 活 和 可 扩 展 最 高 价 值 的 话, 我 们 需 要 将 经 济 高 效 的 的 大 数 据 平 台 制 定 了 可 再 用 的 实 施 指 南 基 础 架 构 与 性 能 优 化 过 的 Hadoop* 分 发 版 进 行 组 合 要 实 现 最 高 性 能 的 话, 则 本 白 皮 书 介 绍 了 英 特 尔 IT 部 门 快 速 实 需 要 实 施 最 高 效 的 数 据 传 输 及 多 个 集 成 施 其 首 个 大 数 据 Hadoop 平 台 的 情 况, 方 法 这 些 集 成 方 法 涵 盖 了 现 有 的 企 业 某 些 决 策 和 优 化 的 初 衷, 以 及 头 三 个 使 BI 平 台, 已 经 选 定 的 Hadoop* 平 台 和 一 用 案 例 所 取 得 的 成 果 未 来, 我 们 有 望 系 列 的 流 程 这 些 流 程 确 保 了 在 多 租 户 加 大 对 Hadoop 平 台 的 使 用, 以 满 足 新 环 境 中 实 现 最 佳 的 使 用 效 果 使 用 案 例 的 要 求, 提 升 英 特 尔 的 运 营 效 率 市 场 覆 盖 范 围 和 业 绩 从 研 究 和 优 化 工 作 中, 我 们 在 实 施 选 定 的 Hadoop* 时 获 得 以 下 收 益 : 通 过 一 个 设 计 来 运 行 在 最 新 英 特 尔 架 构 上 的 解 决 方 案 而 获 得 高 性 能 和 高 价 值 Nghia Ngo 英 特 尔 IT 部 门 大 数 据 性 能 工 程 师 Darin Watson 英 特 尔 IT 部 门 平 台 工 程 师

IT@Intel 白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项...4 数 据 集 成 注 意 事 项...4 解 决 方 案...4 选 择 Hadoop* 分 发 版...5 为 高 度 可 用 而 设 计...6 选 择 并 构 建 基 础 架 构 ( 服 务 器 网 络 和 机 架 设 计 )...6 实 施 数 据 安 全 和 文 件 管 理...7 设 置 访 问 管 理...7 支 持 数 据 与 现 有 的 商 业 智 能 环 境...7 实 施 流 程 变 更...8 成 果...9 三 个 大 数 据 使 用 案 例 及 其 估 值...9 结 论...10 业 务 挑 战 在 数 据 极 大 丰 富 的 时 代, 英 特 尔 等 广 大 企 业 需 要 通 过 对 数 据 的 收 集 分 类 和 分 析 才 能 实 现 可 执 行 的 商 业 智 能 (BI), 发 挥 数 据 的 真 正 价 值 在 认 识 到 有 必 要 将 大 数 据 功 能 添 加 至 我 们 的 BI 业 务 后, 英 特 尔 IT 部 门 组 建 了 一 个 团 队 来 评 估 几 种 Apache Hadoop* 分 发 版, 并 考 虑 实 施 哪 个 选 项 我 们 的 目 标 是 在 十 周 或 更 短 的 时 间 内 交 付 一 个 供 实 际 工 作 环 境 使 用 平 台 如 图 1 所 示, 英 特 尔 的 大 数 据 平 台 包 括 三 个 组 件 : 大 规 模 并 行 处 理 (massively parallel processing, 以 下 简 称 MPP) 平 台 与 用 于 处 理 在 线 交 易 的 传 统 业 务 分 析 解 决 方 案 不 同, MPP 平 台 用 于 大 规 模 分 析 MPP 平 台 使 用 基 于 英 特 尔 至 强 处 理 器 E7 家 族 的 刀 片 服 务 器 我 们 使 用 MPP 平 台, 需 要 以 低 于 企 业 数 据 仓 库 的 使 用 成 本 来 获 得 高 性 能 Apache Hadoop* 英 特 尔 分 发 版 (Intel Distribution) 我 们 之 所 以 选 择 英 特 尔 分 发 版, 是 因 为 它 能 够 处 理 连 接 条 件 未 知 且 以 识 别 模 式 为 目 标 的 海 量 可 变 多 维 非 结 构 化 数 据 英 特 尔 分 发 版 是 使 用 基 于 英 特 尔 至 强 处 理 器 E5-2600 产 品 家 族 的 工 业 标 准 服 务 器 所 构 建 预 测 分 析 引 擎 我 们 开 发 该 引 擎 的 目 的 在 于 通 过 实 时 持 续 的 预 测 分 析 提 供 信 息 和 洞 察 为 确 保 从 一 开 始 就 获 得 令 人 满 意 的 投 资 回 报 (return of investment, 以 下 简 称 ROI), 我 们 以 三 个 需 要 大 数 据 平 台 的 使 用 案 例 作 为 目 标 : 上 下 文 推 荐 事 件 预 测 和 web 分 析 我 们 的 战 略 是 从 小 做 起, 尽 量 降 低 成 本 同 时 改 善 解 决 方 案 三 个 可 供 考 虑 的 使 用 案 例 有 助 于 确 保 我 们 设 计 出 能 够 处 理 各 种 数 据 类 型 在 未 来 更 易 于 适 合 其 他 使 用 案 例 的 平 台 更 多 信 息...10 缩 写 词...10 预 测 分 析 引 擎 内 部 开 发 支 持 实 时 持 续 的 预 测 服 务 英 特 尔 至 强 处 理 器 E7 家 族 IT@INTEL IT@Intel 计 划 将 全 球 各 地 的 IT 专 业 人 员 及 其 在 我 们 机 构 中 的 同 仁 紧 密 联 系 在 一 起, 共 同 分 享 经 验 教 训 方 法 和 战 略 我 们 的 目 标 十 分 简 单 : 分 享 英 特 尔 IT 部 门 最 佳 实 践, 获 得 业 务 价 值 并 实 现 IT 竞 争 优 势 如 欲 了 解 更 多 信 息, 请 访 问 www.intel.com/cn/it 或 联 系 您 当 地 的 英 特 尔 代 表 MPP 平 台 第 三 方 解 决 方 案 比 传 统 系 统 快 100 倍 基 于 英 特 尔 至 强 处 理 器 E7 家 族 的 刀 片 服 务 器 可 轻 松 扩 展 图 1. 英 特 尔 的 大 数 据 平 台 包 括 三 个 组 件 : 大 规 模 并 行 处 理 (MPP) 平 台, Apache Hadoop* 英 特 尔 分 发 版 和 预 测 分 析 引 擎 Apache Hadoop* 英 特 尔 分 发 版 基 于 Apache Hadoop* 针 对 英 特 尔 至 强 处 理 器 固 态 盘 和 10 GbE 进 行 了 优 化 ( 高 达 20 倍 的 性 能 提 升 ) 分 布 式 文 件 系 统 可 线 性 扩 展 包 括 HBase* NoSQL 数 据 库 2 www.intel.com/cn/it

英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 IT@Intel 白 皮 书 熟 练 管 理 开 源 开 发 和 支 持 是 我 们 在 初 期 面 临 的 主 要 挑 战 习 惯 了 使 用 关 系 数 据 库 语 言 和 传 统 序 列 算 法 的 英 特 尔 IT 部 门 应 用 开 发 人 员, 必 须 学 会 在 Java* 中 编 写 MapReduce* 代 码 和 使 用 分 布 式 算 法 这 些 技 能 虽 不 是 本 白 皮 书 的 主 题, 但 对 大 数 据 平 台 的 实 施 却 很 重 要, 在 我 们 的 发 现 流 程 和 实 施 过 程 中 得 到 了 有 效 利 用 虽 然 许 多 领 先 的 互 联 网 公 司 已 率 先 使 用 了 大 数 据 平 台 并 因 此 获 得 了 出 色 价 值, 但 对 于 很 多 企 业 来 说, 大 数 据 处 理 仍 然 是 新 事 物 随 着 人 们 对 大 数 据 平 台 的 兴 趣 日 益 浓 厚, 用 于 实 施 大 数 据 平 台 的 产 品 也 变 得 日 益 复 杂 和 多 样 我 们 认 为 IT 部 门 有 必 要 评 估 Hadoop 分 发 版 基 础 架 构 需 求 和 数 据 集 成 技 术, 以 确 保 交 付 可 带 来 最 高 投 资 回 报 的 平 台 Hadoop* 分 发 版 注 意 事 项 Hadoop* 是 Apache 软 件 基 金 会 的 一 个 顶 级 开 源 项 目 英 特 尔 等 多 家 供 应 商 提 供 自 己 的 商 用 Hadoop 分 发 版, 将 基 本 软 件 堆 栈 与 诸 如 Apache Hive* Apache Pig* 和 Apache Sqoop* 等 其 它 Hadoop 软 件 项 目 作 组 合 这 些 分 发 版 必 须 与 数 据 仓 库 数 据 库 以 及 其 它 数 据 管 理 产 品 相 集 成, 使 数 据 可 在 Hadoop 集 群 和 其 它 环 境 之 间 迁 移, 以 扩 展 的 需 要 来 处 理 或 查 询 的 数 据 池 Apache Hadoop 软 件 的 英 特 尔 分 发 版 Hadoop 环 境 的 设 置 对 于 从 其 余 硬 件 和 软 件 获 得 全 部 优 势 至 关 重 要 Apache Hadoop* 英 特 尔 分 发 版 (Intel Distribution) 包 括 Apache Hadoop* 和 其 它 经 英 特 尔 优 化 以 充 分 利 用 硬 件 增 强 型 性 能 和 安 全 功 能 的 软 件 组 件 英 特 尔 分 发 版 是 一 款 开 源 软 件 产 品, 用 于 在 Apache Hadoop 上 支 持 大 量 数 据 分 析 它 针 对 Apache Hive* 查 询 进 行 了 优 化, 可 为 开 源 R* 统 计 编 程 语 言 提 供 连 接 器, 并 支 持 使 用 Intel Graph Builder for Apache Hadoop* 软 件 一 种 函 数 库, 可 将 大 型 数 据 集 构 建 到 图 形 中, 以 便 显 示 数 据 之 间 的 关 系 进 行 图 形 分 析 英 特 尔 分 发 版 中 附 带 的 Intel Manager for Apache Hadoop* 软 件 提 供 了 一 种 管 理 控 制 台, 可 用 于 简 化 Hadoop* 的 部 署 配 置 和 监 控 英 特 尔 分 发 版 已 在 全 球 范 围 内 发 布 以 供 用 户 评 估 主 要 特 性 : 通 过 针 对 英 特 尔 至 强 处 理 器 和 英 特 尔 10 GbE 服 务 器 以 太 网 适 配 器 进 行 优 化 来 提 升 Hadoop 性 能 通 过 HBase* 在 Hadoop 分 布 式 文 件 系 统 (Hadoop Distributed File System* 以 下 简 称 HDFS) 之 上 运 行 的 开 源 非 相 关 性 分 布 式 数 据 库 提 供 可 支 持 单 元 级 的 基 于 角 色 的 访 问 控 制 借 助 HBase 和 HDFS 实 现 多 个 站 点 的 扩 展 和 自 适 应 的 数 据 复 制 英 特 尔 分 发 版 的 Hive 查 询 性 能 和 开 源 Hive 对 比 获 得 了 高 达 3.5 倍 的 提 升 具 有 R 编 程 语 言 连 接 器, 支 持 统 计 分 析 通 过 Intel Graph Builder for Apache Hadoop 软 件 进 行 图 形 分 析 为 找 到 最 符 合 我 们 目 标 的 分 发 版,BI 大 数 据 项 目 团 队 选 择 了 三 种 Hadoop 分 发 版 作 出 评 估, 使 用 一 套 明 确 的 评 估 标 准 将 英 特 尔 分 发 版 与 另 外 两 种 Hadoop 分 发 版 进 行 对 比, 该 套 标 准 包 括 以 下 内 容 : www.intel.com/cn/it 3

IT@Intel 白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 整 体 平 台 架 构, 包 括 安 全 集 成 高 度 可 用 和 多 租 户 支 持 应 用 架 构 和 功 能, 包 括 与 提 取 - 转 换 - 加 载 (extract-transform-load, 以 下 简 称 ETL) 工 具 机 器 学 习 和 数 据 挖 掘 库 Mahout*, 以 及 基 于 R 的 数 据 管 理 和 分 析 收 集 (RHadoop*) 的 集 成 优 化 平 台 硬 件 功 能 的 能 力 管 理 和 运 行, 包 括 升 级 供 应 和 配 置 管 理 供 应 商 支 持 Hadoop* 基 础 架 构 注 意 事 项 Hadoop 框 架 通 常 在 使 用 标 准 硬 件 构 建 的 大 型 服 务 器 集 群 上 执 行 并 行 处 理, 以 提 供 经 济 高 效 的 高 性 能 分 析 平 台 为 取 得 高 投 资 回 报, 英 特 尔 IT 部 门 找 到 了 一 种 服 务 器 - 机 架 设 计, 它 可 让 我 们 选 择 的 Hadoop 分 发 版 经 济 高 效 地 运 行, 并 提 供 硬 件 辅 助 的 信 息 安 全 技 术 我 们 还 想 选 择 并 实 施 网 络 和 存 储 解 决 方 案, 后 者 能 够 处 理 BI 使 用 案 例 的 结 构 化 和 多 结 构 化 数 据, 同 时 实 现 出 色 的 数 据 传 输 速 度 可 扩 展 功 能 和 数 据 安 全 数 据 集 成 注 意 事 项 为 将 数 据 从 我 们 的 三 种 使 用 案 例 输 入 到 大 数 据 平 台 并 将 该 平 台 与 我 们 现 有 的 BI 环 境 进 行 集 成, 我 们 需 要 确 定 一 种 数 据 集 成 方 法 在 大 数 据 的 多 结 构 化 领 域 中, 我 们 的 目 标 是 从 源 中 提 取 数 据, 并 快 速 高 效 地 将 该 原 始 数 据 加 载 到 大 数 据 容 器 大 数 据 引 擎 的 分 布 式 计 算 和 存 储 功 能 用 于 执 行 数 据 转 换, 并 运 行 可 将 海 量 数 据 压 缩 为 有 效 汇 总 结 果 的 算 法 例 如,MapReduce 是 一 种 数 据 压 缩 算 法 ETL 工 具 可 将 数 据 从 源 迁 移 至 目 标 由 于 没 有 单 一 的 ETL 工 具 可 满 足 英 特 尔 的 多 样 化 业 务 和 项 目 要 求, 英 特 尔 IT 部 门 进 行 了 全 面 研 究, 列 出 了 可 供 考 虑 的 工 具, 我 们 随 后 评 估 了 测 试 案 例 场 景 中 选 择 的 工 具 ETL 工 具 注 意 事 项 包 括 成 本 性 能 与 环 境 的 集 成 容 易 使 用 大 数 据 功 能 元 数 据 管 理 代 码 移 植 支 持 及 其 它 因 素 解 决 方 案 英 特 尔 IT 部 门 的 从 小 做 起 战 略 为 我 们 提 供 了 一 种 迭 代 灵 活 的 方 案 我 们 与 英 特 尔 IT 部 门 BI 团 队 及 其 他 事 业 部 通 力 协 作, 仅 仅 在 五 周 内 就 设 计 和 实 施 了 一 种 16 台 服 务 器 192 个 内 核 的 Hadoop 平 台, 包 括 所 有 软 件 和 数 据 集 成 解 决 方 案 为 了 实 现 最 佳 的 投 资 回 报, 该 团 队 被 指 派 开 发 一 个 可 满 足 我 们 当 前 和 可 预 见 未 来 需 求 的 平 台 设 计 和 架 构 在 这 五 周 的 时 间 内, 我 们 实 施 和 测 试 了 平 台 设 计, 将 它 部 署 于 企 业, 并 再 作 优 化 和 在 线 运 行 专 门 为 三 个 预 期 使 用 案 例 量 身 定 制 解 决 方 案 可 帮 助 我 们 快 速 迁 移, 并 降 低 资 金 风 险 我 们 提 供 了 一 种 可 扩 展 的 平 台, 它 能 够 满 足 不 断 变 化 的 需 求, 适 应 未 来 的 其 他 使 用 案 例 我 们 先 选 择 Hadoop 分 发 版 基 础 架 构 和 数 据 集 成 方 法, 再 实 施 该 解 决 方 案 ( 见 图 2), 这 种 顺 序 对 于 未 来 开 展 工 作 具 有 重 要 的 实 施 程 序 指 导 价 值 选 择 使 用 案 例 选 择 特 定 的 业 务 使 用 案 例 来 设 计 解 决 方 案 选 择 Apache Hadoop* 分 发 版 为 高 度 稳 定 而 设 计 选 择 硬 件 并 构 建 基 础 架 构 实 施 数 据 安 全 和 文 件 管 理 设 置 访 问 管 理 支 持 与 现 有 BI 环 境 进 行 数 据 集 成 流 程 变 更 上 线 实 施 实 际 项 目, 开 始 实 现 业 务 价 值 图 2. 英 特 尔 IT 部 门 为 指 定 和 实 施 Apache Hadoop* 分 发 版 所 采 取 的 步 骤, 对 于 未 来 实 施 Hadoop 具 有 重 要 的 实 施 程 序 指 导 价 值 4 www.intel.com/cn/it

英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 IT@Intel 白 皮 书 选 择 Hadoop* 分 发 版 我 们 测 试 了 三 个 Hadoop 分 发 版, 只 有 专 为 在 英 特 尔 架 构 服 务 器 上 运 行 而 设 计 的 英 特 尔 分 发 版 满 足 所 有 要 求, 且 不 存 在 重 大 问 题 而 且, 它 可 在 支 持 充 分 利 用 最 新 硬 件 增 强 型 功 能 的 开 放 平 台 上 不 断 提 供 创 新 机 会 部 署 在 我 们 的 硬 件 平 台 上, 英 特 尔 分 发 版 可 提 供 以 下 优 势 : 相 比 传 统 基 础 架 构 的 性 能 提 升 ( 借 助 针 对 英 特 尔 至 强 处 理 器 和 10 GbE 网 络 实 施 的 Hadoop 优 化 ) 能 供 未 来 使 用 的 设 计, 集 成 功 能 支 持 下 一 代 分 析 可 视 化 和 硬 件 解 决 方 案 英 特 尔 供 应 商 提 供 的 企 业 级 支 持 和 服 务 如 图 3 所 示, 英 特 尔 分 发 版 是 一 套 全 面 的 解 决 方 案, 包 含 源 自 Apache Hadoop 开 源 项 目 的 完 整 分 发 版 MapReduce Hadoop 分 布 式 文 件 系 统 *(HDFS) 以 及 Hive* 数 据 仓 库 基 础 架 构 和 Pig 数 据 流 语 言 等 相 关 组 件 ( 见 表 1) 英 特 尔 分 发 版 还 支 持 Apache Mahout( 一 种 机 器 学 习 库, 具 有 MapReduce 算 法 和 Intel Graph Builder for Apache Hadoop* 软 件 ) 预 集 成 的 解 决 方 案 元 素 可 简 化 部 署 和 管 理, 缩 短 上 市 时 间 这 些 元 素 有 助 于 尽 量 减 少 培 训 和 资 金 投 资 连 接 器 摄 取 分 析 视 觉 化 Sqoop* 数 据 交 换 Flume* 日 志 采 集 器 ZooKeeper* 协 调 英 特 尔 专 有 贡 献 至 开 源 社 区 的 英 特 尔 增 强 组 件 未 做 任 何 变 更 的 开 源 组 件 Oozie* 工 作 流 Intel Manager for Apache Hadoop* 软 件 部 署 配 置 监 控 告 警 和 信 息 安 全 Pig* 编 写 脚 本 Mahout* 机 器 学 习 MapReduce* 分 布 式 处 理 框 架 Hadoop 分 布 式 文 件 系 统 * Hive* SQL 查 询 HBase* 列 存 储 图 3. Apache Hadoop* 软 件 的 英 特 尔 分 发 版 提 供 了 一 套 大 数 据 平 台 部 署 配 置 管 理 和 保 护 的 全 面 解 决 方 案 表 1. 大 数 据 平 台 软 件 设 计 组 件 功 能 组 件 Intel Manager for Apache Hadoop* 软 件 Hadoop 分 布 式 文 件 系 统 *(HDFS) MapReduce* HBase* Hive* 功 能 一 种 管 理 控 制 台, 可 简 化 Apache Hadoop 的 部 署 配 置 和 监 控 针 对 Apache Hadoop* 软 件 的 英 特 尔 分 发 版 中 的 意 外 事 件 和 故 障, 它 支 持 自 动 化 配 置 告 警 和 响 应 一 种 分 布 式 可 扩 展 基 于 Java* 的 文 件 系 统, 能 够 为 海 量 非 结 构 化 数 据 提 供 存 储 层 一 种 软 件 框 架, 该 框 架 还 可 提 供 Reduce 函 数 以 汇 总 Map 结 果, 为 查 询 确 定 答 案 NoSQL 数 据 库, 支 持 在 Hadoop 中 快 速 进 行 低 延 迟 查 找 它 可 将 交 易 功 能 添 加 至 Hadoop, 帮 助 用 户 更 新 加 插 和 删 除 基 于 Hadoop 数 据 仓 库 类 框 架, 支 持 用 户 以 类 似 SQL 语 言 ( 称 为 HiveQL) 写 入 查 询 内 容, 该 内 容 随 后 会 转 换 为 MapReduce Oozie* Pig* Mahout* Oozie 是 一 种 工 作 流 调 度 程 序 系 统, 用 于 借 助 可 运 行 MapReduce 和 Pig 任 务 的 操 作 管 理 Hadoop 工 作 流 任 务 基 于 Hadoop 的 语 言, 相 对 易 于 学 习, 适 用 于 极 深 极 长 的 数 据 管 道, 突 破 了 SQL 的 局 限 一 种 数 据 挖 掘 库, 采 用 集 群 回 归 测 试 和 统 计 建 模 中 最 常 用 的 数 据 挖 掘 算 法, 并 使 用 MapReduce 模 型 实 施 这 些 算 法 Flume* 在 Hadoop 中 加 载 数 据 的 框 架 Sqoop* ZooKeeper* 一 种 连 接 工 具, 用 于 将 非 Hadoop 数 据 存 储 ( 如 关 系 数 据 库 和 数 据 仓 库 ) 中 的 数 据 迁 移 至 Hadoop 一 种 集 中 服 务, 用 于 保 持 配 置 信 息 和 命 名, 并 提 供 分 布 式 同 步 和 组 服 务 www.intel.com/cn/it 5

IT@Intel 白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 表 2. 基 本 平 台 设 计 组 件 组 件 实 施 优 势 服 务 器 基 于 英 特 尔 至 强 处 理 器 E5-2600 产 品 家 族 (6 核 ) 的 16 台 双 路 服 务 器 提 供 性 能 能 效 内 置 功 能 和 成 本 效 益 的 最 佳 组 合, 包 括 用 于 预 防 数 据 瓶 颈 的 英 特 尔 集 成 RAM 每 数 据 节 点 96GB 支 持 HBase* 和 MapReduce* 共 存 驱 动 器 网 络 适 配 器 每 数 据 节 点 25 TB HDFS* 原 始 存 储 10 GbE 融 合 网 络 适 配 器 I/O 满 足 大 数 据 平 台 的 深 度 存 储 要 求 可 提 供 更 多 带 宽 帮 助 在 服 务 器 间 导 入 和 复 制 大 型 数 据 集 交 换 机 2 个 48 端 口 10 GbE 支 持 高 带 宽 连 接 以 实 现 企 业 级 性 能 集 群 结 构 聚 合 层 集 群 概 述 分 布 层 为 高 度 可 用 而 设 计 我 们 针 对 网 络 和 NameNode 实 施 了 一 种 高 度 稳 定 的 设 计, 其 中 NameNode 是 HDFS 的 核 心 部 分, 可 保 存 所 有 文 件 的 目 录 树 在 NameNode 层 提 供 高 度 稳 定 的 性 能 对 于 强 化 平 台 以 减 少 故 障 至 关 重 要 对 于 跨 多 个 机 架 的 Hadoop 安 装, 我 们 希 望 确 保 复 制 的 数 据 保 存 在 不 同 的 机 架 上 该 设 计 可 防 止 交 换 机 丢 失 交 换 机 丢 失 会 导 致 部 分 数 据 不 可 用, 因 为 所 有 的 复 制 数 据 都 位 于 它 的 下 面 在 我 们 的 设 计 中,HDFS 组 件 能 够 识 别 机 架, 而 且 我 们 对 HDFS 存 储 进 行 了 三 向 复 制 该 高 度 稳 定 的 设 计 可 在 NameNode 或 部 分 网 络 发 生 故 障 时, 有 效 防 止 意 外 的 宕 机 情 况 2 个 48 端 口 10 GbE 机 架 顶 部 交 换 机 集 群 管 理 节 点 和 NameNode/JobTracker 数 据 节 点 20 GbE 中 继 支 持 HP ilo* Management Public 20 GbE 中 继 支 持 Hadoop* 结 构 公 共 接 口 2 个 10 GbE 1 GbE HP ilo 和 1 GbE Management 每 节 点 2 个 10 GbE 连 接 集 群 结 构 2 个 48 端 口 10 GbE 机 架 顶 部 交 换 机 网 关 节 点 NameNode/ JobTracker 数 据 节 点 图 4. 英 特 尔 IT 部 门 的 大 数 据 平 台 硬 件 网 络 和 机 架 设 计 占 用 了 我 们 生 产 中 心 的 两 个 机 架, 而 且 借 助 近 100TB 的 目 标 可 用 存 储 空 间 能 够 支 持 三 向 复 制 选 择 并 构 建 基 础 架 构 ( 服 务 器 网 络 和 机 架 设 计 ) 为 帮 助 选 择 Hadoop 分 发 版, 该 团 队 精 诚 合 作, 设 计 出 硬 件 基 础 架 构 和 网 络 他 们 还 调 整 了 该 环 境 的 规 模 为 使 计 算 和 存 储 密 集 型 应 用 具 备 出 色 的 成 本 效 益 和 可 作 扩 展, 他 们 选 择 了 具 有 多 个 节 点 的 集 群 结 构 并 使 用 基 于 英 特 尔 至 强 处 理 器 E5 家 族 ( 见 表 2) 的 服 务 器 这 些 服 务 器 连 接 了 480 Gbps 的 集 群 结 构 带 宽 服 务 器 驻 留 在 生 产 中 心 的 两 个 机 架 中, 可 提 供 300TB 的 HDFS 存 储 容 量, 借 助 近 100 TB 的 目 标 可 用 存 储 空 间 能 够 支 持 三 向 复 制 ( 见 图 4) 6 www.intel.com/cn/it

英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 IT@Intel 白 皮 书 平 台 企 业 管 理 设 计 为 了 运 行 管 理 和 监 控 英 特 尔 的 内 部 大 数 据 集 群, 英 特 尔 IT 部 门 使 用 了 CentOS* 6.3 一 种 企 业 级 Linux* 发 行 版, 源 自 向 公 众 免 费 提 供 的 资 源 重 要 的 管 理 要 素 包 括 第 三 方 企 业 配 置 管 理 软 件 开 源 监 控 和 性 能 管 理 工 具 (Nagios* 和 Ganglia*) 第 三 方 管 理 实 用 程 序 和 第 三 方 身 份 验 证 服 务 另 外, 我 们 还 使 用 了 基 于 内 核 的 虚 拟 机 (Kernal-based Virtual Machine, 以 下 简 称 KVM) 该 这 套 开 源 的, 完 整 的, 为 基 于 x86 硬 件 上 的 Linux 提 供 的 虚 拟 化 解 决 方 案 包 含 重 要 的 虚 拟 化 扩 展 功 能, 如 英 特 尔 虚 拟 化 技 术 (Intel Virtualization Technology 2, 以 下 简 称 英 特 尔 VT) 我 们 在 网 关 上 使 用 KVM 执 行 企 业 软 件 组 件 及 核 心 Hadoop 生 态 系 统 组 件 之 间 的 进 程 隔 离, 以 提 升 平 台 的 稳 定 和 管 理 实 施 数 据 安 全 和 文 件 管 理 数 据 安 全 是 运 行 环 境 的 一 项 重 要 要 求, 因 为 有 些 数 据 包 含 客 户 记 录 和 其 他 机 密 信 息 我 们 的 安 全 计 划 使 用 一 种 安 全 的 集 群 参 考 设 计, 需 要 极 其 安 全 的 第 三 方 10 Gb 机 架 交 换 机 将 Hadoop 流 量 与 我 们 的 共 享 访 问 和 分 布 层 隔 离, 并 增 强 网 络 设 计 的 灵 活 程 度 该 设 计 的 一 个 关 键 组 件 是 专 用 网 关 服 务 器, 与 集 群 的 所 有 连 接 和 交 互 必 须 通 过 该 服 务 器 完 成 由 于 集 群 环 境 位 于 防 火 墙 的 后 面, 我 们 只 会 暴 露 该 网 关 服 务 器, 使 它 成 为 主 要 接 口 所 有 访 问 Hadoop 环 境 的 用 户 和 应 用 都 需 通 过 该 网 关 服 务 器 连 接 该 网 关 服 务 器 还 有 其 他 用 途, 如 任 务 启 动 和 KVM 托 管 为 了 摆 脱 该 设 计 的 潜 在 带 宽 方 面 的 局 限 并 提 升 网 络 弹 性, 我 们 将 聚 合 处 的 多 机 箱 链 路 聚 合 组 (Multi- Chassis Link Aggregation Group, 以 下 简 称 M-LAG) 和 机 架 顶 部 交 换 机, 与 双 10 GbE 绑 定 网 卡 和 集 群 结 构 网 络 隔 离 功 能 进 行 组 合 3 我 们 还 在 多 个 交 换 机 之 间 实 现 负 载 均 衡 作 容 量 扩 展 由 于 我 们 的 Hadoop 平 台 是 一 种 支 持 多 个 虚 拟 机 实 体 同 时 运 作 的 环 境, 因 此 我 们 另 开 发 了 一 个 系 统 来 限 制 项 目 之 间 的 数 据 访 问 这 可 防 止 用 户 意 外 删 除 另 一 用 户 的 数 据, 和 未 授 权 查 看 数 据 为 限 制 对 单 个 项 目 的 访 问, 我 们 在 本 地 网 关 服 务 器 和 HDFS 上 为 每 个 项 目 设 计 和 建 立 了 专 用 文 件 夹 我 们 通 过 授 予 项 目 组 许 可, 控 制 对 项 目 文 件 夹 的 访 问 我 们 的 访 问 管 理 系 统, 将 项 目 组 分 配 至 企 业 访 问 管 理 (enterprise access management, 以 下 简 称 EAM) 权 限 设 置 访 问 管 理 为 使 访 问 管 理 协 同 CentOS 操 作 系 统 上 的 其 他 应 用 流 畅 运 行, 我 们 需 要 设 法 降 低 管 理 用 户 群 组 密 码 许 可 请 求 处 理 跟 踪 和 用 户 审 计 的 维 护 费 用 我 们 的 解 决 方 案 旨 在 对 用 户 提 供 管 理, 并 将 用 户 与 Microsoft Active Directory* 和 英 特 尔 IT 部 门 开 发 的 现 有 EAM 工 具 集 成 该 解 决 方 案 可 帮 助 我 们 经 由 Active Directory 对 用 户 进 行 身 份 验 证, 并 使 用 EAM 工 具 管 理 用 户 访 问 该 解 决 方 案 支 持 用 户 使 用 Active Directory 账 户 的 ID 和 密 码 访 问 系 统 我 们 的 访 问 管 理 系 统 可 通 过 模 拟 用 户 的 Active Directory 账 户 自 动 创 建 用 户 设 置 该 便 利 的 功 能 时, 需 要 使 用 第 三 方 工 具 集 成 Active Directory, 并 使 用 英 特 尔 IT 部 门 工 具 与 EAM 整 合 支 持 数 据 与 现 有 的 商 业 智 能 环 境 全 面 研 究 和 所 列 工 具 PoC 比 较 表 明, 我 们 需 要 多 种 数 据 集 成 工 具 我 们 选 择 了 一 组 ETL 工 具, 并 就 工 具 对 任 务 是 否 适 用 提 供 了 规 范 方 面 的 指 导 每 种 工 具 配 有 相 应 支 持, 规 定 用 于 满 足 特 定 业 务 要 求 ( 见 图 5) 2 英 特 尔 虚 拟 化 技 术 要 求 计 算 机 系 统 搭 载 兼 容 的 英 特 尔 处 理 器 基 本 输 入 输 出 系 统 (BIOS) 及 虚 拟 机 监 控 器 (virtual machine monitor, 简 称 VMM) 其 运 行 性 能 及 其 他 表 现 取 决 于 硬 件 及 软 件 的 配 置 相 关 应 用 软 件 可 能 无 法 与 所 有 的 操 作 系 统 兼 容 请 咨 询 您 的 电 脑 制 造 商 更 多 信 息 请 访 问 : www.intel.com/go/virtualization 3 LAG 是 一 种 采 用 多 个 以 太 网 链 路 多 路 复 用 以 增 加 带 宽 和 提 供 冗 余 的 方 法 M-LAG 是 一 种 带 有 可 在 单 独 机 箱 上 终 止 的 组 成 端 口 (constituent port) 的 LAG www.intel.com/cn/it 7

IT@Intel 白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 明 确 定 位 每 种 工 具 及 定 义 工 具 决 策 流, 可 帮 助 我 们 的 商 业 智 能 和 大 数 据 项 目 团 队 做 出 正 确 决 策 Flume 指 定 用 于 需 要 从 事 件 日 志 系 统 日 志 web 点 击 和 类 似 来 源 收 集 聚 合 日 志 数 据 流, 并 将 其 写 入 HDFS 的 场 景 Sqoop 推 荐 用 于 关 系 数 据 库 管 理 至 HDFS 数 据 迁 移, 反 之 亦 然 判 定 框 在 决 策 流 程 中 创 建, 以 避 免 在 某 些 数 据 类 型 方 面 存 在 的 局 限 命 令 行 HDFS put 文 件 用 于 简 单 直 接 的 文 件 负 载, 在 这 种 文 件 负 载 中, 数 据 已 被 发 送 至 大 数 据 环 境, 无 需 连 接 或 转 换 该 put 文 件 只 通 过 脚 本 / 命 令 行 界 面 获 取 支 持 企 业 ETL 工 具 用 于 Sqoop 和 Flume 等 其 他 数 据 获 取 生 态 系 统 未 支 持 的 复 杂 使 用 案 例 我 们 完 全 支 持 需 要 预 先 处 理 工 作 繁 重 和 转 换 工 作 复 杂 的 业 务 部 门 ) 使 用 ETL 工 具 企 业 ETL 工 具 能 够 准 备 一 种 数 据 文 件, 它 可 借 助 put 文 件 命 令 用 于 将 数 据 加 载 至 HDFS 容 量 调 度 程 序 用 于 防 止 容 量 对 多 实 体 虚 拟 机 运 作 的 Hadoop 环 境 产 生 影 响 我 们 使 用 容 量 调 度 程 序 管 理 工 作 负 载, 分 配 某 个 地 图 并 减 少 每 个 项 目 的 插 槽 运 行 批 处 理 也 是 解 决 方 案 的 重 要 一 环 我 们 将 企 业 调 度 程 序 工 具 集 成, 可 帮 助 用 户 根 据 时 间 事 件 或 两 者 触 发 任 务 实 施 流 程 变 更 实 施 多 租 户 集 群 会 在 一 定 程 度 上 削 弱 对 计 算 资 源 的 控 制 为 了 应 对 这 一 潜 在 问 题, 我 们 建 立 了 工 作 程 序 和 控 制 流 程, 以 更 好 地 根 据 相 应 的 任 务 优 先 级 分 配 和 优 先 处 理 计 算 资 源 我 们 还 制 定 了 一 项 审 查 流 程, 以 判 断 项 目 是 需 要 我 们 的 Hadoop 平 台, 还 是 更 适 合 另 一 种 BI 分 析 解 决 方 案 在 支 持 问 题 上 报 和 服 务 请 求 方 面, 我 们 坚 持 沿 着 当 前 的 IT 发 展 方 向 前 进, 使 用 软 件 即 服 务 应 用 对 问 题 上 报 和 请 求 服 务 提 供 服 务 管 理 另 外, 我 们 正 在 为 开 发 人 员 和 项 目 经 理 编 制 指 南, 制 定 培 训 文 档 和 设 立 培 训 班 级, 为 迁 移 至 该 平 台 制 定 变 更 和 发 布 流 程, 以 及 针 对 代 码 审 查 与 标 准 和 最 佳 实 践 遵 从 监 控 制 定 治 理 流 程 商 业 智 能 前 端 工 具 预 测 / 推 荐 分 析 移 动 设 备 电 子 数 据 表 报 告 应 用 连 接 层 用 户 和 开 发 人 员 预 测 分 析 引 擎 本 地 /ODBC 驱 动 程 序 多 源 数 据 即 服 务 Hive/HBase 开 放 数 据 库 连 接 商 业 智 能 容 器 结 构 化 数 据 EDW MPP RDBMS 多 结 构 化 数 据 Web 日 志 XML 视 频 / 音 频 社 交 媒 体 平 面 文 件 ETL/EL ETL/EL 数 据 集 成 企 业 ETL SFTP 中 小 企 业 客 户 JDBC 连 接 器 Sqoop* Flume* 基 础 架 构 其 他 软 件 和 驱 动 程 序 集 成 Hive ODBC Apache Hadoop* 软 件 的 英 特 尔 分 发 版 Intel Manager for Apache Hadoop* 软 件 ZooKeeper* 调 度 程 序 NFS 连 接 器 Oozie* Pig* Mahout* Hive* Ganglia* Nagios* MapReduce* GIT MongoDB* Hadoop 适 配 器 HDFS 加 密 压 缩 Hadoop 分 布 式 文 件 系 统 *(HDFS) RHadoop* HBase ODBC HBase* 流 程 规 范 方 面 的 指 导 治 理 变 更 发 布 培 训 参 与 服 务 器 网 络 存 储 数 据 安 全 操 作 系 统 EAM/AD 集 成 高 度 稳 定 服 务 管 理 AD Microsoft Active Directory*;DB 数 据 库 ;EAM 企 业 访 问 管 理 ;EDW 企 业 数 据 仓 库 ;JDBC - Java* 数 据 库 连 接 ;MPP 大 规 模 并 行 处 理 ; NFS 网 络 文 件 系 统 ;ODBC 开 放 数 据 库 连 接 ;RDBMS 关 系 数 据 库 管 理 系 统 ;SFTP 安 全 文 件 传 输 协 议 ;XML 可 扩 展 标 记 语 言 图 5. 为 了 与 现 有 商 业 智 能 工 具 进 行 数 据 集 成, 英 特 尔 IT 部 门 的 大 数 据 平 台 使 用 了 各 种 工 具, 每 种 工 具 都 可 满 足 特 定 业 务 需 求 8 www.intel.com/cn/it

英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 IT@Intel 白 皮 书 成 果 英 特 尔 首 个 配 有 Hadoop 英 特 尔 分 发 版 的 内 部 大 数 据 计 算 密 集 型 生 产 平 台 于 2012 年 末 发 布 ( 见 图 6) 该 平 台 已 经 为 我 们 的 头 三 个 使 用 案 例 带 来 了 巨 大 价 值, 帮 助 我 们 发 现 新 商 机 降 低 IT 成 本 并 推 出 新 产 品 通 过 实 施 Hadoop, 英 特 尔 IT 部 门 客 户 现 在 可 在 强 大 的 可 扩 展 企 业 就 绪 型 平 台 基 于 在 我 们 BI 功 能 环 境 中 集 成 的 英 特 尔 分 发 版 上 充 分 发 挥 大 数 据 的 效 用 我 们 的 三 个 使 用 案 例 已 完 全 投 入 运 行, 多 个 新 使 用 案 例 也 处 于 不 同 开 发 阶 段 我 们 的 内 部 大 数 据 平 台 可 扩 展 BI 数 据 容 器 战 略, 它 支 持 : 结 构 化 和 多 结 构 化 分 析 数 据 使 用 案 例 可 完 全 满 足 当 前 和 近 期 需 求 的 平 台 设 计 和 架 构 适 应 需 求 变 化 的 可 扩 展 设 计 三 个 大 数 据 使 用 案 例 及 其 估 值 英 特 尔 IT 部 门 为 三 个 特 定 使 用 案 例 设 计 平 台, 几 乎 立 即 为 公 司 带 来 了 卓 越 的 价 值 每 个 使 用 案 例 正 在 为 英 特 尔 带 来 价 值 百 万 美 元 的 BI 成 果, 或 具 有 这 方 面 的 潜 力 上 下 文 推 荐 引 擎 我 们 的 大 数 据 平 台 支 持 通 用 可 再 用 的 上 下 文 感 知 推 荐 引 擎, 及 为 基 于 位 置 的 移 动 服 务 提 供 分 析 功 能 该 服 务 整 合 了 全 新 的 智 能 上 下 文 感 知 功 能 包 括 协 作 过 滤 算 法, 以 帮 助 用 户 借 助 地 图 管 理 技 术 查 找 产 品 信 息 和 服 务 该 推 荐 引 擎 设 计 正 用 于 更 多 使 用 案 例 在 销 售 方 面, 我 们 正 借 助 它 判 定 向 不 同 经 销 商 提 供 哪 些 产 品, 以 尽 量 提 升 经 销 商 和 我 们 的 销 售 业 绩 我 们 的 推 荐 引 擎 未 来 可 能 作 为 付 费 服 务 用 于 事 件 预 测 的 日 志 信 息 分 析 我 们 的 大 数 据 平 台 可 协 助 发 现 并 关 联 IT 方 面 的 潜 在 问 题 我 们 正 在 跟 踪 比 事 件 数 据 更 重 要 的 事 件 日 志 数 据, 并 使 用 线 性 回 归 和 时 间 序 列 预 测 未 来 的 行 为 和 影 响 积 极 主 动 去 预 测 问 题 和 故 障 分 析 可 帮 助 减 少 事 件 发 生, 及 对 用 户 和 IT 的 影 响, 降 低 IT 运 营 和 支 持 成 本, 并 缩 短 解 决 问 题 所 需 的 时 间 使 用 我 们 的 大 数 据 平 台 对 事 件 作 预 测 并 将 把 新 事 件 的 发 生 率 降 低 10-30%, 估 计 我 们 在 两 年 内 可 节 省 400 万 美 元 的 IT 成 本 为 提 供 客 户 洞 察 的 WEB 分 析 我 们 正 在 把 web 数 据 整 合 在 Hadoop 中, 并 将 该 外 部 数 据 与 内 部 客 户 数 据 集 成, 以 针 对 Intel.com 和 客 户 广 告 提 供 客 户 和 网 络 使 用 分 析 数 据 这 些 web 分 析 可 帮 助 我 们 的 销 售 和 营 销 团 队 深 入 分 析 web 使 用 数 据, 以 便 开 展 营 销 或 内 容 导 航 方 面 的 工 作 这 些 分 析 还 有 助 于 根 据 营 销 活 动 引 起 的 反 应, 预 测 和 调 整 产 品 定 位 与 定 价, 并 提 升 英 特 尔 供 应 链 的 效 率 英 特 尔 销 售 与 营 销 事 业 部 估 计, 到 2014 年, 需 求 生 成 方 面 的 web 分 析 投 资 回 报 将 达 到 1000 万 美 元 英 特 尔 预 测, 用 于 英 特 尔 供 应 链 的 智 能 分 析 可 帮 助 在 每 个 地 区 保 持 适 当 的 库 存 水 平, 适 时 提 高 相 应 产 品 的 供 应 数 量, 从 而 在 2013 年 创 造 高 达 2000 万 美 元 的 价 值 2011 制 定 制 定 战 略 和 实 施 计 划 借 助 一 些 NoSQL 数 据 库 管 理 元 素, 评 估 和 选 择 基 于 SQL 的 大 规 模 并 行 处 理 (MPP) 平 台 实 施 Hadoop* 研 究 和 规 划 2012 构 建 部 署 MPP 平 台 部 署 BI 预 测 平 台 掌 握 数 据 部 署 和 编 程 技 能 帮 助 部 署 外 部 Hadoop 集 群 部 署 三 个 大 数 据 项 目 完 成 大 数 据 分 布 评 估 将 内 部 Hadoop 集 群 投 入 生 产 实 施 内 部 Hadoop 生 产 集 群 2013+ 交 付 为 第 一 组 使 用 案 例 提 供 可 靠 平 台 在 BI 大 数 据 平 台 上 部 署 对 企 业 内 部 有 重 大 影 响 的 BI 项 目 部 署 合 格 的 大 数 据 商 务 使 用 案 例 实 现 业 务 价 值 提 供 可 扩 展 的 大 数 据 平 台 经 由 扩 展 满 足 使 用 案 例 需 求 通 过 集 成 IT 流 程, 设 置 大 数 据 平 台 即 服 务 性 开 发 与 架 构 的 规 范 指 南 标 准 化 流 程 和 工 具 图 6. 该 时 间 表 概 述 了 英 特 尔 IT 部 门 在 将 大 数 据 平 台 融 合 至 公 司 商 业 智 能 (Bl) 功 能 方 面 所 取 得 的 进 展 www.intel.com/cn/it 9

结 论 根 据 经 验, 英 特 尔 IT 部 门 认 为, 如 欲 实 现 最 理 想 的 Hadoop 实 施 成 效, 首 先 就 应 认 真 选 择 最 具 优 势 的 硬 件 和 软 件 通 过 微 调 环 境 实 现 最 高 投 资 回 报 需 要 对 可 用 Hadoop 分 发 版 进 行 深 入 分 析, 选 择 经 济 高 效 的 基 础 架 构, 并 精 心 集 成 现 有 BI 环 境, 以 确 保 高 效 的 数 据 传 输 强 大 的 安 全 保 护 及 高 度 稳 定 从 小 做 起 使 用 迭 代 方 法 的 战 略 有 利 于 我 们 经 济 高 效 地 为 三 个 目 标 使 用 案 例 开 发 大 数 据 平 台, 后 者 可 最 终 通 过 扩 展 处 理 各 种 使 用 案 例 在 这 一 过 程 中, 我 们 还 形 成 了 多 个 最 佳 实 践 并 制 定 了 实 施 程 序 指 南, 它 们 将 继 续 指 导 我 们 将 大 数 据 平 台 扩 展, 并 在 未 来 构 建 更 多 大 数 据 平 台 更 多 信 息 如 欲 参 阅 相 关 主 题 的 白 皮 书, 请 访 问 : www.intel.com/cn/it: 使 用 集 中 化 的 数 据 管 理 为 大 数 据 解 决 方 案 提 供 支 持 将 Apache Hadoop* 集 成 至 英 特 尔 的 大 数 据 环 境 中 挖 掘 企 业 大 数 据, 成 就 更 出 色 的 商 业 智 能 使 用 多 个 数 据 仓 库 的 战 略 完 善 BI 分 析 以 下 员 工 对 本 文 亦 有 贡 献 Moty Fania 缩 写 词 BI 商 业 智 能 EAM 企 业 访 问 管 理 EL 提 取 - 加 载 ETL 提 取 - 转 换 - 加 载 HDFS Hadoop 分 布 式 文 件 系 统 KVM 基 于 内 核 的 虚 拟 机 MPP 大 规 模 并 行 处 理 M-LAG 多 机 箱 链 路 聚 合 组 NoSQL 不 仅 仅 是 SQL ROI 投 资 回 报 SQL 结 构 化 查 询 语 言 TB TB 字 节 关 于 英 特 尔 IT 部 门 最 佳 实 践 的 更 多 信 息, 请 访 问 :www.intel.com/cn/it 英 特 尔 处 理 器 标 号 不 是 性 能 的 指 标 处 理 器 标 号 仅 用 于 区 分 同 属 一 个 系 列 的 处 理 器 的 特 性, 而 不 能 够 用 于 区 分 不 同 系 列 的 处 理 器 请 登 陆 www.intel.com/products/processor_number 了 解 有 关 英 特 尔 处 理 器 型 号 的 信 息 本 文 旨 在 提 供 一 般 的 信 息, 并 非 特 定 指 南 推 荐 ( 包 括 潜 在 成 本 节 省 ) 全 部 基 于 英 特 尔 的 体 验, 仅 为 预 估 英 特 尔 不 确 认 或 担 保 他 人 会 得 出 类 似 结 果 本 文 件 中 包 含 关 于 英 特 尔 产 品 的 信 息 本 文 件 不 构 成 对 任 何 知 识 产 权 的 授 权, 包 括 明 示 的 暗 示 的, 也 无 论 是 基 于 禁 止 反 言 的 原 则 或 其 他 英 特 尔 不 承 担 任 何 其 他 责 任 英 特 尔 在 此 作 出 免 责 声 明 : 本 文 件 不 构 成 英 特 尔 关 于 其 产 品 的 使 用 和 / 或 销 售 的 任 何 明 示 或 暗 示 的 保 证, 包 括 不 就 其 产 品 的 (i) 对 某 一 特 定 用 途 的 适 用 性 (ii) 适 销 性 以 及 (iii) 对 任 何 专 利 版 权 或 其 他 知 识 产 权 的 侵 害 的 承 担 任 何 责 任 或 作 出 任 何 担 保 英 特 尔 Intel 标 识 Intel Core 英 特 尔 酷 睿 和 Intel Xeon 英 特 尔 至 强 是 英 特 尔 公 司 在 美 国 和 其 他 国 家 ( 地 区 ) 的 商 标 * 其 他 的 名 称 和 品 牌 可 能 是 其 他 所 有 者 的 资 产 英 特 尔 公 司 2013 年 版 权 所 有 所 有 权 保 留 C 请 注 意 环 保 1013/ACHA/KC/PDF 329336-001