目 录 1 不 断 开 发 工 具 以 管 理 大 数 据...2 1.1 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架... 2 1.2 大 数 据 技 术 的 行 业 生 态 系 统... 2 2 在 关 键 组 件 中 实 现 平 衡...

Similar documents
白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

合集

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

目录 1 不断开发工具以管理大数据 Hadoop* 简介 : 支持从大数据中获得出色价值的可靠框架 大数据技术的行业生态系统 在关键组件中实现平衡 计算资源的进步 存储技术的进步 网络连接的进步...

Reducing Client Incidents through Big Data Predictive Analytics

温州市政府分散采购

02 责任编辑 张晋芬 2 16:06:31

<5C5C D2D CB1BEB5D8B4C5C5CC CBACDCAA25CBBD45CBDF8D0D0D6D05CD5FEB2C95CCAFDD7D65CC2DBD6A4BBE15C E31322E3234C2DBD6A4B8E529C3B7D6DDCAD0CAFDD7D6BBAFB3C7CAD0D7DBBACF2E2E2E2E646F63>

Azure_s

国 家 图 书 馆 年 鉴 0 重 点 文 化 工 程 一 中 华 古 籍 保 护 计 划 0 年, 国 家 图 书 馆 ( 国 家 古 籍 保 护 中 心 ) 根 据 文 化 部 要 求, 围 绕 习 近 平 总 书 记 关 于 弘 扬 中 华 优 秀 传 统 文 化 系 列 讲 话 精 神, 对

Microsoft Word - 134招标文件.doc

3 3 4 Apollo System 5 HPE Apollo System 6 HPE Apollo 2000 System 7 HPE Apollo 2000 System 8 HPE Apollo 4000 System 10 HPE Apollo 4200 Gen9 13 HPE Apol

Microsoft Word - View存储注意事项.doc

G1-0406国务院教学设备

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

IBM System x 系列手册

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO

(Quad-Core Intel Xeon 2.0GHz) ()(SAS) (Quad-Core Intel Xeon 2.0GHz) (Windows )(Serial ATA) (Quad-Core Intel Xeon 2.0GHz) (Linux)(Serial ATA)

ZoneFlex AP SKU ZoneFlex R720 ZoneFlex R710 ZoneFlex R700* ZoneFlex R600* ZoneFlex R610* ZoneFlex R500* ZoneFlex R510* ZoneFlex R310 * A

总 目 录 第 一 章 投 标 邀 请 第 二 章 招 标 项 目 需 求 第 三 章 投 标 人 须 知 第 四 章 合 同 格 式 第 五 章 投 标 文 件 格 式 招 标 编 号 :JXBJ2016-G

Microsoft Word 電腦軟體設計.doc

Microsoft Word - 3D_仿單_領證版

会计从业资格无纸化考试试题管理系统

電機工程系認可證照清單 /7/1

<4D F736F F D20BCC6CBE3BBFABFC6D1A7D3EBBCBCCAF5D7A8D2B5C5E0D1F8B7BDB0B8A3A8D7BFD4BDA3A931332E646F63>

<4D F736F F D20B8EAB054B35DB3C6B1C4C1CAABD8C4B3AAED2D313031A67E3131A4EB31352EB8B9A7F3B7732E646F63>

《80后职场新鲜人生存手册》

PowerPoint Presentation

PowerPoint 演示文稿

ZoneFlex ZoneFlex R720 ZoneFlex R710 ZoneFlex R700* ZoneFlex R600* ZoneFlex R610* ZoneFlex R500* ZoneFlex R510* ZoneFlex R310 * ZoneFlex

公开招标文件


201316

COP中文范本

冶金企业安全生产监督管理规定

PowerPoint 演示文稿

<4D F736F F D20BAECB1A6C0F6A3BAB7C7B9ABBFAAB7A2D0D0B9C9C6B1C4BCBCAFD7CABDF0CAB9D3C3B5C4BFC9D0D0D0D4B1A8B8E62E646F63>


An ERP Platform Strategy Based on Industry-standard Servers

<4D F736F F D CAD3C6B5BCE0BFD8BDE2BEF6B7BDB0B8A3A8B4E6B4A2B2BFCAF0A3A9BCBCCAF5B0D7C6A4CAE92E646F63>

叮当旺业通

93年度支用計畫書.PDF

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一


ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

Acronis True Image 2014

【工程类】



PowerPoint 演示文稿

国家测绘局政府网站

Java ¿ª·¢ 2.0: Óà Hadoop MapReduce ½øÐдóÊý¾Ý·ÖÎö

IT认证培训(五).doc

<4D F736F F D20CFB5B7D62DCFC2CEE749CAD4CCE22D3037C9CF>

岳西职教中心

156 ORACLE SUN ORACLE SUN

《计算机应用基础》学习材料(讲义)

pdf

cosa Quick Start Manual

基于 SQL-on-Hadoop 的 网络日志分析

IPC IPC PCs SIMATIC IPC PC 30 PCs 1983 PC SIMATIC IPC 9 PC TIA Portal SIMATIC IPC PC SIMATIC 1 Mio. 0.5 Mio TIA

是 证 券 市 场 的 后 来 者, 但 在 前 景 广 阔 的 道 路 上 前 行, 终 将 成 为 这 个 市 场 的 领 先 者, 这 里 会 给 你 一 个 巨 大 的 舞 台, 这 里 有 你 需 要 的 机 会, 这 里 欢 迎 优 秀 的 你! 二 招 收 条 件 1. 遵 守 国 家

I/ OHDD HDD Soeda I/O HDD SSD SSD SSD HDD Hitachi HP HP StorageWorks XP24000 XP20000 SSD SSD Hitachi Universal Storage Platform V VM SSD

思 想, 还 是 思 想 才 使 我 们 与 众 不 同 编 辑 部 : 工 业 和 信 息 化 部 赛 迪 研 究 院 通 讯 地 址 : 北 京 市 海 淀 区 万 寿 路 27 号 电 子 大 厦 4 层 邮 政 编 码 : 联 系 人 : 刘 颖 董 凯 联 系 电 话 :010

镇江市行政审批事项申报材料清单

PowerPoint 演示文稿

一 公 司 简 介 993 年, 顺 丰 诞 生 于 广 东 顺 德 自 成 立 以 来, 顺 丰 始 终 专 注 于 服 务 质 量 的 提 升 持 续 加 强 基 础 建 设 积 极 研 发 和 引 进 具 有 高 科 技 含 量 的 信 息 技 术 与 设 备 以 提 升 作 业 自 动 化

ATI-2019安裝手冊-v

操 守, 爱 岗 敬 业 诚 实 守 信 办 事 公 道 服 务 群 众 奉 献 社 会 ; 具 备 从 事 职 业 活 动 所 必 需 的 基 本 能 力 和 管 理 素 质 ; 脚 踏 实 地 严 谨 求 实 勇 于 创 新 3. 人 文 素 养 与 科 学 素 质 : 具 有 融 合 传 统

在 Hitachi AMS 2000 系列上应用 VMware VAAI 的优势

Dell EMC Data Domain DDOS 5.5 Data Domain Data Domain Data Domain : Data Domain Boost (DDBoost) Dell EMC DDBoost Data Domain DDBoost Source De-Dup Bac

公 司 年 度 大 事 记 2015 年 10 月 -11 月, 公 司 完 成 股 份 制 改 造 10 月 13 日, 百 灵 有 限 临 时 股 东 会 作 出 决 议, 同 意 各 发 起 人 将 其 在 百 灵 有 限 拥 有 的 截 至 2015 年 8 月 31 日 经 审 计 的 原

項 目 重 要 日 程 碩 士 班 ( 含 在 職 專 班 ) 日 期 博 士 班 網 路 報 名 ( 日 )12:00~ ( 三 ) ( 三 )12: ( 三 ) 報 名 繳 費 截 止 日 ( 四 )15:30 免 報 名

分布式数据库期中作业说明

云 计 算 集 群 架 构 师 高 居 服 务 器 / 系 统 / 运 维 / 架 构 职 业 方 向 的 塔 尖 在 最 活 跃 的 移 动 互 联 网 时 代, 云 端 架 构 师 年 薪 普 遍 超 过 25 万 九 年 三 万 多 名 高 端 学 员, 全 国 唯 一 的 自 主 高 端 成

HighPoint产品的FAQ手册

数字地理空间框架及一村一镇一地图建设

从上面这个表格中我们可以很明显看到巨大的差异当数据全部缓存到内存中 内存大小会影响所有操作 不管是 SELECT 还是 INSERT/UPDATE/DELETE 操作 INSERT 当往一个随机排序的索引中插入数据的时候会造成随机的读/写 UPDATE/DELETE 当更改数据的时候会导致磁盘的读/

Sun Storage Common Array Manager 阵列管理指南,版本 6.9.0

深入理解otter

双机模板方案0404.doc

Autodesk Whitepaper A4 size

Acronis True Image 2015

案由:審議各單位提報「101年度教育部對私立技專校院整體發展獎補助經費支用計畫書」中經常門、資本門經費支用項目及金額

30.00% 25.00% 25.00% 22.50% 20.00% 15.00% 12.50% 15.00% 12.50% 10.00% 7.50% 5.00% 2.50% 2.50% 0.00% 文 学 理 学 工 学 法 学 教 育 学 管 理 学 历 史 学 艺 术 学 ( 三 ) 学 生

LP / / / / / /

XXXXXXXX

Slide 1

标题

附件2

校友会系统白皮书feb_08

2003年中报正文.PDF

PowerPoint Presentation

迅闪2009帮助手册(xshelp)

0523内页正稿-改风格

untitled

Microsoft Word - N3-CH3.doc

Transcription:

白 皮 书 英 特 尔 固 态 硬 盘 英 特 尔 以 太 网 融 合 网 络 英 特 尔 Hadoop* 发 行 版 软 件 应 用 大 数 据 技 术 获 得 近 实 时 分 析 巨 大 成 效 1 平 衡 的 基 础 设 施 使 工 作 负 载 完 成 时 间 从 4 小 时 缩 短 为 7 如 今, 基 于 广 泛 可 用 的 计 算 存 储 和 网 络 组 件 的 改 进, 商 业 学 术 和 政 府 组 织 有 效 处 理 大 数 据 的 能 力 正 快 速 提 高 英 特 尔 利 用 一 个 优 化 且 平 衡 的 Hadoop* 集 群, 展 示 了 可 以 得 到 的 显 著 成 效 这 一 集 群 由 最 新 的 本 地 固 态 硬 盘 存 储 和 万 兆 位 英 特 尔 以 太 网 融 合 网 络 组 成 事 实 上, 在 英 特 尔 所 开 展 的 多 项 测 试 中, 通 过 升 级 这 些 组 件 和 使 用 英 特 尔 Hadoop* 发 行 版 软 件 ( 英 特 尔 Hadoop 发 行 版 ), 可 将 使 用 TeraSort 基 准 工 作 负 载 排 序 1 TB 数 据 所 需 的 时 间 从 约 4 小 时 缩 短 至 约 7 1,2 这 些 结 果 预 示 着 我 们 向 近 实 时 数 据 分 析 的 宏 伟 目 标 又 迈 近 了 一 大 步, 而 且 所 需 的 成 本 大 幅 低 于 此 前 使 用 专 有 硬 件 和 软 件 实 施 的 成 本 大 幅 的 成 本 节 省 和 效 率 提 升 对 于 发 挥 出 大 数 据 技 术 的 全 部 潜 力 至 关 重 要 本 白 皮 书 介 绍 了 这 些 结 果 的 实 现 方 法, 以 作 为 IT 决 策 者 和 其 他 人 员 在 考 虑 投 资 方 向 时 的 指 导, 进 而 从 Hadoop* 环 境 中 获 得 最 佳 成 效 同 时 文 章 还 介 绍 了 经 过 预 先 优 化 的 交 钥 匙 型 英 特 尔 Hadoop 发 行 版 软 件 具 备 的 部 分 优 势 各 组 织 可 通 过 使 用 此 处 所 列 的 指 导 原 则, 在 满 足 其 预 算 要 求 的 前 提 下, 实 现 特 定 工 作 负 载 和 环 境 的 最 佳 性 能 平 衡 Hadoop* 集 群 内 的 计 算 存 储 和 网 络 资 源, 可 以 发 挥 出 最 新 英 特 尔 处 理 器 固 态 硬 盘 万 兆 位 英 特 尔 以 太 网 融 合 网 络 和 英 特 尔 Hadoop* 发 行 版 软 件 的 全 部 优 势 通 过 利 用 这 些 组 件 构 建 一 个 平 衡 的 基 础 设 施, 英 特 尔 将 完 成 TeraSort 基 准 测 试 工 作 负 载 所 需 的 时 间 从 约 4 小 时 缩 短 至 约 7 分 钟, 降 幅 约 为 97% 1 大 数 据 技 术 可 实 现 的 此 类 结 果 为 低 成 本 近 实 时 的 数 据 分 析 铺 平 了 道 路, 将 能 够 帮 助 企 业 近 乎 实 时 地 响 应 瞬 息 万 变 的 市 场 需 求, 并 从 其 资 产 中 获 得 更 多 价 值 1

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据...2 1.1 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架... 2 1.2 大 数 据 技 术 的 行 业 生 态 系 统... 2 2 在 关 键 组 件 中 实 现 平 衡...3 2.1 计 算 资 源 的 进 步... 3 2.2 存 储 技 术 的 进 步... 4 2.3 网 络 连 接 的 进 步... 4 2.4 业 经 优 化 的 英 特 尔 Hadoop 发 行 版... 4 3 万 兆 位 以 太 网 和 其 他 因 素 在 加 速 Hadoop 工 作 流 中 所 扮 演 的 角 色...5 3.1 优 化 导 入 阶 段... 6 3.2 优 化 处 理 阶 段 : 从 4 小 时 缩 短 到 7 的 历 程... 6 3.3 优 化 导 出 阶 段... 8 4 研 究 环 境 简 述...8 5 调 试 和 优 化 注 意 事 项...9 5.1 网 络 连 接 操 作 系 统 和 驱 动 程 序 优 化... 9 5.2 Hadoop 配 置 参 数... 9 5.3 进 一 步 的 增 强... 10 6 结 论...11 1 不 断 开 发 工 具 以 管 理 大 数 据 当 前, 无 论 是 何 种 类 型 和 规 模 的 企 业, 都 无 一 例 外 地 拥 有 着 庞 大 的 数 据 库 处 理 转 换 并 从 数 据 中 ( 通 常 为 非 结 构 化 数 据 ) 获 取 优 势 的 能 力 正 快 速 成 为 一 种 标 准 要 求, 同 时 能 够 进 行 此 类 工 作 的 工 具 和 技 术 也 日 益 普 遍 诸 如 Hadoop 等 框 架 的 广 泛 应 用, 而 且 越 来 越 多 的 IT 部 门 开 始 逐 渐 构 建 其 自 有 的 计 算 环 境 来 处 理 大 数 据 1.1 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 Hadoop 是 一 个 使 用 Java* 编 写 基 于 谷 歌 的 MapReduce* 和 分 布 式 文 件 系 统 工 作 的 开 源 软 件 框 架 它 用 于 支 持 分 布 式 应 用 程 序, 能 够 使 用 服 务 器 集 群 分 析 超 大 型 数 据, 然 后 将 其 转 换 为 更 易 于 这 些 应 用 程 序 使 用 的 形 式 Hadoop 用 于 部 署 在 常 见 的 通 用 型 基 础 设 施 之 中 该 框 架 擅 长 处 理 的 任 务 包 括 对 大 型 数 据 集 进 行 索 引 和 排 序 数 据 挖 掘 日 志 分 析 和 图 像 处 理 等 Hadoop 框 架 的 关 键 组 件 包 括 : Hadoop 分 布 式 文 件 系 统 (HDFS*) 能 够 通 过 将 数 据 分 解 为 数 据 块, 并 将 数 据 块 散 布 于 大 量 工 作 节 点 中, 实 现 容 错 和 高 性 能 Hadoop 的 MapReduce 引 擎 能 够 从 应 用 程 序 接 收 作 业, 并 将 这 些 作 业 分 解 成 多 项 任 务, 以 分 配 给 多 个 工 作 节 点 1.2 大 数 据 技 术 的 行 业 生 态 系 统 一 个 大 型 解 决 方 案 生 态 系 统 (Hadoop 仅 是 其 中 一 部 分 ) 的 设 计 旨 在 最 大 限 度 地 挖 掘 大 数 据 的 价 值 该 生 态 系 统 的 另 一 关 键 组 件 是 NoSQL( 不 仅 仅 是 SQL ) 数 据 库 NoSQL 是 更 为 常 见 的 基 于 表 格 的 关 系 型 数 据 库 管 理 系 统 (RDBMS) 的 一 种 替 代 ( 或 补 充 ) 技 术 与 RDBMS 不 同, NoSQL 数 据 库 并 不 主 要 以 表 格 为 基 础 对 依 赖 于 数 据 元 素 间 关 系 的 功 能 而 言, 这 一 特 征 尽 管 在 某 种 程 度 上 让 NoSQL 的 效 率 低 于 RDBMS, 但 是 NoSQL 能 够 简 化 大 量 关 系 并 非 特 别 重 要 的 数 据 的 处 理 过 程 尽 管 结 构 化 数 据 也 可 存 储 于 NoSQL 数 据 库 中, 但 是 这 些 系 统 更 适 于 处 理 非 结 构 化 数 据, 并 能 够 在 检 索 和 附 加 大 量 的 此 类 数 据 时 实 现 出 色 的 可 扩 展 性 和 性 能 随 着 大 数 据 技 术 的 不 断 发 展 和 其 在 数 据 中 心 所 起 到 的 重 要 作 用 日 益 突 显, 在 商 业 与 非 商 业 单 位 共 同 努 力 的 推 动 下, 诸 如 Hadoop 等 开 源 解 决 方 案 的 重 要 性 和 开 发 完 善 程 度 日 渐 提 高 Hadoop 生 态 系 统 中 的 高 级 NoSQL 数 据 库 包 括 Cassandra* HBase* 和 MongoDB* 除 了 Hadoop 以 外, 其 他 的 大 数 据 技 术 还 包 括 简 单 易 用 的 开 源 Disco Project*( 开 发 人 员 使 用 Python* 脚 本 编 写 作 业 ), 以 及 针 对 于 商 业 智 能 和 相 关 使 用 模 式 的 企 业 级 环 境 SAP HANA* 实 时 数 据 平 台 等 所 有 这 些 行 业 创 新 正 在 针 对 基 于 英 特 尔 至 强 处 理 器 的 平 台 进 行 紧 锣 密 鼓 的 开 发 和 优 化 工 作 由 于 大 数 据 广 泛 存 在 于 商 业 研 究 和 学 术 环 境 中, 并 且 其 规 模 在 迅 速 扩 张, 因 此 本 白 皮 书 以 Hadoop 作 为 示 例, 阐 述 了 如 何 处 理 大 数 据 的 系 统 2

2 在 关 键 组 件 中 实 现 平 衡 尽 管 Hadoop 集 群 通 常 由 通 用 的 主 流 组 件 构 建 而 成, 但 这 并 未 降 低 为 获 得 最 大 优 势 而 选 择 和 组 合 这 些 组 件 的 难 度 首 要 注 意 事 项 便 是 在 计 算 存 储 和 网 络 资 源 环 境 中 达 到 平 衡 ( 如 图 1 所 示 ) TaskTracker 在 转 到 有 关 确 定 集 群 组 件 组 合 的 具 体 战 略 之 前, 首 先 需 要 考 虑 每 个 类 别 中 常 用 技 术 的 状 态 ( 如 表 1 所 示 ) 在 确 定 了 需 要 的 资 源 类 型 后, 探 讨 将 专 注 于 Hadoop 集 群 如 何 能 够 充 分 利 用 这 些 资 源, 介 绍 万 兆 位 以 太 网 (10GbE) 连 接 在 交 付 各 项 优 势 中 所 扮 演 的 角 色 E5 JobTracker 2.1 计 算 资 源 的 进 步 相 比 上 一 代 平 台, E5 家 族 所 采 用 的 平 台 架 构 能 够 更 好 地 利 用 解 决 方 案 堆 栈 中 的 资 源 例 如, 全 新 架 构 将 每 个 插 槽 中 的 内 核 数 量 从 六 个 (12 个 硬 件 线 程 ) 增 加 到 了 八 个 (16 个 硬 件 线 程 ), 更 高 的 内 核 数 量 可 支 持 达 到 更 高 的 并 行 计 算 水 平, 而 后 者 对 于 数 据 密 集 型 Hadoop 工 作 负 载 有 着 重 要 意 义 英 特 尔 数 据 直 接 I/O 技 术 ( 英 特 尔 DDIO) 是 英 特 尔 至 强 处 理 器 E5 家 族 中 的 一 项 新 功 能, 可 支 持 英 特 尔 以 太 网 控 制 器 和 直 接 与 处 理 器 高 速 缓 存 通 信, 而 不 是 与 主 内 存 通 信, 从 而 能 够 帮 助 提 高 带 宽 和 降 低 延 迟 这 些 优 势 对 于 处 理 大 型 数 据 集 将 大 有 裨 益 1. Hadoop* 表 1. 升 级 Hadoop* 解 决 方 案 堆 栈, 实 现 平 衡 的 高 性 能 基 础 设 施 计 算 存 储 网 络 优 异 前 几 代 英 特 尔 至 强 处 理 器 传 统 旋 转 式 硬 盘 千 兆 位 英 特 尔 以 太 网 服 务 器 出 色 E5 家 族 分 层 存 储 ( 传 统 硬 盘 和 固 态 硬 盘 ) 万 兆 位 英 特 尔 以 太 网 融 合 网 络 最 佳 英 特 尔 至 强 处 理 器 E5 家 族 全 部 为 固 态 硬 盘 万 兆 位 英 特 尔 以 太 网 融 合 网 络 3

2.2 存 储 技 术 的 进 步 固 态 硬 盘 (SSD) 代 表 了 面 向 主 流 客 户 端 和 服 务 器 的 持 久 性 存 储 的 一 个 重 要 转 变 它 消 除 了 诸 如 旋 转 碟 片 和 读 / 写 磁 头 等 传 统 机 械 硬 盘 (HDD) 中 的 电 子 机 械 部 件, 并 因 此 大 幅 缩 短 了 数 据 访 问 时 间 和 延 迟 本 白 皮 书 所 描 述 的 测 试 使 用 了 英 特 尔 固 态 硬 盘 ( 英 特 尔 SSD)520 系 列, 该 系 列 拥 有 广 泛 的 容 量 选 择, 具 备 内 建 的 数 据 保 护 功 能, 并 相 比 传 统 机 械 硬 盘 实 现 了 大 幅 的 性 能 改 进 3 英 特 尔 固 态 硬 盘 520 系 列 采 用 了 英 特 尔 25 纳 米 NAND 闪 存, 可 提 供 最 高 每 秒 50,000 次 每 秒 输 入 / 输 出 操 作 (IOPS) 4 的 随 机 读 取 性 能 和 多 至 每 秒 550 兆 字 节 (MB/ 秒 ) 5 的 顺 序 读 取 性 能 作 为 传 统 机 械 硬 盘 和 固 态 硬 盘 之 间 的 过 渡 步 骤, 各 大 组 织 正 越 来 越 多 地 在 同 一 服 务 器 上 配 置 这 两 类 硬 盘 在 本 测 试 中, 固 态 硬 盘 作 为 高 速 数 据 缓 存 设 备, 可 减 少 从 传 统 机 械 硬 盘 中 读 取 数 据 和 向 其 写 入 数 据 的 需 求, 进 而 提 高 整 体 性 能 2.3 网 络 连 接 的 进 步 数 年 来, 网 络 连 接 的 线 速 一 直 都 在 不 断 提 高 与 此 同 时 这 一 领 域 也 涌 现 出 了 许 多 补 充 性 技 术, 为 用 户 提 供 了 更 高 的 价 值, 如 更 高 的 吞 吐 量 改 进 的 成 本 效 益 和 增 强 的 灵 活 性 等 而 这 一 研 究 的 主 要 考 虑 因 素 为 从 千 兆 位 以 太 网 (1GbE) 向 万 兆 位 (10GbE) 过 渡 英 特 尔 以 太 网 控 制 器 和 融 合 网 络 对 于 降 低 万 兆 位 以 太 网 网 络 连 接 的 成 本 发 挥 着 至 关 重 要 的 作 用 反 过 来, 虚 拟 化 和 带 宽 密 集 型 应 用 程 序 ( 如 数 据 分 析 和 视 频 点 播 ) 等 的 广 泛 部 署, 提 高 了 万 兆 位 以 太 网 网 络 的 采 用 率, 并 形 成 了 一 个 良 性 循 环, 让 成 本 效 益 和 主 流 网 络 采 用 率 能 够 相 辅 相 成 地 提 高 英 特 尔 以 太 网 软 件 驱 动 程 序 已 针 对 大 数 据 实 施 进 行 了 优 化, 例 如, 它 们 能 够 最 大 限 度 地 减 少 I/O 对 Hadoop 数 据 处 理 的 干 扰 英 特 尔 以 太 网 融 合 网 络 X540 是 一 款 低 成 本 低 功 率 的 10GBASE-T 解 决 方 案, 可 向 后 兼 容 使 用 第 6 类 和 第 6A 类 铜 缆 布 线 的 现 有 1000BASE-T 网 络 英 特 尔 以 太 网 控 制 器 X540 通 过 将 MAC 和 PHY 集 成 在 一 个 单 芯 片 解 决 方 案 中, 可 同 时 降 低 Sqoop 1.4.1 Flume 1.3.0 Zookeeper 3.4.5 Intel Manager for Hadoop Oozie 3.3.0 Pig 0.9.2 初 始 成 本 和 功 率 要 求 英 特 尔 以 太 网 融 合 网 络 X520 可 使 用 铜 缆 或 光 纤 网 络 连 接, 为 万 兆 位 以 太 网 网 络 提 供 SFP+ 连 接 2.4 业 经 优 化 的 英 特 尔 Hadoop 发 行 版 英 特 尔 Hadoop 发 行 版 可 帮 助 简 化 和 改 善 Hadoop 在 英 特 尔 架 构 基 础 设 施 上 的 部 署 它 是 唯 一 一 个 专 为 支 持 在 Hadoop 上 进 行 最 广 泛 的 数 据 分 析 而 构 建 的 发 行 版, 同 时 也 是 首 个 具 备 硬 件 增 强 的 性 能 和 安 全 功 能 的 产 品 该 解 决 方 案 包 含 Hadoop 框 架 MapReduce Hadoop 分 布 式 文 件 系 统 (HDFS*) 以 及 可 支 持 批 量 处 理 和 近 实 时 分 析 的 其 他 相 关 组 件, 如 Hive* 数 据 仓 库 基 础 设 施 Pig* 数 据 流 语 言 和 HBase 数 据 库 等 英 特 尔 Hadoop 发 行 版 中 所 包 含 的 组 件 显 示 于 图 2 中 Mahout 0.7 YARN MRv2 R connectors HDFS 2.0.3 Hadoop Hive 0.9.0 SQL HBase 0.94.1 2. Hadoop* 4

英 特 尔 Hadoop 发 行 版 基 于 实 际 经 验, 为 用 户 提 供 了 调 试 和 优 化 指 导 原 则, 以 及 向 导 和 其 他 自 动 化 部 署 工 具 Intel Manager for Hadoop* 软 件 提 供 了 在 Hadoop 集 群 节 点 上 自 动 安 装 的 功 能, 并 通 过 功 能 强 大 且 直 观 的 仪 表 盘 提 供 了 实 时 管 理 监 控 和 诊 断 功 能 ( 如 图 3 所 示 ) 英 特 尔 Hadoop 发 行 版 还 为 客 户 提 供 了 大 量 培 训 资 源, 以 及 系 统 设 计 部 署 定 制 和 调 试 帮 助 此 外, 这 一 发 行 版 还 享 有 24x7 全 天 候 企 业 支 持, 可 全 面 满 足 企 业 和 用 户 的 需 求, 确 保 他 们 能 够 通 过 保 持 集 群 长 时 间 稳 定 正 常 运 行 取 得 成 功 图 3. 帮 助 简 化 安 装 和 配 置, 并 缩 短 部 署 时 间 的 仪 表 盘 3 万 兆 位 以 太 网 和 其 他 因 素 在 加 速 Hadoop 工 作 流 中 所 扮 演 的 角 色 大 数 据 管 理 能 力 的 提 高 不 断 推 动 我 们 向 在 主 流 环 境 中 实 现 实 时 分 析 的 目 标 迈 进 我 们 正 通 过 使 用 常 用 的 数 据 中 心 硬 件 和 软 件, 改 善 以 前 需 要 数 小 时, 甚 至 数 天 才 能 从 源 数 据 中 生 成 价 值 的 解 决 方 案 在 这 一 环 境 中 改 善 结 果 需 要 考 虑 整 个 工 作 流, 其 中 包 括 数 据 进 入 系 统 的 点 处 理 数 据 的 机 制 以 及 与 导 出 处 理 后 的 数 据 至 系 统 相 关 的 任 务 在 此 基 础 之 上,Hadoop 工 作 流 可 划 分 为 三 个 阶 段 : 1. 导 入 使 用 Hadoop 从 大 型 数 据 集 中 生 成 答 案 的 第 一 步, 是 将 应 用 程 序 的 数 据 导 入 HDFS 数 据 可 通 过 流 式 或 批 处 理 的 方 式 导 入 2. 处 理 将 数 据 导 入 HDFS 后,Hadoop 将 处 理 该 数 据, 以 从 中 获 取 价 值 MapReduce 引 擎 通 过 其 JobTracker 节 点 接 收 来 自 应 用 程 序 的 作 业, 该 节 点 将 工 作 分 解 成 多 个 小 型 任 务, 然 后 指 派 给 TaskTracker 节 点 典 型 的 操 作 包 括 排 序 搜 索 或 分 析 TeraSort 是 一 个 基 于 数 据 排 序 工 作 负 载 的 标 准 Hadoop 性 能 指 标 评 测 程 序 1 在 我 们 的 测 试 环 境 中, 我 们 将 使 用 TeraGen 来 实 际 生 成 数 据 集 3. 导 出 当 处 理 阶 段 中 针 对 数 据 的 操 作 结 束 后, 应 用 程 序 即 可 获 得 结 果 5

尽 管 这 三 个 阶 段 的 相 关 需 求 因 所 执 行 工 作 的 性 质 而 差 异 较 大, 但 此 模 型 仍 表 明 了 万 兆 位 以 太 网 在 Hadoop 工 作 流 中 的 重 要 价 值 举 个 简 单 的 例 子, 包 含 大 规 模 数 据 压 缩 的 工 作 负 载 在 导 入 数 据 时 的 工 作 负 载 负 担, 可 能 会 大 于 将 数 据 导 出 为 压 缩 格 式 的 负 担 同 样, 尽 管 各 种 任 务 处 理 的 数 据 量 可 能 相 似, 但 某 些 任 务 使 用 的 计 算 资 源 将 会 高 于 其 他 任 务 调 试 和 优 化 指 导 原 则, 以 及 英 特 尔 Hadoop 发 行 版 的 相 关 支 持 服 务 将 能 够 帮 助 发 现 可 满 足 特 定 需 求 的 最 佳 方 法 3.1 优 化 导 入 阶 段 3.2 优 化 处 理 阶 段 : 从 4 小 时 缩 短 到 7 分 钟 的 历 程 英 特 尔 测 试 使 用 了 1 TB TeraSort 工 作 负 载, 通 过 1 个 命 名 节 点 分 布 于 10 个 数 据 节 点 上 为 了 评 测 升 级 各 项 资 源 的 优 势, 我 们 收 集 了 各 项 组 件 在 升 级 前 后 的 结 果, 包 括 从 5600 系 列 升 级 到 E5-2600 产 品 家 族, 从 传 统 硬 盘 升 级 至 固 态 硬 盘, 以 及 从 千 兆 位 以 太 网 升 级 至 万 兆 位 以 太 网 升 级 前 这 些 硬 件 升 级 将 约 4 个 小 时 的 处 理 时 间 缩 短 为 约 12 实 施 英 特 尔 Hadoop 发 行 版 进 一 步 将 处 理 时 间 缩 短 为 约 7 总 体 而 言, 性 能 提 高 将 处 理 阶 段 所 需 的 时 间 减 少 了 近 97% 测 试 的 首 个 硬 件 变 化 是 从 英 特 尔 至 强 处 理 器 X5690 升 级 至 英 特 尔 至 强 处 理 器 E5-2690 如 图 4 所 示, 处 理 器 升 级 将 排 序 1 TB 数 据 集 所 需 的 时 间 缩 短 了 约 一 半, 从 250 缩 短 为 125 6 升 级 后 本 模 型 中 的 导 入 阶 段 只 是 简 单 地 将 数 据 输 入 HDFS 进 行 处 理 该 过 程 始 将 始 终 最 少 进 行 一 次, 在 某 些 情 况 下, 特 别 是 将 MapReduce 作 为 服 务 出 售 的 情 况 下, 可 能 需 要 进 行 多 次 导 入 该 阶 段 和 Hadoop 复 制 工 作 将 会 在 网 络 和 存 储 I/O 方 面, 对 系 统 产 生 重 大 网 络 性 能 需 求 Hadoop* 千 兆 位 英 特 尔 以 太 网 服 务 器 Hadoop 千 兆 位 英 特 尔 以 太 网 服 务 器 处 理 器 升 级 : 缩 短 约 50% 的 时 间 传 统 机 械 硬 盘 传 统 机 械 硬 盘 当 将 数 据 导 入 系 统 时, 万 兆 位 以 太 网 网 络 连 接 对 于 满 足 这 些 需 求 极 为 重 要 将 网 络 从 千 兆 位 以 太 网 迁 移 至 万 兆 位 以 太 网 后, 包 含 并 行 写 入 的 导 入 操 作 在 使 用 传 统 机 械 硬 盘 时 性 能 最 多 可 提 高 4 倍, 而 使 用 固 态 硬 盘 时 最 多 可 提 高 6 倍 1 固 态 硬 盘 性 能 提 高 程 度 较 高 的 原 因 在 于 其 非 易 失 性 存 储 器 可 加 快 对 存 储 子 系 统 的 写 入 速 度 5600 系 列 250 E5-2600 产 品 家 族 125 图 4. 处 理 器 升 级 到 E5-2600 产 品 家 族 : 处 理 阶 段 速 度 提 高 了 约 50% 1 6

在 处 理 这 一 庞 大 数 据 集 时, 快 速 访 问 非 顺 序 数 据 的 能 力 是 一 个 关 键 的 性 能 注 意 事 项 因 此, 为 了 减 少 任 意 现 有 的 存 储 瓶 颈, 下 一 个 测 试 的 升 级 是 将 传 统 机 械 硬 盘 替 换 成 固 态 硬 盘, 以 利 用 其 大 幅 提 高 的 随 机 读 取 次 数 的 优 势 基 于 之 前 通 过 处 理 器 升 级 获 得 的 性 能 改 进, 从 传 统 机 械 硬 盘 升 级 为 英 特 尔 固 态 硬 盘 520 系 列 后, 完 成 工 作 负 载 所 需 的 时 间 从 约 125 缩 短 为 约 23, 降 幅 接 近 80%( 如 图 5 所 示 ) 7 升 级 前 升 级 后 Hadoop* 英 特 尔 以 太 网 千 兆 位 服 务 器 传 统 机 械 硬 盘 E5-2600 产 品 家 族 125 Hadoop 英 特 尔 以 太 网 千 兆 位 服 务 器 英 特 尔 固 态 硬 盘 520 系 列 E5-2600 产 品 家 族 升 级 到 固 态 硬 盘 : 时 间 缩 短 约 80% 23 针 对 希 望 在 同 一 服 务 器 上 组 合 使 用 传 统 机 械 硬 盘 和 固 态 硬 盘 的 客 户, 英 特 尔 提 供 了 英 特 尔 高 速 缓 存 加 速 软 件 这 一 分 层 存 储 模 型 以 较 低 的 购 置 成 本 为 用 户 提 供 了 部 分 固 态 硬 盘 的 性 能 优 势, 但 与 仅 含 固 态 硬 盘 的 配 置 相 比, 除 了 存 在 性 能 差 异 外, 该 方 法 同 时 也 牺 牲 了 固 态 硬 盘 中 的 某 些 可 靠 性 优 势 然 而, 该 存 储 模 型 为 客 户 提 供 了 另 一 选 择, 可 帮 助 他 们 逐 步 采 用 固 态 硬 盘, 从 而 显 著 缩 短 从 数 据 中 获 取 重 要 洞 察 的 时 间 测 试 还 表 明, 当 在 每 个 任 务 节 点 上 安 装 五 块 固 态 硬 盘 时,Hadoop 框 架 能 够 同 时 运 行 足 够 多 的 Map( 映 射 ) 任 务, 以 向 每 块 固 态 硬 盘 生 成 并 行 I/O, 并 将 处 理 器 的 利 用 率 提 升 至 接 近 100% 8 这 一 状 态 可 为 Map 任 务 提 供 最 优 性 能 设 置 io.sort. mb 和 io.sort.record.percen 标 记 可 有 效 避 免 中 间 Map 输 出 溢 出, 过 多 的 磁 盘 读 取 和 写 入 每 个 Map 任 务 可 在 不 到 10 秒 内 处 理 128 MB 的 数 据 块, 并 生 成 128 MB 的 输 出 信 息 并 行 运 行 32 项 Map 任 务 让 每 个 任 务 节 点 达 到 超 过 5 Gb/ 秒 的 速 度 8 图 5. 存 储 升 级 为 固 态 硬 盘 : 处 理 阶 段 速 度 提 高 了 约 80% 7 Hadoop 工 作 负 载 的 大 规 模 分 布 式 特 性 让 网 络 I/O 成 为 了 工 作 流 中 每 个 阶 段 整 体 性 能 的 一 个 关 键 要 素, 万 兆 位 以 太 网 提 供 了 一 个 经 济 高 效 可 扩 展 的 解 决 方 案, 可 帮 助 有 效 缩 短 数 据 的 等 待 时 间 高 带 宽 的 万 兆 位 以 太 网 网 络 不 仅 可 支 持 快 速 向 集 群 导 入 数 据 和 从 集 群 中 导 出 数 据, 而 且 还 可 加 速 TeraSort 工 作 负 载 的 随 机 排 列 阶 段 的 工 作 通 过 在 Map 和 Reduce( 化 简 ) 节 点 间 使 用 万 兆 位 以 太 网 链 路,Reduce 节 点 可 快 速 获 取 数 据, 从 而 能 够 显 著 缩 短 整 体 作 业 执 行 时 间, 并 提 高 集 群 性 能 Hadoop* 升 级 前 英 特 尔 以 太 网 千 兆 位 服 务 器 英 特 尔 固 态 硬 盘 520 系 列 基 于 处 理 器 和 存 储 升 级 所 取 得 的 成 果, 将 集 群 硬 件 从 千 兆 位 以 太 网 升 级 到 万 兆 位 以 太 网 后, 测 试 工 作 负 载 的 处 理 时 间 再 次 缩 短 50%, 从 23 缩 短 为 12 ( 如 图 6 所 示 ) 9 使 用 万 兆 位 以 太 网 互 连 和 固 态 硬 盘 可 支 持 在 包 含 10 个 节 点 的 测 试 集 群 上, 运 行 超 过 100 个 并 发 Reducer 任 务, 从 而 可 实 现 出 色 的 作 业 扩 展 能 力 和 较 高 的 资 源 利 用 率 5 Hadoop 升 级 后 万 兆 位 英 特 尔 以 太 网 融 合 网 络 英 特 尔 固 态 硬 盘 520 系 列 升 级 到 万 兆 位 以 太 网 : 时 间 缩 短 约 50% E5-2600 产 品 家 族 23 E5-2600 产 品 家 族 12 图 6. 网 络 升 级 到 万 兆 位 以 太 网 : 处 理 阶 段 速 度 提 高 了 约 50% 9 7

除 了 上 述 硬 件 升 级 以 外, 英 特 尔 Hadoop 发 行 版 还 提 供 了 一 个 直 观 的 界 面 和 多 项 内 部 优 化, 其 中 包 括 高 级 数 据 压 缩 针 对 HDFS 的 动 态 复 制 副 本 选 择, 以 及 MapReduce 加 速 等 这 一 额 外 的 设 计 有 助 于 提 高 性 能, 同 时 当 与 英 特 尔 可 靠 的 企 业 级 支 持 组 合 使 用 时, 将 能 够 帮 助 客 户 更 快 速 地 部 署 Hadoop 环 境, 并 加 以 出 色 的 维 护 在 硬 件 升 级 的 基 础 上, 实 施 英 特 尔 Hadoop 发 行 版 再 次 将 工 作 负 载 的 完 成 时 间 缩 短 了 约 40%, 从 约 12 缩 短 为 7 ( 如 图 7 所 示 ) 10 3.3 优 化 导 出 阶 段 与 导 入 阶 段 类 似, 万 兆 位 以 太 网 网 络 可 大 幅 提 升 在 处 理 后 从 系 统 提 取 数 据 的 性 能, 而 在 将 传 统 硬 盘 升 级 为 固 态 硬 盘 后, 其 优 势 更 为 显 著 对 传 统 硬 盘 进 行 的 初 步 测 试 表 明,Hadoop 工 作 流 导 出 阶 段 的 主 要 瓶 颈 是 由 于 随 机 磁 盘 寻 道 所 导 致 将 本 地 存 储 更 换 为 固 态 硬 盘 可 消 除 这 一 弊 端, 使 结 果 与 我 们 在 导 入 阶 段 所 看 到 的 结 果 保 持 一 致 通 过 使 用 固 态 硬 盘, 我 们 可 在 从 千 兆 位 以 太 网 升 级 到 万 兆 位 以 太 网 后 将 性 能 提 升 约 6 倍, 从 而 大 幅 缩 短 了 整 个 工 作 流 内 的 整 体 操 作 所 需 的 时 间 如 上 所 述, 使 用 固 态 硬 盘 和 万 兆 位 以 太 网 还 有 助 于 从 高 级 别 的 处 理 器 资 源 中 获 得 更 大 优 势, 进 而 突 显 了 平 衡 Hadoop 集 群 的 资 源 可 带 来 的 重 要 优 势 Hadoop* 升 级 前 万 兆 位 英 特 尔 以 太 网 融 合 网 络 英 特 尔 固 态 硬 盘 520 系 列 E5-2600 家 族 12 4 研 究 环 境 简 述 生 成 本 白 皮 书 中 所 述 结 果 的 Hadoop 测 试 平 台 包 含 一 个 头 结 点 ( 命 名 节 点,Job Tracker) 10 个 工 作 节 点 ( 数 据 节 点, Task Tracker) 和 一 台 思 科 Nexus* 5020 10 Gb 交 换 机 测 试 所 比 较 的 不 同 基 准 和 升 级 后 的 工 作 节 点 组 件 详 细 列 于 表 2 中 2 升 级 后 英 特 尔 Hadoop* 发 行 版 软 件 10 Gb 英 特 尔 以 太 网 融 合 网 络 英 特 尔 固 态 硬 盘 520 系 列 E5-2600 家 族 图 7. 实 施 英 特 尔 Hadoop* 发 行 版 软 件 : 处 理 阶 段 速 度 提 高 了 约 40% 10 部 署 英 特 尔 Hadoop* 发 行 版 软 件 : 时 间 缩 短 约 40% 7 表 2. 测 试 环 境 中 所 比 较 的 工 作 节 点 组 件 处 理 器 和 基 准 系 统 比 较 存 储 比 较 网 络 比 较 软 件 比 较 基 准 组 件 SuperMicro SYS-1026T-URF 1U 服 务 器, 包 含 两 个 英 特 尔 至 强 处 理 器 X5690 @ 3.47 GHz, 48 GB 内 存 700 GB 7200 RPM SATA 硬 盘 英 特 尔 以 太 网 服 务 器 适 配 器 I350-T2 (1 Gb 以 太 网 ) Hadoop* 1.0.3 升 级 的 组 件 戴 尔 PowerEdge* R720 2U 服 务 器, 包 含 两 个 E5-2690 @ 2.90 GHz,128 GB 内 存 英 特 尔 固 态 硬 盘 520 系 列 英 特 尔 以 太 网 融 合 网 络 适 配 器 X520-DA2 ( 万 兆 位 以 太 网 ) 英 特 尔 Hadoop* 发 行 版 软 件 2.1.1 8

5 调 试 和 优 化 注 意 事 项 除 了 升 级 网 络 组 件 和 考 虑 使 用 英 特 尔 Hadoop 发 行 版 以 外, 致 力 于 最 大 限 度 地 从 大 数 据 技 术 中 挖 掘 价 值 的 各 个 组 织, 还 必 须 考 虑 网 络 堆 栈 中 的 配 置 和 设 置, 以 及 Hadoop 软 件 环 境 本 身 尽 管 确 定 可 能 的 配 置 和 设 置 范 围 存 在 较 大 挑 战, 根 据 以 往 的 最 佳 实 践, 我 们 建 议 工 程 师 格 外 注 意 本 部 分 所 列 的 注 意 事 项, 以 获 得 最 大 价 值 5.1 网 络 连 接 操 作 系 统 和 驱 动 程 序 优 化 在 操 作 系 统 和 网 络 连 接 堆 栈 中, 任 意 时 间 打 开 的 文 件 打 开 的 网 络 连 接, 以 及 运 行 的 进 程 的 数 量 应 根 据 特 定 工 作 负 载 的 需 求 而 进 行 调 整 英 特 尔 万 兆 位 以 太 网 Linux* 驱 动 程 序 也 应 通 过 调 整 RSS 队 列 的 数 量 ( 如 本 白 皮 书 所 描 述 的, 测 试 中 的 最 优 数 量 为 两 个 ) 而 进 行 优 化, 而 且 还 应 通 过 调 整 中 断 阈 值 减 少 上 下 文 开 关 的 数 量 在 操 作 系 统 网 络 连 接 和 TCP/IP 堆 栈 中, 应 特 别 注 意 以 下 设 置 优 化 和 实 践 : 增 加 操 作 系 统 中 可 打 开 的 文 件 的 数 量 Hadoop 会 打 开 大 量 文 件, 因 此 提 高 并 发 可 打 开 的 文 件 的 数 量 限 制, 将 能 够 减 少 作 业 故 障 英 特 尔 的 测 试 发 现 32,000 个 文 件 个 数 将 足 够 提 高 并 发 进 程 的 数 量 也 有 助 于 减 少 作 业 故 障 增 加 待 处 理 的 连 接 和 SYN 请 求 的 数 量 Hadoop 的 HSFS 和 MapReduce 引 擎 将 打 开 众 多 周 期 较 短 的 TCP/IP 连 接 在 英 特 尔 设 置 配 置 中, 该 设 置 提 高 到 了 3,240,000, 减 少 了 HDFS 和 MapReduce 通 信 的 等 待 时 间 如 果 不 需 要 在 Hadoop 工 作 负 载 上 进 行 资 源 共 享, 可 考 虑 加 大 TCP/IP 的 最 大 窗 口 大 小 并 扩 展 到 16 MB 该 方 法 将 能 够 帮 助 最 大 限 度 地 提 高 万 兆 位 以 太 网 投 资 的 价 值 如 果 有 足 够 的 系 统 内 存 可 用, 可 提 高 TCP/IP 发 送 和 接 收 缓 冲 大 小 这 一 变 更 可 提 高 网 络 吞 吐 量 在 英 特 尔 测 试 集 群 中, 最 大 值 可 被 设 为 16 MB 当 带 宽 可 用 时, 禁 用 TCP/IP 可 选 ACK 当 启 用 可 选 ACK 时, 对 客 户 端 请 求 的 响 应 可 能 被 延 迟, 并 降 低 作 业 执 行 和 完 成 时 间 ; 禁 用 这 些 ACK 将 有 助 于 改 善 整 体 服 务 器 的 响 应 时 间 和 Hadoop 作 业 性 能 为 存 储 使 用 JBOD Hadoop 拥 有 内 建 的 负 载 平 衡 功 能, 并 能 够 在 可 用 的 HDFS 和 MapReduce JBOD 磁 盘 间 使 用 高 效 的 轮 询 功 能 使 用 包 含 固 态 硬 盘 和 快 速 存 储 的 RAID 可 限 制 存 储 吞 吐 量 和 整 体 作 业 性 能 相 反, 请 为 HDFS 和 MapReduce 的 磁 盘 使 用 JBOD 模 式, 这 是 因 为 HDFS 和 MapReduce 均 内 建 有 在 多 个 JBOD 磁 盘 间 进 行 负 载 平 衡 的 功 能 5.2 Hadoop 配 置 参 数 Hadoop 堆 栈 中 拥 有 超 过 200 个 配 置 参 数, 基 于 以 下 调 试 注 意 事 项 着 手 将 能 够 帮 助 工 程 团 队 高 效 工 作 : Java 虚 拟 机 (JVM) 任 务 的 内 存 配 置 每 个 Map 和 Reduce 任 务 将 在 独 立 的 JVM 实 例 中 运 行 用 户 可 分 别 使 用 配 置 参 数 mapred.map.child.java.opts 和 mapred. reduce.child.java.opts 为 Map 和 Reduce 任 务 指 定 各 个 任 务 的 内 存 英 特 尔 测 试 集 群 将 Map 任 务 堆 栈 的 内 存 设 置 为 512 MB, 将 Reduce 任 务 堆 栈 的 内 存 设 置 为 1.5 GB - Map 任 务 的 内 存 要 求 将 取 决 于 每 个 Map 所 生 成 的 输 出 数 量 包 含 排 序 应 用 程 序 的 128 MB 数 据 块 需 要 约 200 MB 的 空 间 来 存 储 中 间 记 录, 才 能 防 止 溢 出 这 一 内 存 可 使 用 配 置 参 数 进 行 管 理, 如 io.sort.mb =200 mb,io.sort.record.percent=.15 和 io.sort.spih.percent=1.0 - Reduce 任 务 的 内 存 使 用 量 也 可 进 行 调 整 英 特 尔 测 试 建 议 大 多 数 参 数 的 默 认 设 置 已 是 最 优, 但 mapred.job.reduce. inputbuffer.percent 可 变 更 为 0.7, 从 而 让 Reducer 无 需 在 开 始 最 终 合 并 前 清 空 内 存 9

并 发 Map 和 Reduce 任 务 的 数 量 在 英 特 尔 至 强 处 理 器 上,Map 任 务 的 最 优 数 量 通 常 为 逻 辑 内 核 的 数 量, 而 Reducer 的 数 量 应 与 物 理 内 核 的 数 量 相 同 这 些 设 置 可 通 过 mapred.tasktracker.map. tasks.maximum 和 mapred.tasktracker. reduce.tasks.maximum 参 数 进 行 配 置 命 名 节 点 和 数 据 节 点 请 求 处 理 程 序 数 量 和 线 程 数 量 如 果 命 名 节 点 上 拥 有 足 够 的 内 存 和 计 算 资 源, 那 么 命 名 节 点 中 的 线 程 处 理 程 序 数 量 可 提 高 至 100 或 更 高, 以 支 持 大 量 并 发 请 求 提 高 数 据 节 点 的 处 理 程 序 数 量 也 将 可 以 带 来 诸 多 优 势, 特 别 是 在 使 用 固 态 硬 盘 或 快 速 存 储 时, 优 势 将 更 为 突 出 降 低 节 点 间 IPC 通 信 的 网 络 延 迟 将 ipc.server.tcpnodelay 和 ipc.client. tcpnodelay 设 置 为 true Job Tracker 和 Task Tracker 之 间 的 心 跳 频 率 默 认 心 跳 频 率 为 3 秒 对 于 Map 任 务 能 够 较 快 完 成 的 小 型 作 业, 该 设 置 可 能 延 迟 任 务 完 成 通 知 和 新 任 务 的 调 度 设 置 mapreduce.tasktracker. outofband.heartbeats 立 即 发 送 作 业 完 成 通 知 可 提 高 作 业 性 能 使 用 mapreduce.tasktracker.outofband. heartbeat.damper 参 数 来 调 整 心 跳 频 率 也 能 够 提 供 一 定 的 优 势 推 测 任 务 执 行 Hadoop 可 能 在 多 个 节 点 上 安 排 相 同 的 任 务, 以 防 止 节 点 故 障 或 延 迟 执 行 这 一 实 践 若 能 够 充 分 利 用 闲 置 资 源, 则 效 果 显 著, 但 是 若 集 群 满 载 运 行, 其 效 果 甚 微 因 此, 我 们 推 荐 在 某 些 时 候 禁 用 推 测 任 务 执 行, 特 别 是 存 在 高 性 能 处 理 存 储 和 网 络 资 源 的 时 候 中 间 Map 输 出 压 缩 为 中 间 Map 输 出 启 用 压 缩 功 能 有 助 于 提 高 受 到 存 储 或 网 络 性 能 限 制 的 集 群 的 性 能 请 注 意, 当 使 用 万 兆 位 以 太 网 和 固 态 硬 盘 时, 压 缩 输 出 对 于 性 能 的 改 善 效 果 有 限 HDFS 数 据 块 大 小 HDFS 数 据 块 的 最 优 大 小 将 根 据 工 作 负 载 的 不 同 而 有 所 差 异, 但 是 较 大 的 数 据 块 大 小 通 常 不 会 形 成 较 高 的 性 能, 这 是 因 为 它 们 可 能 导 致 对 内 存 产 生 额 外 的 负 担, 并 有 可 能 在 Map 阶 段 导 致 中 间 溢 出 同 时, 较 小 的 数 据 块 大 小 将 对 较 小 和 并 行 程 度 较 高 的 任 务 产 生 额 外 的 开 销 在 英 特 尔 测 试 中, 128 MB 的 数 据 块 大 小 为 TeraSort 性 能 指 标 评 测 程 序 提 供 了 最 优 的 整 体 性 能 5.3 进 一 步 的 增 强 正 如 本 白 皮 书 中 所 介 绍 的, 英 特 尔 已 通 过 使 用 最 新 英 特 尔 至 强 处 理 器 固 态 硬 盘 万 兆 位 以 太 网 英 特 尔 以 太 网 融 合 网 络 适 配 器 和 英 特 尔 Hadoop* 发 行 版 软 件, 实 现 了 大 量 性 能 优 势 所 有 这 些 组 件 的 持 续 进 步 将 有 望 在 大 数 据 的 实 施 过 程 中 带 来 更 多 性 能 优 势 目 前, 我 们 正 在 为 Hadoop 和 其 他 大 数 据 技 术 考 虑 开 发 大 量 软 件 增 强 例 如, 我 们 可 以 通 过 将 基 于 HTTP 的 跨 节 点 通 信 更 换 成 其 他 更 为 优 化 的 选 项, 加 速 传 输 层 性 能, 在 不 增 加 物 理 资 源 的 前 提 下 提 高 整 体 吞 吐 量 这 一 增 强 和 其 他 软 件 增 强 均 为 英 特 尔 持 续 关 注 的 一 个 研 究 领 域 面 向 商 业 分 析 和 其 他 大 数 据 使 用 模 型 的 虚 拟 化 预 构 建 的 Hadoop 集 群 是 另 一 个 前 景 广 阔 的 研 发 领 域, 它 们 可 带 来 众 多 潜 在 优 势, 其 中 包 括 : 降 低 实 施 Hadoop 环 境 的 复 杂 性 为 虚 拟 化 资 源 配 置 制 定 最 佳 实 践, 摒 弃 手 动 调 整 基 于 大 数 据 技 术 构 建 多 用 途 环 境 10

6 结 论 存 储 和 分 析 大 量 非 结 构 化 数 据 的 能 力 将 能 够 为 企 业 学 术 机 构 和 政 府 组 织 带 来 众 多 机 会 英 特 尔 通 过 此 研 究 表 明, 通 过 使 用 精 选 的 硬 件 组 件 组 成 平 衡 的 基 础 设 施, 并 使 用 英 特 尔 Hadoop* 发 行 版 软 件,Hadoop 将 能 够 实 现 大 幅 的 性 能 提 升 本 白 皮 书 中 所 描 述 的 结 果 只 是 英 特 尔 和 行 业 其 他 领 域 所 正 在 开 展 的 并 不 断 壮 大 的 大 型 研 究 中 的 一 部 分, 这 些 研 究 旨 在 发 现 各 种 最 佳 实 践, 以 支 持 构 建 和 运 行 Hadoop 集 群 与 其 他 大 数 据 解 决 方 案, 同 时 开 发 和 调 试 软 件, 确 保 这 些 软 件 能 够 在 此 类 环 境 中 实 现 最 优 运 行 这 一 方 面 的 进 展 将 能 够 指 导 计 算 行 业 朝 着 简 化 低 成 本 实 施 的 目 标 迈 进, 从 而 推 动 在 今 后 实 现 实 时 分 析 能 力 的 广 泛 普 及 11

如 欲 了 解 更 多 信 息, 请 访 问 以 下 页 面 : hadoop.intel.com www.intel.com/bigdata www.intel.com/go/ethernet www.intel.com/xeone5 www.intel.com/storage 1 英 特 尔 在 2012 年 12 月 进 行 的 TeraSort 性 能 指 标 评 测 自 定 义 设 置 :mapred.reduce.tasks=100 以 及 mapred.job.reuse.jvm.num.tasks=-1 如 欲 了 解 更 多 信 息, 请 访 问 : http://hadoop.apache.org/docs/current/api/org/apache/hadoop/examples/terasort/package-summary.html 2 集 群 配 置 : 一 个 头 结 点 ( 命 名 节 点,Job Tracker),10 个 工 作 节 点 ( 数 据 节 点,Task Tracker), 思 科 Nexus* 5020 10 Gb 交 换 机 基 准 工 作 节 点 :SuperMicro SYS-1026T-URF1U 服 务 器, 包 含 两 个 X5690 @ 3.47 GHz,48 GB 内 存,700 GB 7200 RPM SATA 硬 盘, 英 特 尔 以 太 网 服 务 器 I350-T2, Hadoop* 1.0.3,Red Hat Enterprise Linux*6.3,Oracle Java* 1.7.0_05 工 作 节 点 中 的 升 级 处 理 器 和 基 准 系 统 : 戴 尔 PowerEdge* R720 2U 服 务 器, 包 含 两 个 E5-2690 @ 2.90 GHz,128 GB 内 存 工 作 节 点 中 的 升 级 存 储 : 英 特 尔 固 态 硬 盘 520 系 列 工 作 节 点 中 的 升 级 网 络 : 英 特 尔 以 太 网 融 合 网 络 X520-DA2 工 作 节 点 中 的 升 级 软 件 : 英 特 尔 Hadoop* 发 行 版 软 件 2.1.1 3 英 特 尔 固 态 硬 盘 520 系 列 当 前 未 针 对 数 据 中 心 用 途 进 行 验 证 4 固 态 硬 盘 性 能 将 由 于 容 量 的 不 同 而 有 所 差 异 5 性 能 使 用 lorneter*( 队 列 深 度 为 32) 测 量 得 出 测 试 于 2012 年 12 月 开 展 6 基 准 工 作 节 点 :SuperMicro SYS-1026T-URF1U 服 务 器, 其 中 包 含 两 个 X5690 @ 3.47 GHz,48 GB 内 存,700 GB 7200 RPM SATA 硬 盘, 英 特 尔 以 太 网 服 务 器 I350-T2, Hadoop* 1.0.3,Red Hat Enterprise Linux*6.3,Oracle Java* 1.7.0_05 工 作 节 点 中 的 升 级 处 理 器 和 基 准 系 统 : 戴 尔 PowerEdge* R720 2U 服 务 器, 包 含 两 个 E5-2690 @ 2.90 GHz,128 GB 内 存,700 GB 7200 RPM SATA 硬 盘 7 基 准 存 储 :700 GB 7200 RPM SATA 硬 盘, 升 级 存 储 : 英 特 尔 固 态 硬 盘 520 系 列 8 资 料 来 源 : 英 特 尔 内 部 测 试,2012 年 12 月 9 基 准 网 络 : 英 特 尔 以 太 网 服 务 器 I350-T2, 升 级 网 络 : 英 特 尔 以 太 网 融 合 网 络 X520-DA2 10 工 作 节 点 中 的 升 级 软 件 : 英 特 尔 Hadoop* 发 行 版 软 件 2.1.1 在 性 能 检 测 过 程 中 涉 及 的 软 件 及 其 性 能 只 有 在 英 特 尔 微 处 理 器 的 架 构 下 方 能 得 到 优 化 诸 如 SYSmark* 和 MobileMark* 等 测 试 均 系 基 于 特 定 计 算 机 系 统 硬 件 软 件 操 作 系 统 及 功 能, 上 述 任 何 要 素 的 变 动 都 有 可 能 导 致 测 试 结 果 的 变 化 请 参 考 其 他 信 息 及 性 能 测 试 ( 包 括 结 合 其 他 产 品 使 用 时 的 运 行 性 能 ) 以 对 目 标 产 品 进 行 全 面 评 估 更 多 信 息 敬 请 登 陆 www.intel.com/performance 结 果 以 英 特 尔 内 部 测 试 为 基 础, 并 使 用 了 第 三 方 基 准 测 试 数 据 和 软 件 英 特 尔 不 控 制 或 审 核 本 文 件 中 所 引 述 的 网 页 或 第 三 方 所 提 供 的 基 准 数 据 的 设 计 或 实 施 情 况 英 特 尔 鼓 励 客 户 登 录 本 文 件 引 述 的 网 页 或 其 他 网 页 以 核 实 相 关 基 准 数 据 的 准 确 性 以 及 其 是 否 反 映 了 所 购 买 的 系 统 的 性 能 英 特 尔 编 译 器 针 对 非 英 特 尔 微 处 理 器 的 优 化 程 度 可 能 与 英 特 尔 微 处 理 器 相 同 ( 或 不 同 ) 这 些 优 化 包 括 SSE2 SSE3 和 SSSE3 指 令 集 以 及 其 它 优 化 对 于 在 非 英 特 尔 制 造 的 微 处 理 器 上 进 行 的 优 化, 英 特 尔 不 对 相 应 的 可 用 性 功 能 或 有 效 性 提 供 担 保 该 产 品 中 依 赖 于 处 理 器 的 优 化 仅 适 用 于 英 特 尔 微 处 理 器 部 分 非 针 对 英 特 尔 微 体 系 架 构 的 优 化 也 为 英 特 尔 微 处 理 器 保 留 了 下 来 如 欲 了 解 更 多 有 关 本 声 明 所 涉 及 的 特 定 指 令 集 的 信 息, 请 参 阅 适 用 产 品 的 用 户 和 参 考 指 南 声 明 版 本 #20110804 本 文 件 中 包 含 关 于 英 特 尔 产 品 的 信 息 英 特 尔 未 通 过 明 示 或 暗 示, 禁 止 翻 供 或 其 他 方 式 许 可 或 担 保 与 销 售 和 / 或 使 用 英 特 尔 产 品 相 关 的 内 容, 其 中 包 括 不 对 特 定 目 的 适 用 性 适 销 性, 以 及 是 否 侵 犯 任 何 专 利 版 权 或 其 他 知 识 产 权 做 出 担 保 除 非 经 过 英 特 尔 的 书 面 同 意 认 可, 英 特 尔 的 产 品 无 意 被 设 计 用 于 或 被 用 于 以 下 应 用 : 即 在 这 样 的 应 用 中 可 因 英 特 尔 产 品 的 故 障 而 导 致 人 身 伤 亡 英 特 尔 有 权 随 时 更 改 产 品 的 规 格 和 描 述 而 毋 需 发 出 通 知 设 计 者 不 应 信 赖 任 何 英 特 产 品 所 不 具 有 的 特 性, 设 计 者 亦 不 应 信 赖 任 何 标 有 保 留 权 利 或 未 定 义 说 明 或 特 性 描 述 对 此, 英 特 尔 保 留 将 来 对 其 进 行 定 义 的 权 利, 同 时, 英 特 尔 不 应 为 因 其 日 后 更 改 该 等 说 明 或 特 性 描 述 而 产 生 的 冲 突 和 不 相 容 承 担 任 何 责 任 此 处 提 供 的 信 息 可 随 时 改 变 而 毋 需 通 知 请 勿 根 据 本 文 件 提 供 的 信 息 完 成 一 项 产 品 设 计 本 文 件 所 描 述 的 产 品 可 能 包 含 使 其 与 宣 称 的 规 格 不 符 的 设 计 缺 陷 或 失 误 这 些 缺 陷 或 失 误 已 收 录 于 勘 误 表 中, 可 索 取 获 得 在 发 出 订 单 之 前, 请 联 系 当 地 的 英 特 尔 营 业 部 或 分 销 商 以 获 取 最 新 的 产 品 规 格 索 取 本 文 件 中 或 英 特 尔 的 其 他 材 料 中 提 的 包 含 订 单 号 的 文 件 的 复 印 件, 可 拨 打 1-800-548-4725, 或 登 陆 www.intel.com 英 特 尔 公 司 2013 年 版 权 所 有 所 有 权 保 留 英 特 尔 Intel 标 识 至 强 和 Xeon 是 英 特 尔 在 美 国 和 / 或 其 他 国 家 的 商 标 * 其 他 的 名 称 和 品 牌 可 能 是 其 他 所 有 者 的 资 产 0113/ME/MESH/PDF C 请 注 意 环 保 328340-001CN 12