分布式数据库期中作业说明

Similar documents
说 明 为 了 反 映 教 运 行 的 基 本 状 态, 为 校 和 院 制 定 相 关 政 策 和 进 行 教 建 设 与 改 革 提 供 据 依 据, 校 从 程 资 源 ( 开 类 别 开 量 规 模 ) 教 师 结 构 程 考 核 等 维 度, 对 2015 年 春 季 期 教 运 行 基

18 上 报 该 学 期 新 生 数 据 至 阳 光 平 台 第 一 学 期 第 四 周 至 第 六 周 19 督 促 学 习 中 心 提 交 新 增 专 业 申 请 第 一 学 期 第 四 周 至 第 八 周 20 编 制 全 国 网 络 统 考 十 二 月 批 次 考 前 模 拟 题 第 一 学

0 年 上 半 年 评 价 与 考 核 细 则 序 号 部 门 要 素 值 考 核 内 容 考 核 方 式 考 核 标 准 考 核 ( 扣 原 因 ) 考 评 得 3 安 全 生 产 目 30 无 同 等 责 任 以 上 道 路 交 通 亡 人 事 故 无 轻 伤 责 任 事 故 无 重 大 质 量

<433A5C446F63756D656E E E67735C41646D696E F725CD7C0C3E65CC2DBCEC4CFB5CDB3CAB9D3C3D6B8C4CFA3A8BCF2BBAFA3A95CCAB9D3C3D6B8C4CF31302D31392E646F63>

《C语言基础入门》课程教学大纲

何 秋 琳 张 立 春 视 觉 学 习 研 究 进 展 视 觉 注 意 视 觉 感 知


深圳市新亚电子制程股份有限公司

一 公 共 卫 生 硕 士 专 业 学 位 论 文 的 概 述 学 位 论 文 是 对 研 究 生 进 行 科 学 研 究 或 承 担 专 门 技 术 工 作 的 全 面 训 练, 是 培 养 研 究 生 创 新 能 力, 综 合 运 用 所 学 知 识 发 现 问 题, 分 析 问 题 和 解 决

( ) 信 号 与 系 统 Ⅰ 学 科 基 础 必 修 课 教 周 2016 年 06 月 13 日 (08:00-09:35) ( )

<433A5C C6B73625C B746F705CB9FABCCAD6D0D2BDD2A9D7A8D2B5B8DFBCB6BCBCCAF5D6B0B3C6C6C0C9F3C9EAC7EBD6B8C4CFA3A CDA8D3C3B0E6A3A92E646F63>

评 委 : 李 炎 斌 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

修改版-操作手册.doc

国债回购交易业务指引

 编号:

课程类 别


<4D F736F F D D323630D6D0B9FAD3A6B6D4C6F8BAF2B1E4BBAFB5C4D5FEB2DFD3EBD0D0B6AF C4EAB6C8B1A8B8E6>

龚 亚 夫 在 重 新 思 考 基 础 教 育 英 语 教 学 的 理 念 一 文 中 援 引 的 观 点 认 为 当 跳 出 本 族 语 主 义 的 思 维 定 式 后 需 要 重 新 思 考 许 多 相 连 带 的 问 题 比 如 许 多 发 音 的 细 微 区 别 并 不 影 响 理 解 和

,,,,, :,, (.,, );, (, : ), (.., ;. &., ;.. &.., ;, ;, ),,,,,,, ( ) ( ),,,,.,,,,,, : ;, ;,.,,,,, (., : - ),,,, ( ),,,, (, : ),, :,

I

评 委 : 徐 岩 宇 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单


Microsoft Word - 文件汇编.doc

ETF、分级基金规模、份额变化统计

金 不 少 于 800 万 元, 净 资 产 不 少 于 960 万 元 ; (3) 近 五 年 独 立 承 担 过 单 项 合 同 额 不 少 于 1000 万 元 的 智 能 化 工 程 ( 设 计 或 施 工 或 设 计 施 工 一 体 ) 不 少 于 2 项 ; (4) 近 三 年 每 年

2006年顺德区高中阶段学校招生录取分数线

HSK( 一 级 ) 考 查 考 生 的 日 常 汉 语 应 用 能 力, 它 对 应 于 国 际 汉 语 能 力 标 准 一 级 欧 洲 语 言 共 同 参 考 框 架 (CEF) A1 级 通 过 HSK( 一 级 ) 的 考 生 可 以 理 解 并 使 用 一 些 非 常 简 单 的 汉 语

一 开 放 性 的 政 策 与 法 规 二 两 岸 共 同 的 文 化 传 承 三 两 岸 高 校 各 自 具 有 专 业 优 势 远 见 杂 志 年 月 日

采 取 行 动 的 机 会 90% 开 拓 成 功 的 道 路 2

附件1:

3 月 30 日 在 中 国 证 券 报 上 海 证 券 报 证 券 时 报 证 券 日 报 和 上 海 证 券 交 易 所 网 站 上 发 出 召 开 本 次 股 东 大 会 公 告, 该 公 告 中 载 明 了 召 开 股 东 大 会 的 日 期 网 络 投 票 的 方 式 时 间 以 及 审

一、资质申请

( 二 ) 现 行 统 一 高 考 制 度 不 利 于 培 养 人 的 创 新 精 神,,,,,,,,,,,,, [ ],,,,,,,,,,, :, ;,,,,,,? ( 三 ) 现 行 统 一 高 考 制 度 不 利 于 全 体 学 生 都 获 得 全 面 发 展,, [ ],,,,,,,,,,,

全国建筑市场注册执业人员不良行为记录认定标准(试行).doc

物 流 从 业 人 员 职 业 能 力 等 级 证 书 分 为 四 个 级 别, 分 别 为 初 级 助 理 级 中 级 和 高 级 ; 采 购 从 业 人 员 职 业 能 力 等 级 证 书 分 为 三 个 级 别, 分 别 为 中 级 高 级 和 注 册 级 请 各 有 关 单 位 按 照 通

抗 战 时 期 国 民 政 府 的 银 行 监 理 体 制 探 析 % # % % % ) % % # # + #, ) +, % % % % % % % %

随着执业中医师资格考试制度的不断完善,本着为我校中医学专业认证服务的目的,本文通过对我校中医类毕业生参加2012年和2013年的中医执业医师考试成绩及通过率、掌握率进行分析,并与全国的平均水平进行差异比较分析,以此了解我校执业中医师考试的现状,进而反映我校中医类课程总体教学水平,发现考核知识模块教学中存在的不足,反馈给相关学院和教学管理部门,以此提高教学和管理水平。

<4D F736F F D20C6F3D2B5C5E0D1B5CAA6B9FABCD2D6B0D2B5B1EAD7BC2E646F63>

新, 各 地 各 部 门 ( 单 位 ) 各 文 化 事 业 单 位 要 高 度 重 视, 切 实 加 强 领 导, 精 心 组 织 实 施 要 根 据 事 业 单 位 岗 位 设 置 管 理 的 规 定 和 要 求, 在 深 入 调 查 研 究 广 泛 听 取 意 见 的 基 础 上, 研 究 提

21 业 余 制 -- 高 起 专 (12 级 ) 75 元 / 学 分 网 络 学 院 学 生 沪 教 委 财 (2005)49 号 江 西 化 校 工 科 22 业 余 制 -- 高 起 专 (12 级 ) 70 元 / 学 分 网 络 学 院 学 生 沪 教 委 财 (2005)49 号 吉

<4D F736F F D20B9D8D3DAB0BABBAAA3A8C9CFBAA3A3A9D7D4B6AFBBAFB9A4B3CCB9C9B7DDD3D0CFDEB9ABCBBE C4EAC4EAB6C8B9C9B6ABB4F3BBE1B7A8C2C9D2E2BCFBCAE92E646F6378>

珠江钢琴股东大会

Microsoft Word - 第7章 图表反转形态.doc

目 录 关 于 图 标... 3 登 陆 主 界 面... 3 工 单 管 理... 5 工 单 列 表... 5 搜 索 工 单... 5 工 单 详 情... 6 创 建 工 单... 9 设 备 管 理 巡 检 计 划 查 询 详 情 销 售 管

黄 金 原 油 总 持 仓 增 长, 同 比 增 幅 分 别 为 4.2% 和 4.1% 而 铜 白 银 以 及 玉 米 则 出 现 减 持, 减 持 同 比 减 少 分 别 为 9.4%,9.4% 以 及 6.5% 大 豆, 豆 粕 结 束 连 续 4 周 总 持 仓 量 增 长, 出 现 小 幅

中 中 中 中 部 中 岗 位 条 件 历 其 它 历 史 师 地 理 师 生 物 师 体 与 健 康 师 从 事 中 历 史 工 从 事 中 地 理 工 从 事 中 生 物 工 从 事 中 体 与 健 康 工 2. 课 程 与 论 ( 历 史 ); 2. 科 ( 历 史 )

马 克 思 主 义 公 正 观 的 基 本 向 度 及 方 法 论 原 则!! # #

一 从 分 封 制 到 郡 县 制 一 从 打 虎 亭 汉 墓 说 起

2014年中央财经大学研究生招生录取工作简报

定 位 和 描 述 : 程 序 设 计 / 办 公 软 件 高 级 应 用 级 考 核 内 容 包 括 计 算 机 语 言 与 基 础 程 序 设 计 能 力, 要 求 参 试 者 掌 握 一 门 计 算 机 语 言, 可 选 类 别 有 高 级 语 言 程 序 设 计 类 数 据 库 编 程 类

<4D F736F F D20322EC9F3BACBC8CBD4B1D7CAB8F1D7A2B2E1B9DCC0EDB9E6B7B6B8BDB1ED2E646F63>

证券代码: 证券简称:长城电脑 公告编号:

学 年 第 二 学 期 集 中 考 试 安 排 (18 周 ) 考 试 日 期 :6 月 27 日 星 期 一 8:10-9:50 第 二 公 共 教 学 楼 A 区 A 高 等 数 学 ( 理 二 2) 复 材 材 料 科 学 与 工 程

关于修订《沪市股票上网发行资金申购

上海证券交易所会议纪要

2016年南开大学MBA招生信息

2. 本 次 修 改 后, 投 资 者 申 购 新 股 的 持 有 市 值 要 求 市 值 计 算 规 则 及 证 券 账 户 使 用 的 相 关 规 定 是 否 发 生 了 变 化? 答 : 未 发 生 变 化 投 资 者 申 购 新 股 的 持 有 市 值 是 指, 以 投 资 者 为 单 位

中 国 软 科 学 年 第 期!!!

伊 犁 师 范 学 院 611 语 言 学 概 论 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 语 言 学 纲 要 笔 记, 由 考 取 本 校 本 专 业 高 分 研 究 生 总 结 而 来, 重 点 突 出, 借 助 此 笔 记 可 以 大 大 提 高 复 习 效

附 件 : 上 海 市 建 筑 施 工 企 业 施 工 现 场 项 目 管 理 机 构 关 键 岗 位 人 员 配 备 指 南 二 一 四 年 九 月 十 一 日 2

2 熟 悉 Visual Basic 的 集 成 开 发 环 境 3 了 解 可 视 化 面 向 对 象 编 程 事 件 驱 动 交 互 式 开 发 等 基 本 概 念 4 了 解 Visual Basic 的 特 点 环 境 要 求 与 安 装 方 法 1 Visual Basic 开 发 应 用

名 称 生 命 科 学 学 院 环 境 科 学 1 生 物 学 仅 接 收 院 内 调 剂, 初 试 分 数 满 足 我 院 生 物 学 复 试 最 低 分 数 线 生 命 科 学 学 院 生 态 学 5 生 态 学 或 生 物 学 生 命 科 学 学 院

正 规 培 训 达 规 定 标 准 学 时 数, 并 取 得 结 业 证 书 二 级 可 编 程 师 ( 具 备 以 下 条 件 之 一 者 ) (1) 连 续 从 事 本 职 业 工 作 13 年 以 上 (2) 取 得 本 职 业 三 级 职 业 资 格 证 书 后, 连 续 从 事 本 职 业

工 程 勘 察 资 质 标 准 根 据 建 设 工 程 勘 察 设 计 管 理 条 例 和 建 设 工 程 勘 察 设 计 资 质 管 理 规 定, 制 定 本 标 准 一 总 则 ( 一 ) 本 标 准 包 括 工 程 勘 察 相 应 专 业 类 型 主 要 专 业 技 术 人 员 配 备 技 术

合 并 计 算 配 售 对 象 持 有 多 个 证 券 账 户 的, 多 个 证 券 账 户 市 值 合 并 计 算 确 认 多 个 证 券 账 户 为 同 一 配 售 对 象 持 有 的 原 则 为 证 券 账 户 注 册 资 料 中 的 账 户 持 有 人 名 称 有 效 身 份 证 明 文 件

证监会行政审批事项目录

·岗位设置管理流程

(Microsoft Word - NCRE\314\345\317\265\265\367\325\37313\324\27221\272\3051.doc)

思 想 政 治 理 论 经 核 查 无 误 思 想 政 治 理 论 经 核 查 无 误 思 想 政 治 理 论 经 核 查 无 误 思 想

GONGZUO JUJIAO 宝 山 区 领 军 人 才 名 单 宝 山 区 第 七 批 拔 尖 人 才 名 单 2

年 8 月 11 日, 公 司 召 开 2015 年 第 五 次 临 时 股 东 大 会, 审 议 通 过 了 关 于 公 司 <2015 年 股 票 期 权 激 励 计 划 ( 草 案 )> 及 其 摘 要 的 议 案 关 于 提 请 股 东 大 会 授 权 董 事 会 办 理 公

教师上报成绩流程图

目 录 一 系 统 访 问... 1 二 门 户 首 页 申 报 用 户 审 核 用 户... 2 三 系 统 登 录 用 户 名 密 码 登 录 新 用 户 注 册 用 户 登 录 已 注 册 用

目 录 第 一 章 博 星 卓 越 电 子 商 务 营 销 策 划 实 践 平 台 硬 件 使 用 介 绍... 3 第 二 章 博 星 卓 越 电 子 商 务 营 销 策 划 实 践 平 台 管 理 员 端 功 能 使 用 介 绍 系 统 管 理 员 登 陆 班

上海证券交易所会议纪要

公 开 刊 物 须 有 国 内 统 一 刊 (CN), 发 表 文 章 的 刊 物 需 要 在 国 家 新 闻 出 版 广 电 总 局 ( 办 事 服 务 便 民 查 询 新 闻 出 版 机 构 查 询 ) 上 能 够 查 到 刊 凡 在 有 中 国 标 准 书 公 开

收 入 支 出 项 目 2016 年 预 算 项 目 2016 年 预 算 预 算 01 表 单 位 : 万 元 ( 保 留 两 位 小 数 ) 一 公 共 财 政 预 算 拨 款 一 人 员 经 费 一 般 财 力 人 员 支 出 成 品

untitled

第1篇 道路桥梁工程技术核心专业课程标准及学习绩效考评体系

<4D F736F F D20B3D6B2D6CFDEB6EEB1EDB8F1D7EED6D52E646F63>

第 六 章 债 券 股 票 价 值 评 估 1 考 点 一 : 债 券 价 值 的 影 响 因 素 2

Template BR_Rec_2005.dot

¹ º ¹ º 农 业 流 动 人 口 是 指 户 口 性 质 为 农 业 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个 月 及 以 上 的 流 动 人 口 非 农 流 动 人 口 是 指 户 口 性 质 为 非 农 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个

<4D F736F F D20BFC9B1E0B3CCD0F2BFD8D6C6CFB5CDB3C9E8BCC6CAA6B9FABCD2D6B0D2B5B1EAD7BC2E646F63>

国家职业标准:网络课件设计师

<4D F736F F D20B9D8D3DA BDECB1CFD2B5C9FAC5C9C7B2B1A8B5BDB5C8D3D0B9D8B9A4D7F7B5C4CDA8D6AAA3A E362E38A3A92E646F63>

2016年德州市机构编制委员会


三门峡市质量技术监督局清单公示

2016 年 荔 湾 区 财 政 核 定 支 出 汇 总 表 表 二 单 位 名 称 : 广 州 文 化 公 园 基 本 支 出 项 目 支 出 科 目 编 码 预 算 科 目 名 称 一 般 公 共 预 算 5, , , , ,

2016年山东省民主党派办公大楼管理处

上证指数

<4D F736F F D20D0A3B7A2A1B A1B BAC5B9D8D3DAD7E9D6AFBFAAD5B9C8ABD0A3BDCCD6B0B9A4B8DACEBBC6B8D3C3B1E4B6AFB9A4D7F7B5C4CDA8D6AA2E646F63>

i 1) 系 统 运 作 前 设 定 *1. [2.1 网 页 主 机 名 称 设 定 ] -- 设 定 校 务 系 统 的 主 机 IP 地 址, 以 供 其 他 个 人 电 脑 连 接 及 使 用 该 系 统 *2. [2.3.1 输 入 / 修 改 学 校 资 料 ] -- 输 入 系 统 使

<4D F736F F D20D6D0B9FABDE1CBE3C9CFBAA3B7D6B9ABCBBECCD8CAE2B7A8C8CBBBFAB9B9D6A4C8AFD5CBBBA7BFAABBA7D2B5CEF1D6B8C4CF2E646F63>

微软用户

第 四 条 建 设 单 位 对 可 能 产 生 职 业 病 危 害 的 建 设 项 目, 应 当 依 照 本 办 法 向 安 全 生 产 监 督 管 理 部 门 申 请 职 业 卫 生 三 同 时 的 备 案 审 核 审 查 和 竣 工 验 收 建 设 项 目 职 业 卫 生 三 同 时 工 作 可


北京信息科技大学本科学生成绩管理办法

Transcription:

厦 门 大 学 林 子 雨 编 著 大 数 据 技 术 原 理 与 应 用 ( 版 本 号 :2016 年 4 月 13 日 版 本 ) ( 备 注 :2015 年 8 月 1 日 第 一 版 教 材 中 没 有 本 章, 本 章 为 2016 年 新 增 内 容, 将 被 放 入 第 二 版 教 材 中 ) ( 版 权 声 明 : 版 权 所 有, 请 勿 用 于 商 业 用 途 ) 主 讲 教 师 : 林 子 雨 厦 门 大 学 数 据 库 实 验 室 二 零 一 六 年 四 月

中 国 高 校 大 数 据 课 程 公 共 服 务 平 台, 由 中 国 高 校 首 个 数 字 教 师 的 提 出 者 和 建 设 者 林 子 雨 老 师 发 起, 由 厦 门 大 学 数 据 库 实 验 室 全 力 打 造, 由 厦 门 大 学 云 计 算 与 大 数 据 研 究 中 心 海 峡 云 计 算 与 大 数 据 应 用 研 究 中 心 携 手 共 建 这 是 国 内 第 一 个 服 务 于 高 校 大 数 据 课 程 建 设 的 公 共 服 务 平 台, 旨 在 促 进 国 内 高 校 大 数 据 课 程 体 系 建 设, 提 高 大 数 据 课 程 教 学 水 平, 降 低 大 数 据 课 程 学 习 门 槛, 提 升 学 生 课 程 学 习 效 果 平 台 为 教 师 开 展 大 数 据 教 学 和 学 生 学 习 大 数 据 课 程, 提 供 全 方 位 一 站 式 免 费 服 务, 包 括 讲 义 PPT 教 学 大 纲 备 课 指 南 学 习 指 南 上 机 习 题 授 课 视 频 技 术 资 料 等 百 度 搜 索 厦 门 大 学 数 据 库 实 验 室, 访 问 平 台 主 页, 或 直 接 访 问 平 台 地 址 : http://dblab.xmu.edu.cn/post/bigdata-teaching-platform/ 扫 一 扫 访 问 平 台 主 页

大 数 据 技 术 原 理 与 应 用 概 念 存 储 处 理 分 析 与 应 用, 由 厦 门 大 学 计 算 机 科 学 系 教 师 林 子 雨 博 士 编 著, 是 中 国 高 校 第 一 本 系 统 介 绍 大 数 据 知 识 的 专 业 教 材 本 书 定 位 为 大 数 据 技 术 入 门 教 材, 为 读 者 搭 建 起 通 向 大 数 据 知 识 空 间 的 桥 梁 和 纽 带, 以 构 建 知 识 体 系 阐 明 基 本 原 理 引 导 初 级 实 践 了 解 相 关 应 用 为 原 则, 为 读 者 在 大 数 据 领 域 深 耕 细 作 奠 定 基 础 指 明 方 向 全 书 共 有 13 章, 系 统 地 论 述 了 大 数 据 的 基 本 概 念 大 数 据 处 理 架 构 Hadoop 分 布 式 文 件 系 统 HDFS 分 布 式 数 据 库 HBase NoSQL 数 据 库 云 数 据 库 分 布 式 并 行 编 程 模 型 MapReduce 流 计 算 图 计 算 数 据 可 视 化 以 及 大 数 据 在 互 联 网 生 物 医 学 和 物 流 等 各 个 领 域 的 应 用 在 Hadoop HDFS HBase 和 MapReduce 等 重 要 章 节, 安 排 了 入 门 级 的 实 践 操 作, 让 读 者 更 好 地 学 习 和 掌 握 大 数 据 关 键 技 术 本 书 可 以 作 为 高 等 院 校 计 算 机 专 业 信 息 管 理 等 相 关 专 业 的 大 数 据 课 程 教 材, 也 可 供 相 关 技 术 人 员 参 考 学 习 培 训 之 用 欢 迎 访 问 大 数 据 技 术 原 理 与 应 用 概 念 存 储 处 理 分 析 与 应 用 教 材 官 方 网 站 : http://dblab.xmu.edu.cn/post/bigdata 扫 一 扫 访 问 教 材 官 网

目 录 目 录 15.1 Hadoop 的 优 化 与 发 展... 1 15.1.1Hadoop 的 局 限 与 不 足... 1 15.1.2 针 对 Hadoop 的 改 进 与 提 升... 2 15.2HDFS2.0 的 新 特 性... 2 15.2.1HDFS HA... 2 15.2.2HDFS Federation... 4 15.3 新 一 代 资 源 管 理 调 度 框 架 YARN... 6 15.3.1 MapReduce1.0 的 缺 陷... 6 15.3.2 YARN 设 计 思 路... 7 15.3.3 YARN 体 系 结 构... 8 15.3.4 YARN 工 作 流 程... 11 15.3.5YARN 框 架 与 MapReduce1.0 框 架 的 对 比 分 析... 12 15.3.6 YARN 的 发 展 目 标... 13 15.4Hadoop 生 态 系 统 中 具 有 代 表 性 的 功 能 组 件... 14 15.4.1Pig... 14 15.4.2Tez... 15 15.4.3Spark... 17 15.4.4Kafka... 17 习 题... 19 附 录 1: 任 课 教 师 介 绍... 20 附 录 2: 课 程 教 材 介 绍... 20 附 录 3: 中 国 高 校 大 数 据 课 程 公 共 服 务 平 台 介 绍... 21

Hadoop 作 为 一 种 开 源 的 大 数 据 处 理 架 构, 在 业 内 得 到 了 广 泛 的 应 用, 几 乎 成 为 大 数 据 技 术 的 代 名 词 但 是,Hadoop 在 诞 生 之 初, 在 架 构 设 计 和 应 用 性 能 方 面, 仍 然 存 在 一 些 不 尽 人 意 的 地 方, 并 在 后 续 发 展 过 程 中 得 到 了 逐 渐 的 改 进 和 完 善 Hadoop 的 优 化 与 发 展 主 要 体 现 在 两 个 方 面, 一 方 面 是 Hadoop 自 身 两 大 核 心 组 件 MapReduce 和 HDFS 的 架 构 设 计 改 进, 另 一 方 面 是 Hadoop 生 态 系 统 其 它 组 件 的 不 断 丰 富 通 过 这 些 优 化 和 提 升,Hadoop 可 以 支 持 更 多 的 应 用 场 景, 提 供 更 高 的 集 群 可 用 性, 同 时 也 带 来 了 更 高 的 资 源 利 用 率 本 章 首 先 介 绍 Hadoop 的 局 限 与 不 足, 并 从 全 局 视 角 系 统 总 结 针 对 Hadoop 的 改 进 与 提 升 ; 然 后, 介 绍 Hadoop 在 自 身 核 心 组 件 方 面 的 新 发 展, 包 括 HDFS2.0 新 特 性 和 新 一 代 资 源 管 理 调 度 框 架 YARN 框 架 ; 最 后, 介 绍 Hadoop 推 出 之 后 陆 续 涌 现 的 具 有 代 表 性 的 新 功 能 组 件, 包 括 Pig Tez Spark 和 Kafka 等, 这 些 组 件 对 Hadoop 的 局 限 进 行 了 有 效 的 改 进, 进 一 步 丰 富 和 发 展 了 Hadoop 生 态 系 统 15.1 Hadoop 的 优 化 与 发 展 15.1.1Hadoop 的 局 限 与 不 足 Hadoop1.0 的 核 心 组 件 ( 仅 指 MapReduce 和 HDFS, 不 包 括 Hadoop 生 态 系 统 内 的 Pig Hive HBase 等 其 他 组 件 ), 主 要 存 在 以 下 不 足 : 抽 象 层 次 低 需 要 手 工 编 写 代 码 来 完 成, 有 时 只 是 为 了 实 现 一 个 简 单 的 功 能, 也 需 要 编 写 大 量 的 代 码 ; 表 达 能 力 有 限 MapReduce 把 复 杂 分 布 式 编 程 工 作 高 度 抽 象 到 两 个 函 数, 即 Map 和 Reduce, 在 降 低 开 发 人 员 程 序 开 发 复 杂 度 的 同 时, 却 也 带 来 了 表 达 能 力 有 限 的 问 题 实 际 生 产 环 境 中 的 一 些 应 用, 是 无 法 用 简 单 的 Map 和 Reduce 来 完 成 的 开 发 者 自 己 管 理 作 业 之 间 的 依 赖 关 系 一 个 作 业 (Job) 只 包 含 Map 和 Reduce 两 个 阶 段, 通 常 的 实 际 应 用 问 题 需 要 大 量 的 作 业 进 行 协 作 才 能 顺 利 解 决, 这 些 作 业 之 间 往 往 存 在 复 杂 的 依 赖 关 系, 但 是,MapReduce 框 架 本 身 并 没 有 提 供 相 关 的 机 制 对 这 些 依 赖 关 系 进 行 有 效 管 理, 只 能 由 开 发 者 自 己 管 理 难 以 看 到 程 序 整 体 逻 辑 用 户 的 处 理 逻 辑 都 隐 藏 在 代 码 细 节 中, 没 有 更 高 层 次 的 抽 象 机 制 对 程 序 整 体 逻 辑 进 行 设 计, 这 就 给 代 码 理 解 和 后 期 维 护 带 来 了 障 碍 执 行 迭 代 操 作 效 率 低 对 于 一 些 大 型 的 机 器 学 习 数 据 挖 掘 任 务, 往 往 需 要 多 轮 迭 代 才 能 得 到 结 果 采 用 MapReduce 实 现 这 些 算 法 时, 每 次 迭 代 都 是 一 次 执 行 Map Reduce 任 务 的 过 程, 这 个 过 程 的 数 据 来 自 分 布 式 文 件 系 统 HDFS, 本 次 迭 代 的 处 理 结 果 也 被 存 放 到 HDFS 中, 继 续 用 于 下 一 次 迭 代 过 程 反 复 读 写 HDFS 文 件 中 的 数 据, 大 大 降 低 了 迭 代 操 作 的 效 率 资 源 浪 费 在 MapReduce 框 架 涉 及 中,Reduce 任 务 需 要 等 待 所 有 Map 任 务 都 完 成 后 才 可 以 开 始, 造 成 了 不 必 要 的 资 源 浪 费 实 时 性 差 只 适 用 于 离 线 批 数 据 处 理, 无 法 支 持 交 互 式 数 据 处 理 实 时 数 据 处 理 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 1 页

15.1.2 针 对 Hadoop 的 改 进 与 提 升 针 对 Hadoop1.0 存 在 的 局 限 和 不 足, 在 后 续 发 展 过 程 中,Hadoop 对 MapReduce 和 HDFS 的 许 多 方 面 做 了 有 针 对 性 的 改 进 提 升 ( 如 表 15-1 所 示 ), 同 时, 在 Hadoop 生 态 系 统 中 也 融 入 了 更 多 的 新 产 品, 来 更 好 地 弥 补 Hadoop1.0 中 存 在 的 问 题, 比 较 有 代 表 性 的 产 品 包 括 Pig Spark OOzie Tez Kafka 等 ( 表 15-2 所 示 ) 表 15-1 Hadoop 框 架 自 身 的 改 进 : 从 1.0 到 2.0 组 件 Hadoop1.0 的 问 题 Hadoop2.0 的 改 进 HDFS 单 一 名 称 节 点, 存 在 单 点 失 效 问 题 设 计 了 HDFS HA, 提 供 名 称 节 点 热 备 机 制 HDFS 单 一 命 名 空 间, 无 法 实 现 资 源 隔 离 设 计 了 HDFS Federation, 管 理 多 个 命 名 空 间 MapReduce 资 源 管 理 效 率 低 设 计 了 新 的 资 源 管 理 框 架 YARN 表 15-2 不 断 完 善 的 Hadoop 生 态 系 统 组 件 功 能 解 决 Hadoop 中 存 在 的 问 题 Pig 处 理 大 规 模 数 据 的 脚 本 语 言, 用 户 只 需 要 编 写 几 条 简 单 的 语 句, 系 统 会 自 动 转 换 为 MapReduce 抽 象 层 次 低, 需 要 手 工 编 写 大 量 代 码 作 业 Spark 基 于 内 存 的 分 布 式 并 行 编 程 框 架, 具 有 较 高 的 实 时 性, 并 且 较 好 支 持 迭 代 计 算 延 迟 高, 而 且 不 适 合 执 行 迭 代 计 算 Oozie 工 作 流 和 协 作 服 务 引 擎, 协 调 Hadoop 上 运 行 的 不 同 任 务 没 有 提 供 Job 依 赖 关 系 管 理 机 制, 需 要 用 户 自 己 处 理 Job 之 间 的 依 赖 关 系 Tez 支 持 DAG 作 业 的 计 算 框 架, 对 Job 的 操 作 进 行 重 新 分 解 和 组 合, 形 成 一 个 大 的 DAG 作 业, 减 不 同 的 MapReduce 任 务 之 间 存 在 重 复 操 作, 降 低 了 效 率 少 不 必 要 操 作 Kafka 分 布 式 发 布 订 阅 消 息 系 统, 一 般 作 为 企 业 大 数 据 分 析 平 台 的 数 据 交 换 枢 纽, 不 同 类 型 的 分 布 式 系 统 可 以 统 一 接 入 到 Kafka, 实 现 和 Hadoop 各 个 组 件 之 间 的 不 同 类 型 数 据 的 实 时 高 效 交 换 Hadoop 生 态 系 统 中 各 个 组 件 和 其 他 产 品 之 间 缺 乏 统 一 的 高 效 的 数 据 交 换 中 介 在 下 面 的 内 容 中, 将 首 先 介 绍 HDFS 的 新 特 性 ( 包 括 HDFS HA 和 HDFS Federation), 然 后 介 绍 Hadoop 中 新 的 资 源 管 理 框 架 YARN, 它 是 在 MapReduce1.0 框 架 基 础 之 上 发 展 起 来 的, 最 后, 介 绍 Hadoop 生 态 系 统 中 具 有 代 表 性 的 几 个 组 件 及 其 解 决 的 问 题 15.2HDFS2.0 的 新 特 性 15.2.1HDFS HA 对 于 分 布 式 文 件 系 统 HDFS 而 言, 名 称 节 点 (NameNode) 是 系 统 的 核 心 节 点, 存 储 了 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 2 页

各 类 元 数 据 信 息, 并 负 责 管 理 文 件 系 统 的 命 名 空 间 和 客 户 端 对 文 件 的 访 问 但 是, 在 HDFS1.0 中, 只 存 在 一 个 名 称 节 点 (NameNode), 一 旦 这 个 唯 一 的 名 称 节 点 发 生 故 障, 就 会 导 致 整 个 集 群 变 得 不 可 用, 这 就 是 常 说 的 单 点 故 障 问 题 虽 然 HDFS1.0 中 存 在 一 个 第 二 名 称 节 点 (Secondary NameNode), 但 是, 第 二 名 称 节 点 并 不 是 名 称 节 点 的 备 用 节 点, 它 与 名 称 节 点 有 着 不 同 的 职 责 ( 二 者 的 服 务 可 以 运 行 在 一 台 机 器 上 ), 其 主 要 功 能 是 周 期 性 地 从 名 称 节 点 获 取 命 名 空 间 镜 像 文 件 (FsImage) 和 修 改 日 志 (EditLog), 进 行 合 并 后 再 发 送 给 名 称 节 点, 替 换 掉 原 来 的 FsImage, 以 防 止 日 志 文 件 EditLog 过 大, 导 致 名 称 节 点 失 败 恢 复 时 消 耗 过 多 时 间 合 并 后 的 命 名 空 间 镜 像 文 件 FsImage 在 第 二 名 称 节 点 中 也 保 存 一 份, 当 名 称 节 点 失 效 的 时 候, 它 首 先 会 把 自 己 的 FsImage 和 EditLog 进 行 恢 复, 如 果 自 己 的 FsImage 发 生 丢 失, 还 可 以 使 用 第 二 名 称 节 点 中 的 FsImage 进 行 恢 复 由 于 第 二 名 称 节 点 无 法 提 供 热 备 份 功 能, 即 在 名 称 节 点 发 生 故 障 的 时 候, 系 统 无 法 借 助 于 第 二 名 称 节 点 继 续 提 供 服 务, 仍 然 需 要 进 行 停 机 恢 复, 因 此,HDFS1.0 的 设 计 是 存 在 单 点 故 障 问 题 的 为 了 解 决 单 点 故 障 问 题,HDFS2.0 采 用 了 HA(Hign Aailability) 架 构 如 图 15-1 所 示, 在 一 个 典 型 的 HA 集 群 中, 一 般 设 置 两 个 名 称 节 点, 其 中 一 个 名 称 节 点 处 于 活 跃 (Active) 状 态, 另 一 个 处 于 待 命 (Standby) 状 态 其 中 处 于 活 跃 状 态 的 名 称 节 点 负 责 对 外 处 理 所 有 客 户 端 的 请 求, 而 处 于 待 命 状 态 的 名 称 节 点 则 作 为 备 用 节 点, 保 存 了 足 够 多 的 系 统 元 数 据, 当 名 称 节 点 出 现 故 障 时 提 供 快 速 恢 复 能 力 也 就 是 说, 在 HDFS HA 中, 处 于 待 命 状 态 的 名 称 节 点 提 供 了 热 备 份, 一 旦 活 跃 名 称 节 点 出 现 故 障, 就 可 以 立 即 切 换 到 待 命 名 称 节 点, 不 会 影 响 到 系 统 的 正 常 对 外 服 务 Zookeeper Zookeeper... Zookeeper 心 跳 心 跳 故 障 恢 复 控 制 器 ( 活 跃 ) 故 障 恢 复 控 制 器 ( 待 命 ) 监 控 名 称 节 点 健 康 状 态 命 令 名 称 节 点 ( 活 跃 ) 共 享 存 储 系 统 (NFS QJM 或 Zookeeper) 命 令 名 称 节 点 ( 待 命 ) 监 控 名 称 节 点 健 康 状 态 向 名 称 节 点 汇 报 自 己 保 存 的 块 信 息 向 名 称 节 点 汇 报 自 己 保 存 的 块 信 息 数 据 节 点 数 据 节 点... 数 据 节 点 图 15-1 HDFS HA 架 构 由 于 待 命 名 称 节 点 是 活 跃 名 称 节 点 的 热 备 份, 因 此, 活 跃 名 称 节 点 的 状 态 信 息 必 须 实 时 同 步 到 待 命 名 称 节 点 两 种 名 称 节 点 的 状 态 同 步, 可 以 借 助 于 一 个 共 享 存 储 系 统 来 实 现, 比 如 NFS(Network File System) QJM(Quorum Journal Manager) 或 者 Zookeeper 活 跃 名 称 节 点 将 更 新 数 据 写 入 到 共 享 存 储 系 统, 待 命 名 称 节 点 会 一 直 监 听 该 系 统, 一 旦 发 现 有 新 的 写 入, 就 立 即 从 公 共 存 储 系 统 中 读 取 这 些 数 据 并 加 载 到 自 己 的 内 存 中, 从 而 保 证 与 活 跃 名 称 节 点 状 态 完 全 同 步 此 外, 名 称 节 点 中 保 存 了 数 据 块 (block) 到 实 际 存 储 位 置 的 映 射 信 息, 即 每 个 数 据 块 是 由 哪 个 数 据 节 点 存 储 的 当 一 个 数 据 节 点 加 入 HDFS 集 群 时, 它 会 把 自 己 所 包 含 的 数 据 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 3 页

块 列 表 告 知 给 名 称 节 点, 此 后 会 定 期 执 行 这 种 告 知 操 作, 以 确 保 名 称 节 点 的 块 映 射 是 最 新 的 因 此, 为 了 实 现 故 障 时 的 快 速 切 换, 必 须 保 证 待 命 名 称 节 点 一 直 包 含 最 新 的 集 群 中 各 个 块 的 位 置 信 息 为 了 做 到 这 一 点, 需 要 给 数 据 节 点 配 置 两 个 名 称 节 点 的 地 址 ( 即 活 跃 名 称 节 点 和 待 命 名 称 节 点 ), 并 把 块 的 位 置 信 息 和 心 跳 信 息 同 时 发 送 到 这 两 个 名 称 节 点 为 了 防 止 出 现 两 个 管 家 现 象,HA 还 要 保 证 任 何 时 刻 都 只 有 一 个 名 称 节 点 处 于 活 跃 状 态, 否 则, 如 果 有 两 个 节 点 处 于 活 跃 状 态,HDFS 集 群 中 出 现 两 个 管 家, 就 会 导 致 数 据 丢 失 或 者 其 他 异 常, 这 个 任 务 是 由 Zookeeper 来 实 现 的,Zookeeper 可 以 确 保 任 意 时 刻 只 有 一 个 名 称 节 点 提 供 对 外 服 务 15.2.2HDFS Federation 1.HDFS1.0 中 存 在 的 问 题 HDFS1.0 采 用 单 名 称 节 点 的 设 计, 不 仅 会 带 来 单 点 故 障 问 题, 还 存 在 可 扩 展 性 性 能 和 隔 离 性 等 问 题 在 可 扩 展 性 方 面, 名 称 节 点 把 整 个 HDFS 文 件 系 统 中 的 元 数 据 信 息 都 保 存 在 自 己 的 内 存 中,HDFS1.0 中 只 有 一 个 名 称 节 点, 不 可 以 水 平 扩 展, 而 单 个 名 称 节 点 的 内 存 空 间 是 有 上 限 的, 这 限 制 了 系 统 中 数 据 块 文 件 和 目 录 的 数 目 是 否 可 以 通 过 纵 向 扩 展 的 方 式 ( 即 为 单 个 名 称 节 点 增 加 更 多 的 CPU 内 存 等 资 源 ) 解 决 这 个 问 题 呢? 答 案 是 否 定 的 纵 向 扩 展 带 来 的 第 一 个 问 题 就 是, 会 带 来 过 长 的 系 统 启 动 时 间, 比 如, 一 个 具 有 50GB 内 存 的 HDFS 启 动 一 次 大 概 需 要 消 耗 30 分 钟 到 2 个 小 时, 单 纯 增 大 内 存 空 间, 只 会 让 系 统 启 动 时 间 变 得 更 长 其 次, 当 在 内 存 空 间 清 理 时 发 生 错 误, 就 会 导 致 整 个 HDFS 集 群 宕 机 在 系 统 整 体 性 能 方 面, 整 个 HDFS 文 件 系 统 的 性 能 会 受 限 于 单 个 名 称 节 点 的 吞 吐 量 在 隔 离 性 方 面, 单 个 名 称 节 点 难 以 提 供 不 同 程 序 之 间 的 隔 离 性, 一 个 程 序 可 能 会 影 响 其 他 运 行 的 程 序 ( 比 如 一 个 程 序 消 耗 过 多 资 源 导 致 其 他 程 序 无 法 顺 利 运 行 ) HDFS HA 虽 然 提 供 了 两 个 名 称 节 点, 但 是, 在 某 个 时 刻, 也 只 会 有 一 个 名 称 节 点 处 于 活 跃 状 态, 另 一 个 则 处 于 待 命 状 态, 因 而,HDFS HA 在 本 质 上 还 是 单 名 称 节 点, 只 是 通 过 热 备 份 设 计 方 式 解 决 了 单 点 故 障 问 题, 并 没 有 解 决 可 扩 展 性 系 统 性 能 和 隔 离 性 等 三 个 方 面 的 问 题 2.HDFS Federation 的 设 计 HDFS Federation 可 以 很 好 解 决 上 述 三 个 方 面 的 问 题 在 HDFS Federation 中, 设 计 了 多 个 相 互 独 立 的 名 称 节 点, 使 得 HDFS 的 命 名 服 务 能 够 水 平 扩 展, 这 些 名 称 节 点 分 别 进 行 各 自 命 名 空 间 和 块 的 管 理, 相 互 之 间 是 联 盟 关 系, 不 需 要 彼 此 协 调 HDFS Federation 并 不 是 真 正 的 分 布 式 设 计, 但 是, 采 用 这 种 简 单 的 联 合 设 计 方 式, 在 实 现 和 管 理 复 杂 性 方 面 要 远 低 于 真 正 的 分 布 式 设 计, 而 且 可 以 快 速 满 足 需 求 在 兼 容 性 方 面,HDFS Federation 具 有 良 好 的 向 后 兼 容 性, 可 以 无 缝 地 支 持 单 名 称 节 点 架 构 中 的 配 置, 所 以, 原 有 针 对 单 名 称 节 点 的 部 署 配 置, 不 需 要 做 任 何 修 改 就 可 以 继 续 工 作 HDFS Federation 中 的 名 称 节 点 提 供 了 命 名 空 间 和 块 管 理 功 能 如 图 15-2 所 示, 在 HDFS Federation 中, 所 有 名 称 节 点 会 共 享 底 层 的 数 据 节 点 存 储 资 源 每 个 数 据 节 点 要 向 集 群 中 所 有 的 名 称 节 点 注 册, 并 周 期 性 地 向 名 称 节 点 发 送 心 跳 和 块 信 息, 报 告 自 己 的 状 态, 同 时 也 会 处 理 来 自 名 称 节 点 的 指 令 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 4 页

名 称 节 点 1 名 称 节 点 k 名 称 节 点 n NS1 命 名 空 间 1 NS1... 命 名 空 间 k... NS1 命 名 空 间 n 块 池 Pool 1 1 块 池 Pool k 1 块 池 Pool n 1 数 据 节 点 1 数 据 节 点 2... 数 据 节 点 m 公 共 存 储 图 15-2 HDFS Federation 架 构 HDFS1.0 只 有 一 个 命 名 空 间, 这 个 命 名 空 间 使 用 底 层 数 据 节 点 全 部 的 块 与 HDFS1.0 不 同 的 是,HDFS Federation 拥 有 多 个 独 立 的 命 名 空 间, 其 中 每 一 个 命 名 空 间 管 理 属 于 自 己 的 一 组 块, 这 些 属 于 同 一 个 命 名 空 间 的 块 构 成 一 个 块 池 (block pool) 每 个 数 据 节 点 会 为 多 个 块 池 存 储 块 可 以 看 出, 数 据 节 点 是 一 个 物 理 概 念, 而 块 池 则 属 于 逻 辑 概 念, 一 个 块 池 是 一 组 块 的 逻 辑 集 合, 块 池 中 的 各 个 块 实 际 上 是 存 储 在 各 个 不 同 的 数 据 节 点 中 的 因 此, HDFS Federation 中 的 一 个 名 称 节 点 失 效, 也 不 会 影 响 到 与 它 相 关 的 数 据 节 点 继 续 为 其 他 名 称 节 点 提 供 服 务 3. HDFS Federation 的 访 问 方 式 对 于 HDFS Federation 中 的 多 个 命 名 空 间, 可 以 采 用 客 户 端 挂 载 表 (Client Side Mount Table) 方 式 进 行 数 据 共 享 和 访 问 如 图 15-3 所 示, 每 个 阴 影 三 角 形 代 表 一 个 独 立 的 命 名 空 间, 上 方 空 白 三 角 形 表 示 从 客 户 方 向 去 访 问 下 面 子 命 名 空 间 客 户 可 以 访 问 不 同 的 挂 载 点 来 访 问 不 同 的 子 命 名 空 间 这 就 是 HDFS Federation 中 命 名 空 间 管 理 的 基 本 原 理, 即 把 各 个 命 名 空 间 挂 载 到 全 局 挂 载 表 (mount-table) 中, 实 现 数 据 全 局 共 享 ; 同 样 的 命 名 空 间 挂 载 到 个 人 的 挂 载 表 中, 就 成 为 应 用 程 序 可 见 的 命 名 空 间 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 5 页

/ Client-side Mount-table data project home tmp 图 15-3 客 户 端 挂 载 表 方 式 访 问 多 个 命 名 空 间 4.HDFS Federation 相 对 于 HDFS1.0 的 优 势 HDFS Federation 设 计 可 解 决 单 名 称 节 点 存 在 的 以 下 几 个 问 题 : (1)HDFS 集 群 可 扩 展 性 多 个 名 称 节 点 各 自 分 管 一 部 分 目 录, 使 得 一 个 集 群 可 以 扩 展 到 更 多 节 点, 不 再 像 HDFS1.0 中 那 样 由 于 内 存 的 限 制 制 约 文 件 存 储 数 目 (2) 性 能 更 高 效 多 个 名 称 节 点 管 理 不 同 的 数 据, 且 同 时 对 外 提 供 服 务, 将 为 用 户 提 供 更 高 的 读 写 吞 吐 率 (3) 良 好 的 隔 离 性 用 户 可 根 据 需 要 将 不 同 业 务 数 据 交 由 不 同 名 称 节 点 管 理, 这 样 不 同 业 务 之 间 影 响 很 小 需 要 注 意 的,HDFS Federation 并 不 能 解 决 单 点 故 障 问 题, 也 就 是 说, 每 个 名 称 节 点 都 存 在 在 单 点 故 障 问 题, 需 要 为 每 个 名 称 节 点 部 署 一 个 后 备 名 称 节 点, 以 应 对 名 称 节 点 宕 机 后 对 业 务 产 生 的 影 响 15.3 新 一 代 资 源 管 理 调 度 框 架 YARN 15.3.1 MapReduce1.0 的 缺 陷 MapReduce1.0 采 用 Master/Slave 架 构 设 计 ( 如 图 15-4 所 示 ), 包 括 一 个 JobTracker 和 若 干 个 TaskTracker, 前 者 负 责 作 业 的 调 度 和 资 源 的 管 理, 后 者 负 责 执 行 JobTracker 指 派 的 具 体 任 务 这 种 架 构 设 计 具 有 一 些 很 难 克 服 的 缺 陷, 具 体 如 下 : (1) 存 在 单 点 故 障 由 JobTracker 负 责 所 有 MapReduce 作 业 的 调 度, 而 系 统 中 只 有 一 个 JobTracker, 因 此 会 存 在 单 点 故 障 问 题, 即 这 个 唯 一 的 JobTracker 出 现 故 障, 就 会 导 致 系 统 不 可 用 ; (2)JobTracker 大 包 大 揽 导 致 任 务 过 重 JobTracker 既 要 负 责 作 业 的 调 度 和 失 败 恢 复, 又 要 负 责 资 源 管 理 分 配 执 行 过 多 的 任 务, 需 要 消 耗 大 量 的 资 源, 例 如, 当 存 在 非 常 多 的 MapReduce 任 务 时,JobTracker 需 要 巨 大 的 内 存 开 销, 这 也 潜 在 地 增 加 了 JobTracker 失 败 的 风 险 正 因 如 此, 业 内 普 遍 总 结 出 MapReduce1.0 支 持 主 机 数 目 的 上 限 为 4000 个 ; (3) 容 易 出 现 内 存 溢 出 在 TaskTracker 端, 资 源 的 分 配 并 不 考 虑 CPU 内 存 的 实 际 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 6 页

使 用 情 况, 而 只 是 根 据 MapReduce 任 务 的 个 数 来 分 配 资 源, 当 两 个 具 有 较 大 内 存 消 耗 的 任 务 被 分 配 到 同 一 个 TaskTracker 上 时, 很 容 易 发 生 内 存 溢 出 的 情 况 (4) 资 源 划 分 不 合 理 资 源 (CPU 内 存 ) 被 强 制 等 量 划 分 成 多 个 slot,slot 又 进 一 步 划 分 为 Map slot 和 Reduce slot 两 种, 分 别 供 Map 任 务 和 Reduce 任 务 使 用, 彼 此 之 间 不 能 使 用 分 配 给 对 方 的 slot, 也 就 是 说, 当 Map 任 务 已 经 用 完 Map slot 时, 即 使 系 统 中 还 有 大 量 剩 余 的 Reduce slot, 也 不 能 拿 来 运 行 Map 任 务, 反 之 亦 然 这 就 意 味 着, 当 系 统 中 只 存 在 单 一 Map 任 务 或 Reduce 任 务 时, 会 造 成 资 源 的 浪 费 Client Client JobTracker Task Scheduler Client TaskTracker TaskTracker TaskTracker Map Task Map Task Map Task Map Task Map Task Map Task Reduce Task Reduce Task Reduce Task 图 15-4 MapReduce1.0 体 系 结 构 15.3.2 YARN 设 计 思 路 为 了 克 服 MapReduce1.0 版 本 的 缺 陷,Hadoop2.0 以 后 的 版 本, 对 其 核 心 子 项 目 MapReduce1.0 的 体 系 结 构 进 行 了 重 新 设 计, 生 成 了 MapReduce2.0 和 YARN(Yet Another Resource Negotiator) 如 图 15-5 所 示, 基 本 思 路 就 是 放 权, 即 不 让 JobTracker 这 一 个 组 件 承 担 过 多 的 功 能, 把 原 JobTracker 三 大 功 能 ( 资 源 管 理 任 务 调 度 和 任 务 监 控 ) 进 行 拆 分, 分 别 交 给 不 同 的 新 组 件 去 处 理 重 新 设 计 后 得 到 的 YARN 包 括 ResourceManager ApplicationMaster 和 NodeManager, 其 中, 由 ResourceManager 负 责 资 源 管 理, 由 ApplicationMaster 负 责 任 务 调 度 和 监 控, 由 NodeManager 负 责 执 行 原 TaskTracker 的 任 务 通 过 这 种 放 权 的 设 计, 大 大 降 低 了 JobTracker 的 负 担, 提 升 了 系 统 运 行 的 效 率 和 稳 定 性 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 7 页

YARN 架 构 思 路 : 将 原 JobTacker 三 大 功 能 拆 分 资 源 管 理 原 JobTracker 功 能 任 务 调 度 ResourceManager Master 端 任 务 监 控 ApplicationMaster 原 TaskTracker NodeManager Slave 端 图 15-5 YARN 架 构 设 计 思 路 在 Hadoop1.0 中, 其 核 心 子 项 目 MapReduce1.0 既 是 一 个 计 算 框 架, 也 是 一 个 资 源 管 理 调 度 框 架 到 了 Hadoop2.0 以 后,MapReduce1.0 中 的 资 源 管 理 调 度 功 能, 被 单 独 分 离 出 来 形 成 了 YARN, 它 是 一 个 纯 粹 的 资 源 管 理 调 度 框 架, 而 不 是 一 个 计 算 框 架 ; 而 被 剥 离 了 资 源 管 理 调 度 功 能 的 MapReduce 框 架 就 变 成 了 MapReduce2.0, 它 是 运 行 在 YARN 之 上 的 一 个 纯 粹 的 计 算 框 架, 不 再 自 己 负 责 资 源 调 度 管 理 服 务, 而 是 由 YARN 为 其 提 供 资 源 管 理 调 度 服 务 15.3.3 YARN 体 系 结 构 如 图 15-6 所 示,YARN 体 系 结 构 中 包 含 了 三 个 组 件 :ResourceManager ApplicationMaster 和 NodeManager, 表 15-3 给 出 了 YARN 各 个 组 件 的 功 能 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 8 页

图 15-6 YARN 体 系 结 构 表 15-3 YARN 各 个 组 件 的 功 能 组 件 功 能 ResourceManager 处 理 客 户 端 请 求 启 动 / 监 控 ApplicationMaster 监 控 NodeManager 资 源 分 配 与 调 度 ApplicationMaster 为 应 用 程 序 申 请 资 源, 并 分 配 给 内 部 任 务 任 务 调 度 监 控 与 容 错 NodeManager 单 个 节 点 上 的 资 源 管 理 处 理 来 自 ResourceManger 的 命 令 处 理 来 自 ApplicationMaster 的 命 令 ResourceManager(RM) 是 一 个 全 局 的 资 源 管 理 器, 负 责 整 个 系 统 的 资 源 管 理 和 分 配, 主 要 包 括 两 个 组 件, 即 调 度 器 (Scheduler) 和 应 用 程 序 管 理 器 (Applications Manager) 调 度 器 主 要 负 责 资 源 管 理 和 分 配, 不 再 负 责 跟 踪 和 监 控 应 用 程 序 的 执 行 状 态, 也 不 负 责 执 行 失 败 恢 复, 因 为 这 些 任 务 都 已 经 交 给 ApplicationMaster 组 件 来 负 责 调 度 器 接 收 来 自 ApplicationMaster 的 应 用 程 序 资 源 请 求, 并 根 据 容 量 队 列 等 限 制 条 件 ( 如 每 个 队 列 分 配 一 定 的 资 源, 最 多 执 行 一 定 数 量 的 作 业 等 ), 把 集 群 中 的 资 源 以 容 器 的 形 式 分 配 给 提 出 申 请 的 应 用 程 序, 容 器 的 选 择 通 常 会 考 虑 应 用 程 序 所 要 处 理 的 数 据 的 位 置, 进 行 就 近 选 择, 从 而 实 现 计 算 向 数 据 靠 拢 在 MapReduce1.0 中, 资 源 分 配 的 单 位 是 slot, 而 在 YARN 中, 是 以 容 器 (Container) 作 为 动 态 资 源 分 配 单 位, 每 个 容 器 中 都 封 装 了 一 定 数 量 的 CPU 内 存 磁 盘 等 资 源, 从 而 限 定 每 个 应 用 程 序 可 以 使 用 的 资 源 量 同 时, 在 YARN 中, 调 度 器 被 设 计 成 是 一 个 可 插 拔 的 组 件,YARN 不 仅 自 身 提 供 了 许 多 种 直 接 可 用 的 调 度 器, 也 允 许 用 户 根 据 自 己 的 需 求 重 新 设 计 调 度 器 应 用 程 序 管 理 器 (Applications Manager) 负 责 系 统 中 所 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 9 页

Slave nodes Master node(s) 厦 门 大 学 林 子 雨 编 著 大 数 据 技 术 原 理 与 应 用 有 应 用 程 序 的 管 理 工 作, 主 要 包 括 应 用 程 序 提 交 与 调 度 器 协 商 资 源 以 启 动 ApplicationMaster 监 控 ApplicationMaster 运 行 状 态 并 在 失 败 时 重 新 启 动 等 在 Hadoop 平 台 上, 用 户 的 应 用 程 序 是 以 作 业 (Job) 的 形 式 提 交 的, 然 后, 一 个 作 业 会 被 分 解 成 多 个 任 务 ( 包 括 Map 任 务 和 Reduce 任 务 ) 进 行 分 布 式 执 行 ResourceManager 接 收 用 户 提 交 的 作 业, 按 照 作 业 的 上 下 文 信 息 以 及 从 NodeManager 收 集 来 的 容 器 状 态 信 息, 启 动 调 度 过 程, 为 用 户 作 业 启 动 一 个 ApplicationMaster ApplicationMaster 的 主 要 功 能 是 : (1) 当 用 户 作 业 提 交 时,ApplicationMaster 与 ResourceManager 协 商 获 取 资 源, ResourceManager 会 以 容 器 的 形 式 为 ApplicationMaster 分 配 资 源 ;(2) 把 获 得 的 资 源 进 一 步 分 配 给 内 部 的 各 个 任 务 (Map 任 务 或 Reduce 任 务 ), 实 现 资 源 的 二 次 分 配 ;(3) 与 NodeManager 保 持 交 互 通 信 进 行 应 用 程 序 的 启 动 运 行 监 控 和 停 止, 监 控 申 请 到 的 资 源 的 使 用 情 况, 对 所 有 任 务 的 执 行 进 度 和 状 态 进 行 监 控, 并 在 任 务 发 生 失 败 时 执 行 失 败 恢 复 ( 即 重 新 申 请 资 源 重 启 任 务 );(4) 定 时 向 ResourceManager 发 送 心 跳 消 息, 报 告 资 源 的 使 用 情 况 和 应 用 的 进 度 信 息 ;( 5) 当 作 业 完 成 时,ApplicationMaster 向 ResourceManager 注 销 容 器, 执 行 周 期 完 成 NodeManager 是 驻 留 在 一 个 YARN 集 群 中 的 每 个 节 点 上 的 代 理, 主 要 负 责 容 器 生 命 周 期 管 理, 监 控 每 个 容 器 的 资 源 (CPU 内 存 等 ) 使 用 情 况, 跟 踪 节 点 健 康 状 况, 并 以 心 跳 的 方 式 与 ResourceManager 保 持 通 信, 向 ResourceManager 汇 报 作 业 的 资 源 使 用 情 况 和 每 个 容 器 的 运 行 状 态, 同 时, 它 还 要 接 收 来 自 ApplicationMaster 的 启 动 / 停 止 容 器 的 各 种 请 求 需 要 说 明 的 是,NodeManager 主 要 负 责 管 理 抽 象 的 容 器, 只 处 理 与 容 器 相 关 的 事 情, 而 不 具 体 负 责 每 个 任 务 (Map 任 务 或 Reduce 任 务 ) 自 身 状 态 的 管 理, 因 为 这 些 管 理 工 作 是 由 ApplicationMaster 完 成 的,ApplicationMaster 会 通 过 不 断 与 NodeManager 通 信 来 掌 握 各 个 任 务 的 执 行 状 态 在 集 群 部 署 方 面,YARN 的 各 个 组 件 是 和 Hadoop 集 群 中 的 其 他 组 件 进 行 统 一 部 署 的 如 图 15-4 所 示,YARN 的 ResourceManager 组 件 和 HDFS 的 名 称 节 点 (NameNode) 部 署 在 一 个 节 点 上,YARN 的 ApplicationMaster 和 NodeManager 是 和 HDFS 的 数 据 节 点 (DataNode) 部 署 在 一 起 的 YARN 中 的 容 器 代 表 了 CPU 内 存 网 络 等 计 算 资 源, 它 也 是 和 HDFS 的 数 据 节 点 一 起 的 Client Client ResourceManager NameNode NodeManager NodeManager ApplicationMaster ApplicationMaster DataNode DataNode NodeManager NodeManager NodeManager NodeManager Container Container Container Container Container DataNode DataNode DataNode DataNode 图 15-7 YARN 和 Hadoop 平 台 其 他 组 件 的 统 一 部 署 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 10 页

15.3.4 YARN 工 作 流 程 如 图 15-8 所 示, 在 YARN 框 架 中 执 行 一 个 MapReduce 程 序 时, 从 提 交 到 完 成 需 要 经 历 如 下 8 个 步 骤 : 步 骤 1: 用 户 编 写 客 户 端 应 用 程 序, 向 YARN 提 交 应 用 程 序, 提 交 的 内 容 包 括 ApplicationMaster 程 序 启 动 ApplicationMaster 的 命 令 用 户 程 序 等 步 骤 2:YARN 中 的 ResourceManager 负 责 接 收 和 处 理 来 自 客 户 端 的 请 求 接 到 客 户 端 应 用 程 序 请 求 后,ResourceManager 里 面 的 调 度 器 会 为 应 用 程 序 分 配 一 个 容 器 同 时,ResourceManager 的 应 用 程 序 管 理 器 会 与 该 容 器 所 在 的 NodeManager 通 信, 为 该 应 用 程 序 在 该 容 器 中 启 动 一 个 ApplicationMaster( 即 图 15-5 中 的 MR App Mstr ) 步 骤 3:ApplicationMaster 被 创 建 后 会 首 先 向 ResourceManager 注 册, 从 而 使 得 用 户 可 以 通 过 ResourceManager 来 直 接 查 看 应 用 程 序 的 运 行 状 态 接 下 来 的 步 骤 4~7 是 具 体 的 应 用 程 序 执 行 步 骤 步 骤 4:ApplicationMaster 采 用 轮 询 的 方 式 通 过 RPC 协 议 向 ResourceManager 申 请 资 源 步 骤 5:ResourceManager 以 容 器 的 形 式 向 提 出 申 请 的 ApplicationMaster 分 配 资 源, 一 旦 ApplicationMaster 申 请 到 资 源 后, 就 会 与 该 容 器 所 在 的 NodeManager 进 行 通 信, 要 求 它 启 动 任 务 步 骤 6: 当 ApplicationMaster 要 求 容 器 启 动 任 务 时, 它 会 为 任 务 设 置 好 运 行 环 境 ( 包 括 环 境 变 量 JAR 包 二 进 制 程 序 等 ), 然 后 将 任 务 启 动 命 令 写 到 一 个 脚 本 中, 最 后 通 过 在 容 器 中 运 行 该 脚 本 来 启 动 任 务 步 骤 7: 各 个 任 务 通 过 某 个 RPC 协 议 向 ApplicationMaster 汇 报 自 己 的 状 态 和 进 度, 让 ApplicationMaster 可 以 随 时 掌 握 各 个 任 务 的 运 行 状 态, 从 而 可 以 在 任 务 失 败 时 重 新 启 动 任 务 步 骤 8: 应 用 程 序 运 行 完 成 后,ApplicationMaster 向 ResourceManager 的 应 用 程 序 管 理 器 注 销 并 关 闭 自 己 若 ApplicationMaster 因 故 失 败,ResourceManager 中 的 应 用 程 序 管 理 器 会 监 测 到 失 败 的 情 形, 然 后 将 其 重 新 启 动, 直 到 所 有 的 任 务 执 行 完 毕 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 11 页

ResourceManager Client 1 Applications Manager Resource Scheduler 6 2 3 8 4 NodeManager NodeManager 6 2 5 5 6 Map Task 7 MR App Mstr 7 Reduce Task 6 Container Container 7 Container Map Task Container 图 15-8 YARN 的 工 作 流 程 15.3.5YARN 框 架 与 MapReduce1.0 框 架 的 对 比 分 析 从 MapReduce1.0 框 架 发 展 到 YARN 框 架, 客 户 端 并 没 有 发 生 变 化, 其 大 部 分 调 用 API 及 接 口 都 保 持 兼 容, 因 此, 原 来 针 对 Hadoop1.0 开 发 的 代 码 不 用 做 大 的 改 动, 就 可 以 直 接 放 到 Hadoop2.0 平 台 上 运 行 在 MapReduce1.0 框 架 中 的 JobTracker 和 TaskTracker, 在 YARN 框 架 中 变 成 了 三 个 组 件, 即 ResourceManager ApplicationMaster 和 NodeManager ResourceManager 要 负 责 调 度 启 动 每 一 个 作 业 所 属 的 ApplicationMaster, 监 控 ApplicationMaster 运 行 状 态 并 在 失 败 时 重 新 启 动, 而 作 业 里 面 的 不 同 任 务 的 调 度 监 控 重 启 等, 则 不 再 由 ResourceManager 负 责, 而 是 交 给 专 门 为 某 个 作 业 启 动 的 ApplicationMaster 来 负 责,ApplicationMaster 要 负 责 一 个 作 业 生 命 周 期 内 的 所 有 工 作, 也 就 是 说, 它 承 担 了 MapReduce1.0 中 JobTracker 的 作 业 监 控 的 功 能 总 体 而 言,YARN 相 对 于 MapReduce1.0 来 说 具 有 以 下 优 势 : (1) 大 大 减 少 了 承 担 中 心 服 务 功 能 的 ResourceManager 的 资 源 消 耗 MapReduce1.0 中 的 JobTracker 需 要 同 时 承 担 资 源 管 理 任 务 调 度 和 任 务 监 控 等 三 大 功 能, 而 YARN 中 的 ResourceManager 只 需 要 负 责 资 源 管 理, 需 要 消 耗 大 量 资 源 的 任 务 调 度 和 监 控 重 启 工 作, 则 交 由 ApplicationMaster 来 完 成 由 于 每 个 作 业 都 有 与 之 关 联 的 独 立 的 ApplicationMaster, 所 以, 系 统 中 存 在 多 个 作 业 时, 就 会 同 时 存 在 多 个 ApplicationMaster, 这 就 实 现 了 监 控 任 务 的 分 布 化, 不 再 像 MapReduce1.0 那 样 监 控 任 务 只 集 中 在 一 个 JobTracker 上 ; (2)MapReduce1.0 既 是 一 个 计 算 框 架, 又 是 一 个 资 源 管 理 调 度 框 架, 但 是, 只 能 支 持 MapReduce 编 程 模 型 而 YARN 则 是 一 个 纯 粹 的 资 源 调 度 管 理 框 架, 在 它 上 面 可 以 运 行 包 括 MapReduce 在 内 的 不 同 类 型 的 计 算 框 架, 默 认 类 型 是 MapReduce 因 为,YARN 中 的 ApplicationMaster 是 可 变 更 的, 针 对 不 同 的 计 算 框 架, 用 户 可 以 采 用 任 何 编 程 语 言 自 己 编 写 服 务 于 该 计 算 框 架 的 ApplicationMaster, 比 如, 可 以 编 写 一 个 面 向 MapReduce 计 算 框 架 的 ApplicationMaster, 从 而 使 得 MapReduce 计 算 框 架 可 以 运 行 在 YARN 框 架 之 上 同 理, 还 可 以 编 写 面 向 Spark Storm 等 计 算 框 架 的 ApplicationMaster, 从 而 使 得 Spark Storm 等 计 算 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 12 页

框 架 也 可 以 运 行 在 YARN 框 架 之 上 (3)YARN 中 的 资 源 管 理 比 MapReduce1.0 更 加 高 效 YARN 采 用 容 器 为 单 位 进 行 资 源 管 理 和 分 配, 而 不 是 以 slot 为 单 位, 避 免 了 MapReduce1.0 中 slot 闲 置 浪 费 的 情 况, 大 大 提 高 了 资 源 的 利 用 率 15.3.6 YARN 的 发 展 目 标 YARN 的 提 出, 并 非 仅 仅 为 了 解 决 MapReduce1.0 框 架 中 存 在 的 缺 陷, 实 际 上,YARN 有 着 更 加 宏 伟 的 发 展 构 想, 即 发 展 成 为 集 群 中 统 一 的 资 源 管 理 调 度 框 架, 在 一 个 集 群 中 为 上 层 的 各 种 计 算 框 架 提 供 统 一 的 资 源 管 理 调 度 服 务 在 一 个 企 业 当 中, 会 同 时 存 在 各 种 不 同 的 业 务 应 用 场 景, 各 自 的 数 据 处 理 需 求 截 然 不 同, 为 了 满 足 各 种 应 用 场 景 的 不 同 数 据 处 理 需 求, 就 需 要 采 用 不 同 的 计 算 框 架, 比 如 使 用 MapReduce 实 现 离 线 批 处 理, 使 用 Impala 实 现 实 时 交 互 式 查 询 分 析, 使 用 Storm 实 现 流 式 数 据 实 时 分 析, 使 用 Spark 实 现 迭 代 计 算 等 而 这 些 产 品 通 常 来 自 不 同 的 开 发 团 队, 具 有 各 自 的 资 源 调 度 管 理 机 制, 于 是, 为 了 避 免 不 同 类 型 应 用 之 间 互 相 干 扰, 企 业 就 需 要 把 内 部 的 服 务 器 拆 分 成 多 个 集 群, 分 别 安 装 运 行 不 同 的 计 算 框 架, 即 一 个 框 架 一 个 集 群, 一 个 集 群 运 行 MapReduce, 一 个 运 行 Spark, 还 有 的 运 行 Storm 或 者 其 他 计 算 框 架 企 业 内 部 服 务 器 集 群 被 分 拆 成 不 同 的 独 立 小 集 群 运 行, 带 来 的 一 个 显 而 易 见 的 问 题 就 是, 集 群 资 源 利 用 率 低, 因 为, 在 某 个 时 刻, 不 同 集 群 的 负 载 水 平 分 布 很 不 均 匀, 有 些 小 集 群 可 能 处 于 极 度 繁 忙 状 态, 而 另 外 一 些 集 群 可 能 处 于 闲 置 浪 费 状 态, 由 于 各 个 小 集 群 之 间 彼 此 隔 离, 因 而 繁 忙 小 集 群 的 负 载 无 法 分 发 到 空 闲 小 集 群 上 执 行, 这 就 导 致 了 服 务 器 资 源 的 浪 费 另 外, 不 同 集 群 之 间 无 法 直 接 共 享 数 据, 造 成 集 群 间 大 量 的 数 据 传 输 开 销, 同 时 需 要 多 个 管 理 员 维 护 不 同 的 集 群, 大 大 增 加 了 运 维 成 本 因 此,YARN 的 目 标 就 是 实 现 一 个 集 群 多 个 框 架, 即 在 一 个 集 群 上 部 署 一 个 统 一 的 资 源 调 度 管 理 框 架 YARN, 在 YARN 之 上 可 以 部 署 其 他 各 种 计 算 框 架 ( 如 图 15-9 所 示, 包 括 MapReduce Tez HBase Storm Giraph Spark OpenMPI 等 ), 由 YARN 为 这 些 计 算 框 架 提 供 统 一 的 资 源 调 度 管 理 服 务, 并 且 能 够 根 据 各 种 计 算 框 架 的 负 载 需 求, 调 整 各 自 占 用 的 资 源, 实 现 集 群 资 源 共 享 和 资 源 弹 性 收 缩 通 过 这 种 方 式, 可 以 实 现 一 个 集 群 上 的 不 同 应 用 负 载 混 搭, 有 效 提 高 了 集 群 的 利 用 率, 同 时, 不 同 计 算 框 架 可 以 共 享 底 层 存 储, 在 一 个 集 群 上 集 成 多 个 数 据 集, 使 用 多 个 计 算 框 架 来 访 问 这 些 数 据 集, 从 而 避 免 了 数 据 集 跨 集 群 移 动, 最 后, 这 种 部 署 方 式 也 大 大 降 低 了 企 业 运 维 成 本 目 前, 可 以 运 行 在 YARN 之 上 的 计 算 框 架 包 括 离 线 批 处 理 框 架 MapReduce 内 存 计 算 框 架 Spark 流 计 算 框 架 Storm 和 DAG 计 算 框 架 Tez 等 和 YARN 一 样 提 供 类 似 功 能 的 其 他 资 源 管 理 调 度 框 架 还 包 括 Mesos Torca Corona Borg 等 BATCH (MapReduce) INTERACTIVE (Tez) ONLINE (HBase) STREAMING (Storm,S4,...) GRAPH (Giraph) In-MEMORY (Spark) HPC MPI (OpenMPI) OTHER (Search) (Weave...) YARN(Cluster Resource Management) HDFS2(Redundant,Reliable Storage) 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 13 页

图 15-9 在 YARN 上 部 署 各 种 计 算 框 架 15.4Hadoop 生 态 系 统 中 具 有 代 表 性 的 功 能 组 件 15.4.1Pig Pig 是 Hadoop 生 态 系 统 的 一 个 组 件, 提 供 了 类 似 SQL 的 Pig Latin 语 言 ( 包 含 Filter GroupBy Join OrderBy 等 操 作, 同 时 也 支 持 用 户 自 定 义 函 数 ), 允 许 用 户 通 过 编 写 简 单 的 脚 本 来 实 现 复 杂 的 数 据 分 析, 而 不 需 要 编 写 复 杂 的 MapReduce 应 用 程 序,Pig 会 自 动 把 用 户 编 写 的 脚 本 转 换 成 MapReduce 作 业 在 Hadoop 集 群 上 运 行, 而 且 具 备 对 生 成 的 MapReduce 程 序 进 行 自 动 优 化 的 功 能, 所 以, 用 户 在 编 写 Pig 程 序 的 时 候, 不 需 要 关 心 程 序 的 运 行 效 率, 这 就 大 大 减 少 了 用 户 编 程 时 间 因 此, 通 过 配 合 使 用 Pig 和 Hadoop, 在 处 理 海 量 数 据 时 就 可 以 实 现 事 半 功 倍 的 效 果, 比 使 用 Java C++ 等 语 言 编 写 MapReduce 程 序 的 难 度 要 小 很 多, 并 且 用 更 少 的 代 码 量 实 现 了 相 同 的 数 据 处 理 分 析 功 能 Pig 可 以 加 载 数 据 表 达 转 换 数 据 以 及 存 储 最 终 结 果, 因 此, 在 企 业 实 际 应 用 中,Pig 通 常 用 于 ETL(Extraction Transformation Loading) 过 程, 即 来 自 各 个 不 同 数 据 源 的 数 据 被 收 集 过 来 以 后, 采 用 Pig 进 行 统 一 加 工 处 理, 然 后 加 载 到 数 据 仓 库 Hive 中, 由 Hive 实 现 对 海 量 数 据 的 分 析 需 要 特 别 指 出 的 是, 每 种 数 据 分 析 工 具 都 有 一 定 的 局 限 性,Pig 的 设 计 和 MapReduce 一 样, 都 是 面 向 批 处 理 的, 因 此,Pig 并 不 适 合 所 有 的 数 据 处 理 任 务, 特 别 是 当 需 要 查 询 大 数 据 集 中 的 一 小 部 分 数 据 时,Pig 仍 然 需 要 对 整 个 或 绝 大 部 分 数 据 集 进 行 扫 描, 因 此, 实 现 性 能 不 会 很 好 数 据 收 集 数 据 加 工 (Pig) 数 据 仓 库 (Hive) 图 15-10 Pig 在 企 业 数 据 分 析 系 统 中 的 作 用 Pig 语 句 通 常 按 照 如 下 的 格 式 来 编 写 : 通 过 LOAD 语 句 从 文 件 系 统 读 取 数 据 ; 通 过 一 系 列 转 换 语 句 对 数 据 进 行 处 理 ; 通 过 一 条 STORE 语 句 把 处 理 结 果 输 出 到 文 件 系 统 中, 或 者 使 用 DUMP 语 句 把 处 理 结 果 输 出 到 屏 幕 上 下 面 是 一 个 采 用 Pig Latin 语 言 编 写 的 应 用 程 序 实 例, 实 现 对 用 户 访 问 网 页 情 况 的 统 计 分 析 visits= load /data/visits as (user, url, time); // 导 入 用 户 访 问 日 志 visits gvisits = group visits by url;// 根 据 网 址 url 对 用 户 访 问 数 据 进 行 分 组 visitcounts = foreach gvisits generate url, count(visits);// 对 于 每 个 url, 计 算 用 户 访 问 量 // 上 面 语 句 执 行 后 得 到 的 表 的 结 构 visitcounts(url,visits) urlinfo = load /data/urlinfo as (url, category, prank);// 导 入 用 户 信 息 visitcounts = join visitcounts by url, urlinfo by url;// 对 visitcounts 和 urlinfo 表 进 行 连 接 操 作 // 上 面 语 句 执 行 后 得 到 的 连 接 结 果 表 的 结 构 visitcounts(url,visits,category,prank) gcategories = group visitcounts by category;// 根 据 用 户 类 别 进 行 分 组 topurls = foreach gcategories generate top(visitcounts,10);// 每 个 用 户 类 别 取 访 问 量 TOP10 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 14 页

store topurls into /data/topurls ;// 把 访 问 量 排 名 信 息 写 入 topurls 对 于 上 述 Pig Latin 脚 本,Pig 会 自 动 转 换 成 如 下 MapReduce 任 务, 如 图 15-11 所 示, 图 中,group by 和 join 操 作 都 跨 越 了 Map 和 Reduce 两 个 阶 段, 这 是 因 为, 根 据 第 14 章 基 于 Hadoop 的 数 据 库 仓 库 Hive 可 以 知 道,group 和 join 操 作 都 涉 及 到 Shuffle 过 程, 根 据 第 7 章 MapReduce 可 以 知 道,Shuffle 过 程 包 含 了 Map 端 和 Reduce 端, 所 以, 图 中 表 示 group by 和 join 操 作 的 矩 形 框, 和 Map 和 Reduce 两 个 阶 段 都 存 在 重 叠 区 域 Load Visits Map1 Group by url Reduce1 Foreach url generate count Load Url info Map2 Join on url Reduce2 Group by category Map3 Reduce3 Foreach category generate top10(urls) 图 15-11 从 Pig Latin 脚 本 转 化 得 到 的 MapReduce 作 业 当 数 据 查 询 只 面 向 相 关 技 术 人 员, 并 且 属 于 即 时 性 的 数 据 处 理 需 求 的 时 候, 比 较 适 合 采 用 Pig 编 写 一 个 脚 本 完 成 快 速 运 行 处 理, 从 而 避 免 创 建 表 等 相 关 操 作 目 前,Pig 在 很 多 公 司 得 到 了 应 用, 在 Yahoo! 中 90% 以 上 的 MapReduce 作 业 是 Pig 生 成 的,Twitter 公 司 80% 以 上 的 MapReduce 作 业 是 Pig 生 成 的,Linkedin 公 司 中 的 大 部 分 MapReduce 作 业 是 Pig 生 成 的 Pig 其 他 主 要 用 户 还 包 括 Salesforce Nokia AOL 和 comscore 等 15.4.2Tez Tez 是 Apache 开 源 的 支 持 DAG 作 业 的 计 算 框 架, 直 接 源 于 MapReduce 框 架, 核 心 思 想 是 将 Map 和 Reduce 两 个 操 作 进 一 步 进 行 拆 分, 即 Map 被 拆 分 成 Input Processor Sort Merge 和 Output,Reduce 被 拆 分 成 Input Shuffle Sort Merge Processor 和 Output 等, 经 过 分 解 后 的 这 些 元 操 作 可 以 进 行 自 由 任 意 组 合 产 生 新 的 操 作, 然 后 经 过 一 些 控 制 程 序 组 装 后 就 可 形 成 一 个 大 的 DAG 作 业 通 过 DAG 作 业 的 方 式 运 行 MapReduce 作 业, 提 供 了 程 序 运 行 的 整 体 处 理 逻 辑, 就 可 以 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 15 页

去 除 工 作 流 当 中 多 余 的 Map 阶 段, 减 少 不 必 要 的 操 作, 提 升 数 据 处 理 的 性 能 Hortonworks 把 Tez 应 用 到 数 据 仓 库 Hive 的 优 化 中, 使 得 性 能 提 升 了 约 100 倍 这 里 以 一 个 具 体 实 例 说 明 Tez 的 优 化 效 果 假 设 有 三 个 表 a b 和 c, 表 a 的 属 性 包 括 state id 和 itemid, 表 b 的 属 性 包 括 id 和 其 他 属 性, 表 c 的 属 性 包 括 itemid 和 price 下 面 是 数 据 仓 库 Hive 中 执 行 数 据 分 析 的 一 段 HiveQL 语 句, 其 功 能 是 对 三 个 表 在 公 共 属 性 上 进 行 连 接 操 作, 并 根 据 state 属 性 进 行 分 组, 并 统 计 每 个 分 组 的 元 组 个 数 和 平 均 价 格 SELECT a.state, COUNT(*), AVERAGE(c.price) FROM a JOIN b ON(a.id = b.id) JOIN c ON(a.itemId = c.itemid) GROUP BY a.state 图 15-12 给 出 了 上 述 HiveQL 语 句 在 MapReduce 和 Tez 中 的 执 行 情 况 对 比 在 MapReduce 框 架 中 执 行 时, 需 要 采 用 三 个 MapReduce 作 业 才 能 完 成, 每 个 作 业 完 成 以 后, 都 需 要 写 入 到 分 布 式 文 件 系 统 HDFS 中, 供 下 一 个 作 业 读 取, 带 来 了 较 大 的 处 理 延 迟 ; 而 在 Tez 框 架 中 执 行, 只 需 要 一 个 Tez 作 业 就 可 以 完 成, 处 理 全 过 程 不 需 要 把 数 据 写 入 到 HDFS, 可 以 直 接 在 不 同 的 Map 和 Reduce 任 务 之 间 传 输 数 据, 同 时, 也 减 少 了 一 些 不 必 要 的 MapReduce 操 作, 从 而 大 大 提 升 了 程 序 执 行 效 率 Hive - MR Hive - Tez SELECT a.state M M M R R HDFS M SELECT b.id R M SELECT a.state, c.itemid M M M R R M SELECT b.id M JOIN (a,c) SELECT c.price M R M HDFS JOIN(a,c) R R HDFS JOIN(a,b) Group BY a.state COUNT(*) AVERAGE(c.p rice) M R M JOIN(a,b) Group BY a.state COUNT(*) AVERAGE(c.p rice) R 图 15-12 HiveQL 语 句 在 MapReduce 和 Tez 中 的 执 行 情 况 对 比 在 Hadoop2.0 生 态 系 统 中,MapReduce Hive Pig 等 计 算 框 架, 都 需 要 最 终 以 MapReduce 任 务 的 形 式 执 行 数 据 分 析, 因 此,Tez 框 架 可 以 发 挥 重 要 的 作 用 如 图 15-13 所 示, 可 以 让 Tez 框 架 运 行 在 YARN 框 架 之 上, 然 后 让 MapReduce Pig 和 Hive 等 计 算 框 架 运 行 在 Tez 框 架 之 上, 从 而 借 助 于 Tez 框 架 实 现 对 MapReduce Pig 和 Hive 等 的 性 能 优 化, 更 好 地 解 决 现 有 MapReduce 框 架 在 迭 代 计 算 ( 如 PageRank 计 算 ) 和 交 互 式 计 算 方 面 存 在 的 问 题 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 16 页

图 15-13 Tez 框 架 在 Hadoop 生 态 系 统 中 的 作 用 可 以 看 出,Tez 在 解 决 Hive Pig 延 迟 大 性 能 低 等 问 题 的 思 路, 是 和 那 些 支 持 实 时 交 互 式 查 询 分 析 的 产 品 ( 如 Impala Dremel 和 Drill 等 ) 是 不 同 的 Impala Dremel 和 Drill 的 解 决 问 题 思 路 是 抛 弃 MapReduce 计 算 框 架, 不 再 将 类 似 SQL 语 句 的 HiveQL 或 者 Pig 语 句 翻 译 成 MapReduce 程 序, 而 是 采 用 与 商 用 并 行 关 系 数 据 库 类 似 的 分 布 式 查 询 引 擎, 可 以 直 接 从 HDFS 或 者 HBase 中 用 SQL 语 句 查 询 数 据, 而 不 需 要 把 SQL 语 句 转 化 成 MapReduce 任 务 来 执 行, 从 而 大 大 降 低 了 延 迟, 很 好 地 满 足 了 实 时 查 询 的 要 求 但 是,Tez 则 不 同, 比 如, 针 对 Hive 数 据 仓 库 进 行 优 化 的 Tez+Hive 解 决 方 案, 仍 采 用 MapReduce 计 算 框 架, 但 是 对 DAG 的 作 业 依 赖 关 系 进 行 了 裁 剪, 并 将 多 个 小 作 业 合 并 成 一 个 大 作 业, 这 样, 不 仅 计 算 量 减 少 了, 而 且 写 HDFS 次 数 也 会 大 大 减 少 15.4.3Spark Hadoop 虽 然 已 成 为 大 数 据 技 术 的 事 实 标 准, 但 其 本 身 还 存 在 诸 多 缺 陷, 最 主 要 的 缺 陷 是 其 MapReduce 计 算 模 型 延 迟 过 高, 无 法 胜 任 实 时 快 速 计 算 的 需 求, 因 而 只 适 用 于 离 线 批 处 理 的 应 用 场 景 在 MapReduce 中, 每 次 执 行 时 都 需 要 从 磁 盘 读 取 数 据, 并 且 在 计 算 完 成 后 需 要 将 中 间 结 果 写 入 到 磁 盘 中,IO 开 销 较 大 ; 而 且, 在 前 一 个 任 务 执 行 完 成 之 前, 其 他 任 务 无 法 开 始, 难 以 胜 任 复 杂 多 阶 段 的 计 算 任 务 Spark 最 初 诞 生 于 伯 克 利 大 学 的 APM 实 验 室, 是 一 个 可 应 用 于 大 规 模 数 据 处 理 的 快 速 通 用 引 擎, 如 今 是 Apache 软 件 基 金 会 下 的 顶 级 开 源 项 目 之 一 Spark 使 用 简 练 优 雅 的 Scala 语 言 编 写, 基 于 Scala 提 供 了 交 互 式 的 编 程 体 验 Spark 在 借 鉴 Hadoop MapReduce 优 点 的 同 时, 很 好 地 解 决 了 MapReduce 所 面 临 的 问 题, 比 如,Spark 提 供 了 内 存 计 算, 中 间 结 果 直 接 放 到 内 存 中, 带 来 了 更 高 的 迭 代 运 算 效 率 ;Spark 基 于 DAG 的 任 务 调 度 执 行 机 制, 要 优 于 MapReduce 的 迭 代 执 行 机 制 因 而,Spark 更 适 合 于 迭 代 运 算 比 较 多 的 数 据 挖 掘 与 机 器 学 习 运 算 当 前,Spark 正 以 其 结 构 一 体 化 功 能 多 元 化 的 优 势, 逐 渐 成 为 当 今 大 数 据 领 域 最 热 门 的 大 数 据 计 算 平 台 15.4.4Kafka Kafka 是 由 LinkedIn 公 司 开 发 的 一 种 高 吞 吐 量 的 分 布 式 发 布 订 阅 消 息 系 统, 用 户 通 过 Kafka 系 统 可 以 发 布 大 量 的 消 息, 同 时 也 能 实 时 订 阅 消 费 消 息 Kafka 设 计 的 初 衷 是 构 建 一 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 17 页

个 可 以 处 理 海 量 日 志 用 户 行 为 和 网 站 运 营 统 计 等 的 数 据 处 理 框 架 为 了 满 足 上 述 应 用 需 求, 就 需 要 同 时 提 供 实 时 在 线 处 理 的 低 延 迟 和 批 量 离 线 处 理 的 高 吞 吐 量 现 有 的 一 些 消 息 队 列 框 架, 通 常 设 计 了 完 备 的 机 制 来 保 证 消 息 传 输 的 可 靠 性, 但 是, 由 此 会 带 来 较 大 的 系 统 负 担, 在 批 量 处 理 海 量 数 据 时 无 法 满 足 高 吞 吐 率 的 要 求 ; 另 外 有 一 些 消 息 队 列 框 架 则 被 设 计 成 实 时 消 息 处 理 系 统, 虽 然 可 以 带 来 很 高 的 实 时 处 理 性 能, 但 是 在 面 对 批 量 离 线 场 合 时 却 无 法 提 供 足 够 的 持 久 性, 即 可 能 发 生 消 息 丢 失 同 时, 在 大 数 据 时 代 涌 现 的 新 的 日 志 收 集 处 理 系 统 (Flume Scribe 等 ) 往 往 更 擅 长 批 量 离 线 处 理, 而 不 能 较 好 地 支 持 实 时 在 线 处 理 相 对 而 言,Kafka 可 以 同 时 满 足 在 线 实 时 处 理 和 批 量 离 线 处 理 最 近 几 年,Kafka 在 大 数 据 生 态 系 统 中 开 始 扮 演 越 来 越 重 要 的 作 用, 在 Uber Twitter Netflix LinkedIn Yahoo Cisco Goldman Sachs 等 公 司 得 到 了 大 量 的 应 用 目 前, 在 很 多 公 司 的 大 数 据 平 台 中,Kafka 通 常 扮 演 数 据 交 换 枢 纽 的 角 色 传 统 的 关 系 数 据 库 一 直 是 企 业 关 键 业 务 系 统 的 首 选 数 据 库 产 品, 能 够 较 好 地 满 足 企 业 对 数 据 一 致 性 和 高 效 复 杂 查 询 的 需 求 但 是, 关 系 数 据 库 只 能 支 持 规 范 的 结 构 化 数 据 存 储, 无 法 有 效 应 对 各 种 不 同 类 型 的 数 据, 比 如 各 种 非 结 构 化 的 日 志 记 录 图 结 构 数 据 等, 同 时 面 对 海 量 大 规 模 数 据 也 显 得 捉 襟 见 肘 因 此, 关 系 数 据 库 无 法 实 现 一 种 产 品 满 足 所 有 应 用 场 景 在 这 样 的 大 背 景 下, 各 种 专 用 的 分 布 式 系 统 纷 纷 涌 现, 包 括 离 线 批 处 理 系 统 ( 如 MapReduce HDFS) NoSQL 数 据 库 ( 如 Redis MongoDB HBase Cassandra) 流 计 算 框 架 ( 如 Storm S4 Spark Streaming Samza) 图 计 算 框 架 ( 如 Pregel Hama) 搜 索 系 统 ( 如 ElasticSearch Solr) 等 这 些 系 统 不 追 求 大 而 全, 而 是 专 注 于 满 足 企 业 某 一 方 面 的 业 务 需 求, 因 此, 取 得 了 很 好 的 性 能 但 是, 随 之 而 来 的 问 题 是 如 何 实 现 这 些 专 用 系 统 与 Hadoop 系 统 各 个 组 件 之 间 数 据 的 导 入 导 出 一 种 朴 素 的 想 法 是, 为 各 个 专 用 系 统 单 独 开 发 数 据 导 入 导 出 工 具 这 种 解 决 方 案 在 技 术 上 没 有 实 现 难 度, 但 是, 带 来 了 较 高 的 实 现 代 价, 因 为, 每 当 有 一 款 新 的 产 品 加 入 到 企 业 的 大 数 据 生 态 系 统 中, 就 需 要 为 这 款 产 品 开 发 和 Hadoop 各 个 组 件 的 数 据 交 换 工 具 因 此, 有 必 要 设 计 一 种 通 用 的 工 具, 起 到 数 据 交 换 枢 纽 的 作 用, 其 他 工 具 加 入 大 数 据 生 态 系 统 后, 只 需 要 开 发 和 这 款 通 用 工 具 的 数 据 交 换 方 案, 就 可 以 通 过 这 个 交 换 枢 纽 轻 松 实 现 和 其 他 Hadoop 组 件 的 数 据 交 换 Kafka 就 是 一 款 可 以 实 现 这 种 功 能 的 产 品 如 图 15-14 所 示, 在 公 司 的 大 数 据 生 态 系 统 中, 可 以 把 Kafka 作 为 数 据 交 换 枢 纽, 不 同 类 型 的 分 布 式 系 统 ( 关 系 数 据 库 NoSQL 数 据 库 流 处 理 系 统 批 处 理 系 统 等 ), 可 以 统 一 接 入 到 Kafka, 实 现 和 Hadoop 各 个 组 件 之 间 的 不 同 类 型 数 据 的 实 时 高 效 交 换, 较 好 地 满 足 各 种 企 业 应 用 需 求 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 18 页

Apps Search Metrics Impala Hive RDBMS Kafka Platform Hadoop Relational DWH NoSQL Realtime Ananlytics Stream Processing Spark Map Reduce Synchronous Req/Response Near Realtime Data Offline Batch Data 0-100s ms > 100s ms 图 15-14 Kafka 作 为 数 据 交 换 枢 纽 > 1 hour 习 题 1. 试 述 在 Hadoop 推 出 之 后 其 优 化 与 发 展 主 要 体 现 在 哪 两 个 方 面 2. 试 述 HDFS1.0 中 只 包 含 一 个 名 称 节 点 会 带 来 哪 些 问 题 3. 请 描 述 HDFS HA 架 构 组 成 组 件 及 其 具 体 功 能 4. 请 分 析 HDFS HA 架 构 中 数 据 节 点 如 何 和 名 称 节 点 保 持 通 信 5. 请 阐 述 为 什 么 需 要 HDFS Federation, 即 它 能 够 解 决 什 么 问 题 6. 请 描 述 HDFS Federation 中 块 池 的 概 念, 并 分 析 为 什 么 HDFS Federation 中 的 一 个 名 称 节 点 失 效, 也 不 会 影 响 到 与 它 相 关 的 数 据 节 点 继 续 为 其 他 名 称 节 点 提 供 服 务 7. 请 阐 述 MapReduce1.0 体 系 结 构 中 存 在 的 问 题 8. 请 描 述 YARN 架 构 中 个 组 件 的 功 能 9. 请 描 述 在 YARN 框 架 中 执 行 一 个 MapReduce 程 序 时, 从 提 交 到 完 成 需 要 经 历 的 具 体 步 骤 10. 请 对 YARN 和 MapReduce1.0 框 架 进 行 优 劣 势 对 比 分 析 11. 请 分 别 描 述 Pig Tez Spark 和 Kafka 的 功 能 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 19 页

附 录 1: 任 课 教 师 介 绍 林 子 雨 (1978-), 男, 博 士, 厦 门 大 学 计 算 机 科 学 系 助 理 教 授, 主 要 研 究 领 域 为 数 据 库, 实 时 主 动 数 据 仓 库, 数 据 挖 掘. 主 讲 课 程 : 大 数 据 技 术 基 础 办 公 地 点 : 厦 门 大 学 海 韵 园 科 研 2 号 楼 E-mail: ziyulin@xmu.edu.cn 个 人 主 页 :http://www.cs.xmu.edu.cn/linziyu 数 据 库 实 验 室 网 站 :http://dblab.xmu.edu.cn 附 录 2: 课 程 教 材 介 绍 大 数 据 技 术 原 理 与 应 用 概 念 存 储 处 理 分 析 与 应 用, 由 厦 门 大 学 计 算 机 科 学 系 教 师 林 子 雨 博 士 编 著, 是 中 国 高 校 第 一 本 系 统 介 绍 大 数 据 知 识 的 专 业 教 材 本 书 定 位 为 大 数 据 技 术 入 门 教 材, 为 读 者 搭 建 起 通 向 大 数 据 知 识 空 间 的 桥 梁 和 纽 带, 以 构 建 知 识 体 系 阐 明 基 本 原 理 引 导 初 级 实 践 了 解 相 关 应 用 为 原 则, 为 读 者 在 大 数 据 领 域 深 耕 细 作 奠 定 基 础 指 明 方 向 全 书 共 有 13 章, 系 统 地 论 述 了 大 数 据 的 基 本 概 念 大 数 据 处 理 架 构 Hadoop 分 布 式 文 件 系 统 HDFS 分 布 式 数 据 库 HBase NoSQL 数 据 库 云 数 据 库 分 布 式 并 行 编 程 模 型 MapReduce 流 计 算 图 计 算 数 据 可 视 化 以 及 大 数 据 在 互 联 网 生 物 医 学 和 物 流 等 各 个 领 域 的 应 用 在 Hadoop HDFS HBase 和 MapReduce 等 重 要 章 节, 安 排 了 入 门 级 的 实 践 操 作, 让 读 者 更 好 地 学 习 和 掌 握 大 数 据 关 键 技 术 本 书 可 以 作 为 高 等 院 校 计 算 机 专 业 信 息 管 理 等 相 关 专 业 的 大 数 据 课 程 教 材, 也 可 供 相 关 技 术 人 员 参 考 学 习 培 训 之 用 欢 迎 访 问 大 数 据 技 术 原 理 与 应 用 概 念 存 储 处 理 分 析 与 应 用 教 材 官 方 网 站 : http://dblab.xmu.edu.cn/post/bigdata 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 20 页

扫 一 扫 访 问 教 材 官 网 附 录 3: 中 国 高 校 大 数 据 课 程 公 共 服 务 平 台 介 绍 中 国 高 校 大 数 据 课 程 公 共 服 务 平 台, 由 中 国 高 校 首 个 数 字 教 师 的 提 出 者 和 建 设 者 林 子 雨 老 师 发 起, 由 厦 门 大 学 数 据 库 实 验 室 全 力 打 造, 由 厦 门 大 学 云 计 算 与 大 数 据 研 究 中 心 海 峡 云 计 算 与 大 数 据 应 用 研 究 中 心 携 手 共 建 这 是 国 内 第 一 个 服 务 于 高 校 大 数 据 课 程 建 设 的 公 共 服 务 平 台, 旨 在 促 进 国 内 高 校 大 数 据 课 程 体 系 建 设, 提 高 大 数 据 课 程 教 学 水 平, 降 低 大 数 据 课 程 学 习 门 槛, 提 升 学 生 课 程 学 习 效 果 平 台 服 务 对 象 涵 盖 高 校 教 师 和 学 生 平 台 为 高 校 开 设 大 数 据 课 程 提 供 全 流 程 辅 助, 为 教 师 开 展 教 学 工 作 提 供 一 站 式 服 务, 为 学 生 学 习 大 数 据 课 程 提 供 全 方 位 辅 导 平 台 重 点 打 造 9 个 1 工 程, 即 1 本 教 材 ( 含 官 网 ) 1 个 教 师 服 务 站 1 个 学 生 服 务 站 1 个 公 益 项 目 1 堂 巡 讲 公 开 课 1 个 示 范 班 级 1 门 在 线 课 程 1 个 交 流 群 (QQ 群 微 信 群 ) 和 1 个 保 障 团 队 平 台 主 页 :http://dblab.xmu.edu.cn/post/bigdata-teaching-platform/ 扫 一 扫 访 问 平 台 主 页 主 讲 教 师 : 林 子 雨 http://www.cs.xmu.edu.cn/linziyu 第 21 页