大数据技术原理与应用

Similar documents
白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

大数据技术原理与应用

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

大数据技术基础(2013版)

大数据技术原理与应用

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

水晶分析师

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

大数据技术原理与应用

国 家 图 书 馆 年 鉴 0 重 点 文 化 工 程 一 中 华 古 籍 保 护 计 划 0 年, 国 家 图 书 馆 ( 国 家 古 籍 保 护 中 心 ) 根 据 文 化 部 要 求, 围 绕 习 近 平 总 书 记 关 于 弘 扬 中 华 优 秀 传 统 文 化 系 列 讲 话 精 神, 对

复 变 函 数 与 积 分 变 换 常 微 分 方 程 数 值 分 析 数 值 分 析 课 程 实 习 微 分 方 程 数 值

近四年网络工程专业培养方案.doc

大数据技术原理与应用

大数据技术原理与应用

对于 Hadoop 来说, 在 HDFS 看来, 节点分为 Namenode 和 Datanode, 其中 Namenode 只有一个,Datanode 可以是很多 ; 在 MapReduce 看来, 节点又分为 Jobtracker 和 Tasktracker, 其中 Jobtracker 只有一

Reducing Client Incidents through Big Data Predictive Analytics

大数据技术原理与应用

在Fedora上部署Hadoop2.2.0伪分布式平台

ebook71-8


程模型,MapReduce 把任务分为 map( 映射 ) 阶段和 reduce( 化简 ) 由于 MapReduce 工作原理的特性, Hadoop 能以并行的方式访问数据, 从而实现快速访问数据 Hbase--HBase 是一个建立在 HDFS 之上, 面向列的 NoSQL 数据库, 用于快速读

tar -xzf hadoop tar.gz mv hadoop /app 在 Hadoop 目录下创建子目录 在 hadoop 目录下创建 tmp name 和 data 目录 cd /app/hadoop mkdir tmp mkdir

大数据技术原理与应用

在Windows上安装Hadoop

信息

目录 1 编译 HADOOOP 搭建环境 安装并设置 maven 以 root 用户使用 yum 安装 svn 以 root 用户使用 yum 安装 autoconf automake libtool cmake..

大数据技术原理与应用

应 用 英 语 J102 会 学 基 础 2 3 月 1 日 12:30-14:30 1 号 教 学 楼 104 应 用 日 语 J102 日 汉 互 译 1 3 月 1 日 12:30-14:30 1 号 教 学 楼 104 应 用 日 语 J102 职 业 教 育 2 3 月 1 日 9:00-

:,,?,?,,,,,,, 1 ( ) (. ) ( ) :,?? :,,,,, ( ) (. ) : (. ) ( ),,, ( ) ( ), (. ), ( ) ( ) - (. - ) (. ) ;, (. ) ( ),, ( ),,, : ( - ), ( - - ) ( ) (. ),,,

合集

「西醫基層總額支付委員會《第28次委員會議紀錄

電機工程系認可證照清單 /7/1

达内Linux云计算学院

聚 焦 大 众 金 秋 十 月, 让 爱 走 动 引 领 大 众 金 秋 十 月 又 重 阳 清 早, 大 众 汽 车 租 赁 公 司 的 爱 心 小 队 一 行 十 余 人 就 带 着 早 已 备 好 的 节 日 慰 问 品 来 到 提 篮 桥 街 道 敬 老 院, 为 那

<4D F736F F D20BCC6CBE3BBFABFC6D1A7D3EBBCBCCAF5D7A8D2B5C5E0D1F8B7BDB0B8A3A8D7BFD4BDA3A931332E646F63>

Microsoft Word - 《Hadoop大数据技术与应用》教学大纲.doc

党 政 投 资 基 金 落 户 上 城 区 曰 全 年 新 批 外 商 投 资 项 目 30 个 袁 实 际 利 用 外 资 万 美 元 曰 引 进 市 外 内 资 项 目 598 个 袁 实 际 到 位 资 金 亿 元 曰 推 进 区 市 协 作 工 程 袁 出 台 实 施

社 工 系 师 生 继 续 服 务 金 竹 林 儿 童 之 家.7 专 业 技 能 训 练 动 员 大 会..7 顶 岗 实 习 动 员 会 级 本 科 班 专 业 技 能 训 练...9 保 山 学 院 盈 江 青 爱 小 屋 支 教 行 级 政 本 班 德 育

信工学生工作简报 第四期.doc

支撑材料4.4.doc

教学设计方案

2009杭州市小学地方课程

课程整体教学设计指导意见

???h?????????W??????

天天星期三

簡 述 所 有 參 與 教 案 編 寫 人 員 之 學 經 歷 及 負 責 內 容 參 與 教 案 編 寫 人 員 魏 俊 陽 學 歷 經 歷 負 責 內 容 國 立 臺 灣 師 範 新 北 市 閩 南 語 教 案 編 寫 大 學 課 程 與 教 輔 導 團 教 學 者 學 研 究 所 博 士 新

任 务 单 一 ~2: 文 具 书 本 摆 整 齐, 争 得 自 理 星 争 星 要 求 : 文 具 用 品 摆 放 好, 书 本 叠 叠 放 整 齐 探 秘 任 务 一 ~2: 文 具 书 本 摆 整 齐, 争 得 自 理 星 任 务 1: 跟 小 辅 导 员 一 起 参 观 高 年 级 的 教

Microsoft Word - Z01.doc

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

《80后职场新鲜人生存手册》

加 值 型 及 非 加 值 型 營 業 稅 法 第 12 條 ( 公 布 ) 特 種 飲 食 業 之 營 業 稅 稅 率 如 下 : 一 夜 總 會 有 娛 樂 節 目 之 餐 飲 店 之 營 業 稅 稅 率 為 百 分 之 十 五 二 酒 家 及 有 陪 侍 服 務 之 茶 室

Chapter #

是 证 券 市 场 的 后 来 者, 但 在 前 景 广 阔 的 道 路 上 前 行, 终 将 成 为 这 个 市 场 的 领 先 者, 这 里 会 给 你 一 个 巨 大 的 舞 台, 这 里 有 你 需 要 的 机 会, 这 里 欢 迎 优 秀 的 你! 二 招 收 条 件 1. 遵 守 国 家

大连软~1

PowerPoint 演示文稿

大数据技术原理与应用

大数据技术基础

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

填 表 说 明 ( 一 ) 本 表 供 申 报 高 等 学 校 教 师 专 业 技 术 资 格 人 员 使 用 学 校 职 能 部 门 须 对 有 关 信 息 进 行 审 核, 并 分 别 在 相 应 栏 目 加 盖 公 章 涉 及 签 名 的 须 本 人 用 钢 笔 亲 自 填 写 ( 二 ) 第

Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7.

附 件 : 2009 年 度 国 家 精 品 课 程 名 单 一 本 科 国 家 精 品 课 程 ( 以 学 科 为 序, 共 400 门 ) 序 号 一 级 学 科 二 级 学 科 课 程 名 称 学 校 名 称 负 责 人 1 哲 学 哲 学 类 马 克 思 主 义 伦 理 学 安 徽 师 范

加 入 网 络 帝 国 的 学 习 狂 欢 仅 1989 年, 互 联 网 缔 造 者 蒂 姆 伯 纳 斯 李 爵 士 将 web 服 务 器 命 名 为 world wide web 开 始, 这 个 www 为 开 场 癿 新 时 代 就 引 収 了 一 连 串 癿 革 命, 幵 迚 而 成 为

校友会系统白皮书feb_08

附件2

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

建筑学院建筑学本科专业建设发展规划.doc

Microsoft Word - 黃玉緞 _民間文學教案設計_民歌擬作舉隅

untitled

untitled

BQY.PS2

<4D F736F F D20322EABEDA473A5C1B6A1B6C7BBA1AAECB1B42E646F63>

Microsoft Word - 8-柯香君-原稿初修-0516.doc

untitled

书 名 : 额 尔 古 纳 河 右 岸 作 者 : 迟 子 建 出 版 社 : 北 京 十 月 文 艺 出 版 社 出 版 日 期 : 开 本 : 正 16 开 页 数 :262 ISBN:

untitled

Ps22Pdf

)001 (131 ) : ISBN / :

湖北省高中课程改革重大项目

...T.U.p65

书 名 : 作 者 : 出 版 社 : 中 国 电 影 出 版 社 版 权 所 有 : 烨 子 工 作 室 类 别 : 中 国 传 世 情 爱 小 说 出 版 时 间 :2005 年 10 月 字 书 数 :150 千 字 号 :ISBN /B 0030

untitled

ISBN Z

untitled

Ps22Pdf

Ps22Pdf

untitled

: : ISBN /B 007 :

untitled

()001 ( 131 ) : ISBN / I1021 :7.50

untitled

untitled

Ps22Pdf

马来西亚、约旦(上).doc

untitled

untitled

()001 ( 131 ) : ISBN / I1020 :6.50

大数据分析技术 [13] 1.1 大数据 Big Data [2] IBM 5V Volume Velocity Variety Value Veracity Volume Velocity Variety Value Veracity 表 1 大数据特征表 Tab.1

校 企 双 赢 的 长 效 合 作 机 制 (5) 为 毕 业 生 提 供 就 业 信 息 及 就 业 指 导, 分 析 评 价 教 学 质 量 对 人 才 培 养 模 式 提 出 意 见 和 建 议 ( 二 ) 专 业 校 企 合 作 理 事 会 1. 成 员 单 位 : 行 业 协 会 合 作

Transcription:

大数据技术原理与应用 厦门大学计算机科学系厦门大学计算机科学系林子雨 2015 年版 ziyulin@xmu.edu.cn 大数据技术原理与应用 http://dblab.xmu.edu.cn/post/bigdata 温馨提示 : 编辑幻灯片母版, 可以修改每页 PPT 的厦大校徽和底部文字 第二章大数据处理架构 Hadoop (PPT 版本号 :2015 年 6 月第 1.0 版 ) 林子雨厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页 :http://www.cs.xmu.edu.cn/linziyu

提纲 2.1 概述 2.2 Hadoop 项目结构 2.3 Hadoop 的安装与使用 本 PPT 是如下教材的配套讲义 : 21 世纪高等教育计算机规划教材 大数据技术原理与应用 概念 存储 处理 分析与应用 (2015 年 6 月第 1 版 ) 厦门大学林子雨编著, 人民邮电出版社 ISBN:978-7-115-39287-9 欢迎访问 大数据技术原理与应用 教材官方网站 : http://dblab.xmu.edu.cn/post/bigdata

2.1 概述 2.1.1 Hadoop 简介 2.1.2 Hadoop 发展简史 2.1.3 Hadoop 的特性 2.1.4 Hadoop 的应用现状

2.1.1 Hadoop 简介 Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台, 为用户提供了系统底层细节透明的分布式基础架构 Hadoop 是基于 Java 语言开发的, 具有很好的跨平台特性, 并且可以部署在廉价的计算机集群中 Hadoop 的核心是分布式文件系统 HDFS(Hadoop Distributed File System) 和 MapReduce Hadoop 被公认为行业大数据标准开源软件, 在分布式环境下提供了海量数据的处理能力 几乎所有主流厂商都围绕 Hadoop 提供开发工具 开源软件 商业化工具和技术服务, 如谷歌 雅虎 微软 思科 淘宝等, 都支持 Hadoop

2.1.2 Hadoop 发展简史 Hadoop 的标志 Hadoop 最初是由 Apache Lucene 项目的创始人 Doug Cutting 开发的文本搜索库 Hadoop 源自始于 2002 年的 Apache Nutch 项目 一个开源的网络搜索引擎并且也是 Lucene 项目的一部分 在 2004 年,Nutch 项目也模仿 GFS 开发了自己的分布式文件系统 NDFS(Nutch Distributed File System), 也就是 HDFS 的前身 2004 年, 谷歌公司又发表了另一篇具有深远影响的论文, 阐述了 MapReduce 分布式编程思想 2005 年,Nutch 开源实现了谷歌的 MapReduce

2.1.2 Hadoop 发展简史 到了 2006 年 2 月,Nutch 中的 NDFS 和 MapReduce 开始独立出来, 成为 Lucene 项目的一个子项目, 称为 Hadoop, 同时,Doug Cutting 加盟雅虎 2008 年 1 月,Hadoop 正式成为 Apache 顶级项目,Hadoop 也逐渐开始被雅虎之外的其他公司使用 2008 年 4 月,Hadoop 打破世界纪录, 成为最快排序 1TB 数据的系统, 它采用一个由 910 个节点构成的集群进行运算, 排序时间只用了 209 秒 在 2009 年 5 月,Hadoop 更是把 1TB 数据排序时间缩短到 62 秒 Hadoop 从此名声大震, 迅速发展成为大数据时代最具影响力的开源分布式开发平台, 并成为事实上的大数据处理标准

2.1.3 Hadoop 的特性 Hadoop 是一个能够对大量数据进行分布式处理的软件框架, 并且是以一种可靠 高效 可伸缩的方式进行处理的, 它具有以下几个方面的特性 : 高可靠性 高效性 高可扩展性 高容错性 成本低 运行在 Linux 平台上 支持多种编程语言

2.1.3 Hadoop 的应用现状 Hadoop 凭借其突出的优势, 已经在各个领域得到了广泛的应用, 而互联网领域是其应用的主阵地 2007 年, 雅虎在 Sunnyvale 总部建立了 M45 一个包含了 4000 个处理器和 1.5PB 容量的 Hadoop 集群系统 Facebook 作为全球知名的社交网站,Hadoop 是非常理想的选择, Facebook 主要将 Hadoop 平台用于日志处理 推荐系统和数据仓库等方面 国内采用 Hadoop 的公司主要有百度 淘宝 网易 华为 中国移动等, 其中, 淘宝的 Hadoop 集群比较大

2.2 Hadoop 项目结构 经过多年的发展,Hadoop 项目不断完善和成熟, 目前已经包含多个子项目 ( 如图 2-2 所示 ) 除了核心的 HDFS 和 MapReduce 以外,Hadoop 项目还包括 Common Avro Zookeeper HBase Hive Chukwa Pig 等子项目, 它们提供了互补性服务或在核心层上提供了更高层的服务 Pig Chukwa Hive HBase MapReduce HDFS ZooKeeper Common Avro 图 2-2 Hadoop 项目结构图

2.3 Hadoop 的安装与使用 Hadoop 基本安装配置主要包括以下几个步骤 : 创建 Hadoop 用户 Java 安装 SSH 登录权限设置 单机安装配置 伪分布式安装配置

2.3.1 创建 Hadoop 用户 添加用户 -----useradd 删除用户 -----userdel 更改密码 -----passwd 在本次实验中, 创建的用户名为 hadoop

2.3.2 Java 安装 使用 CentOS 自带的 java 版本 安装 Oracle 官方 java 版本

2.3.3 SSH 登录权限 SSH 是什么? SSH 为 Secure Shell 的缩写, 是建立在应用层和传输层基础上的安全协议 SSH 是由客户端和服务端的软件组成, 服务端是一个守护进程 (daemon), 他在后台运行并响应来自客户端的连接请求, 客户端包含 ssh 程序以及像 scp( 远程拷贝 ) slogin( 远程登陆 ) sftp( 安全文件传输 ) 等其他的应用程序 配置 SSH 的原因 : Hadoop 名称节点 (NameNode) 需要启动集群中所有机器的 Hadoop 守护进程, 这个过程需要通过 SSH 登录来实现 Hadoop 并没有提供 SSH 输入密码登录的形式, 因此, 为了能够顺利登录每台机器, 需要将所有机器配置为名称节点可以无密码登录它们

2.3.4 安装单机 Hadoop Hadoop 版本 :1.2.1 下载地址 :http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-1.2.1/ 实验步骤 : 解压缩 hadoop-1.2.1.tar.gz 修改 hadoop-env.sh 查看 hadoop 版本信息 :./hadoop version 运行 hadoop 实例

2.3.5 Hadoop 伪分布式安装 文件名称 格式 描述 hadoop-env.sh Bash 脚本 记录配置 Hadoop 运行所需的环境变量, 以运 行 Hadoop core-site.xml Hadoop 配置 XML Hadoop core 的配置项, 例如 HDFS 和 MapReduce 常用的 I/O 设置等 hdfs-site.xml Hadoop 配置 XML Hadoop 的守护进程的配置项, 包括 NameNode SecondaryNameNode 和 DataNode 等 mapred-site.xml Hadoop 配置 XML MapReduce 守护进程的配置项, 包括 JobTracker 和 TaskTracker masters 纯文本 运行 SecondaryNameNode 的机器列表 ( 每行一个 ) slaves 纯文本 运行 DataNode 和 TaskTracker 的机器列表 ( 每行一个 ) hadoopmetrics.properties Java 属性 Hadoop 配置文件 控制 metrics 在 Hadoop 上如何发布的属性

2.3.5 Hadoop 伪分布式安装 实验步骤 : 修改配置文件 :core-site.xml,hdfs-site.xml,mapred-site.xml 初始化文件系统 hadoop namenode -format 启动所有进程 start-all.sh 访问 web 界面, 查看 Hadoop 信息 运行实例

本章小结 Hadoop 被视为事实上的大数据处理标准, 本章介绍了 Hadoop 的发展历程, 并阐述了 Hadoop 的高可靠性 高效性 高可扩展性 高容错性 成本低 运行在 Linux 平台上 支持多种编程语言等特性 Hadoop 目前已经在各个领域得到了广泛的应用, 雅虎 Facebook 百度 淘宝 网易等公司都建立了自己的 Hadoop 集群 经过多年发展,Hadoop 项目已经变得非常成熟和完善, 包括 Common Avro Zookeeper HDFS MapReduce HBase Hive Chukwa Pig 等子项目, 其中,HDFS 和 MapReduce 是 Hadoop 的两大核心组件 本章最后介绍了如何在 Linux 系统下完成 Hadoop 的安装和配置, 这个部分是后续章节实践环节的基础

主讲教师和助教 主讲教师 : 林子雨 单位 : 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 个人网页 :http://www.cs.xmu.edu.cn/linziyu 数据库实验室网站 :http://dblab.xmu.edu.cn 助教 : 蔡珉星 单位 : 厦门大学计算机科学系数据库实验室 2013 级硕士研究生 ( 导师 : 林子雨 ) E-mail: caiminxing@126.com 欢迎访问 大数据技术原理与应用 概念 存储 处理 分析与应用 教材官方网站 :http://dblab.xmu.edu.cn/post/bigdata

Department of Computer Science, Xiamen University, June, 2015