PowerPoint 簡報

Similar documents
雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO

1 IT IT IT IT Virtual Machine, VM VM VM VM Operating Systems, OS IT

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

一 Grass 是 什 么 1 简 介 GRASS (Geographic Resources Analysis Support System, 地 理 资 源 分 析 支 持 系 统 ) 是 最 负 盛 名 的 开 源 地 理 信 息 系 统 (GIS) 以 下 是 它 的 一 些 特 点 : 1

WebSphere Studio Application Developer IBM Portal Toolkit... 2/21 1. WebSphere Portal Portal WebSphere Application Server stopserver.bat -configfile..

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

摘 要 1. GSLB: 全 局 负 载 均 衡 2. SLB: 服 务 器 负 载 均 衡 四 层 交 换 LVS 七 层 交 换 Nginx 3. Heartbeat 实 现 HA 4. MySQL 数 据 库 集 群 5. 集 群 环 境 下 的 存 储 备 份 6. 集 群 的 监 控 及

校友会系统白皮书feb_08

Symantec™ Sygate Enterprise Protection 防护代理安装使用指南

Data Server_new_.doc

目 錄 版 次 變 更 記 錄... 2 原 始 程 式 碼 類 型 之 使 用 手 冊... 3 一 安 裝 軟 體 套 件 事 前 準 備... 3 二 編 譯 流 程 說 明

Microsoft Word zw

PowerPoint Presentation

2 第 章 绪 论 Internet 2.0 使 得 消 费 型 电 子 产 品 用 户 可 以 通 过 多 种 不 同 的 数 据 网 络 访 问 互 联 网 内 容 用 户 可 以 使 用 便 携 式 消 费 型 电 子 设 备, 如 智 能 手 机 触 屏 平 板 电 脑 电 子 书, 甚 至

ssh-keygen -t rsa

使用手冊

投影片 1

自由軟體社群發展經驗與 Linux認證介紹

岳西职教中心

刊首语

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

本文由筱驀釹贡献

CC213

自由軟體教學平台

快 速 入 门 (Linux) 概 述 文 档 目 的 本 文 档 介 绍 了 如 何 快 速 创 建 Linux 系 统 实 例 远 程 连 接 实 例 部 署 环 境 等 旨 在 引 导 您 一 站 式 完 成 实 例 的 创 建 登 录 和 快 速 环 境 部 署 云 服 务 器 ECS 实

Basic System Administration

营 销 策 划 岗 部 门 招 聘 职 位 招 聘 人 数 岗 位 职 责 基 本 要 求 岗 位 任 职 要 求 6 参 与 项 目 产 品 研 究 客 户 需 求 研 究 竞 争 环 境 研 究 价 格 研 究 等 项 目 市 场 研 究 ; 7 公 司 经 纪 业 务 的 品 牌 管 理, 对

DocHdl2OnPPMtmpTarget

.. 3 N

Autodesk Product Design Suite Standard 系統統需求 典型使用用者和工作流程 Autodesk Product Design Suite Standard 版本為為負責建立非凡凡產品的設計師師和工程師, 提供基本概念設計計和製圖工具, 以取得令人驚驚嘆

内 容 提 要 将 JAVA 开 发 环 境 迁 移 到 Linux 系 统 上 是 现 在 很 多 公 司 的 现 实 想 法, 而 在 Linux 上 配 置 JAVA 开 发 环 境 是 步 入 Linux 下 JAVA 程 序 开 发 的 第 一 步, 本 文 图 文 并 茂 地 全 程 指

Linux Ubuntu Part Linux Ubuntu Linux UNIX...19 Linux...19 Linux Linux...21 Linux GNU FSF Open So urce.

The golden pins of the PCI card can be oxidized after months or years

ebook 185-6

Reducing Client Incidents through Big Data Predictive Analytics

2016 勒索軟體白皮書

目次 

政府機關資訊通報第295期(5月)


经华名家讲堂

201316

DRBL/Clonezilla 進階課程 蕭志榥孫振凱 國家高速網路與計算中心 N

附录J:Eclipse教程

国 家 图 书 馆 年 鉴 0 重 点 文 化 工 程 一 中 华 古 籍 保 护 计 划 0 年, 国 家 图 书 馆 ( 国 家 古 籍 保 护 中 心 ) 根 据 文 化 部 要 求, 围 绕 习 近 平 总 书 记 关 于 弘 扬 中 华 优 秀 传 统 文 化 系 列 讲 话 精 神, 对

Blog:Hadoop 系列文章之三:建立 Hadoop 多點分散架構.docx

2013_6_3.indd

111

A9RF716.tmp

Microsoft Word - PS2_linux_guide_cn.doc

Spyder Anaconda Spyder Python Spyder Python Spyder Spyder Spyder 開始 \ 所有程式 \ Anaconda3 (64-bit) \ Spyder Spyder IPython Python IPython Sp

2004 Sun Microsystems, Inc Network Circle, Santa Clara, CA U.S.A. Sun Sun Berkeley BSD University of California UNIX X/Open Company, Ltd.

温州市政府分散采购

11 for Server 教育版續約 for Server 教育版續約 套 5, for Virtual Host 教育版 for Virtual Host 教育版 套 29, for Virtual Host 教育版續約 for Virtual Host 教育版續約 套

CA 性能管理 Data Aggregator 安装指南 - 命令行

Abstract arm linux tool-chain root NET-Start! 2

Python a p p l e b e a r c Fruit Animal a p p l e b e a r c 2-2

是 证 券 市 场 的 后 来 者, 但 在 前 景 广 阔 的 道 路 上 前 行, 终 将 成 为 这 个 市 场 的 领 先 者, 这 里 会 给 你 一 个 巨 大 的 舞 台, 这 里 有 你 需 要 的 机 会, 这 里 欢 迎 优 秀 的 你! 二 招 收 条 件 1. 遵 守 国 家

ASUS RS300-E7 DELL PowerEdge R210 II 5 1U 超薄型伺服器 (Quad-Core Intel Xeon 3.2GHz 一顆 )(Linux Server 作業系統 )(Serial ATA 硬碟 ) 51,173 HP DL120 G7 IBM System x

对于 Hadoop 来说, 在 HDFS 看来, 节点分为 Namenode 和 Datanode, 其中 Namenode 只有一个,Datanode 可以是很多 ; 在 MapReduce 看来, 节点又分为 Jobtracker 和 Tasktracker, 其中 Jobtracker 只有一

lect03.ppt

CA Nimsoft Monitor Snap 快速入门指南

開發工具 使用 Android SDK 建立應用程式 使用 Java 語言 Java Platform, Standard Edition (Java SE)

MapReduce

30.00% 25.00% 25.00% 22.50% 20.00% 15.00% 12.50% 15.00% 12.50% 10.00% 7.50% 5.00% 2.50% 2.50% 0.00% 文 学 理 学 工 学 法 学 教 育 学 管 理 学 历 史 学 艺 术 学 ( 三 ) 学 生

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

2017政府共同供應契約採購指南V3.xls

PowerPoint Presentation

Microsoft Word - linux命令及建议.doc

ArcIMS ArcIMS Shape ArcIMS Monitor ArcIMS Tasker ArcIMS Windows NT UNIX ArcIMS ArcIMS MapService ArcIMS ArcIMS ArcIMS ArcIMS JAVA Windows NT UNIX ArcI

SSL 數位憑證 OpenVPN 安裝說明

( )... 5 ( ) ( )

Cadence SPB 15.2 VOICE Cadence SPB 15.2 PC Cadence 3 (1) CD1 1of 2 (2) CD2 2of 2 (3) CD3 Concept HDL 1of 1

Azure_s

Linux 操作系统课程社区创作

Blog:Hadoop 系列文章之二:建立 Hadoop 單點分散架構.docx

约 定 和 说 明 : 1. 基 于 Ubuntu i 蓝 色 部 分 为 控 制 台 命 令, 默 认 为 在 当 前 用 户 目 录 下 执 行 3. 添 加 至 文 件 的 部 分 默 认 添 加 在 文 件 结 尾 处 4.SUN-JDK 从 目 前 看 不 安 装

投影片 1

铁岭卫~1

項次 4 (Quad-Core Intel Xeon 2.53GHz 一顆 /Windows 作業系統 ) NT$84,222 HP ProLiant DL120 G6 作業系統 Windows Server 2008 提供 1 顆 Quad-Core Intel Xeon 2.53GHz, 每顆

Microsoft PowerPoint - 第一讲 概论.ppt

程模型,MapReduce 把任务分为 map( 映射 ) 阶段和 reduce( 化简 ) 由于 MapReduce 工作原理的特性, Hadoop 能以并行的方式访问数据, 从而实现快速访问数据 Hbase--HBase 是一个建立在 HDFS 之上, 面向列的 NoSQL 数据库, 用于快速读

Acronis P.1 Acronis Anydata Engine P.2 P.4 Acronis Backup Advanced P.5 Acronis Backup Advanced for AP P.6 Vmware P.7 Acronis Backup P.8 IDC 80 % $20,0

《教育信息化前沿》

x 前言 Python Python ETL extract transform load Python Python / Python Python Python

ansoft_setup21.doc

WinMDI 28

在Fedora上部署Hadoop2.2.0伪分布式平台

IBM System x 系列手册

深圳市亚可信息技术有限公司 NetWeaver 7.3 EhP1 ABAP on Redhat Enterprise Linux Server 62 for Oracle112 High Availability System Installation Created by

TPM BIOS Infineon TPM Smart TPM Infineon TPM Smart TPM TPM Smart TPM TPM Advanced Mode...8

weblogic

1. 二 進 制 數 值 ( ) 2 轉 換 為 十 六 進 制 時, 其 值 為 何? (A) ( 69 ) 16 (B) ( 39 ) 16 (C) ( 7 A ) 16 (D) ( 8 A ) 在 電 腦 術 語 中 常 用 的 UPS, 其 主 要 功 能

封面-12

PowerPoint 演示文稿

BYOD IP+Optical (IP NGN) API 4. End-to-End (Service Aware) 5. IP NGN (IP Next Generation Network) ( ) Prime Carrier Management Access Edge Co

ebook140-11

<4D F736F F F696E74202D20C8EDBCFEB2E2CAD4D1A7CFB0D7CAC1CF2E BBCE6C8DDC4A3CABD5D>

软件概述

Microsoft Word _Java_術科 .doc

Transcription:

使用 Hadoop 架設雲端系統

配置 Hadoop 實驗平台 可使用虛擬技術 Virtual Box Xen 或 Vmware 虛擬軟體, 一次建立 3-5 個 Linux 建議執行 Hadoop 平台最低硬體需求 2GHz 以上的 2 或 4 核心處理器 4GB DRAM IDE 或 SATA 硬碟 250GB 以上 100Mbps 以上的網路卡與交換器

配置 Hadoop 實驗平台 虛擬主機配置 作業系統 Linux (Ubuntu 12.04) 記憶體 512MB 硬碟容量 8GB Hadoop 雲端系統 hadoop-1.1.2

Hadoop 實驗平台配置方式 hdp0 (192.168.0.100) Hadoop Master NameNode JobTracker hdp1 (192.168.0.101) hdp2 (192.168.0.102) hdp3 (192.168.0.103) More Hadoop Slaves hdpx DataNode TaskTracker DataNode TaskTracker DataNode TaskTracker

安裝 Hadoop 雲端運算系統套件 每台伺服器安裝 作業系統 :Ubuntu Linux Server Edition 雲端系統 :Hadoop-1.1.2 + HDFS + Hbase 程式開發 :Java 7 實驗系統架構 Master-hdp0 Name node, Job tracker Slave-hdp1 Data node, Task tracker Slave-hdp2 Data node, Task tracker Slave-hdp3 Data node, Task tracker

安裝 Hadoop 雲端系統 為了管理方便, 請建立一個 hadoop 帳號 $ sudo adduser hadoop 下載 hadoop-xxxx.tar.gz 後在 hadoop 的 home directory 解壓縮 $ tar zxvf hadoop-1.1.2.tar.gz hadoop-1.1.2: $ wget + 下載網址 ftp://apache.cdpa.nsysu.edu.tw/unix/web/apache/hadoop/common/hadoop- 1.1.2/hadoop-1.1.2.tar.gz

安裝 Hadoop 雲端系統 其他 hadoop 必備軟體 Installing Oracle Java7 JDK $ sudo apt-get update $ sudo add-apt-repository ppa:webupd8team/java $ sudo apt-get install oracle-java7-installer Installing ssh $ sudo apt-get install ssh $ sudo apt-get install openssh-server $ sudo apt-get install rsync

編輯主機設定檔 主機設定檔 :/etc/hosts $ sudo nano /etc/hosts 127.0.0.1 localhost 192.168.0.100 hdp0 192.168.0.101 hdp1 192.168.0.102 hdp2 192.168.0.103 hdp3 ( IP + hostname, hostname 在每台主機的 /etc/hostname 設定 : $ sudo nano /etc/hostname)

Hadoop 執行環境變數設定 更改.bashrc 檔 (home 下的隱藏檔 ) 加入 $ sudo nano.bashrc export JAVA_HOME=/usr/lib/jvm/java-7-oracle export HADOOP_HOME=/home/hadoop/hadoop-1.1.2 export PATH=$PATH:$HADOOP_HOME/bin:$JAVA_HOME/bin

Hadoop 執行環境變數設定 在 hadoop-1.1.2/conf 下編輯環境設定檔 hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-7-oracle export HADOOP_HOME=/home/hadoop/hadoop-1.1.2 其他環境變數可以設定 HADOOP_HEAPSIZE: 設定 HEAP 檔案大小,Hadoop 系統能同時處理的最大資料量預設值為 1000MB HADOOP_LOG_DIR:Log 目錄 HADOOP_SLAVES: 指定 slave 主機設定檔 HADOOP_MASTER: 指定 master 主機設定檔

Hadoop 執行環境變數設定 進入 hadoop-1.1.2/conf 更改 $ sudo nano masters hdp0 $ sudo nano slaves hdp0 hdp1 hdp2 hdp3

Hadoop 雲端系統設定檔 core-site.xml Hadoop 採用網頁的方式監控各節點的運作狀況, 因此必須要有一個 Hadoop 雲端系統的管理網站 指定 Hadoop NameNode 主機 指定 HDFS 分散式系統在 hdp0 主機, 通訊 Port 為 9000

HDFS 分散式檔案系統 hdfs-site.xml 必須在 HDFS 上指定 NameNode 以及 DataNode 的資料儲存位置 hdp0 上建立放置 NameNode 與 DataNode 資料的目錄 $ mkdir -p /home/hadoop/dfs/name $ mkdir -p /home/hadoop/dfs/data 設定檔 hdfs-site.xml

MapReduce 程式設定檔 mapred-site.xml 用來監控 Map 與 Reduce 程式的 JobTracker 工作分配狀況以及 TaskTracker 工作執行狀況

內部網路設定

建立另外三台 slave 複製 vdi 檔 ( 在 windows 下, 複製另外 3 份 hdp1,hdp2,hdp3) $ cd C:\Program Files\Oracle\VirtualBox $ VBoxManage clonevdi <vdi 檔案路徑 > < 新的 vdi 檔案路徑 > 須進入 hdp1,hdp2,hdp3 修改 Hostname ($ sudo nano /etc/hostname) IP 網路設定

建立 SSH 金鑰安全連線 檢查四台主機相互連線正常 :ping 建立 ssh 連線免密碼登入 $ ssh-keygen -t rsa $ cd /home/hadoop/.ssh $ cat id_rsa.pub >> ~/.ssh/authorized_keys 測試連線 $ ssh hdp0 $ exit

複製設定檔到其他 Hadoop 主機 複製授權金鑰檔 authorized_keys 至其他主機 $ scp authorized_keys hdp1:/home/hadoop/.ssh/ $ scp authorized_keys hdp2:/home/hadoop/.ssh/ $ scp authorized_keys hdp3:/home/hadoop/.ssh/ 檢查連線是否正常 $ ssh hdp1 $ ssh hdp2 $ ssh hdp3

格式化 Hadoop $ cd /home/hadoop/hadoop-1.1.2/bin $./hadoop namenode format 若有錯誤, 可能是 core-site.xml hdfs-site.xml 或 mapred-site.xml 設定錯誤, 請依據錯誤訊息修正相關檔案

啟動 Hadoop 雲端系統 執行 start-all.sh 即可 $ cd /home/hadoop/hadoop-1.1.2/bin $./start-all.sh 執行 start-all.sh 啟動指令後, 就會啟動 NameNode 與 JobTracker 主機 hdp0 並開始與其他 slave 主機進行連線, 同時啟動 DataNode 與 TaskTracker 功能 並在 $HADOOP_HOME/logs 目錄產生記錄檔

檢視 Hadoop 運作狀況 查看 NameNode 運作狀況 http://hdp0:50070 查看 JobTracker 運作狀況 http://hdp0:50030 可以用 log 可查看每一台 DataNode 與 JobTracker 的運作狀況 關閉 Hadoop 雲端系統 ($HADOOP_HOME/bin 目錄的 stopall.sh 即可終止 NameNode 主機與其他 DataNode 主機的連接 ) $ cd /home/hadoop/hadoop-1.1.2/bin $./stop-all.sh

測試 Hadoop 雲端系統 測試 pi 的運算 ( 在 hadoop-1.1.2 目錄下 ) $ bin/hadoop jar hadoop-examples-1.1.2.jar pi 100 10000

MapReduce 程式開發工具 整合開發工具 : (Eclipse)+(IBM 專為 Eclipse 設計的 MapReduce plugins) 開發設計 MapReduce 程式 進行 Hadoop 伺服器設定 MapReduce Job Control 瀏覽 HDFS 分散式檔案的讀取狀況 安裝 Eclipse $ sudo apt-get install eclipse

安裝 IBM MapReduce Tools Eclipse Plugins Eclipse Plugins 已直接納入 Hadoop 安裝套件中 $ cd $HADOOP_HOME/contrib/elcipse-plugin $ ls l hadoop-xxxx-eclipse-plugin.jar 確定沒有正在執行的 Eclipse 程式 將 hadoop-xxxx-eclipse-plugin.jar 外掛檔案複製到 Eclipse 安 裝目錄的 (usr/lib/eclipse/)plugins/ 目錄下 啟動 Eclipse ( 選單列 ) Windows Open Perspective Other Map/Reduce

使用 MapReduce Plugin 監控 Hadoop 工作流程 Eclipse 選單 Windows Show View Other Map Reduce Tools Map/Reduce Locations 啟動 Map/Reduce 伺服器進行監控作業 可於 Eclipse 開發環境中點選右上角藍色小象, 或點選 Map/Reduce Locations 狀態列右邊的藍色小象圖示, 進行 Hadoop 伺服器的相關設定 可在此設定執行 MapReduce 程式的 Hadoop Master 主機名稱 Port 通訊埠 core-site.xml hdfs-site.xml mapred-site.xml 等設定檔

建立 Project 在 New Project 的選單上就可以選 Map/Reduce Project

開啟 Map/Reduce Perspective 1. 接著透過 Window -> Open Perspective 來開啟 Map/Reduce Perspective 2. 在 Map/Reduce Perspective 加入一個 Hadoop location 3. 根據 core-site.xml 與 mapred-site.xml 的設定資料, 輸入 Map/Reduce Master (NameNode) 與 DFS Master 的 host 跟 port

由 DFS Locations 直接存取 HDFS

執行 Map/Reduce 程式 hadoop 0.20 程式開發 : http://trac.nchc.org.tw/cloud/wiki/waue/2009/0617

Hadoop 架構 MapReduce 分散式程式框架, 運算工作可以分成兩個部分,Map 和 Reduce map: [1,2,3,4] - (*2) -> [2,4,6,8] reduce: [1,2,3,4] - (sum) -> 10 HDFS Hadoop 專案中的檔案系統 實作 Google File System

Hadoop 架構 -MapReduce 1. JobTracker 跟 NameNode 取得需要運算的 blocks 2. JobTracker 選數個 TaskTracker 來做 Map 運算 3. JobTracker 將中間檔案整合排序後, 複製到需要的 TaskTracker 4. JobTracker 派遣 TaskTracker 作 reduce 5. reduce 完成後通知 JobTracker 與 Namenode 以產生 output

Hadoop 架構 -HDFS Hadoop Distributed File System 將分散的儲存資源整合成一個具容錯能力 高效率且超大容量的環境 Hadoop 運算產生的資料都是存放在 HDFS master/slave 架構, 由 Namenode + Datanodes 組成 Namenode 負責各檔案的屬性權限管理及儲存, 記錄 Datanodes 檔案存放位置 Datanodes 由切割成數個 Block 區塊儲存在不同的 Datanodes, 每一區塊還會有副本存在不同節點

Hadoop 的各種身份

HDFS Layer - 管理資料 Namenode Master 管理 HDFS 的名稱空間 控制對檔案的讀寫 配置副本策略 ( 如果有 Datanode 節點損壞, 進行資料搬遷與複製 ) 對名稱空間做檢查及記錄 一個 Datanode Workers 執行讀 / 寫動作 執行 Namonode 的副本策略 ( 負責執行 ) 多個

MapReduce Layer - 分派程序 Jobtracker Master 使用者發起工作 指派工作給 Tasktrackers 排成決策 工作分配 錯誤處理 一個 Tasktrackers Workers 運作 Map 與 Reduce 的工作 管理儲存 ; 回覆運算結果 多個

Hadoop 各資料夾的代表意義 bin/ 各項執行檔, 包括 start-all.sh,stop-all.sh,hadoop conf/ 設定檔 hadoop-env.sh,hadoop-site.conf docs/ Hadoop api 與說明文件 contrib/ eclipse 外掛 lib/ Hadoop 函式庫 src/ Hadoop 原始碼 build/ Hadoop 編譯後資料夾 logs/ 日誌