1. Application Starter - Cloudera 產品的 CaaS 規格有哪些? 答 : 支援的 OS 為 Centos 6.4, 其規格如下 : Application Starter - Hadoop 0.20 (Cloudera CDH3u5): 支援 Big Data 標準

Similar documents
雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

509 (ii) (iii) (iv) (v) 200, , , , C 57

Microsoft Word - MP2018_Report_Chi _12Apr2012_.doc

南華大學數位論文

李天命的思考藝術

皮肤病防治.doc

性病防治

中国南北特色风味名菜 _一)

全唐诗24

使用手冊

全唐诗28

穨學前教育課程指引.PDF

眼病防治

中国南北特色风味名菜 _八)

緒 言 董 事 會 宣 佈, 為 能 更 具 效 率 調 配 本 集 團 內 的 資 金 有 效 降 低 集 團 的 對 外 貸 款, 並 促 進 本 集 團 內 公 司 間 的 結 算 服 務, 於 2016 年 9 月 30 日, 本 公 司 中 糧 財 務 與 管 理 公 司 訂 立 財 務

39898.indb

穨ecr2_c.PDF

電腦相關罪行跨部門工作小組-報告書

i

发展党员工作手册

i

南華大學數位論文

Symantec™ Sygate Enterprise Protection 防护代理安装使用指南


Microsoft Word - PS2_linux_guide_cn.doc

II II

一、

PowerPoint 演示文稿

-i-

Microsoft Word - 强迫性活动一览表.docx

Microsoft Word - Panel Paper on T&D-Chinese _as at __final_.doc

江苏宁沪高速公路股份有限公司.PDF

本文由筱驀釹贡献

合集

绝妙故事

榫 卯 是 什 麼? 何 時 開 始 應 用 於 建 築 中? 38 中 國 傳 統 建 築 的 屋 頂 有 哪 幾 種 形 式? 40 大 內 高 手 的 大 內 指 什 麼? 42 街 坊 四 鄰 的 坊 和 街 分 別 指 什 麼? 44 北 京 四 合 院 的 典 型 格 局 是 怎 樣 的

尿路感染防治.doc

心理障碍防治(下).doc

2. 我 沒 有 說 實 話, 因 為 我 的 鞋 子 其 實 是 [ 黑 色 / 藍 色 / 其 他 顏 色.]. 如 果 我 說 我 現 在 是 坐 著 的, 我 說 的 是 實 話 嗎? [ 我 說 的 對 還 是 不 對 ]? [ 等 對 方 回 答 ] 3. 這 是 [ 實 話 / 對 的

Chapter 2

14A 0.1%5% 14A 14A

穨_2_.PDF

(Chi)_.indb

Microsoft Word - Paper on PA (Chi)_ docx

The golden pins of the PCI card can be oxidized after months or years

Page i

<4D F736F F D203938BEC7A67EABD7B942B0CAC15AC075B3E6BF57A9DBA5CDC2B2B3B92DA5BFBD542E646F63>

捕捉儿童敏感期

世界名画及画家介绍(四).doc

PowerPoint 演示文稿

epub 61-2

A9RF716.tmp

樹 木 管 理 專 責 小 組 報 告 人 樹 共 融 綠 滿 家 園

Teaching kit_A4_part4.indd

TPM BIOS Infineon TPM Smart TPM Infineon TPM Smart TPM TPM Smart TPM TPM Advanced Mode...8

目 录 院 领 导 职 责... 1 院 长 职 责... 1 医 疗 副 院 长 职 责... 1 教 学 副 院 长 职 责... 2 科 研 副 院 长 职 责... 2 后 勤 副 院 长 职 责... 3 主 管 南 院 区 副 院 长 职 责... 3 党 委 书 记 职 责... 4

<4D F736F F D20A4A4B0EAB371AB4FB3E65FA4A4A4E5AAA95F5F >

投影片 1

.. 3 N

(i) (ii) (iii) (iv) (v) (vi) (vii) (viii) (ix) (x) (xi) 60.99%39.01%

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

中医疗法(下).doc

ebook 185-6

群科課程綱要總體課程計畫書


vi 黃 帝 內 經 即 學 即 用 別 做 反 自 然 的 事 053 成 年 人 應 該 斷 奶 055 吃 肉 吃 素 因 人 而 異 057 要 分 清 飢 和 餓 058 生 活 現 代 化 與 本 能 退 化 061 調 神 就 是 調 節 奏 063 想 冬 泳, 先 問 問 自 己

ebook35-2

05_資源分享-NFS及NIS.doc


Microsoft Word - linux命令及建议.doc

Azure_s

第 2 頁 (a) 擔 任 機 場 擴 建 統 籌 辦 總 監 的 首 席 政 府 工 程 師 職 位 第 3 點 ) ; (b) 擔 任 ( 機 場 擴 建 統 籌 辦 ) 的 首 長 級 丙 級 政 務 官 職 位 ; 以 及 (c) 擔 任 總 助 理 ( 機 場 擴 建 統 籌 辦 ) 的

untitled

cgn


untitled

IP505SM_manual_cn.doc

目 錄 第 一 章 weberp 簡 介... 6 第 一 節 概 述... 6 第 二 節 安 全 性... 7 第 三 節 功 能... 7 一 銷 售 及 訂 單... 7 二 稅... 8 三 應 收 帳 款... 8 四 存 貨... 8 五 購 買... 9 六 應 付 帳 款... 9

WebSphere Studio Application Developer IBM Portal Toolkit... 2/21 1. WebSphere Portal Portal WebSphere Application Server stopserver.bat -configfile..

Linux Ubuntu Part Linux Ubuntu Linux UNIX...19 Linux...19 Linux Linux...21 Linux GNU FSF Open So urce.

中医疗法(上).doc

(As at 28

香 港 舞 蹈 總 會    北 京 舞 蹈 學 院

Microsoft Word - report final.doc

untitled

最新监察执法全书(七十五).doc

VI. 知 识 产 权 及 个 人 资 料 25 VII. 鸣 谢 拨 款 资 助 28 VIII. 查 询 29 IX. 不 具 约 束 力 的 协 议 29 X. 其 他 29 附 件 收 集 个 人 资 料 声 明 31 注 : 1. 本 指 引 应 与 青 年 发 展 基 金 辖 下 的 具

Microsoft Word - Mail2000_SecurityPatch_

快 速 入 门 (Linux) 概 述 文 档 目 的 本 文 档 介 绍 了 如 何 快 速 创 建 Linux 系 统 实 例 远 程 连 接 实 例 部 署 环 境 等 旨 在 引 导 您 一 站 式 完 成 实 例 的 创 建 登 录 和 快 速 环 境 部 署 云 服 务 器 ECS 实

Microsoft Word - EDB Panel Paper 2016 (Chi)_finalr

_Chi.ps, page Preflight ( _Chi.indd )

九龍城區議會

厨房小知识(四)

妇女更年期保健.doc

小儿传染病防治(上)

<4D F736F F D B875B9B5A448ADFBBADEB27AA740B77EA4E2A5555FA95EAED6A641ADD75F2E646F63>

女性青春期保健(下).doc

避孕知识(下).doc

孕妇饮食调养(下).doc

Transcription:

目錄 1. Application Starter - Cloudera 產品的 CaaS 規格有哪些?... 2 2. Application Starter - Cloudera 預載的服務有哪些?... 2 3. Application Starter - Cloudera 預載的服務安裝於何處?... 3 4. 如何查看 Apache HDFS MapReduce HBase Ganglia Solr 服務狀態?... 4 5. 如何整合使用 hicloud S3?... 5 6. 如何檢查 Apache HDFS MapReduce HBase 服務是否正常運作?... 6 7. 如何關閉 Apache HDFS MapReduce HBase Ganglia Solr 服務?... 8 8. 如何啟動 Apache HDFS MapReduce HBase Gangli Solr 服務?... 10 9. 如何設定各服務防火牆規則?... 11 10. 如何取得 Hadoop 平台服務相關密碼?... 12 11. 如何新增 Data Node 至既有的 Hadoop 平台?... 13 12. 如何從既有的 Hadoop 平台移除 Data Node?... 14 13. 如何使用 HDFS over FTP 上傳檔案至 HDFS?... 15 14. 如何執行 word count 範例程式?... 15 15. 如何在 Excel 連結 Apache Hive?... 16 1

1. Application Starter - Cloudera 產品的 CaaS 規格有哪些? 答 : 支援的 OS 為 Centos 6.4, 其規格如下 : Application Starter - Hadoop 0.20 (Cloudera CDH3u5): 支援 Big Data 標準型 S M L XL Application Starter - Hadoop 2.00 (Cloudera CDH4.3) 支援 Big Data 標準型 S M L XL 2. Application Starter - Cloudera 預載的服務有哪些? 答 : Application Starter - Hadoop 0.20 (Cloudera CDH3u5) 主要預載 Apache Hadoop 0.20 與 Hbase 0.90.6 軟體, 其他預載軟體說明描述如下 : 服務名稱 版本資訊 網頁 HDFS 0.20.2+923.421-1 http://master_ip:50070 MapReduce 0.20.2+923.421 http://master_ip:50030 HBase 0.90.6+84.73-1 http://mster_ip:60010 Ganglia 3.1.7-3 http://master_ip/ganglia/ Oozie 2.3.2+27.23-1 http://master_ip:11000/oozie Hue 1.2.0.0+114.42-1 http://master_ip:8088 Zookeeper 3.3.5+19.5-1 Hive 0.7.1+42.56-2 HDFS over FTP CDH3u5 ftp://master_ip:2222 ( 預設帳密 :hdfs / 密碼可參考本文件使用說明 10) Flume 0.9.4+25.46-1 Application Starter - Hadoop 2.00 (Cloudera CDH4.3) 主要預載 Apache Hadoop 2.00 與 Hbase 0.94.6 軟體, 其他預載軟體說明描述如下 : 服務名稱 版本資訊 網頁 HDFS 2.0.0+1357-1 http://master_ip:50070 MapReduce 2.0.0+1357-1 http://master_ip:50030 HBase 0.94.6+96-1 http://mster_ip:60010 Ganglia 3.1.7-3 http://master_ip/ganglia/ Oozie 3.3.2+49-1 http://master_ip:11000/oozie 2

Hue 2.3.0+136-1 http://master_ip:8088 Zookeeper 3.4.5+19-1 Hive 0.10.0+121-1 HDFS over FTP CDH4.3 ftp://master_ip:2222 ( 預設帳密 :hdfs / 密碼可參考本文件使用說明 10) Flume 1.3.0+159-1 ClouderaSearch(So lr) 4.4.0+69-1 註 1: Master_IP 為 Hadoop 平台中 master 主機的 IP, 主機資訊的取得方法可參考 Big Data 叢集安裝服務使用說明手冊的 Hadoop 平台環境說明章節 註 2: 各服務詳細資訊可參考官方文件 : CDH3u5 http://www.cloudera.com/content/support/en/documentation/cdh3-documentation/cdh3-d ocumentation-v3u5.html CDH4.3 http://www.cloudera.com/content/support/en/documentation/cdh4-documentation/cdh4-d ocumentation-v4-3-0.html 3. Application Starter - Cloudera 預載的服務安裝於何處? 答 : 各服務的安裝目錄及參數的設定檔位置描述如下 : CDH3u5 服務名稱 安裝目錄 設定檔位置 HDFS /usr/lib/hadoop /etc/hadoop MapReduce /usr/lib/hadoop /etc/hadoop HBase /usr/lib/hbase /etc/hbase Ganglia /etc/ganglia /etc/ganglia Oozie /usr/lib/oozie /etc/oozie Hue /use/share/hue /etc/hue Zookeeper /usr/lib/zookeeper /etc/zookeeper Hive /usr/lib/hive /etc/hive HDFS over FTP /usr/lib/hdfs-over-ftp /usr/lib/hdfs-over-ftp Flume /usr/lib/flume /etc/flume 3

CDH4.3 Application Starter - Cloudera 使用說明手冊 v1.4 服務名稱 安裝目錄 設定檔位置 HDFS /usr/lib/hadoop-hdfs/ /etc/hadoop MapReduce /usr/lib/hadoop-0.20-mapreduce/ /etc/hadoop HBase /usr/lib/hbase /etc/hbase Ganglia /etc/ganglia /etc/ganglia Oozie /usr/lib/oozie /etc/oozie Hue /use/share/hue /etc/hue Zookeeper /usr/lib/zookeeper /etc/zookeeper Hive /usr/lib/hive /etc/hive HDFS over FTP /usr/lib/hdfs-over-ftp /usr/lib/hdfs-overftp Flume /usr/lib/ flume-ng /etc/flume ClouderaSearch(Solr) /usr/lib/solr /etc/solr 4. 如何查看 Apache HDFS MapReduce HBase Ganglia Solr 服務狀態? 答 : (1) 以 root 身分登入 master 主機, 解壓縮檢查服務工具包 tar zxvf /root/ manage_cluster.tgz (2) 執行查看服務狀態程式 i. 執行 python /root/manage_cluster/hadoopservice/checkhadoopstatus.py 4

5. 如何整合使用 hicloud S3? 答 : 有兩種方式提供給使用者使用 hicloud S3 1. 於 Hadoop 平台服務安裝時加入 S3 相關資訊在供裝 Hadoop 平台時預先填入 S3 Access Key 與 Secret Key, 平台安裝完成後即可使用 S3 服務 2. 手動登入 Hadoop 平台進行設定以 root 身份分別登入 Hadoop 虛擬主機, 並依照下列步驟進行設定 (1) 修改所有 Hadoop 平台主機的 S3 設定, 參考指令如下 : vim /etc/hadoop/conf/core-site.xml <property> <name>fs.s3n.awsaccesskeyid</name> <value> 於此處填上系統配發給您的 access key</value> </property> <property> <name>fs.s3n.awssecretaccesskey</name> <value> 於此處填上系統配發給您的 secrect key </value> </property> 5

完成上述步驟後您就可以經由 Hadoop 指令存取 hicloud S3 的資源 下面列出常用的指令範例 : (1) 在 S3 建立目錄 hadoop fs mkdir s3n://s3 bucket 名稱 / 目錄名稱 (2) 上傳本機檔案至 S3 目錄 hadoop fs put 本機檔案完整路徑 s3n://s3 bucket 名稱 / 目錄名稱 / 檔案名稱 (3) 下載 S3 檔案至本機 hadoop fs get s3n://s3 bucket 名稱 / 目錄名稱 / 檔案名稱本機檔案完整路徑 (4) 刪除 S3 檔案 hadoop fs rm s3n://s3 bucket 名稱 / 目錄名稱 / 檔案名稱 (5) 刪除 S3 目錄 hadoop fs rm s3n://s3 bucket 名稱 / 目錄名稱 (6) 將多個檔案從 S3 複製到 HDFS hadoop fs -cp s3n://s3 bucket 名稱 / 目錄名稱 /* HDFS 目錄名稱 / (7) 將多個檔案從 HDFS 複製到 S3 hadoop fs -cp HDFS 目錄名稱 /* s3n://s3 bucket 名稱 / 目錄名稱 / (8) 利用 distcp 進行 S3 HDFS 檔案複製平行處理 hadoop distcp -p s3n://s3 bucket 名稱 / 目錄名稱 / hdfs://nn 主機名稱 /HDFS 目錄名稱 / (9) 利用 distcp 進行 HDFS S3 檔案複製平行處理 hadoop distcp -p hdfs://nn 主機名稱 /HDFS 目錄名稱 / s3n://s3 bucket 名稱 / 目錄名稱 / (10) 您可以輸入 hadoop fs help 以及 hadoop distcp 取得完整說明 6. 如何檢查 Apache HDFS MapReduce HBase 服務是否正常運作? 答 : (1) 以 root 身分登入 master 主機 (2) 解壓縮檢查服務工具包 tar zxvf /root/hdp-test.tgz, 確定服務狀態為啟動, 執行檢查服務程式 sh /root/hdp-test/hadoop-test-main.sh, 檢查結果將會顯示在螢幕上 6

(3) 檢查項目如下表 : 編號 服務 名稱 描述 1-1 HDFS Checking Available Data Nodes 檢查 Data Node 個數是否如預期, 通過顯示 pass, 沒通過則顯示 failed 1-2 HDFS Creating Directory 可否在 HDFS 上建立目錄, 通過顯示 pass, 沒通過則顯示 failed 1-3 HDFS Modifying HDFS Directory 可否修改 HDFS 上的目錄, 通過顯示 pass, 沒通過則顯示 failed 1-4 HDFS Creating HDFS File 可否在 HDFS 上建立檔案, 通過顯示 pass, 沒通過則顯示 failed 1-5 HDFS Modifying HDFS File 可否修改 HDFS 上的檔案, 通過顯示 pass, 沒通過則顯示 failed 1-6 HDFS Removing HDFS File 可否移除 HDFS 上的檔案, 通過顯示 pass, 沒通過則顯示 failed 7

1-7 HDFS Removing HDFS Directory 2-1 MapReduce 2-2 MapReduce Checking Available Task Trackers Running Benchmark 3-1 HBase Checking Active Servers 3-2 HBase Creating HBase Table 3-3 HBase Putting HBase Record 3-4 HBase Getting HBase Record 3-5 HBase Scaning HBase Record Application Starter - Cloudera 使用說明手冊 v1.4 MapReduce 3-6 HBase Adding HBase Column Family 3-7 HBase Removing HBase Column Family 3-8 HBase Removing HBase Record 3-9 HBase Removing HBase Table 可否移除 HDFS 上的目錄, 通過顯示 pass, 沒通過則顯示 failed 檢查 Task Tracker 個數是否如預期, 通過顯示 pass, 沒通過則顯示 failed 是否可以順利執行 MapReduce job, 通過顯示 pass, 沒通過則顯示 failed 檢查 Region server 個數是否如預期, 通過顯示 pass, 沒通過則顯示 failed 是否可以建立 HBase table, 通過顯示 pass, 沒通過則顯示 failed 是否可以 put HBase record, 通過顯示 pass, 沒通過則顯示 failed 是否可以 get HBase record, 通過顯示 pass, 沒通過則顯示 failed 是否可以 scan HBase record, 通過顯示 pass, 沒通過則顯示 failed 是否可以增加 HBase column family, 通過顯示 pass, 沒通過則顯示 failed 是否可以移除 HBase column family, 通過顯示 pass, 沒通過則顯示 failed 是否可以移除 HBase record, 通過顯示 pass, 沒通過則顯示 failed 是否可以移除 HBase table, 通過顯示 pass, 沒通過則顯示 failed 7. 如何關閉 Apache HDFS MapReduce HBase Ganglia Solr 服務? 答 : (1) 以 root 身分登入 master 主機, 解壓縮檢查服務工具包 tar zxvf /root/ 8

manage_cluster.tgz (2) 執行停止服務程式, 執行時須輸入欲停止的服務名稱 (HBase=hbase MapReduce=mapred HDFS=hdfs Ganglia=ganglia Solr=solr), python /root/manage_cluster/hadoopservice/stophadoopservice.py <hbase/mapred/hdfs>, 服務停止順序必須為 HBase MapReduce HDFS (3) 執行結果可參考如下 : 註 1: Solr(cloudera-Search) 僅 CDH4.3 支援 9

8. 如何啟動 Apache HDFS MapReduce HBase Ganglia Solr 服務? 答 : (1) 以 root 身分登入 master 主機, 解壓縮檢查服務工具包 tar zxvf /root/ manage_cluster.tgz (2) 執行啟動服務程式, 執行時須輸入欲啟動的服務名稱 (HDFS=hdfs MapReduce=mapred HBase=hbase Ganglia=ganglia Solr=solr), python /root/manage_cluster/hadoopservice/starthadoopservice.py <hdfs/mapred/hbase>, 服務停止順序必須為 HDFS MapReduce HBase (3) 執行結果可參考如下 : 註 1: Solr(cloudera-Search) 僅 CDH4.3 支援 10

9. 如何設定各服務防火牆規則? 答 : 主機作業系統內的防火牆預設為關閉, 為了安全考量, 建議利用防火牆設定工具, 設定防火牆規則, 設定步驟如下 (1) 以 root 身分登入 master 主機, 解壓縮檢查服務工具包 tar zxvf /root/ manage_cluster.tgz (2) 執行建立防火牆規則程式 python /root/manage_cluster/fw/genfwrule.py, 防火牆配置只針對平台主機做設定, 如需要加入平台外的主機, 必須將規則加入到 /root/firewall/iptables.allow (3) 執行佈署防火牆設定程式 python /root/manage_cluster/fw/syncfirewall.py (4) 執行啟動平台防火牆程式 python /root/manage_cluster/fw/startclusterfw.py (5) master/slave 主機防火牆規則如下 master 主機 Destination Service Chain Proto Interface Source port Target port SSH INPUT TCP eth0 1024:65534 22 ACCEPT 11

HDFS INPUT TCP eth0 1024:6553 50070 ACCEPT MapReduce INPUT TCP eth0 1024:6553 50030 ACCEPT HBase INPUT TCP eth0 1024:6553 60010 ACCEPT Hive Metastore INPUT TCP eth0 1024:6553 9038 ACCEPT Hive Server INPUT TCP eth0 1024:6553 10000 ACCEPT Zookeeper INPUT TCP eth0 1024:6553 2181 ACCEPT Module Chain State Target state INPUT NEW, INVALID REJECT slave 主機 Service Chain Proto Interface Source port Destination port Target HDFS INPUT TCP eth0 1024:6553 50075 ACCEPT MapReduce INPUT TCP eth0 1024:6553 50060 ACCEPT HBase INPUT TCP eth0 1024:6553 60020, ACCEPT 60030 Module Chain State Target state INPUT NEW, INVALID REJECT 10. 如何取得 Hadoop 平台服務相關密碼? 答 : 各項服務的密碼查詢方式如下 oozie /etc/oozie/conf/oozie-site.xml 或 /etc/oozie/oozie-site.xml 參數 oozie.service.storeservice.jdbc.password 值即為 oozie 密碼 hive /etc/hive/conf/hive-site.xml 參數 javax.jdo.option.connectionpassword 值即為 hive 密碼 mysql 密碼檔置於 master 主機 /root/mysql.pw, 解密方式 : i. 以 root 身分登入 master 主機 ii. openssl enc -aes-256-cbc -in /root/mysql.pw -d iii. 輸入 Master 主機登入密碼後, mysql root 密碼顯示於 console openssl enc -aes-256-cbc -in /root/mysql.pw -d enter aes-256-cbc decryption password: 1QC9KJRR 12

hdfsoverftp 密碼檔置於 master 主機 /root/hdfsoverftp.pw, 解密方式 : i. 以 root 身分登入 master 主機 ii. 執行 openssl enc -aes-256-cbc -in /root/hdfsoverftp.pw -d iii. 輸入 Master 主機登入密碼後, ftp 密碼顯示於 console openssl enc -aes-256-cbc -in /root/ hdfsoverftp.pw-d enter aes-256-cbc decryption password: 2EC4KJII Application Starter - Cloudera 使用說明手冊 v1.4 11. 如何新增 Data Node 至既有的 Hadoop 平台? 答 : 請進入 hicloud CaaS 雲運算 申裝欲新增至既有 Hadoop 平台的主機, 產品規格處 1-1 作業系統類型 選擇 Linux, 1-2 映像檔 選擇與叢集相對應的 hadoop 版本 Application Starter - Hadoop 0.20 (Cloudera CDH3u5) 或是 Application Starter - Hadoop 2.00 (Cloudera CDH4.3), 開機後自行登入主機, 並執行以下步驟 Hadoop 服務 i. 以 root 身分登入 master 主機 ii. 新增欲加入節點 IP 至 /etc/hadoop/conf/includes iii. 更新 namenode 的 datanode 清單, 執行以下指令 sudo u hdfs hadoop dfsadmin refreshnodes iv. 新增欲加入節點 IP 至 /etc/hadoop/conf/slaves v. 將修正後的 hadoop 設定檔同步至所有節點 ( 包含新增節點 ), 同時將 /etc/hosts 檔案同步至新增節點中 vi. 以 root 身分連線至新增節點並行以下指令 alternatives --install /etc/hadoop-0.20/conf hadoop-0.20-conf /etc/hadoop-0.20/hadoop 60 mkdir -p /opt/hadoop/hdfs mkdir -p /opt/hadoop/mapred mkdir -p /var/run/hadoop-0.20/ mkdir -p /var/lib/hadoop-0.20/cache/ chown -R hdfs:hadoop /opt/hadoop chown -R mapred:mapred /opt/hadoop/mapred chown -R hdfs:hadoop /var/run/hadoop-0.20/ chgrp -R hadoop /var/lib/hadoop-0.20/cache/ chmod -R 777 /var/lib/hadoop-0.20/cache/ 13

vii. 啟動 datanode 服務 service hadoop-0.20-datanode start viii. 重新啟動 mapreduce 服務 i. 可參考本文件使用說明 8 ii. 可透過以下指令避免每次操作皆須輸入密碼 ssh-copy-id -i ~/.ssh/id_dsa.pub 新增節點 IP ix. 檢查新增節點是否有出現在 UI 網頁中 ((http://master_ip:50070) (http://master_ip:50030)) x. 以 root 身分登入 master 主機, 並執行以下指令進行 hdfs balance sudo u hdfs hadoop balancer 可參考 Hadoop FAQ I have a new node I want to add to a running Hadoop cluster; how do I start services on just one node? 的說明, 將主機新增至既有的 Hadoop 平台 Ganglia 監控服務 i. 以 root 身分登入 master 主機 ii. 複製 master 主機中的 gmond 設定檔至新增節點 scp /etc/ganglia/gmond.conf $NewAddNodeIP:/etc/ganglia/ iii. 登入新增主機並執行下列指令, 啟用 gmond 服務 chkconfig --add gmond chkconfig gmond on service gmond start 補充 : passwordless 設定 i. 以 root 身分登入 master 主機, 執行以下指令, 輸入新增節點 root 密碼後即可完成 master 主機到新增節點 ssh passwordless 設定 ssh-copy-id -i ~/.ssh/id_rsa.pub $NewAddNodeIP 12. 如何從既有的 Hadoop 平台移除 Data Node? 答 : 須注意移除節點會因 Hadoop 平台所存的資料量影響移除節點所花費的時間, 移除 節點執行步驟如下 i. 以 root 身分登入 master 主機 ii. 新增欲移除節點 IP 至 /etc/hadoop/conf/excludes iii. 重新啟動 mapreduce 服務 i. 可參考本文件使用說明 8 iv. 更新 namenode 的 datanode 清單, 執行以下指令 14

sudo u hdfs hadoop dfsadmin refreshnodes v. 到 hdfs UI(http://Master_IP:50070) 查看移除節點狀態是否為 Decommission In Progress vi. 當節點狀態顯示 Decommissioned, 可以將移除集點關機退租 ( 可能需花費相當時間 ) vii. 從 /etc/hadoop/conf/includes 移除節點資訊 (master 主機 ) viii. 更新 namenode 的 datanode 清單, 執行以下指令 sudo u hdfs hadoop dfsadmin refreshnodes ix. 從 /etc/hadoop/conf/slaves 移除節點資訊 (master 主機 ) x. 登入移除節點並完成關機作業, 完成後進行退租可參考 Hadoop FAQ I want to make a large cluster smaller by taking out a bunch of nodes simultaneously. How can this be done? 13. 如何使用 HDFS over FTP 上傳檔案至 HDFS? 答 : 用一般的 FTP client 工具 (ex:filezilla) 連至平台 HDFS over FTP server, 即可以一般 FTP 的操作方法將本機的檔案上傳到 HDFS HDFS over FTP server 會裝在平台的 Master 主機上,port 是 2222, 帳號是 hdfs, 密碼是 Master 主機登入密碼, 前述資訊皆可在 hicloud Big Data 叢集安裝紀錄 頁面取得 14. 如何執行 word count 範例程式? 答 :word count 是 Apache Hadoop 預設提供的數個範例程式之一, 您可以執行這個程式 來計算檔案內單字出現的次數 執行 word count 程式的步驟如下 : i. 以 root 身分登入 master 主機 ii. 您可以將檔案存放在 HDFS 既有的目錄, 或是建立新的目錄來存放檔案 建 立目錄的指令範例如下 : sudo u hdfs hadoop fs mkdir HDFS 目錄名稱 iii. 將檔案從 master 主機上傳至 HDFS, 操作指令範例如下 : sudo -u hdfs hadoop fs -put 本機來源檔案完整路徑 HDFS 目錄名稱 / iv. 檢視剛剛上傳檔案的資訊, 操作指令範例如下 : sudo -u hdfs hadoop fs -ls HDFS 目錄名稱 / Found 1 items -rw-r--r-- 3 hdfs supergroup 13366 2013-XX-XX XX:XX HDFS 目錄名稱 / 來源檔案名稱 v. 開始執行程式, 操作指令範例如下 : 15

CDH3u5 sudo -u hdfs hadoop jar /usr/lib/hadoop/hadoop-examples.jar wordcount HDFS 目錄名稱 / 來源檔案名稱 HDFS 結果存放目錄路徑 CDH4.3 sudo -u hdfs hadoop jar /usr/lib/hadoop-0.20-mapreduce/hadoop-examples.jar wordcount HDFS 目錄名稱 / 來源檔案名稱 HDFS 結果存放目錄路徑請注意結果存放目錄不能事先存在, 否則執行時會出現下列的錯誤訊息 : XX/XX/XX XX:XX:XX ERROR security.usergroupinformation: PriviledgedActionException as:hdfs (auth:simple) cause:org.apache.hadoop.mapred.filealreadyexistsexception: Output directory HDFS 結果存放目錄路徑 already exists vi. 若程式正常執行,console 將會顯示 Job 目前執行進度, 畫面範例如下 : XX/XX/XX XX:XX:07 INFO input.fileinputformat: Total input paths to process : 1 XX/XX/XX XX:XX:07 INFO mapred.jobclient: Running job: job_201309261422_0002 XX/XX/XX XX:XX:08 INFO mapred.jobclient: map 0% reduce 0% XX/XX/XX XX:XX:13 INFO mapred.jobclient: map 100% reduce 0% XX/XX/XX XX:XX:22 INFO mapred.jobclient: map 100% reduce 33% XX/XX/XX XX:XX:23 INFO mapred.jobclient: map 100% reduce 100% vii. 您可以經由 Hadoop 指令檢視執行結果, 操作指令範例如下 : sudo -u hdfs hadoop fs cat HDFS 結果存放目錄 /part-r-00000 more "AS 3 "Contribution" 1 "Contributor" 1 或是下載結果檔案至本機端, 操作指令範例如下 : sudo -u hdfs hadoop fs get HDFS 結果存放目錄 /part-r-00000 本機端完整路徑 15. 如何在 Excel 連結 Apache Hive? 答 : 您可以經由 Hive ODBC 驅動程式, 在微軟 Excel 讀取儲存在 Apache Hive 裡的資料 下面將以 Windows 7 與 Excel 2007 為例, 說明如何進行安裝與設定 : i. 啟動 Hadoop 平台的 Hive Server 服務 A. 以 root 身分登入 master 主機 B. 執行下列指令以啟動 Hive Server 服務, 預設使用 TCP PORT 10000; 您可以自行修改成其它 Port 16

ii. Application Starter - Cloudera 使用說明手冊 v1.4 su - hdfs cd /usr/lib/hive/bin export HIVE_PORT=10000./hive --service hiveserver > /tmp/hive.log 2>&1 & C. 確認 Hive Server 服務是否開始運作 ps -ef grep java grep hive-service more D. 檢視 Log 內容查看 Hive Server 的運作記錄 vim /tmp/hive.log E. 您可以參考 Apache Hive Wiki 網頁取得更完整的說明 https://cwiki.apache.org/confluence/display/hive/hiveserver 在個人電腦安裝 Apache Hive ODBC 驅動程式 A. 連結至 Cloudera ODBC Drivers for Apache Hive 網頁 http://www.cloudera.com/content/support/en/downloads/download-com ponents/download-products/downloads-listing/connectors/cloudera-odbcdrivers.html B. 請根據您的 Windows 環境下載 32-bit 或 64-bit 的驅動程式 C. 執行前一步驟下載的驅動程式, 點選 Next, 勾選 I accept the terms in the License Agreement, 然後選擇安裝路徑開始進行安裝 17

D. 安裝完成後, 請至 開始 控制台 系統與安全性 系統 管理工具, 點選 資料來源 (ODBC) 進行設定 E. 選擇 使用者資料來源名稱 後點選新增, 在 建立新資料來源 視窗 選擇 Cloudera ODBC Driver for Apache Hive, 然後點選完成 18

F. 在設定視窗請依序輸入 : Data Source Name: 您可以自訂資料來源名稱 Host: 參考前述步驟 (i.a) 的 master 主機 IP 地址 Port: 參考前述步驟 (i.b) 的 Port, 預設是 10000 Database: 請輸入 default Hive Server Type: 請選擇 Hive Server 1 G. 完成輸入後您可以點選下方 Test 進行測試, 若是沒有問題將會顯示 連線測試正常訊息 iii. H. 您可以參考前述步驟 (ii.a) 網頁下方的 Installation Guide 取得完整說明 在 Excel 讀取 Apache Hive 的資料 A. 開啟 Excel 2007 B. 選擇上方工具列 資料 從其他來源 從資料連線精靈 開啟 19

設定視窗 Application Starter - Cloudera 使用說明手冊 v1.4 C. 在 歡迎 視窗選擇 ODBC DSN 並點選下一步 D. 在 連接 ODBC 資料來源 視窗選擇您在前述步驟 (ii.f) 輸入的 Data Source Name, 並點選下一步 E. 在 選擇資料庫與資料表 視窗選擇您要匯入的表格, 然後點選下一步 20

F. 在 儲存資料連線檔案 視窗選擇您要儲存的路徑, 然後點選完成 G. 在 匯入資料 視窗選擇您要將資料存放在 Excel 工作表的位置, 然後 點選確定 H. 接下來資料將匯入 Excel 工作表, 您可以對這些資料作進一步的計算或 分析 21

I. 您可以參考下列網頁取得完整的說明 連接 ( 匯入 ) 外部資料 http://office.microsoft.com/zh-tw/excel-help/hp010089898.aspx 使用 Microsoft Query 擷取外部資料 http://office.microsoft.com/zh-tw/excel-help/ha010099664.aspx 22