对于 Hadoop 来说, 在 HDFS 看来, 节点分为 Namenode 和 Datanode, 其中 Namenode 只有一个,Datanode 可以是很多 ; 在 MapReduce 看来, 节点又分为 Jobtracker 和 Tasktracker, 其中 Jobtracker 只有一

Similar documents
在Fedora上部署Hadoop2.2.0伪分布式平台

Ubuntu和CentOS如何配置SSH使得无密码登陆

程模型,MapReduce 把任务分为 map( 映射 ) 阶段和 reduce( 化简 ) 由于 MapReduce 工作原理的特性, Hadoop 能以并行的方式访问数据, 从而实现快速访问数据 Hbase--HBase 是一个建立在 HDFS 之上, 面向列的 NoSQL 数据库, 用于快速读

目录 一 安装配置步骤 虚拟机的准备工作 安装和配置 JDK 环境 配置 SSH 免密码登录 编辑 etc/hosts 文件 配置 hadoop 将 master 上的 Hadoop 安装包拷

正文.indd

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

Hadoop 手册

目录 1 编译 HADOOOP 搭建环境 安装并设置 maven 以 root 用户使用 yum 安装 svn 以 root 用户使用 yum 安装 autoconf automake libtool cmake..

雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO

Microsoft Word doc

ssh-keygen -t rsa

tar -xzf hadoop tar.gz mv hadoop /app 在 Hadoop 目录下创建子目录 在 hadoop 目录下创建 tmp name 和 data 目录 cd /app/hadoop mkdir tmp mkdir

A9RF716.tmp

SA-DK2-U3Rユーザーズマニュアル

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

Blog:Hadoop 系列文章之二:建立 Hadoop 單點分散架構.docx

Amazon EC2 是一个 Web 服务, 它允许用户请求具有各种资源 (CPU 磁盘 内存等) 的虚拟机器 用户只需按使用的计算时间付费, 其他事情全交给 Amazon 处理 这些实例 (Amazon Machine Image,AMI) 基于 Linux, 可以运行您需要的任何应用程序或软件

自由軟體教學平台

三 開啟第一台機器, 點擊右上角網路手動設定, 解除鎖定選擇 eth1 屬性並設定固定 ip( 例如 : ) 第二台機器網路設定要選擇 eth3 設定固定 ip( ) 四 接著編輯 /etc/hosts 輸入 ip 以及主機名稱, 第二台機器也

客户端虚拟机使用说明

WebSphere Studio Application Developer IBM Portal Toolkit... 2/21 1. WebSphere Portal Portal WebSphere Application Server stopserver.bat -configfile..

MASQUERADE # iptables -t nat -A POSTROUTING -s / o eth0 -j # sysctl net.ipv4.ip_forward=1 # iptables -P FORWARD DROP #

IP505SM_manual_cn.doc

epub 61-2

f2.eps

工银瑞信货币市场证券投资基金2008年度第2季度报告

Flink快速上手(QuickStart)

Blog:Hadoop 系列文章之三:建立 Hadoop 多點分散架構.docx

Guide to Install SATA Hard Disks

「西醫基層總額支付委員會《第28次委員會議紀錄

2013_6_3.indd

Chapter #

Microsoft Word - linux命令及建议.doc

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

软件测试(TA07)第一学期考试

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

Reducing Client Incidents through Big Data Predictive Analytics

ebook 185-6

内 容 提 要 将 JAVA 开 发 环 境 迁 移 到 Linux 系 统 上 是 现 在 很 多 公 司 的 现 实 想 法, 而 在 Linux 上 配 置 JAVA 开 发 环 境 是 步 入 Linux 下 JAVA 程 序 开 发 的 第 一 步, 本 文 图 文 并 茂 地 全 程 指

Microsoft Word - template.doc

PowerPoint 簡報

AL-M200 Series

64 [ 46 ] (p297) 1924 :? [ 47 ] (p570) ; ; ; ; ; ; ; ; ; ; ; [ 11 ]; [ 35 ] [ 49 ] [ 32 ] ( ) [ 48 ] (p 425) [ 50 ] (p 670 6

財金資訊-80期.indd

甄選入學howhow作印刷校過版

Data Server_new_.doc

1.ai

Symantec™ Sygate Enterprise Protection 防护代理安装使用指南

PowerPoint 演示文稿

Windows 2000 Server for T100

1 重 要 提 示 基 金 管 理 人 的 董 事 会 及 董 事 保 证 本 报 告 所 载 资 料 不 存 在 虚 假 记 载 误 导 性 陈 述 或 重 大 遗 漏, 并 对 其 内 容 的 真 实 性 准 确 性 和 完 整 性 承 担 个 别 及 连 带 责 任 基 金 托 管 人 广 发

PowerPoint Presentation

K7VT2_QIG_v3

Microsoft Word - PS2_linux_guide_cn.doc

关于规范区委、区委办公室发文

Microsoft Word - ??山

Microsoft Word - 助理人員教育訓練-會計室.docx

3. 恢复完成后构架图 4. 实际部署图 5. 操作步骤 1. 安装 pg a) apt-get install postgresql-9.1 b) :apt-get install postgresql-contrib-9.1

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

Process Data flow Data store External entity 6-10 Context diagram Level 0 diagram Level 1 diagram Level 2 diagram

LH_Series_Rev2014.pdf

Microsoft Word - 在VMWare-5.5+RedHat-9下建立本机QTopia-2.1.1虚拟平台a.doc

RAID RAID 0 RAID 1 RAID 5 RAID * ( -1)* ( /2)* No Yes Yes Yes A. B. BIOS SATA C. RAID BIOS RAID ( ) D. SATA RAID/AHCI ( ) SATA M.2 SSD ( )

Bus Hound 5

PowerPoint Presentation

(Microsoft Word - \244g\246a\247B\244\275\253H\245\365\244\247\275\325\254d\254\343\250s doc)

本文由筱驀釹贡献

ansoft_setup21.doc

Ioncube Php Encoder 8 3 Crack 4. llamaba octobre traslado General Search colony

Microsoft Word zw



<4D F736F F D2034B1D0AE76B36FB1F8B8F42DA475B1D03933C1C2BEE5B6B22E646F63>

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

keystore weblogic.jks certreq.pem CA server.cer

¶C¶L§§¬_™¨ A.PDF

ch08.PDF

自动化接口


ch_code_infoaccess

新北考區105年國中教育會考簡章

<4D F736F F D20D0C5CFA2BBAFB7A2D5B9D6D8B5E3D7A8CFEEB9E6BBAE2E646F63>

关于建立境内违法互联网站黑名单管理制度的通知

? 這 全 都 是 市 政 府 提 供 給 我 的 資 料 低 底 盤 公 車 計 畫 96 年 預 算 新 台 幣 4,500 萬 元 97 年 預 算 新 台 幣 1 億 6,500 萬 元 98 年 預 算 新 台 幣 3 億 2,300 萬 元, 共 有 307 台 低 底 盤 公 車,99

Apache CarbonData集群模式使用指南

105 年 國 中 教 育 會 考 重 要 日 期 項 目 日 期 及 時 間 報 名 1. 集 體 報 名 :105 年 3 月 10 日 ( 星 期 四 ) 至 3 月 12 日 ( 星 期 六 ) 每 日 8:00~12:00 13:30~17:00 2. 個 別 報 名 : 於 上 網 填

國立桃園高中96學年度新生始業輔導新生手冊目錄

〇〇考區105年國中教育會考簡章

Panaboard Overlayer help

PowerPoint 演示文稿

1. 二 進 制 數 值 ( ) 2 轉 換 為 十 六 進 制 時, 其 值 為 何? (A) ( 69 ) 16 (B) ( 39 ) 16 (C) ( 7 A ) 16 (D) ( 8 A ) 在 電 腦 術 語 中 常 用 的 UPS, 其 主 要 功 能

HOL-CHG-1695


簡報技巧

ebook70-21

(Microsoft PowerPoint - 2_\302\345\300\370\253~\275\350\253\374\274\320\252\272\300\263\245\316_\(handout\).ppt)

Microsoft PowerPoint - ch6 [相容模式]

星河33期.FIT)

大 綱 一 了 解 市 場 法 則 重 要 的 工 作? 二 人 力 單 位 用 人 策 略 與 測 驗? 三 企 業 用 人 的 思 考 策 略? 四 用 人 單 位 如 何 找 到 喜 歡 的 人 力? 五 履 歷 撰 寫? 六 面 試 技 巧? 七 提 升 競 爭 力 的 秘 方?

ebook140-8

Transcription:

hadoop----- 云计算实验 作者 : 张吉良李菁平邓鹏球 关键词 : hadoop 分布式 云计算 mapreduce 摘要 : 摩尔定律统制下的软件开发时代有一个非常有意思的现象 : Andy giveth, and Bill taketh away. 不管 CPU 的主频有多快, 我们始终有办法来利用它, 而我们也陶醉在机器升级带来的程序性能提高中 我们不知不觉的一直在享受着这样的免费午餐 可是, 随着摩尔定律的提前终结, 免费的午餐终究要还回去, Google 的 MapReduce 正是把分布式的业务逻辑从复杂的细节中抽象出来, 使得没有或者很少并行开发经验的程序员也能进行并行应用程序的开发, 分布式编程的时代已来临. 经过几天的试验, 对分布式计算, 分布式文件系统进行了初步探索, 中间碰到很多问题, 但在实验组的共同努力下, 已实现单机伪分布式计算, 在探索集群分布式计算方面遇到不少麻烦, 但最终还是实现了 HDFS, 但由于时间原因核心思想 :mapreduce 未能实现, 如果有时间的话, 我们实验组将继续实验, 希望能实现真正的集群计算! 一 : 实验环境的搭建 : 1: 实验平台 : 2 台机器 fedora11 jdk1.6.0_17 hadoop-0.20.1 机器 IP 配置如下 : zjl:10.62.85.136 lijp:10.62.85.137 实验中为保证每台机子能 ping 通对方, 需要修改 linux 下 /etc/hosts 文件 : 以本文为例,zjl 中的 /etc/hosts 文件如下 : 127.0.0.0 localhost 10.62.85.136 zjl 10.62.85.137 lijp lijp 中的 /etc/hosts 文件如下 : 127.0.0.0 localhost 10.62.85.136 zjl 10.62.85.137 lijp ping 10.62.85.203 看能否 ping 通, 如下所示 :

对于 Hadoop 来说, 在 HDFS 看来, 节点分为 Namenode 和 Datanode, 其中 Namenode 只有一个,Datanode 可以是很多 ; 在 MapReduce 看来, 节点又分为 Jobtracker 和 Tasktracker, 其中 Jobtracker 只有一个,Tasktracker 可以是很多 我是将 namenode 和 jobtracker 部署在 zjl 上,lijp 作为 datanode 和 tasktracker 当然你也可以将 namenode,datanode,jobtracker, tasktracker 全部部署在一台机器上 2: 目录结构由于 Hadoop 要求所有机器上 hadoop 的部署目录结构要相同, 并且都有一个相同的用 户名的帐户 我的 2 台机器上是这样的 : 都有一个 zjl 的帐户, 主目录是 /home/zjl Hadoop 部署目录结构如下 :/home/zjl/hadoop, 所有的 hadoop 版本放在这个目录中 将 hadoop0.20.1 压缩包解压至 hadoop 中 3:SSH 设置在 Hadoop 启动以后,Namenode 是通过 SSH(Secure Shell) 来启动和停止各个节点上 的各种守护进程的, 这就需要在节点之间执行指令的时候是不需要输入密码的方式, 故我们 需要配置 SSH 使用无密码公钥认证的方式 首先要保证每台机器上都装了 SSH 服务器, 且 都正常启动 实际中我们用的都是 OpenSSH, 这是 SSH 协议的一个免费开源实现 fedora11 中默认安装的 OpenSSH 版本 以本文中的 2 台机器为例, 现在 zjl 是主节点, 它需要主动发起 SSH 连接到 lijp, 对于 SSH 服务来说,zjl 就是 SSH 客户端, 而 lijp 则是 SSH 服务端, 因此在 lijp 上需要确定 sshd 服务已经启动 简单的说, 在 zjl 上需要生成一个密钥对, 即一个私钥, 一个公钥 将公钥 拷贝到 lijp 上, 这样, 比如当 zjl 向 lijp 发起 ssh 连接的时候,lijp 上就会生成一个随机数并 用 zjl 的公钥对这个随机数进行加密, 并发送给 zjl;zjl 收到这个加密的数以后用私钥进行解 密, 并将解密后的数发送回 lijp,lijp 确认解密的数无误后就允许 zjl 进行连接了 这就完成 了一次公钥认证过程 对于本文中的 2 台机器, 首先在 zjl 上生成密钥对 : $ssh-keygen -t rsa 这个命令将为 zjl 上的用户 zjl 生成其密钥对, 询问其保存路径时直接回车采用默认路径, 当 提示要为生成的密钥输入 passphrase 的时候, 直接回车, 也就是将其设定为空密码 生成的 密钥对 id_rsa,id_rsa.pub, 默认存储在 /home/zjl]/.ssh 目录下 然后将 id_rsa.pub 的内容复制 到每个机器 ( 也包括本机 ) 的 /home/zjl/.ssh/authorized_keys 文件中, 如果机器上已经有 authorized_keys 这个文件了, 就在文件末尾加上 id_rsa.pub 中的内容, 如果没有 authorized_keys 这个文件, 直接 cp 或者 scp 就好了, 下面的操作假设各个机器上都没有 authorized_keys 文件 对于在 /home/zjl/.ssh 下 : $cp id_rsa.pub authorized_keys 对于 lijp 在 /home/zjl/ 下 :

$mkdir.ssh $cd.ssh $scp authorized_keys dbrg- 此处的 scp 就是通过 ssh 进行远程 copy, 此处需要输入远程主机的密码, 即 lijp 机器上 zjl 帐户的密码. 在 lijp 机子上 : $chmod 644 authorized_keys 这一步非常关键, 必须保证 authorized_keys 只对其所有者有读写权限, 其他人不允许有写 的权限, 否则 SSH 是不会工作的 向 lijp 发起 ssh 连接请求 : $ssh lijp 如果 ssh 配置好了, 就会出现以下提示信息 The authenticity of host [lijp] can't be established. Key fingerprint is 1024 5f:a0:0b:65:d3:82:df:ab:44:62:6d:98:9c:fe:e9:52. Are you sure you want to continue connecting (yes/no)? OpenSSH 告诉你它不知道这台主机, 但是你不用担心这个问题, 因为你是第一次登录这台 主机 键入 yes 这将把这台主机的 识别标记 加到 ~/.ssh/know_hosts 文件中 第 二次访问这台主机的时候就不会再显示这条提示信息了 然后你会发现不需要输入密码就可 以建立 ssh 连接了 4:Hadoop 配置 1:conf/hadoop-env.sh 文件中最基本需要指定 JAVA_HOME, 例如我的如下 : export JAVA_HOME=/usr/java/jdk1.6.0_17 2 :conf/core-site.xml 文件配置如下 : <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!-- Put site-specific property overrides in this file. --> <configuration> <name>fs.default.name</name> <value>hdfs://10.62.85.136:9000/</value> <description>the name of the default file system. Either the literal string "local" or a host:port for DFS.</description> <name>mapred.job.tracker</name> <value>hdfs://10.62.85.136:9001/</value> <description>the host and port that the MapReduce job tracker runs at. If "local", then jobs are run in-process as a single map and reduce task.</description> <name>hadoop.tmp.dir</name> <value>/home/zjl/hadoop/tmp</value> <description>a base for other temporary directories.</description>

<name>dfs.name.dir</name> <value>/home/zjl/hadoop/filesystem/name</value> <description>determines where on the local filesystem the DFS name node should store the name table. If this is a comma-delimited list of directories then the name table is replicated in all of the directories, for redundancy. </description> <name>dfs.data.dir</name> <value>/home/zjl/hadoop/filesystem/data</value> <description>determines where on the local filesystem an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored in all named directories, typically on different devices. Directories that do not exist are ignored.</description> <name>dfs.replication</name> <value>1</value> <description>default block replication. The actual number of replications can be specified when the file is created. The default is used if replication is not specified in create time.</description> </configuration> 3:zjl 远程拷贝 hadoop 文件给 lijp: $scp -r /home/zjl/hadoop lijp:/home/zjl/

4: 启动 Hadoop a): 进入 /home/zjl/hadoo/ hadoop-0.20.1 格式化 namenode

b): 启动 hadoop $bin/start-all.sh 5:hdfs 操作 6:mapreduce 操作 :