1 汉水大数据操作系统企业版 7.0 快速入门本文宗旨 : 本文为帮助新手从零开始在虚拟机中安装部署伪分布式 hadoop 大数据集群, 便于学习大数据开发的相关技术不适合在企业级环境中应用, 如需要部署分布式企业级 hadoop 集群请跟产品销售联系, 联系方式 : 版

1 汉水大数据操作系统企业版 7.0 快速入门本文宗旨 : 本文为帮助新手从零开始在虚拟机中安装部署伪分布式 hadoop 大数据集群, 便于学习大数据开发的相关技术不适合在企业级环境中应用, 如需要部署分布式企业级 hadoop 集群请跟产品销售联系, 联系方式 :021-52682238 版权申明 : 本文档采用开放文档授权协议进行发布, 任何个人和组织都可以自由修改和传播这个文档, 如果您在这个文档的基础上进行了更新或者有修订请求, 请联系文档的维护人员 :allen@hanwater.com, 便于从软件产品网站上更新发布本文档的官方发布站点为 http://hanwate.com/docs 文档更新记录 : 文档版本时间作者 / 修订者 1.0 2018-01-26 张一峰 / 上海汉水信息技术服务有限公司 2.0 2018-03-23 张一峰 / 上海汉水信息技术服务有限公司

2 一 VMware 虚拟机的安装准备请进入电脑开机主板 BIOS 设置页面, 激活 CPU 虚拟化技术二 Hanwate 操作系统在 VMware 虚拟机中的安装一虚拟机的创建及安装前准备 1. 新建虚拟机点击创建新的虚拟机选项进行新虚拟机的创建在新建虚拟机向导中选择自定义选项 ( 通过自定义可以选择 VMware 版本 ), 然后点击下一步

3 2. 选择版本保持默认配置就好, 无需改动, 点击下一步继续 3. 安装客户机操作系统选择稍后安装操作系统, 安装一块空白硬盘, 并点击下一步继续

4 4. 选择客户机操作系统在此配置项中选择 Linux 以及 CentOS 64 位选项, 并点击下一步继续 5. 命名虚拟机为虚拟机设置名称并设置虚拟机的物理位置, 任意设置即可由于虚拟机占用一定空间, 最好是不要按照默认安装在 C 盘 : 设置完毕后点击下一步即可

5 6. 处理器配置保持默认配置就好, 无需改动, 点击下一步继续 7. 虚拟机内存设置给虚拟机设置内存大小, 一般保持默认设置的 1024MB 即 1G 即可, 也可按需进行调整, 设置完毕后点击下一步继续

6 8. 网络设置选择使用网络地址转换 (NAT) 模式, 这样, 设置完毕后虚拟机就可以使用本机的网络, 而无需再次进行设置, 设置完毕后点击下一步继续 9. 选择 I/O 控制器类型保持默认配置就好, 无需改动, 点击下一步继续

7 10. 选择硬盘类型保持默认配置就好, 无需改动, 点击下一步继续 11. 选择磁盘选择创建新虚拟磁盘并点击下一步继续

8 12. 指定磁盘容量设置磁盘空间大小, 一般保持默认设置的 20.0G 磁盘空间就可以, 也可按需修改, 设置完毕后点击下一步继续 13. 指定磁盘文件保持默认配置就好, 无需改动, 点击下一步继续

9 14. 已准备好创建虚拟机查看之前已经配置好的虚拟机信息, 若无差错则点击完成完成虚拟机的创建工作 15.Hanwate 大数据操作系统镜像的选择点击 CD/DVD, 并进行镜像文件的选择

10 在弹出的设置窗口中, 在连接中选择使用 ISO 映像文件, 并点击浏览找到镜像文件的位置, 并选择 ( 保证设备状态中的启动时连接选项被勾选 ), 确认无误后点击确定完成配置 16. 虚拟机的启动虚拟机设置完毕, 点击开启此虚拟机开启 Hanwate 操作系统并进行 Hanwate Linux 操作系统的安装和配置

11 二 Hanwate 操作系统配置 1. 操作系统启动成功后, 会出现下面的界面这里选择 Install Hanwate Bigdata OS 7 (Firefly) 选项, 即安装 Hanwate Bigdata OS 7 系统, 回车确定 2. 进入系统配置选项界面, 按照顺序对其依次进行设置

12 3. 日期和时间的配置选择亚洲 -- 上海时区, 并点击完成 4. 键盘布局设置保持默认的汉语即可. 也可按需进行修改, 设置完毕后点击完成

13 5. 语言设置保持默认的简体中文即可. 也可按需进行修改, 设置完毕后点击完成 6. 安装源设置保持默认配置即可, 无需改动, 点击完成

14 7. 软件选择选择汉水大数据操作系统, 附加选项无需选择, 点击完成即可 8. 安装目标位置设置选择配置虚拟机时分配的 20G 磁盘空间, 选择 " 自动分配分区 ", 点击 " 完成 " 即可

15 9.KDUMP 设置保持默认配置, 无需改动, 点击 " 完成 " 即可 10. 网络和主机名配置网络和主机名配置会在安装过程结束之后进入系统之后进行配置, 这里保持默认配置, 无需改动, 点击 " 完成 " 即可

16 11.SECURITY POLICY 配置保持默认配置, 无需改动, 点击 " 完成 " 即可 12. 安装至此, 所有基本配置已全部完成, 点击 " 安装 " 则系统进入安装界面 ( 如下图 )

17 13. 设置 root 用户密码安装成功后默认的存在用户只有 root, 我们需要密码进入安装好的系统, 所以我们需要给 root 用户设置一个登录系统的密码在安装界面点击 "ROOT 密码 " 进入密码设置界面来进行密码设置若密码过于简单, 则系统会提示, 此时无需担心, 强制保存弱密码即可 ( 连续点击两次 " 完成 " 即可 ) 14. 安装成功此时系统已安装完成, 点击 " 重启 " 即可

18 15. 登录此时系统已经重启完毕, 直接使用账号和密码登录就可以直接使用

19 三 Hadoop 伪分布式集群搭建 Hadoop 本身是基于分布式的系统应用, 但很多时候如果只是进行简单的测试, 没有必要做许多的机器集群所谓的伪分布式, 本质上指的就是进行单机版的 hadoop 配置注意事项 : 1.hadoop 集群管理上要求不要对 IP 进行变更, 也就是说必须要保证从项目的开发以及最终的运行状态, 都要求 IP 地址是同一个, 如果变更了, 那么就意味着所有的组件都要重新配置, 很容易发生不可预知的后果 2. 在整个 hadoop 的处理过程中, 都是利用 ssh 实现通讯的, 就算是在本机 ( 伪分布式 ), 也必须在 Linux 上配置 ssh 免登陆处理搭建步骤如下 : 一配置 IP 地址 1. 使用 root 账户登录系统 2. 输入 vim /etc/sysconfig/network-scripts/ifcfg-ens32 命令来修改 IP 地址配置

20 3. 在文件中修改并加入如下配置项, 保存退出 BOOTPROTO=static IPADDR=191.168.X.100 NETMASK=255.255.255.0 GATEWAY=192.168.X.1 4. 输入 systemctl restart network 命令来重启网络服务, 重启成功后使用 ip addr 命令查看网络配置是否成功生效

21 二修改主机名 1. 在 root 用户下, 输入 vim /etc/hostname 命令来编辑修改 /etc/hostname 文件 2. 将里面的 localhost.localdomain 修改为 hadoop, 保存退出即可三修改主机的映射配置 1. 在 root 用户下, 输入 vim /etc/hosts 命令来编辑修改 /etc/hosts 文件 2. 在原内容的基础上, 添加 ip 地址和主机名的映射, 保存退出即可 3. 为了让刚才的配置生效, 在 root 用户下, 输入 reboot 重启系统

22 4. 重启后效果如下, 配置生效四配置 SSH 免密登录 1. 使用 root 账号登录系统 2. 输入 ssh-keygen -t rsa -P 命令来生成公钥, 所有的出现的确认的配置信息都使用默认的方式进行处理 ( 都按回车 ) 如下图所示

23 文件夹生成成功 3. 输入命令 cd.ssh 进入.ssh 文件夹输入命令 cat id_rsa.pub >> authorized_keys 将公钥信息保存在授权认证的文件中如下图 4. 输入命令 chmod 600 authorized_keys 修改 authorized_keys 文件的权限为 600(rw-------)

24 5.SSH 免密登录配置成功使用 ssh hadoop 来登录 hadoop 账户使用 exit 退出登录五配置环境变量 JAVA_HOME 1. 输入命令 vim /etc/profile 来配置环境变量 2. 将如下内容添加到文件内容末尾, 保存退出即可 export JAVA_HOME=/usr export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib export PATH=$PATH:$JAVA_HOME/bin 3. 修改后的 profile 文件, 如下图

25 4. 输入命令 source /etc/profile 使得配置信息生效 5. 检验 JAVA_HOME 是否配置成功 ( 输入命令 Java -version 检测 ) 六配置环境变量 HADOOP_HOME 1. 输入命令 vim /etc/profile 2. 将如下内容添加到文件内容末尾, 保存退出即可 export HADOOP_HOME=/usr/hdp/2.6.3.0-235/hadoop export PATH=$PATH:$HADOOP_HOME/bin 3. 修改后的 profile 文件, 如下图

26 4. 输入命令 source /etc/profile 使得配置信息生效 5. 查看配置是否成功七配置 "hadoop-env.sh" 文件 1. 输入命令 cd $HADOOP_HOME/etc/hadoop 输入命令 vim hadoop-env.sh 来修改 hadoop-env.sh 文件 2. 将如下内容添加到文件内容末尾, 保存退出即可 export JAVA_HOME=/usr

27 八配置 "core-site.xml" 文件 1. 输入命令 vim core-site.xml 来修改 core-site.xml 文件 2. 将如下内容添加到文件内容中 (configuration 标签中 ), 保存退出即可 <property> <name>hadoop.tmp.dir</name> <value>/hadoop/hadoop_tmp</value> </property> <property> <name>fs.defaultfs</name> <value>hdfs://hadoop:9000</value> </property> 3. 修改后的 core-site.xml 文件, 如下图 4. 输入命令 mkdir -p /hadoop/hadoop_tmp 在 / 目录下创建临时文件目录并输入命令 chmod -R 777 /hadoop 将临时文件目录及其子目录的权限都修改成 rwxrwxrwx

28 九配置 hdfs-site.xml 文件 1. 输入命令 cd $HADOOP_HOME/etc/hadoop 注意 : 默认情况下, 当前目录下没有 hdfs-site.xml 文件, 需要从 $HADOOP_HOME/../etc/hadoop/conf.empty/ 目录下复制 hdfs-site.xml 文件输入命令 cp $HADOOP_HOME/../etc/hadoop/conf.empty/hdfs-site.xml./ 复制 hdfs-site.xml 到当前目录下输入命令 vim hdfs-site.xml 来修改 hdfs-site.xml 文件 2. 将如下内容添加到文件内容中 (configuration 标签中 ), 保存退出即可 <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/hdfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/hdfs/data</value> </property> 3. 修改后的 hdfs-site.xml 文件, 如下图

29 4. 输入命令 mkdir -p /hdfs/{name,data} 在根目录 / 下创建数据节点和名称节点的路径输入命令 chown -R hdfs:hadoop /hdfs 修改文件夹的属主以及属组十配置 yarn-site.xml 文件注意 : 默认情况下, 当前目录下同样没有 yarn-site.xml 文件, 需要从 $HADOOP_HOME/../etc/hadoop/conf.empty/ 目录下复制 yarn-site.xml 文件输入命令 cp $HADOOP_HOME/../etc/hadoop/conf.empty/yarn-site.xml./ 复制 yarn-site.xml 到当前目录下 1. 输入命令 vim yarn-site.xml 来修改 yarn-site.xml 文件 2. 将如下内容添加到文件内容中 (configuration 标签中 ), 保存退出即可 <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.application.classpath</name> <value>$hadoop_conf_dir, /usr/hdp/2.6.3.0-235/hadoop/*, /usr/hdp/2.6.3.0-235/hadoop/lib/*, /usr/hdp/2.6.3.0-235/hadoop-hdfs/*, /usr/hdp/2.6.3.0-235/hadoop-hdfs/lib/*, /usr/hdp/2.6.3.0-235/hadoop-yarn/*,

30 /usr/hdp/2.6.3.0-235/hadoop-yarn/lib/*, /usr/hdp/2.6.3.0-235/hadoop-mapreduce/*, /usr/hdp/2.6.3.0-235/hadoop-mapreduce/lib/*, /usr/hdp/2.6.3.0-235/hadoop-httpfs/*, /usr/hdp/2.6.3.0-235/hadoop-httpfs/lib/* </value> </property> 3. 修改后的 yarn-site.xml 文件, 如下图十一配置 mapred-site.xml 文件注意 : 默认情况下当前目录下没有 mapred-site.xml 文件, 只有一份模板文件 mapred-site.xml.template, 需要复制该模板文件到本地目录下并修改文件名为 mapred-site.xml 1. 输入命令 cp./mapred-site.xml.template./mapred-site.xml 复制模板文件到当前目录并修改文件名为 mapred-site.xml 1. 输入命令 vim mapred-site.xml 来修改 mapred-site.xml 文件

31 2. 将如下内容添加到文件内容中 (configuration 标签中 ), 保存退出即可 <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.application.classpath</name> <value> /etc/hadoop/conf/*, /usr/hdp/2.6.3.0-235/hadoop/*, /usr/hdp/2.6.3.0-235/hadoop-hdfs/*, /usr/hdp/2.6.3.0-235/hadoop-yarn/*, /usr/hdp/2.6.3.0-235/hadoop-mapreduce/*, /usr/hdp/2.6.3.0-235/hadoop/lib/*, /usr/hdp/2.6.3.0-235/hadoop-hdfs/lib/*, /usr/hdp/2.6.3.0-235/hadoop-yarn/lib/*, /usr/hdp/2.6.3.0-235/hadoop-mapreduce/lib/* </value> </property> 3. 修改后的 mapred-site.xml 文件, 如下图

32 十二格式化 HDFS 文件系统 1. 输入命令 su - hdfs 切换到 hdfs 用户身份 2. 输入命令 hdfs namenode -format 进行文件系统的格式化 3. 格式化成功反馈

33 十三启动 HDFS 服务输入命令 systemctl start hadoop-hdfs-namenode 启动 namenode 服务输入命令 systemctl start hadoop-hdfs-datanode 启动 datanode 服务输入命令 systemctl start hadoop-hdfs-secondarynamenode 启动 secondarynamenode 服务并输入 jps 查看是否启动成功 HDFS 服务启动成功后, 通过 Web 浏览器访问 192.168.216.137( 当前 IP 地址 ):50070 就可以查看到 HDFS 后台的情况, 如下图所示

34 十四启动 Yarn 服务注意 : 默认的软件安装没有创建 yarn-env.sh 文件, 需手动创建此文件以保证 yarn 的服务可以正常启动! 输入命令 touch $HADOOP_HOME/etc/hadoop/yarn-env.sh 创建启动 yarn 服务必须的环境文件输入命令 systemctl start hadoop-yarn-resourcemanager 启动 resourcemanager 服务输入命令 systemctl start hadoop-yarn-nodemanager 启动 nodemanager 服务并输入 jps 查看是否启动成功 Yarn 服务启动成功后, 通过 Web 浏览器访问 192.168.216.137( 当前 IP 地址 ):8088 就可以查看到 Resourcemanager 任务管理器后台的情况, 如下图所示

35 十五测试实验 1. 输入命令 vim input.txt 来编辑一个文本文件 2. 文本文件内容如下图所示 ( 也可自行编辑 ) 3. 输入命令 hdfs dfs -put input.txt /input 上传文本文件到 HDFS 集群中并输入命令 hdfs dfs -cat /input 查看文件是否上传成功 5. 输入如下命令进行测试

36 6. 测试结果反馈 1). 任务运行反馈如下图所示 2). 输入命令 hdfs dfs -cat /output/part-r-00000 查看 mapreduce 任务输出 3).Web 界面运行结果反馈