Hadoop 2.2.0安装和配置lzo

Similar documents
通过Hive将数据写入到ElasticSearch

在Fedora上部署Hadoop2.2.0伪分布式平台

Apache CarbonData集群模式使用指南

Hive几种数据导入方式

使用Spark SQL读取Hive上的数据

Microsoft Word - 在VMWare-5.5+RedHat-9下建立本机QTopia-2.1.1虚拟平台a.doc

使用MapReduce读取XML文件

韶关:神奇丹霞

目录 1 编译 HADOOOP 搭建环境 安装并设置 maven 以 root 用户使用 yum 安装 svn 以 root 用户使用 yum 安装 autoconf automake libtool cmake..

Hive:用Java代码通过JDBC连接Hiveserver

在Spring中使用Kafka:Producer篇

Linux服务器构建与运维管理

Spark读取Hbase中的数据

使用Cassandra和Spark 2.0实现Rest API服务

六种使用Linux命令发送带附件的邮件

哼, 你 們 不 回 答 又 怎 麼 樣? 不 管 是 多 大 來 頭, 現 在 都 被 血 魔 吞 噬 無 蹤 了 你 們 幾 個 真 是 太 過 分, 我 不 犯 你 們, 你 們 卻 一 天 到 晚 來 挑 釁 我 教 尊 冷 笑 著 說 道 嗚, 大 人 土 地 大 姐 跪 下 來, 流 下

Ubuntu和CentOS如何配置SSH使得无密码登陆

伊春:醉人林都

江门:中国第一侨乡

Guava学习之Resources

Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7.

Flume-ng与Mysql整合开发

三种方法实现Hadoop(MapReduce)全局排序(1)

網路安全:理論與實務 第二版

Flink快速上手(QuickStart)

关林:武圣陵寝

泰山:五岳独尊

国内26省市新能源汽车推广规划已出台

SparkR(R on Spark)编程指南

北戴河:海阔天空

Flink快速上手之Scala API使用

一 Grass 是 什 么 1 简 介 GRASS (Geographic Resources Analysis Support System, 地 理 资 源 分 析 支 持 系 统 ) 是 最 负 盛 名 的 开 源 地 理 信 息 系 统 (GIS) 以 下 是 它 的 一 些 特 点 : 1


Microsoft Word - 第5章.doc

西岭雪山滑雪场

PowerPoint 演示文稿

Windows 2000 Server for T100

ebook15-C

untitled

资源管理软件TORQUE与作业调度软件Maui的安装、设置及使用

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

投影片 1

是 喔, 就 是 那 個 在 BBS 醫 療 版 跟 你 嗆 聲, 自 稱 有 三 十 多 年 推 拿 經 驗 的 大 叔 嗎? 一 個 看 來 頗 為 清 秀 的 女 生 問 道, 她 語 氣 中 略 感 訝 異 是 啊, 什 麼 推 拿 按 摩 有 多 好, 還 要 人 生 病 盡 量 不 要

今天 年春季号 总 92 期

*

( ) / / / / / / /

(Microsoft Word - 8\244T\244\362\277\337\272]\244W\265L\246W.doc)

Microsoft Word - 專家本色 doc


但, 你 应 该 听 过 我 们 走 在 大 路 上 这 首 歌, 或 许 还 知 道 革 命 人 永 远 是 年 轻 那 支 歌 ; 并 且, 几 乎 可 以 肯 定, 你 在 戴 红 领 巾 的 那 阵, 必 然 唱 过 牛 儿 还 在 山 坡 吃 草, 放 牛 的 却 不 知 道 哪 儿 去

2 临 终 助 念 答 问 序 临 终 关 怀, 由 佛 门 净 宗 古 来 祖 师 大 德 提 倡 助 念 往 生, 现 今 已 渐 为 社 会 大 众 所 重 视, 在 台 湾, 台 大 长 庚 等 各 大 医 院, 也 都 设 有 助 念 室 ; 大 陆 上 许 多 道 场, 也 有 专 为

校园之星

Microsoft Word - 澎湖田調報告-宏達組9804.doc

<4D F736F F F696E74202D FA8BEA861B8EAB7BDBEE3A658BB50C0B3A5CE28B773A6CBA5AB29>


之 原 則 及 國 防 部 訂 頒 國 軍 列 管 國 有 不 動 產 提 供 非 軍 方 單 位 使 用 處 理 原 則 規 定 不 符, 仍 應 以 出 租 方 式 辦 理 惟 可 就 偏 遠 地 區 提 供 官 兵 金 融 水 電 服 務 使 用 部 分, 研 議 降 低 租 金 標 準, 報

chineseall

釋禪波羅蜜次第法門

证券代码: 证券简称:锦江股份 公告编号:【】

1700 装 卸 搬 运 7645 装 卸 搬 运 服 务 2100 建 筑 7410 工 程 服 务 11% 装 卸 搬 运 服 务, 是 指 使 用 装 卸 搬 运 工 具 或 者 人 力 畜 力 将 货 物 在 运 输 工 具 之 间 装 卸 现 场 之 间 或 者 运 输 工 具 与 装 卸

前 言 教 育 无 小 事, 它 成 就 着 学 生 的 未 来 作 为 教 师, 他 们 无 时 无 刻 不 在 关 注 着 学 生 的 成 长 学 生 的 未 来 学 生 就 像 一 朵 含 苞 待 放 的 花 朵, 需 要 老 师 们 的 细 心 呵 护, 给 学 生 需 要 的 东 西, 而

《盗墓笔记》 南派三叔/著

平 凡 足 迹 李 本 川 作 者 为 中 国 科 学 院 海 洋 研 究 所 研 究 员,1935 年 生, 山 东 荣 成 人 我 今 年 63 岁 了 大 前 年 丈 夫 和 儿 子 在 一 个 月 内 先 后 离 开 了 人 世, 女 儿 又 已 出 嫁, 现 在 是 孑 然 一 身 我 是

<CFFBB7D1D5DFD0D0CEAAD1A72E6D7073>

独立学院建设与发展


lect03.ppt

Abstract arm linux tool-chain root NET-Start! 2

Windows 2000 Server for T100

基于ECO的UML模型驱动的数据库应用开发1.doc

迅速在两个含有大量数据的文件中寻找相同的数据

1 1 大概思路 创建 WebAPI 创建 CrossMainController 并编写 Nuget 安装 microsoft.aspnet.webapi.cors 跨域设置路由 编写 Jquery EasyUI 界面 运行效果 2 创建 WebAPI 创建 WebAPI, 新建 -> 项目 ->

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

Kafka客户端是如何找到 leader 分区的

Microsoft Word - 广州市番禺区2014年新型农村合作医疗管理办法实施细则.doc

<4D F736F F D20C9FABBEED6D0C0B4B5C4BDA1BFB5CAD6B2E1A3A8D6D0A3A92E646F63>

写 花 都 区 新 型 农 村 合 作 医 疗 特 殊 情 况 报 销 申 请 表, 经 村 镇 区 三 级 审 核, 同 意 后 方 可 办 理 报 销 ; 在 医 疗 机 构 住 院 者, 出 院 后 3 个 月 内 仍 未 办 理 报 销, 不 再 予 以 办 理 报 销 2. 住 院 医 疗

Ⅰ Ⅱ Ⅲ Ⅳ

kidney GCT

Microsoft Word - PS2_linux_guide_cn.doc

Ioncube Php Encoder 8 3 Crack 4. llamaba octobre traslado General Search colony

64 [ 46 ] (p297) 1924 :? [ 47 ] (p570) ; ; ; ; ; ; ; ; ; ; ; [ 11 ]; [ 35 ] [ 49 ] [ 32 ] ( ) [ 48 ] (p 425) [ 50 ] (p 670 6

教育扩张能改善收入分配差距吗?——来自CHNS2006年数据的证据

山水文化,市井人家——以湖州邱城小镇的概念性规划为例

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

Linux 操作系统课程社区创作

菩提道次第廣論

路 上 沒 說 話, 車 子 被 爸 離 去 後 開 走 了, 沒 什 麼 變, 除 了 一 股 淡 淡 的 香 味, 我 不 太 習 慣, 像 空 氣 中 的 粉 塵, 左 飄 右 飄, 光 中 飛 舞 我 沒 提, 看 車 窗 外, 外 面 不 太 有 趣, 我 只 是 沒 事 幹, 我 們 本

繁 華 國 小 101 學 年 母 親 節 感 恩 惜 福 - 跳 蚤 市 場 暨 科 學 闖 關 遊 戲 親 子 活 動 實 施 計 畫 一 依 據 : 本 校 101 學 年 度 校 務 計 畫 及 行 事 曆 二 目 的 : 1. 培 養 學 生 感 恩 惜 物 知 福 惜 福 的 節 儉 觀

台 中 市 北 屯 區 東 山 里 橫 坑 9 林 志 明 巷 89-5 菜 豆 菜 大 漿 果 菜 豆 菜 大 漿 果 小 漿 果 核 果 柑 桔 無 陳 錦 生 新 竹 市 香 山 區


育儿小故事(四)

PowerPoint 演示文稿

Microsoft Word - linux命令及建议.doc

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

untitled

团 学 要 闻 我 校 召 开 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 3 月 17 日, 我 校 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 在 行 政 办 公 楼 五 楼 会 议 室 举 行, 校 团 委 委 员 各 院 ( 系 ) 团 委 书 记 校 学 生

Hadoop元数据合并异常及解决方法

第11章 可调内核参数

将 MySQL 的全量数据导入到 Apache Solr 中

Transcription:

Hadoop 2.2.0 安装和配置 lzo Hadoop 经常用于处理大量的数据, 如果期间的输出数据 中间数据能压缩存储, 对系统的 I/ O 性能会有提升 综合考虑压缩 解压速度 是否支持 split, 目前 lzo 是最好的选择 LZO(LZO 是 Lempel-Ziv-Oberhumer 的缩写 ) 是一种高压缩比和解压速度极快的编码, 它的特点是解压缩速度非常快, 无损压缩, 压缩后的数据能准确还原,lzo 是基于 block 分块的, 允许数据被分解成 chunk, 能够被并行的解压 LZO 库实现了许多有下述特点的算法 : (1) 解压简单, 速度非常快 (2) 解压不需要内存 (3) 压缩相当地快 (4) 压缩需要 64 kb 的内存 (5) 允许在压缩部分以损失压缩速度为代价提高压缩率, 解压速度不会降低 (6) 包括生成预先压缩数据的压缩级别, 这样可以得到相当有竞争力的压缩比 (7) 另外还有一个只需要 8 kb 内存的压缩级别 (8) 算法是线程安全的 (9) 算法是无损的 本文针对 Hadoop 2.2.0, 介绍如何安装和使用 lzo 一 下载 解压并编译 lzo 包 [wyp@master ~]$ wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz [wyp@master ~]$ tar -zxvf lzo-2.06.tar.gz [wyp@master ~]$ cd lzo-2.06 [wyp@master ~]$ export CFLAGS=-m64 [wyp@master ~]$./configure -enable-shared -prefix=/usr/local/hadoop/lzo/ [wyp@master ~]$ make && sudo make install 编译完 lzo 包之后, 会在 /usr/local/hadoop/lzo/ 生成一些文件, 目录结构如下 : [wyp@master /usr/local/hadoop/lzo]$ ls -l total 12 drwxr-xr-x 3 root root 4096 Mar 21 17:23 include drwxr-xr-x 2 root root 4096 Mar 21 17:23 lib drwxr-xr-x 3 root root 4096 Mar 21 17:23 share 将 /usr/local/hadoop/lzo 目录下的所有文件打包, 并同步到集群中的所有机器上 1 / 6

在编译 lzo 包的时候, 需要一些环境, 可以用下面的命令安装好 lzo 编译环境 [wyp@master ~]$ yum -y install lzo-devel \ zlib-devel gcc autoconf automake libtool 二 安装 Hadoop-LZO 这里下载的是 Twitter hadooplzo, 可以用 Maven( 如何安装 Maven 请参照本博客的 Linux 命令行下安装 Maven 与配置 ) 进行编译 [wyp@master ~]$ wget https://github.com/twitter/hadoop-lzo/archive/master.zip 下载后的文件名是 master, 它是一个 zip 格式的压缩包, 可以进行解压 : [wyp@master ~]$ unzip master 解压后的文件夹名为 hadoop-lzo-master 当然, 如果你电脑安装了 git, 你也可以用下面的命令去下载 [wyp@master ~]$ git clone https://github.com/twitter/hadoop-lzo.git hadoop-lzo 中的 pom.xml 依赖了 hadoop2.1.0-beta, 由于我们这里用到的是 Hadoop 2.2.0, 所以建议将 hadoop 版本修改为 2.2.0: <properties> <project.build.sourceencoding>utf-8</project.build.sourceencoding> <hadoop.current.version>2.2.0</hadoop.current.version> <hadoop.old.version>1.0.4</hadoop.old.version> </properties> 2 / 6

然后进入 hadoop-lzo-master 目录, 依次执行下面的命令 [wyp@master hadoop-lzo-master]$ export CFLAGS=-m64 [wyp@master hadoop-lzo-master]$ export CXXFLAGS=-m64 [wyp@master hadoop-lzo-master]$ export C_INCLUDE_PATH= \ /usr/local/hadoop/lzo/include [wyp@master hadoop-lzo-master]$ export LIBRARY_PATH=/usr/local/hadoop/lzo/lib [wyp@master hadoop-lzo-master]$ mvn clean package -Dmaven.test.skip=true [wyp@master hadoop-lzo-master]$ cd target/native/linux-amd64-64 [wyp@master Linux-amd64-64]$ tar -cbf - -C lib. tar -xbvf - -C ~ [wyp@master ~]$cp ~/libgplcompression* $HADOOP_HOME/lib/native/ [wyp@master hadoop-lzo-master]$cp target/hadoop-lzo-0.4.18-snapshot.jar \ $HADOOP_HOME/share/hadoop/common/ 其实在 tar -cbf - -C lib. tar -xbvf - -C ~ 命令之后, 会在 ~ 目录下生成一下几个文件 : [wyp@master ~]$ ls -l -rw-r--r-- 1 libgplcompression.a -rw-r--r-- 1 libgplcompression.la lrwxrwxrwx 1 libgplcompression.so -> libgplcompression.so.0.0.0 lrwxrwxrwx 1 libgplcompression.so.0 -> libgplcompression.so.0.0.0 -rwxr-xr-x 1 libgplcompression.so.0.0.0 其中 libgplcompression.so 和 libgplcompression.so.0 是链接文件, 指向 libgplcompression.s o.0.0.0, 将刚刚生成的 libgplcompression* 和 target/hadooplzo-0.4.18-snapshot.jar 同步到集群中的所有机器对应的目录 三 配置 Hadoop 环境变量 1 在 Hadoop 中的 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 加上下面配置 : export LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib 3 / 6

2 在 $HADOOP_HOME/etc/hadoop/core-site.xml 加上如下配置 : <name>io.compression.codecs</name> <value>org.apache.hadoop.io.compress.gzipcodec, org.apache.hadoop.io.compress.defaultcodec, com.hadoop.compression.lzo.lzocodec, com.hadoop.compression.lzo.lzopcodec, org.apache.hadoop.io.compress.bzip2codec </value> <name>io.compression.codec.lzo.class</name> <value>com.hadoop.compression.lzo.lzocodec</value> 3 在 $HADOOP_HOME/etc/hadoop/mapred-site.xml 加上如下配置 <name>mapred.compress.map.output</name> <value>true</value> <name>mapred.map.output.compression.codec</name> <value>com.hadoop.compression.lzo.lzocodec</value> <name>mapred.child.env</name> <value>ld_library_path=/usr/local/hadoop/lzo/lib</value> 将刚刚修改的配置文件全部同步到集群的所有机器上, 并重启 Hadoop 集群, 这样就可以在 H adoop 中使用 lzo 四 如何使用 4 / 6

这里在 Hive 中使用一下 lzo, 在 hive 中创建一个 lzo 表 : hive> create table lzo( > id int, > name string) > STORED AS INPUTFORMAT 'com.hadoop.mapred.deprecatedlzotextinputformat' > OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.hiveignorekeytextoutputformat'; OK Time taken: 3.423 seconds 如果在创建 lzo 表出现了如下错误 : FAILED: Error in metadata: Class not found: \ com.hadoop.mapred.deprecatedlzotextinputformat FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.ddltask 请检查你的环境是否配置好 然后在本地用 lzo 压缩一个文件, 先看看 users.txt 的内容 : [wyp@master ~]$ cat users.txt 1^Awyp 2^Azs 3^Als 4^Aww 5^Awyp2 6^Awyp3 7^Awyp4 8^Awyp5 9^Awyp6 10^Awyp7 11^Awyp8 12^Awyp5 13^Awyp9 14^Awyp20 [wyp@master ~]$ lzop users.txt [wyp@master ~]$ ls -l users.txt* -rw-r--r-- 1 wyp wyp 97 Mar 25 15:40 users.txt -rw-r--r-- 1 wyp wyp 154 Mar 25 15:40 users.txt.lzo 5 / 6

Powered by TCPDF (www.tcpdf.org) Hadoop 2.2.0 安装和配置 lzo 将 users.txt.lzo 的数据导入到 lzo 表里面 : hive> load data local inpath '/home/wyp/users.txt.lzo' into table lzo; Copying data from file:/home/wyp/users.txt.lzo Copying file: file:/home/wyp/users.txt.lzo Loading data to table default.lzo Table default.lzo stats: [num_partitions: 0, num_files: 1, num_rows: 0, total_size: 154, raw_data_size: 0] OK Time taken: 0.49 seconds hive> select * from lzo; OK 1 wyp 2 zs 3 ls 4 ww 5 wyp2 6 wyp3 7 wyp4 8 wyp5 9 wyp6 10 wyp7 11 wyp8 12 wyp5 13 wyp9 14 wyp20 Time taken: 0.244 seconds, Fetched: 14 row(s) 好了, 我们可以在 Hadoop 中使用 lzo 了!!( 完 ) 本博客文章除特别声明, 全部都是原创! 禁止个人和公司转载本文 谢谢理解 : 过往记忆 (https://www.iteblog.com/) 本文链接 : () 6 / 6