Apache CarbonData集群模式使用指南

Similar documents
使用Spark SQL读取Hive上的数据

通过Hive将数据写入到ElasticSearch

Flume-ng与Mysql整合开发

Hadoop&Spark解决二次排序问题(Hadoop篇)

Spark读取Hbase中的数据

使用Cassandra和Spark 2.0实现Rest API服务

Kafka客户端是如何找到 leader 分区的

使用Hive读取ElasticSearch中的数据

Hive:用Java代码通过JDBC连接Hiveserver

如何在 Apache Hive 中解析 Json 数组

SparkR(R on Spark)编程指南

Spark作业代码(源码)IDE远程调试

Flink on YARN部署快速入门指南

在Spring中使用Kafka:Producer篇

使用MapReduce读取XML文件

Flink快速上手(QuickStart)

六种使用Linux命令发送带附件的邮件

Guava学习之Resources

将 MySQL 的全量数据导入到 Apache Solr 中

Hadoop 2.2.0安装和配置lzo

韶关:神奇丹霞

在Fedora上部署Hadoop2.2.0伪分布式平台

哼, 你 們 不 回 答 又 怎 麼 樣? 不 管 是 多 大 來 頭, 現 在 都 被 血 魔 吞 噬 無 蹤 了 你 們 幾 個 真 是 太 過 分, 我 不 犯 你 們, 你 們 卻 一 天 到 晚 來 挑 釁 我 教 尊 冷 笑 著 說 道 嗚, 大 人 土 地 大 姐 跪 下 來, 流 下

使用Apache Beam读写HDFS上的文件

Hadoop元数据合并异常及解决方法

伊春:醉人林都

三种方法实现Hadoop(MapReduce)全局排序(1)

奇虎360正式开源深度学习调度平台XLearning

Hive几种数据导入方式

江门:中国第一侨乡

案例分享产品文档

Ubuntu和CentOS如何配置SSH使得无密码登陆

关林:武圣陵寝

泰山:五岳独尊


国内26省市新能源汽车推广规划已出台

北戴河:海阔天空

Guava学习之CharSequenceReader


西岭雪山滑雪场

三种恢复 HDFS 上删除文件的方法

使用Apache Spark将数据写入ElasticSearch

Spark 2.0介绍:在Spark SQL中定义查询优化规则

Flink快速上手之Scala API使用

自定义Spark Streaming接收器(Receivers)

Apache Spark 2.4 新增内置函数和高阶函数使用介绍

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

是 喔, 就 是 那 個 在 BBS 醫 療 版 跟 你 嗆 聲, 自 稱 有 三 十 多 年 推 拿 經 驗 的 大 叔 嗎? 一 個 看 來 頗 為 清 秀 的 女 生 問 道, 她 語 氣 中 略 感 訝 異 是 啊, 什 麼 推 拿 按 摩 有 多 好, 還 要 人 生 病 盡 量 不 要

帝国CMS下在PHP文件中调用数据库类执行SQL语句实例

教育扩张能改善收入分配差距吗?——来自CHNS2006年数据的证据

山水文化,市井人家——以湖州邱城小镇的概念性规划为例

Spark1.4中DataFrame功能加强,新增科学和数学函数

团 学 要 闻 我 校 召 开 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 3 月 17 日, 我 校 共 青 团 五 届 九 次 全 委 ( 扩 大 ) 会 议 在 行 政 办 公 楼 五 楼 会 议 室 举 行, 校 团 委 委 员 各 院 ( 系 ) 团 委 书 记 校 学 生

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

PowerPoint 演示文稿

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

曹鲁

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

汇集全球21位医生的经验和智慧,总结出最实用的专业建议,这些都是最值得你牢记的健康提醒

1 行 业 发 展 不 平 衡 我 国 房 地 产 中 介 服 务 业 起 步 较 晚, 专 业 分 工 程 度 和 国 外 发 达 国 家 相 比 还 有 很 大 差 距 房 地 产 中 介 服 务 行 业 的 发 展 水 平 与 房 地 产 开 发 行 业 的 市 场 化 水 平 密 切 相 关

Microsoft Word 養生與保健_中山大學_講義


萬里社區老人健康照護手冊

Microsoft Word - 強制汽車責任保險承保及理賠作業處理辦法 doc

Microsoft Word - 06.Understanding of Pregnancy and Birth.doc

附 件 一 : 办 理 集 中 式 银 期 转 账 业 务 网 点 名 单 序 号 地 区 网 点 名 称 地 址 联 系 人 电 话 23 工 商 银 行 安 徽 省 铜 陵 百 大 支 行 铜 陵 市 长 江 东 路 50 号 鲁 桂 珍 工 商 银 行 安 徽

2. 二 年 級 吳 毓 秀 老 師 : 感 謝 午 餐 公 司 平 時 均 能 準 時 送 餐, 但 希 望 能 不 要 使 用 加 工 品, 且 學 生 反 映 希 望 能 多 加 蛋 品 的 食 物 3. 三 年 級 柯 阿 青 老 師 : 雞 肉 有 血 水 味, 請 午 餐 公 司 能 調

,,,,,,, (,, ),,,,,,,,,,,,,,, ,,, 4 11,, ( ),,,, ( ), :, ( ),,, 1995, 66 ; ( ),, 1996, , 3-4,,

2002 4,,, 1941,,,,,,,,,,,,,,,,,, : ;:, 1991,

(➂)11. 炎 炎 夏 日, 即 使 下 起 滂 沱 大 雨, 都 消 除 不 了 令 人 心 煩 的 暑 氣 這 句 話 主 要 想 表 達 什 麼? ➀ 夏 日 裡 經 常 下 著 滂 沱 大 雨, 令 人 心 煩 ➁ 下 著 滂 沱 大 雨 的 日 子, 可 以 消 除 暑 氣 ➂ 夏 日

範本檔

高雄市立五福國民中學九十四學年度第一學期第三次段考二年級本國語文學習領域試題卷

人 物 春 秋 杨 永 泰 将 其 削 藩 策 略 概 括 为 : 以 经 济 方 法 瓦 解 冯 玉 祥 的 第 二 集 团 军, 以 政 治 方 法 解 决 阎 锡 山 的 第 3 集 团 军, 以 军 事 方 法 解 决 李 宗 仁 的 第 四 集 团 军, 以 外 交 方 法 对 付 张 学

台北老爺校外實地參訪結案報告


糖尿病食譜




PowerPoint 演示文稿

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

菩提道次第廣論

路 上 沒 說 話, 車 子 被 爸 離 去 後 開 走 了, 沒 什 麼 變, 除 了 一 股 淡 淡 的 香 味, 我 不 太 習 慣, 像 空 氣 中 的 粉 塵, 左 飄 右 飄, 光 中 飛 舞 我 沒 提, 看 車 窗 外, 外 面 不 太 有 趣, 我 只 是 沒 事 幹, 我 們 本

繁 華 國 小 101 學 年 母 親 節 感 恩 惜 福 - 跳 蚤 市 場 暨 科 學 闖 關 遊 戲 親 子 活 動 實 施 計 畫 一 依 據 : 本 校 101 學 年 度 校 務 計 畫 及 行 事 曆 二 目 的 : 1. 培 養 學 生 感 恩 惜 物 知 福 惜 福 的 節 儉 觀


育儿小故事(四)

台 中 市 北 屯 區 東 山 里 橫 坑 9 林 志 明 巷 89-5 菜 豆 菜 大 漿 果 菜 豆 菜 大 漿 果 小 漿 果 核 果 柑 桔 無 陳 錦 生 新 竹 市 香 山 區

#$%# & (! )! *! +! +! &! +!! * &! * )!! +, )! + &)!) $! )!+ *! +. &) #!/ #! #$$% & #$$ & #0#1! ) * # #$$( &! ) * +,!

六域链联盟 SDChain-Matrix 节点搭建指南 2018/07/26 Version : 1.0.0

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

解决百度统计无法获取https来源的referrer

21 个你应该知道的 wget 命令

Spark 2.1.0与CarbonData 1.0.0集群模式部署及使用入门指南

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

行 业 市 场 研 究 属 于 企 业 战 略 研 究 范 畴, 作 为 当 前 应 用 最 为 广 泛 的 咨 询 服 务, 其 研 究 报 告 形 式 呈 现, 通 常 包 含 以 下 内 容 : 一 份 专 业 的 行 业 研 究 报 告, 注 重 指 导 企 业 或 投 资 者 了 解 该

本文由筱驀釹贡献

据传-蚂蚁金服350亿美元开约A股IPO,马云身价又要暴涨

张家口:塞外明珠

PDF 入不思議解脫境界普賢行願品 ... 《大方廣佛華嚴經卷第四十》

Transcription:

我们在 Apache CarbonData 快速入门编程指南 文章中介绍了如何快速使用 Apache CarbonData, 为了简单起见, 我们展示了如何在单机模式下使用 Apache CarbonData 但是生产环境下一般都是使用集群模式, 本文主要介绍如何在集群模式下使用 Apache CarbonData 启动 Spark shell 这里以 Spark shell 模式进行介绍,master 为 yarn-client, 启动 Spark shell 如下 : [iteblog@www.iteblog.com ~]$ cd ${SPARK_HOME} [iteblog@www.iteblog.com ~]$ carbondata_jar=./lib/$(ls -1 lib grep "^carbondata_.*\.jar$") [iteblog@www.iteblog.com ~]$ mysql_jar=./lib/$(ls -1 lib grep "^mysql.*\.jar$") [iteblog@www.iteblog.com ~]$./bin/spark-shell --master yarn-client \ --jars ${carbondata_jar},${mysql_jar} \ --num-executors 2 \ --executor-cores 1 \ --executor-memory 5G \ --queue iteblog 上面命令将会以 Client 模式启动 shell 创建 CarbonContext 实例 启动完 Spark Shell 之后, 接下来就是来初始化 CarbonContext 实例了, 这个和 Apache CarbonData 快速入门编程指南 里面类似 : /** * User: 过往记忆 * Date: 2016 年 07 月 07 日 * Time: 下午 20:49 * bolg: https://www.iteblog.com * 本文地址 :https://www.iteblog.com/archives/1703 * 过往记忆博客, 专注于 hadoop hive spark shark flume 的技术博客, 大量的干货 * 过往记忆博客微信公共帐号 :iteblog_hadoop */ import org.apache.spark.sql.carboncontext import org.apache.hadoop.hive.conf.hiveconf val storepath = "/user/iteblog/store/" 1 / 5

val cc = new CarbonContext(sc, storepath) cc.setconf("carbon.kettle.home","./carbondata/carbonplugins") cc.setconf("hive.metastore.warehouse.dir", "/user/iteblog/metadata/") cc.setconf(hiveconf.confvars.hivecheckfileformat.varname, "false") 创建表 现在我们已经创建好 CarbonContext 实例了, 可以使用它创建表 : cc.sql("create table if not exists iteblog (id string, hash string) STORED BY 'org.apache.carbond ata.format'") 加载数据 /** * User: 过往记忆 * Date: 2016 年 07 月 07 日 * Time: 下午 20:49 * bolg: https://www.iteblog.com * 本文地址 :https://www.iteblog.com/archives/1703 * 过往记忆博客, 专注于 hadoop hive spark shark flume 的技术博客, 大量的干货 * 过往记忆博客微信公共帐号 :iteblog_hadoop */ cc.sql(s"load data inpath 'hdfs:///tmp/iteblog.csv' into table iteblog options('delimiter'='\t')" ) 我们发现数据加载出错了, 可以到其中一个节点的 stderr 日志里面看到如下的异常信息 : 16/07/07 20:38:18 ERROR graphgenerator.graphgenerator: [Executor task launch worker-0][p artitionid:default_iteblog_ace3f131-836f-4b27-b198-f636fbc4e53b] org.pentaho.di.core.exception.kettleexception: Unable to read file './carbondata/carbonplugins/.kettle/kettle.properties'./carbondata/carbonplugins/.kettle/kettle.properties (No such file or directory) at org.pentaho.di.core.util.envutil.readproperties(envutil.java:65) at org.pentaho.di.core.util.envutil.environmentinit(envutil.java:95) 2 / 5

at org.carbondata.processing.graphgenerator.graphgenerator. validateandinitialisekettelengine(graphgenerator.java:302) at org.carbondata.processing.graphgenerator.graphgenerator.generategraph(graphgenerat or.java:277) at org.carbondata.spark.load.carbonloaderutil.generategraph(carbonloaderutil.java:130) at org.carbondata.spark.load.carbonloaderutil.executegraph(carbonloaderutil.java:186) at org.carbondata.spark.rdd.carbondataloadrdd$$anon$1.<init>(carbondataloadrdd.scala :189) at org.carbondata.spark.rdd.carbondataloadrdd.compute(carbondataloadrdd.scala:148) at org.apache.spark.rdd.rdd.computeorreadcheckpoint(rdd.scala:306) at org.apache.spark.rdd.rdd.iterator(rdd.scala:270) at org.apache.spark.scheduler.resulttask.runtask(resulttask.scala:66) at org.apache.spark.scheduler.task.run(task.scala:89) at org.apache.spark.executor.executor$taskrunner.run(executor.scala:214) at java.util.concurrent.threadpoolexecutor.runworker(threadpoolexecutor.java:1145) at java.util.concurrent.threadpoolexecutor$worker.run(threadpoolexecutor.java:615) at java.lang.thread.run(thread.java:744) Caused by: java.io.filenotfoundexception:./carbondata/carbonplugins/.kettle/kettle.propertie s (No such file or directory) at java.io.fileinputstream.open(native Method) at java.io.fileinputstream.<init>(fileinputstream.java:146) at java.io.fileinputstream.<init>(fileinputstream.java:101) at org.pentaho.di.core.util.envutil.readproperties(envutil.java:60)... 15 more 很明显是没有找到./carbondata/carbonplugins/.kettle/kettle.properties 文件, 因为我们目前只在启动 Spark Shell 的那台机器上部署好了 Carbondata, 而 Carbondata 的计算依赖于 kettle, 所以我们需要把 kettle 相关的依赖加载到所有参与计算的节点 这里有以下两种方法可以解决这个问题 1 我们很容易想到的就是将./carbondata/carbonplugins/ 文件里面的所有内容全部复制到 H adoop 集群的各个节点的某一目录下 ( 比如 /user/iteblog/carbondata/carbonplugins), 然后修改 carbon.kettle.home 如下 : cc.setconf("carbon.kettle.home","/user/iteblog/carbondata/carbonplugins") 其余代码不变, 这个问题即可解决 2 但是如果我们没有 Hadoop 集群各个节点的登陆权限, 也就是说我们无法手动到各个节点部署好 carbonplugins, 这咋办呢? 我们可以在启动 Spark 3 / 5

Shell 的时候加载 carbonplugins 插件, 如下 : [iteblog@www.iteblog.com ~]$./bin/spark-shell --master yarn-client \ --jars ${carbondata_jar},${mysql_jar},carbondata.tar.gz \ --num-executors 2 \ --executor-cores 1 \ --executor-memory 5G \ --queue iteblog carbondata.tar.gz 里面已经打包好了所有的插件信息 然后我们上面的代码不需要改变, 这个问题也可以解决 查数 数据已经加载进 iteblog 表里面了, 现在我们可以查询里面的数据了, 如下 : scala> cc.sql("select * from iteblog").show id hash 1761060630 1507780651275746626 1777010203-6420079594732250962 1777080884-3720484624594970761 1777080885 6953598621328551083 1794379845 4443483533807209950 1794419628-3898139641996026768 1794522657 5721419051907524948 1796358316-3848539843796297096 1796361951 2673643446784761880 1796363022 7081835511530066760 1797689090 7687516489507000693 1798032763 8729543868018607114 1798032765-2073004072970288002 1798933651 4359618602910211713 1799173523 3862252443910602052 1799555536-2751011281327328990 1799569121 1024477364392595538 1799608637 4403346642796222437 1799745227-2719506638749624471 1799859723 5552725300397463239 only showing top 20 rows 4 / 5

Powered by TCPDF (www.tcpdf.org) scala> cc.sql("select count(*) from iteblog").show _c0 7230338 scala> cc.sql("select count(distinct id) from iteblog").show _c0 6031231 本博客文章除特别声明, 全部都是原创! 转载本文请加上 : 转载自过往记忆 (https://www.iteblog.com/) 本文链接 : () 5 / 5