PowerPoint 演示文稿

Similar documents
合集

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

Azure_s

PowerPoint 演示文稿

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

A API Application Programming Interface 见 应 用 程 序 编 程 接 口 ARP Address Resolution Protocol 地 址 解 析 协 议 为 IP 地 址 到 对 应 的 硬 件 地 址 之 间 提 供 动 态 映 射 阿 里 云 内

目 录 目 录 平 台 概 述 技 术 架 构 技 术 特 点 基 于 统 一 平 台 的 多 产 品 线 支 撑 先 进 性 安 全 性 开 放 性 高 性 能 和

思 想, 还 是 思 想 才 使 我 们 与 众 不 同 编 辑 部 : 工 业 和 信 息 化 部 赛 迪 研 究 院 通 讯 地 址 : 北 京 市 海 淀 区 万 寿 路 27 号 电 子 大 厦 4 层 邮 政 编 码 : 联 系 人 : 刘 颖 董 凯 联 系 电 话 :010

天津天狮学院关于修订2014级本科培养方案的指导意见

目 录 第 五 部 分 第 六 部 分 第 七 部 分 第 八 部 分 投 标 邀 请 投 标 人 须 知 附 表 评 标 方 法 和 评 分 细 则 项 目 需 求 和 技 术 方 案 要 求 1

六盘水人资社保发〔2013〕137号

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

(Microsoft Word - 3\271\375\246\321\257R.doc)

大 台 北 與 桃 竹 苗 地 區 北 得 拉 曼 巨 木 步 道 新 竹 縣 尖 石 鄉 鎮 西 堡 巨 木 群 步 道 新 竹 縣 尖 石 鄉 鳥 嘴 山 登 山 步 道 苗 栗 縣 泰 安 鄉 加 里 山 登 山 步 道 苗 栗 縣 南 庄 鄉

Presentation title goes here

支付宝2011年 IT资产与费用预算

目錄

TopTest_Adminstrator.doc

01

About Me 田 亚 信 科 技 - 田 毅 Spark 社 区 Contributor 北 京 SparkMeetup 的 发 起 人 主 要 关 注 SparkSQL 与 Spark Streaming

5 1 文 书 原 件 优 先 的 原 则 和 例 外 兼 评 最 高 人 民 法 院 关 于 民 事 诉 讼 证 据 的 若 干 规 定 第 69 条 / 纪 格 非 论 点 与 思 考 5 3 优 先 受 偿 权 是 什 么 权? 浅 谈 建 筑 工 程 优 先 受 偿 权 的 性 质 及 价

早 期 療 育 教 保 人 員 應 具 備 下 列 資 格 之 一 : 一 專 科 以 上 學 校 醫 護 職 能 治 療 物 理 治 療 教 育 特 殊 教 育 早 期 療 育 幼 兒 教 育 幼 兒 保 育 社 會 社 會 福 利 社 會 工 作 心 理 輔 導 兒 童 及 少 年 福 利 或

关于印发《实验室骨干教师评聘及管理办法》的通知

Microsoft Word - report.doc

<4D F736F F D20AAFEA5F333B4E5AA61B1D0BEC7BFC4A44AA655BBE2B0ECA544C3445FB5A3B8D6B3D0A740B1D0BEC72E646F63>

105年公務員申領或侵占小額款項

Microsoft Word - prac_exp13.doc

陕 西 省 城 市 社 区 社 会 管 理 创 新 现 状 困 境 及 建 议 一 陕 西 省 城 市 社 区 管 理 现 状 分 析 ( 一 ) 社 区 社 会 管 理 创 新 的 重 要 举 措 1. 高 度 重 视 社 区 的 社 会 管 理, 积 极 探 索 总 结 经 验 自 2000 年

1-8章.indd

目 錄 大 會 歡 迎 詞 裁 判 長 的 話 選 手 賽 前 準 備 清 單 賽 事 日 程 表 選 手 報 到 比 賽 日 - 大 會 服 務 關 門 時 間 台 東 關 門 時 間 轉 換 區 須 知 台 東 轉 換 區 須 知 自 行 車 檢 錄 轉 換 袋 台 灣 游 泳 公 里 游 泳

事 業 單 位 改 組 或 轉 讓, 舊 勞 工 不 願 意 續 任 者, 可 否 請 求 資 遣 費? 工 或 與 勞 工 協 商 同 意 後 簽 訂 新 約, 以 穩 固 勞 雇 關 係 至 於 改 組 或 轉 讓 過 程 中, 被 商 定 留 用 之 勞 工, 如 因 其 勞 動 條 件 有

Microsoft Word - 江湖行帮趣话

防區狀況三生效—驗證精實案

投影片 1

ebook 132-2

目 录 监 管 资 讯 2016 年 全 国 保 险 监 管 工 作 会 议 召 开...3 协 会 动 态 赤 峰 保 险 行 业 协 会 召 开 数 据 统 计 和 信 息 宣 传 总 结 表 彰 会 议...5 赤 峰 市 保 险 行 业 协 会 秘 书 处 召 开 2015 年 度 述 职

同 时, 采 取 提 供 新 闻 线 索 和 素 材 安 排 专 访 等 方 式 主 动 为 新 闻 媒 体 服 务, 为 采 访 报 道 活 动 创 造 便 利 条 件 建 设 网 络 信 息 发 布 平 台 2013 年 9 月 开 通 中 央 纪 委 监 察 部 网 站,2015 年 1 月

公務員服務法第13條相關解釋彙整表

资 讯 速 递 台 基 于 大 数 据 的 学 校 督 导 评 估 系 统 建 设 上 海 市 闵 行 区 人 民 政 府 教 育 督 导 室 ( 摘 要 ) 闵 行 教 育 在 深 化 教 育 改 革 探 索 管 办 评 分 离 的 背 景 下, 把 教 育 督 导 评 估 系 统 建 设 作 为

時間軸上的竹蓮記憶 學務主任 黃雅彙 我不是竹蓮國小的畢業校友 但對於身為新竹人的我來 說 仔細回想起來 似乎和竹蓮有著一種特別的緣分 對竹蓮國小最初的印象是在小學的時候 猶記得年幼的 我經過一段時日的啦啦隊舞蹈訓練後 老師便帶著我們從學 校步行到竹蓮國小來參加比賽 一踏入竹蓮校門 映入眼簾 的是黑

Microsoft Word - 临政办发6.doc

3.1 SQL Server 2005 Analysis Services Unified Dimension Model (UDM) 3 ( Ad-Hoc) SQL Server 2005 E - R T-SQL(Star Schema) (Data Mart) (ETL) ( Ora

互联网软件开发中的团队合作和团队管理

201316

目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..

Microsoft Word 中的文档

目录


final

第6章  数据库技术基础

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

温州市政府分散采购

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

Elasticsearch课件.key

Transcription:

Apache Spark 与 多 数 据 源 的 结 合 田 毅 @

目 录 为 什 么 会 用 到 多 个 数 据 源 Spark 的 多 数 据 源 方 案 有 哪 些 已 有 的 数 据 源 支 持 Spark 在 GrowingIO 的 实 践 分 享

为 什 么 会 用 到 多 个 数 据 源 从 数 据 本 身 来 看 大 数 据 的 特 性 之 一 :Variety 数 据 的 多 样 性 结 构 化 数 据 与 非 结 构 化 数 据 实 时 数 据 与 离 线 数 据 五 花 八 门 的 数 据 格 式

为 什 么 会 用 到 多 个 数 据 源 从 业 务 需 求 来 看 不 同 的 业 务 场 景 决 定 了 数 据 需 要 被 存 储 到 多 个 地 方 数 据 挖 掘 实 时 查 询 多 维 分 析 查 询 聚 合 汇 总 统 计 实 时 更 新

为 什 么 会 用 到 多 个 数 据 源 从 软 件 的 发 展 来 看 越 来 越 多 的 针 对 某 一 个 细 分 领 域 的 软 件 技 术 不 断 产 生 NoSQL:HBase,Cassandra,MongoDB Storage:HDFS,Tachyon Search:ElasticSearch, Lucene MPP: Teradata,GreenPlum, Aster,Gbase QueryEngine:Hive,Phoenix Apache 基 金 会 下 的 软 件 中 : BigData:30 个 Database:25 个

常 见 的 大 数 据 系 统 的 架 构 应 用 计 算 引 擎 数 据 存 储 ETL 系 统 数 据 A 数 据 B 数 据 C 应 用 计 算 引 擎 A 数 据 存 储 A 计 算 引 擎 B 数 据 存 储 B 计 算 引 擎 C 数 据 存 储 C ETL 系 统 数 据 A 数 据 B 数 据 C

数 据 存 储 间 如 何 相 互 访 问 方 案 1: 冗 余 存 储 方 案 2: 集 中 计 算 问 题 : 1 数 据 一 致 性 2 存 储 成 本 问 题 : 1 数 据 类 型 转 换 2 数 据 处 理 效 率 存 储 1 存 储 2 存 储 3 集 中 计 算 存 储 1 存 储 2 存 储 3 数 据 数 据 数 据 数 据

Spark 的 多 数 据 源 方 案 Spark 在 1.2.0 版 本 中 首 次 发 布 了 Data Sources API 这 套 API 主 要 提 供 了 一 种 快 速 灵 活 的 方 法 为 Spark 提 供 访 问 外 部 数 据 源 的 功 能 主 要 目 标 是 让 Spark 各 个 组 件 以 及 外 部 应 用 可 以 方 便 高 效 的 读 写 外 部 数 据

Spark DataSource API 问 题 1: 关 于 数 据 类 型 转 换 Spark SQL 中 的 一 套 函 数 式 关 系 查 询 优 化 框 架 Catalyst Catalyst 提 供 了 一 整 套 数 据 类 型 的 定 义 各 个 数 据 源 实 现 各 自 数 据 类 型 和 Catalyst 的 转 换

Spark DataSource API 问 题 2: 关 于 数 据 处 理 效 率 Spark 提 供 了 一 个 灵 活 的 api 来 兼 容 不 同 类 型 的 DataSource 包 括 : 支 持 全 量 扫 描 支 持 列 剪 枝 支 持 列 剪 枝 + 过 滤 机 制 支 持 数 据 插 入

在 Spark DataSource API 之 前

在 Spark DataSource API 之 后

可 以 使 用 的 Spark DataSource Spark 自 带 JDBC Mysql PostgreSQL HadoopFs Parquet JSON Orc Spark Packages 网 站 Avro CSV RedShift MongoDB Cassandra ElasticSearch 还 有 其 他 软 件 内 置 的 一 些 DataSource Apache Phoenix

JDBC 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 sqlcontext.read.jdbc( jdbc:postgresql://testhost:7531/testdb, testtable, idfield, ------- 索 引 列 10000, ------- 起 始 index 1000000, ------- 结 束 index 10, -------partition 数 量 new Properties ).registertemptable("testtable") Driver Executor Executor Executor JDBC Server 适 合 场 景 : 配 置 数 据 的 加 载, 处 理 问 题 : 随 着 数 据 量 增 加, 对 JDBC Server 的 压 力 骤 增

HadoopFs 获 取 文 件 列 表, 生 成 多 个 Task 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 已 经 支 持 Parquet,JSON, sqlcontext.read.parquet("hdfs://testfs/testpath").registertemptable("test") Driver Executor Executor Executor HDFS 适 合 场 景 : 离 线 处 理 中 输 入 输 出 数 据, 临 时 数 据 问 题 : 实 时 场 景 下, 无 法 增 量 写 入 数 据, 连 续 写 入 会 产 生 大 量 碎 片 文 件

https://github.com/elastic/elasticsearch-hadoop 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 EsSparkSQL.esDF(hc,indexName,esQuery).registerTempTable( testtable ) ElasticSearch Driver 获 取 Query 需 要 的 Nodes 和 Shards Executor Executor Executor 数 据 : 单 条 20K 主 机 :16C 32G 性 能 :40k~50k 条 / 秒 / 每 台 ES Node ES Node ES Node 适 合 场 景 : 存 储 doc 数 据, 随 机 数 据 搜 索 问 题 : 原 生 程 序 使 用 HTTP 方 式 进 行 数 据 加 载, 吞 吐 量 很 低 需 要 修 改 为 Traffic 方 式

Apache Phoenix https://github.com/apache/phoenix 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 sqlcontext.read.format("org.apache.phoenix.spark").options(map( table -> table, zkurl -> zookeeperurl)).load.registertemptable( testtable ) Driver 获 取 执 行 计 划, 分 解 成 多 个 Task Executor Executor Executor 数 据 : 单 条 100b 5 字 段 主 机 :8C 16G 性 能 :80k-100k 条 / 秒 / 每 台 数 据 : 单 条 2K 20 字 段 主 机 :8C 16G 性 能 :30k-50k 条 / 秒 / 每 台 Region 适 合 场 景 : Server 实 时 处 理 中 输 入 数 据, 统 计 结 果 数 据 问 题 : 需 要 根 据 需 求 仔 细 设 计 Schema Region Server Region Server

MongoDB https://github.com/stratio/spark-mongodb 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 sqlcontext.read.format( com.stratio.datasource.mongodb ).options(options).load.registertemptable( testtable ) Driver 获 取 Target 的 Sahrds Executor Executor Executor MongoDB Shard MongoDB Shard MongoDB Shard

Cassantra https://github.com/datastax/spark-cassandra-connector 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 CassandraSQLContext val cscontext = new CassandraSQLContext(sc) sccontext. cassandrasql( xxxxxx ) Datastax 官 方 推 出 的 DataSource

我 们 的 公 司 GrowingIO 用 我 们 的 产 品 帮 助 企 业 大 规 模 驱 动 业 务 增 长 大 幅 度 增 加 分 析 效 率 用 数 据 增 长 营 收 智 能 数 据 标 记 Data 商 业 运 营 智 能 Intelligence

整 体 架 构 GrowingIO 的 Spark 实 践 Web UI Query Service HBase 离 线 应 用 Elastic Search 实 时 应 用 Kafka

GrowingIO 的 Spark 实 践 实 时 计 算 Kafka Json Table JDBC Table Spark Streaming 业 务 逻 辑 SQL HBase Table ES Table HBase Elastic Search PostgreSQL 配 置 库

GrowingIO 的 Spark 实 践 离 线 计 算 HBase HBase Table ES Table Spark Server 业 务 逻 辑 SQL HBase Table Hive Table HBase Elastic Search HDFS PostgreSQL 配 置 库

坑 1 Elastic Search Elastic Search 数 据 查 询 当 Mapping 数 据 的 列 大 于 Source 中 的 列 时, 报 Index Out of Bound Exception 修 改 RowValueReader 的 addtobuffer 方 法 Elastic 数 据 加 载 默 认 通 过 HTTP 的 接 口 加 载 数 据, 性 能 极 差 修 改 为 Transport 方 式 加 载 使 得 性 能 提 升 2-3 倍 性 能 优 化 需 要 详 细 设 计 Index, 尽 量 减 少 每 次 查 询 的 数 据 量

坑 2 Phoenix Spark 1.5 支 持 DecimalType GenericMutableRow => InternalRow PHOENIX-2279 Limit 与 Union 相 关 的 BUG Maven 中 Hadoop 版 本 兼 容 性 Region Split 导 致 缓 存 中 的 Region 信 息 失 效 Phoenix JDBC Driver has been closed(yarn 资 源 控 制 ) 读 取 数 据 时 Partition 数 量 过 少 导 致 读 取 速 度 慢

GrowingIO 的 Spark 实 践 总 结 : 使 用 Data Source API 带 来 好 处 存 储 成 本 降 低 : 数 据 只 存 储 一 份 开 发 成 本 降 低 : 无 需 关 心 外 部 数 据 源 的 连 接 代 码, 直 接 开 发 业 务 逻 辑 使 用 Data Source API 需 要 注 意 的 地 方 外 部 数 据 源 设 计 优 化 Elastic Search 的 Index 设 计 HBase 的 Schema 设 计 (Phoenix Bucket) 外 部 数 据 源 的 性 能 瓶 颈 执 行 顺 序 Cache 外 部 DataSource 的 BUG

GrowingIO 的 Spark 实 践 使 用 Spark Streaming Kafka Direct API 模 式 数 据 分 布 不 均 的 问 题 Receiver 模 式 在 计 算 量 较 大 时 需 要 通 过 shuffle 将 数 据 分 发 到 多 个 节 点 计 算 占 用 Yarn 资 源 的 问 题 Receiver 模 式 需 要 消 耗 Yarn 的 计 算 资 源 人 工 控 制 offset 根 据 应 用 场 景 手 工 控 制 offset 更 加 简 单 和 安 全 下 游 系 统 采 用 容 忍 重 复 的 设 计 原 则 保 证 Streaming 程 序 可 以 随 时 重 启 运 行

GrowingIO 的 Spark 实 践 优 化 Spark Streaming 的 调 度 机 制 原 有 调 度 机 制 下 的 问 题 定 时 器 定 时 创 建 job, 无 视 当 前 是 否 有 Job 正 在 运 行 所 有 的 Job 进 行 统 一 的 流 量 控 制 当 限 速 较 大 时, 会 发 生 Job 的 积 压 当 限 速 较 小 时, 处 理 性 能 又 不 高 优 化 后 的 调 度 机 制 JobScheduler 中 每 次 创 建 Job 后, 等 待 Job 结 束 后 再 创 建 下 一 个 Job 优 化 后 不 会 再 有 Job 的 积 压, 限 速 可 以 设 置 的 相 对 激 进 一 些 推 荐 的 限 速 设 置 : 最 大 处 理 能 力 的 80% Spark 1.5 中 的 BackPressure

GrowingIO 的 Spark 实 践 Spark Server 多 个 离 线 应 用 共 享 资 源 支 持 任 务 优 先 级 设 定 Spark App1 Spark Server Spark App2 Spark App3 S D K Spark Context Spark Cluster Spark AppN

感 谢 聆 听