PowerPoint 演示文稿

Similar documents
合集

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

Azure_s

PowerPoint 演示文稿


第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

聚 焦 大 众 金 秋 十 月, 让 爱 走 动 引 领 大 众 金 秋 十 月 又 重 阳 清 早, 大 众 汽 车 租 赁 公 司 的 爱 心 小 队 一 行 十 余 人 就 带 着 早 已 备 好 的 节 日 慰 问 品 来 到 提 篮 桥 街 道 敬 老 院, 为 那

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

<4D F736F F D20D6A4C8AFCDB6D7CABBF9BDF0D0FBB4ABCFFACADBCFE0B9D8B7A8B9E6BCB0B9E6B7B6D0D4CEC4BCFE>

A API Application Programming Interface 见 应 用 程 序 编 程 接 口 ARP Address Resolution Protocol 地 址 解 析 协 议 为 IP 地 址 到 对 应 的 硬 件 地 址 之 间 提 供 动 态 映 射 阿 里 云 内

目 录 目 录 平 台 概 述 技 术 架 构 技 术 特 点 基 于 统 一 平 台 的 多 产 品 线 支 撑 先 进 性 安 全 性 开 放 性 高 性 能 和

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

基于ECO的UML模型驱动的数据库应用开发1.doc

思 想, 还 是 思 想 才 使 我 们 与 众 不 同 编 辑 部 : 工 业 和 信 息 化 部 赛 迪 研 究 院 通 讯 地 址 : 北 京 市 海 淀 区 万 寿 路 27 号 电 子 大 厦 4 层 邮 政 编 码 : 联 系 人 : 刘 颖 董 凯 联 系 电 话 :010

天津天狮学院关于修订2014级本科培养方案的指导意见

目 录 第 五 部 分 第 六 部 分 第 七 部 分 第 八 部 分 投 标 邀 请 投 标 人 须 知 附 表 评 标 方 法 和 评 分 细 则 项 目 需 求 和 技 术 方 案 要 求 1

六盘水人资社保发〔2013〕137号

PowerPoint 演示文稿

Tech Radar2015修改111

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

(Microsoft Word - 3\271\375\246\321\257R.doc)

大 台 北 與 桃 竹 苗 地 區 北 得 拉 曼 巨 木 步 道 新 竹 縣 尖 石 鄉 鎮 西 堡 巨 木 群 步 道 新 竹 縣 尖 石 鄉 鳥 嘴 山 登 山 步 道 苗 栗 縣 泰 安 鄉 加 里 山 登 山 步 道 苗 栗 縣 南 庄 鄉

Presentation title goes here

目 录 1. 业 务 流 程 系 统 开 发 面 临 的 挑 战 与 机 遇 业 务 流 程 管 理 新 一 代 开 源 业 务 流 程 开 发 平 台 BPMX BPMX3 是 什 么 为 什 么 要 优 先 采 用 BPMX

支付宝2011年 IT资产与费用预算

Connected Intelligence:ビッグデータ技術を活用したIT運用

目錄

MyCOS

TopTest_Adminstrator.doc

01

About Me 田 亚 信 科 技 - 田 毅 Spark 社 区 Contributor 北 京 SparkMeetup 的 发 起 人 主 要 关 注 SparkSQL 与 Spark Streaming

附 件

BSAP_ConsultChi05_1.indd

C 佟 某 委 托 中 介 为 其 征 婚 D 海 盈 房 地 产 公 司 委 托 律 师 事 务 所 代 其 办 理 登 记 事 项 8 根 据 民 法 通 则, 施 工 单 位 的 项 目 经 理 属 于 施 工 单 位 的 ( ) A 委 托 代 理 人 B 法 定 代 理 人 C 指 定 代

5 1 文 书 原 件 优 先 的 原 则 和 例 外 兼 评 最 高 人 民 法 院 关 于 民 事 诉 讼 证 据 的 若 干 规 定 第 69 条 / 纪 格 非 论 点 与 思 考 5 3 优 先 受 偿 权 是 什 么 权? 浅 谈 建 筑 工 程 优 先 受 偿 权 的 性 质 及 价

早 期 療 育 教 保 人 員 應 具 備 下 列 資 格 之 一 : 一 專 科 以 上 學 校 醫 護 職 能 治 療 物 理 治 療 教 育 特 殊 教 育 早 期 療 育 幼 兒 教 育 幼 兒 保 育 社 會 社 會 福 利 社 會 工 作 心 理 輔 導 兒 童 及 少 年 福 利 或

人 員 分 配 完 畢 後, 分 配 訓 練 之 需 本 法 第 三 條 第 一 項 所 稱 分 發 機 關, 指 銓 敘 部 及 行 政 院 人 事 行 政 總 處 本 法 第 三 條 第 一 項 所 稱 定 期 依 序, 指 分 發 機 關 或 申 請 舉 辦 考 試 機 關 於 下 次 該 項

关于印发《实验室骨干教师评聘及管理办法》的通知

Microsoft Word - report.doc

2 2. ( 4 ) =? 在 電 子 計 算 器 之 最 適 當 操 作 過 程 為 ( 3 ) 乘 除 算 名 數 題 目 應 求 小 數 幾 位 以 下 四 捨 五 入 11 位 23 位 32 位 40 位 2 4. ( 3

<4D F736F F D20AAFEA5F333B4E5AA61B1D0BEC7BFC4A44AA655BBE2B0ECA544C3445FB5A3B8D6B3D0A740B1D0BEC72E646F63>

105年公務員申領或侵占小額款項

Microsoft Word - prac_exp13.doc

陕 西 省 城 市 社 区 社 会 管 理 创 新 现 状 困 境 及 建 议 一 陕 西 省 城 市 社 区 管 理 现 状 分 析 ( 一 ) 社 区 社 会 管 理 创 新 的 重 要 举 措 1. 高 度 重 视 社 区 的 社 会 管 理, 积 极 探 索 总 结 经 验 自 2000 年

1-8章.indd

目 錄 大 會 歡 迎 詞 裁 判 長 的 話 選 手 賽 前 準 備 清 單 賽 事 日 程 表 選 手 報 到 比 賽 日 - 大 會 服 務 關 門 時 間 台 東 關 門 時 間 轉 換 區 須 知 台 東 轉 換 區 須 知 自 行 車 檢 錄 轉 換 袋 台 灣 游 泳 公 里 游 泳

事 業 單 位 改 組 或 轉 讓, 舊 勞 工 不 願 意 續 任 者, 可 否 請 求 資 遣 費? 工 或 與 勞 工 協 商 同 意 後 簽 訂 新 約, 以 穩 固 勞 雇 關 係 至 於 改 組 或 轉 讓 過 程 中, 被 商 定 留 用 之 勞 工, 如 因 其 勞 動 條 件 有

Microsoft Word - 江湖行帮趣话

德 华 安 顾 人 寿 保 险 有 限 公 司 银 行 保 险 业 务 系 列 人 员 管 理 办 法 (2014 版 ) 目 录 第 一 章 第 二 章 第 三 章 第 四 章 第 五 章 第 六 章 第 七 章 第 八 章 总 则 人 力 编 制 及 岗 位 职 责 人 员 管 理 制 度 考

( 有 限 合 伙 )( 以 下 简 称 杭 州 金 葵 ) 和 杭 州 金 锋 投 资 管 理 合 伙 企 业 ( 有 限 合 伙 )( 以 下 简 称 杭 州 金 锋 )( 以 下 合 称 交 易 对 方 ) 购 买 其 持 有 的 卓 诚 兆 业 100% 股 份 ( 以 下 简 称 本 次

海大学字[2004]3号


第 1期 楼彩霞 价值链视角下北京光线传媒股份有限公司商业模式创新研究 101 竞争优势 二 商业模式理论与价值链理论的关系 什么是商业模式 国外学者 Dub n 2002 等 认 为 商 业 模 式 是 企 业 为 了 进 行 价 值 创 造 价 值 营销和价值提供所形成的企业结构及其合作伙伴网络

防區狀況三生效—驗證精實案

投影片 1

ebook 132-2

浙江师范大学2014年度毕业生就业质量报告

目 录 监 管 资 讯 2016 年 全 国 保 险 监 管 工 作 会 议 召 开...3 协 会 动 态 赤 峰 保 险 行 业 协 会 召 开 数 据 统 计 和 信 息 宣 传 总 结 表 彰 会 议...5 赤 峰 市 保 险 行 业 协 会 秘 书 处 召 开 2015 年 度 述 职

同 时, 采 取 提 供 新 闻 线 索 和 素 材 安 排 专 访 等 方 式 主 动 为 新 闻 媒 体 服 务, 为 采 访 报 道 活 动 创 造 便 利 条 件 建 设 网 络 信 息 发 布 平 台 2013 年 9 月 开 通 中 央 纪 委 监 察 部 网 站,2015 年 1 月

公務員服務法第13條相關解釋彙整表

大陸教育部等6個部門公佈「現代職業教育體系建設規劃 ( 年)」規劃到2015年初步形成現代職業教育體系框架,到2020年基本建成「中國」特色現代職業教育體系

资 讯 速 递 台 基 于 大 数 据 的 学 校 督 导 评 估 系 统 建 设 上 海 市 闵 行 区 人 民 政 府 教 育 督 导 室 ( 摘 要 ) 闵 行 教 育 在 深 化 教 育 改 革 探 索 管 办 评 分 离 的 背 景 下, 把 教 育 督 导 评 估 系 统 建 设 作 为

B1

時間軸上的竹蓮記憶 學務主任 黃雅彙 我不是竹蓮國小的畢業校友 但對於身為新竹人的我來 說 仔細回想起來 似乎和竹蓮有著一種特別的緣分 對竹蓮國小最初的印象是在小學的時候 猶記得年幼的 我經過一段時日的啦啦隊舞蹈訓練後 老師便帶著我們從學 校步行到竹蓮國小來參加比賽 一踏入竹蓮校門 映入眼簾 的是黑

B1

Microsoft Word - 临政办发6.doc

云 浮 市 总 工 会 学 习 贯 彻 市 委 五 届 九 次 全 会 精 神 全 省 工 会 第 二 季 度 暨 上 半 年 劳 资 纠 纷 研 判 会 召 开 河 源 市 总 工 会 召 开 劳 资 纠 纷 研 判 会 议 湛 江 市 总 工 会 召 开 上 半 年 劳 资 纠 纷 研 判 会

3.1 SQL Server 2005 Analysis Services Unified Dimension Model (UDM) 3 ( Ad-Hoc) SQL Server 2005 E - R T-SQL(Star Schema) (Data Mart) (ETL) ( Ora

Partition Key: 字 符 串 类 型, 表 示 当 前 Entity 的 分 区 信 息 这 个 Property 对 于 Table Service 自 动 纵 向 和 横 向 扩 展 至 关 重 要 Row Key: 字 符 串 类 型, 在 给 定 Partition Key 的

进击的巨人:基于Angel的高维度Online Learning_V3

案例分享产品文档

2

互联网软件开发中的团队合作和团队管理

从 IT 到 DT 的 城 市 服 务 报 告 摘 要 以 控 制 为 出 发 点 的 IT 时 代, 正 在 走 向 激 活 生 产 力 为 目 的 DT 时 代 DT 城 市, 是 以 云 网 端 为 城 市 新 型 基 础 设 施, 以 大 数 据 为 城 市 新 型 生 产 资 料, 以 数

201316

关于加强企业国有资产评估管理工作有关问题的通知

目 录 简 介.3 ` 体 系 结 构...4 数 据 层...5 数 据 连 接 器...6 Tableau Server 组 件...7 网 关 / 负 载 平 衡 器...8 客 户 端 :Web 浏 览 器 和 移 动 应 用 程 序...8 客 户 端 :Tableau Desktop..


《教育信息化前沿》

Microsoft Word 中的文档

目录

( 三 ) 我 国 发 展 大 数 据 产 业 发 展 的 建 议 以 大 数 据 供 需 两 端 ( 数 据 源 和 应 用 环 节 ) 为 抓 手 实 现 重 点 突 破, 大 力 推 动 全 社 会 的 数 据 开 放, 尤 其 是 政 府 数 据 的 开 放, 力 争 在 短 期 内 降 低

SparkR(R on Spark)编程指南


ApacheEagle-陈浩-GOPS2016深圳大会_v1.0

final

第6章  数据库技术基础

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

方圆并济:基于 Spark on Angel 的高性能机器学习_V3

广东省海外高层次人才需求信息表.xlsx

温州市政府分散采购

单 位 : 元 项 目 本 期 期 末 上 年 期 末 增 减 比 例 (%) 总 资 产 8,680, ,278, % 归 属 于 挂 牌 公 司 股 东 的 净 资 产 7,169, ,793, % 营 业 收 入 10

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

Elasticsearch课件.key

Mocat

基于 SQL-on-Hadoop 的 网络日志分析

GBase 8a 案 例 集, 天 津 南 大 通 用 数 据 技 术 股 份 有 限 公 司 GBASE 版 权 所 有 2016, 保 留 所 有 权 利 如 果 通 过 本 文 的 介 绍, 使 您 了 解 GBase 8a 恰 是 您 巟 作 中 需 要 的 数 据 库 产 品, 戒 者 是

数据分析技术介绍

Transcription:

Apache Spark 与 多 数 据 源 的 结 合 田 毅 @

目 录 为 什 么 会 用 到 多 个 数 据 源 Spark 的 多 数 据 源 方 案 有 哪 些 已 有 的 数 据 源 支 持 Spark 在 GrowingIO 的 实 践 分 享

为 什 么 会 用 到 多 个 数 据 源 从 数 据 本 身 来 看 大 数 据 的 特 性 之 一 :Variety 数 据 的 多 样 性 结 构 化 数 据 与 非 结 构 化 数 据 实 时 数 据 与 离 线 数 据 五 花 八 门 的 数 据 格 式

为 什 么 会 用 到 多 个 数 据 源 从 业 务 需 求 来 看 不 同 的 业 务 场 景 决 定 了 数 据 需 要 被 存 储 到 多 个 地 方 数 据 挖 掘 实 时 查 询 多 维 分 析 查 询 聚 合 汇 总 统 计 实 时 更 新

为 什 么 会 用 到 多 个 数 据 源 从 软 件 的 发 展 来 看 越 来 越 多 的 针 对 某 一 个 细 分 领 域 的 软 件 技 术 不 断 产 生 NoSQL:HBase,Cassandra,MongoDB Storage:HDFS,Tachyon Search:ElasticSearch, Lucene MPP: Teradata,GreenPlum, Aster,Gbase QueryEngine:Hive,Phoenix Apache 基 金 会 下 的 软 件 中 : BigData:30 个 Database:25 个

常 见 的 大 数 据 系 统 的 架 构 应 用 计 算 引 擎 数 据 存 储 ETL 系 统 数 据 A 数 据 B 数 据 C 应 用 计 算 引 擎 A 数 据 存 储 A 计 算 引 擎 B 数 据 存 储 B 计 算 引 擎 C 数 据 存 储 C ETL 系 统 数 据 A 数 据 B 数 据 C

数 据 存 储 间 如 何 相 互 访 问 方 案 1: 冗 余 存 储 方 案 2: 集 中 计 算 问 题 : 1 数 据 一 致 性 2 存 储 成 本 问 题 : 1 数 据 类 型 转 换 2 数 据 处 理 效 率 存 储 1 存 储 2 存 储 3 集 中 计 算 存 储 1 存 储 2 存 储 3 数 据 数 据 数 据 数 据

Spark 的 多 数 据 源 方 案 Spark 在 1.2.0 版 本 中 首 次 发 布 了 Data Sources API 这 套 API 主 要 提 供 了 一 种 快 速 灵 活 的 方 法 为 Spark 提 供 访 问 外 部 数 据 源 的 功 能 主 要 目 标 是 让 Spark 各 个 组 件 以 及 外 部 应 用 可 以 方 便 高 效 的 读 写 外 部 数 据

Spark DataSource API 问 题 1: 关 于 数 据 类 型 转 换 Spark SQL 中 的 一 套 函 数 式 关 系 查 询 优 化 框 架 Catalyst Catalyst 提 供 了 一 整 套 数 据 类 型 的 定 义 各 个 数 据 源 实 现 各 自 数 据 类 型 和 Catalyst 的 转 换

Spark DataSource API 问 题 2: 关 于 数 据 处 理 效 率 Spark 提 供 了 一 个 灵 活 的 api 来 兼 容 不 同 类 型 的 DataSource 包 括 : 支 持 全 量 扫 描 支 持 列 剪 枝 支 持 列 剪 枝 + 过 滤 机 制 支 持 数 据 插 入

在 Spark DataSource API 之 前

在 Spark DataSource API 之 后

可 以 使 用 的 Spark DataSource Spark 自 带 JDBC Mysql PostgreSQL HadoopFs Parquet JSON Orc Spark Packages 网 站 Avro CSV RedShift MongoDB Cassandra ElasticSearch 还 有 其 他 软 件 内 置 的 一 些 DataSource Apache Phoenix

JDBC 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 sqlcontext.read.jdbc( jdbc:postgresql://testhost:7531/testdb, testtable, idfield, ------- 索 引 列 10000, ------- 起 始 index 1000000, ------- 结 束 index 10, -------partition 数 量 new Properties ).registertemptable("testtable") Driver Executor Executor Executor JDBC Server 适 合 场 景 : 配 置 数 据 的 加 载, 处 理 问 题 : 随 着 数 据 量 增 加, 对 JDBC Server 的 压 力 骤 增

HadoopFs 获 取 文 件 列 表, 生 成 多 个 Task 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 已 经 支 持 Parquet,JSON, sqlcontext.read.parquet("hdfs://testfs/testpath").registertemptable("test") Driver Executor Executor Executor HDFS 适 合 场 景 : 离 线 处 理 中 输 入 输 出 数 据, 临 时 数 据 问 题 : 实 时 场 景 下, 无 法 增 量 写 入 数 据, 连 续 写 入 会 产 生 大 量 碎 片 文 件

https://github.com/elastic/elasticsearch-hadoop 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 EsSparkSQL.esDF(hc,indexName,esQuery).registerTempTable( testtable ) ElasticSearch Driver 获 取 Query 需 要 的 Nodes 和 Shards Executor Executor Executor 数 据 : 单 条 20K 主 机 :16C 32G 性 能 :40k~50k 条 / 秒 / 每 台 ES Node ES Node ES Node 适 合 场 景 : 存 储 doc 数 据, 随 机 数 据 搜 索 问 题 : 原 生 程 序 使 用 HTTP 方 式 进 行 数 据 加 载, 吞 吐 量 很 低 需 要 修 改 为 Traffic 方 式

Apache Phoenix https://github.com/apache/phoenix 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 sqlcontext.read.format("org.apache.phoenix.spark").options(map( table -> table, zkurl -> zookeeperurl)).load.registertemptable( testtable ) Driver 获 取 执 行 计 划, 分 解 成 多 个 Task Executor Executor Executor 数 据 : 单 条 100b 5 字 段 主 机 :8C 16G 性 能 :80k-100k 条 / 秒 / 每 台 数 据 : 单 条 2K 20 字 段 主 机 :8C 16G 性 能 :30k-50k 条 / 秒 / 每 台 Region 适 合 场 景 : Server 实 时 处 理 中 输 入 数 据, 统 计 结 果 数 据 问 题 : 需 要 根 据 需 求 仔 细 设 计 Schema Region Server Region Server

MongoDB https://github.com/stratio/spark-mongodb 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 sqlcontext.read.format( com.stratio.datasource.mongodb ).options(options).load.registertemptable( testtable ) Driver 获 取 Target 的 Sahrds Executor Executor Executor MongoDB Shard MongoDB Shard MongoDB Shard

Cassantra https://github.com/datastax/spark-cassandra-connector 支 持 列 剪 枝 支 持 条 件 过 滤 支 持 数 据 插 入 CassandraSQLContext val cscontext = new CassandraSQLContext(sc) sccontext. cassandrasql( xxxxxx ) Datastax 官 方 推 出 的 DataSource

我 们 的 公 司 GrowingIO 用 我 们 的 产 品 帮 助 企 业 大 规 模 驱 动 业 务 增 长 大 幅 度 增 加 分 析 效 率 用 数 据 增 长 营 收 智 能 数 据 标 记 Data 商 业 运 营 智 能 Intelligence

整 体 架 构 GrowingIO 的 Spark 实 践 Web UI Query Service HBase 离 线 应 用 Elastic Search 实 时 应 用 Kafka

GrowingIO 的 Spark 实 践 实 时 计 算 Kafka Json Table JDBC Table Spark Streaming 业 务 逻 辑 SQL HBase Table ES Table HBase Elastic Search PostgreSQL 配 置 库

GrowingIO 的 Spark 实 践 离 线 计 算 HBase HBase Table ES Table Spark Server 业 务 逻 辑 SQL HBase Table Hive Table HBase Elastic Search HDFS PostgreSQL 配 置 库

坑 1 Elastic Search Elastic Search 数 据 查 询 当 Mapping 数 据 的 列 大 于 Source 中 的 列 时, 报 Index Out of Bound Exception 修 改 RowValueReader 的 addtobuffer 方 法 Elastic 数 据 加 载 默 认 通 过 HTTP 的 接 口 加 载 数 据, 性 能 极 差 修 改 为 Transport 方 式 加 载 使 得 性 能 提 升 2-3 倍 性 能 优 化 需 要 详 细 设 计 Index, 尽 量 减 少 每 次 查 询 的 数 据 量

坑 2 Phoenix Spark 1.5 支 持 DecimalType GenericMutableRow => InternalRow PHOENIX-2279 Limit 与 Union 相 关 的 BUG Maven 中 Hadoop 版 本 兼 容 性 Region Split 导 致 缓 存 中 的 Region 信 息 失 效 Phoenix JDBC Driver has been closed(yarn 资 源 控 制 ) 读 取 数 据 时 Partition 数 量 过 少 导 致 读 取 速 度 慢

GrowingIO 的 Spark 实 践 总 结 : 使 用 Data Source API 带 来 好 处 存 储 成 本 降 低 : 数 据 只 存 储 一 份 开 发 成 本 降 低 : 无 需 关 心 外 部 数 据 源 的 连 接 代 码, 直 接 开 发 业 务 逻 辑 使 用 Data Source API 需 要 注 意 的 地 方 外 部 数 据 源 设 计 优 化 Elastic Search 的 Index 设 计 HBase 的 Schema 设 计 (Phoenix Bucket) 外 部 数 据 源 的 性 能 瓶 颈 执 行 顺 序 Cache 外 部 DataSource 的 BUG

GrowingIO 的 Spark 实 践 使 用 Spark Streaming Kafka Direct API 模 式 数 据 分 布 不 均 的 问 题 Receiver 模 式 在 计 算 量 较 大 时 需 要 通 过 shuffle 将 数 据 分 发 到 多 个 节 点 计 算 占 用 Yarn 资 源 的 问 题 Receiver 模 式 需 要 消 耗 Yarn 的 计 算 资 源 人 工 控 制 offset 根 据 应 用 场 景 手 工 控 制 offset 更 加 简 单 和 安 全 下 游 系 统 采 用 容 忍 重 复 的 设 计 原 则 保 证 Streaming 程 序 可 以 随 时 重 启 运 行

GrowingIO 的 Spark 实 践 优 化 Spark Streaming 的 调 度 机 制 原 有 调 度 机 制 下 的 问 题 定 时 器 定 时 创 建 job, 无 视 当 前 是 否 有 Job 正 在 运 行 所 有 的 Job 进 行 统 一 的 流 量 控 制 当 限 速 较 大 时, 会 发 生 Job 的 积 压 当 限 速 较 小 时, 处 理 性 能 又 不 高 优 化 后 的 调 度 机 制 JobScheduler 中 每 次 创 建 Job 后, 等 待 Job 结 束 后 再 创 建 下 一 个 Job 优 化 后 不 会 再 有 Job 的 积 压, 限 速 可 以 设 置 的 相 对 激 进 一 些 推 荐 的 限 速 设 置 : 最 大 处 理 能 力 的 80% Spark 1.5 中 的 BackPressure

GrowingIO 的 Spark 实 践 Spark Server 多 个 离 线 应 用 共 享 资 源 支 持 任 务 优 先 级 设 定 Spark App1 Spark Server Spark App2 Spark App3 S D K Spark Context Spark Cluster Spark AppN

感 谢 聆 听