About Me 田 亚 信 科 技 - 田 毅 Spark 社 区 Contributor 北 京 SparkMeetup 的 发 起 人 主 要 关 注 SparkSQL 与 Spark Streaming

Similar documents
<433A5C446F63756D656E E E67735C41646D696E F725CD7C0C3E65CC2DBCEC4CFB5CDB3CAB9D3C3D6B8C4CFA3A8BCF2BBAFA3A95CCAB9D3C3D6B8C4CF31302D31392E646F63>

说 明 为 了 反 映 教 运 行 的 基 本 状 态, 为 校 和 院 制 定 相 关 政 策 和 进 行 教 建 设 与 改 革 提 供 据 依 据, 校 从 程 资 源 ( 开 类 别 开 量 规 模 ) 教 师 结 构 程 考 核 等 维 度, 对 2015 年 春 季 期 教 运 行 基

<4D F736F F D D323630D6D0B9FAD3A6B6D4C6F8BAF2B1E4BBAFB5C4D5FEB2DFD3EBD0D0B6AF C4EAB6C8B1A8B8E6>

评 委 : 李 炎 斌 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

评 委 : 徐 岩 宇 - 个 人 技 术 标 资 信 标 初 步 审 查 明 细 表 序 号 投 标 单 位 投 标 函 未 按 招 标 文 件 规 定 填 写 漏 填 或 内 容 填 写 错 误 的 ; 不 同 投 标 人 的 投 标 文 件 由 同 一 台 电 脑 或 同 一 家 投 标 单

国债回购交易业务指引


一 开 放 性 的 政 策 与 法 规 二 两 岸 共 同 的 文 化 传 承 三 两 岸 高 校 各 自 具 有 专 业 优 势 远 见 杂 志 年 月 日

 编号:

中 国 软 科 学 年 第 期!!!

深圳市新亚电子制程股份有限公司

<433A5C C6B73625C B746F705CB9FABCCAD6D0D2BDD2A9D7A8D2B5B8DFBCB6BCBCCAF5D6B0B3C6C6C0C9F3C9EAC7EBD6B8C4CFA3A CDA8D3C3B0E6A3A92E646F63>

修改版-操作手册.doc

18 上 报 该 学 期 新 生 数 据 至 阳 光 平 台 第 一 学 期 第 四 周 至 第 六 周 19 督 促 学 习 中 心 提 交 新 增 专 业 申 请 第 一 学 期 第 四 周 至 第 八 周 20 编 制 全 国 网 络 统 考 十 二 月 批 次 考 前 模 拟 题 第 一 学

金 不 少 于 800 万 元, 净 资 产 不 少 于 960 万 元 ; (3) 近 五 年 独 立 承 担 过 单 项 合 同 额 不 少 于 1000 万 元 的 智 能 化 工 程 ( 设 计 或 施 工 或 设 计 施 工 一 体 ) 不 少 于 2 项 ; (4) 近 三 年 每 年

何 秋 琳 张 立 春 视 觉 学 习 研 究 进 展 视 觉 注 意 视 觉 感 知

Microsoft Word - 资料分析练习题09.doc

上海证券交易所会议纪要

2. 本 次 修 改 后, 投 资 者 申 购 新 股 的 持 有 市 值 要 求 市 值 计 算 规 则 及 证 券 账 户 使 用 的 相 关 规 定 是 否 发 生 了 变 化? 答 : 未 发 生 变 化 投 资 者 申 购 新 股 的 持 有 市 值 是 指, 以 投 资 者 为 单 位

一 公 共 卫 生 硕 士 专 业 学 位 论 文 的 概 述 学 位 论 文 是 对 研 究 生 进 行 科 学 研 究 或 承 担 专 门 技 术 工 作 的 全 面 训 练, 是 培 养 研 究 生 创 新 能 力, 综 合 运 用 所 学 知 识 发 现 问 题, 分 析 问 题 和 解 决


《C语言基础入门》课程教学大纲

2014年中央财经大学研究生招生录取工作简报

¹ º ¹ º 农 业 流 动 人 口 是 指 户 口 性 质 为 农 业 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个 月 及 以 上 的 流 动 人 口 非 农 流 动 人 口 是 指 户 口 性 质 为 非 农 户 口 在 流 入 地 城 市 工 作 生 活 居 住 一 个

( ) 信 号 与 系 统 Ⅰ 学 科 基 础 必 修 课 教 周 2016 年 06 月 13 日 (08:00-09:35) ( )

I

2006年顺德区高中阶段学校招生录取分数线

名 称 生 命 科 学 学 院 环 境 科 学 1 生 物 学 仅 接 收 院 内 调 剂, 初 试 分 数 满 足 我 院 生 物 学 复 试 最 低 分 数 线 生 命 科 学 学 院 生 态 学 5 生 态 学 或 生 物 学 生 命 科 学 学 院


Microsoft Word - 文件汇编.doc

证券代码: 证券简称:长城电脑 公告编号:


附 件 : 上 海 市 建 筑 施 工 企 业 施 工 现 场 项 目 管 理 机 构 关 键 岗 位 人 员 配 备 指 南 二 一 四 年 九 月 十 一 日 2

<4D F736F F D20B2CEBFBC3232C6DAD1A7CFB0D3EBCBBCBFBCC4DAD2B3>

ETF、分级基金规模、份额变化统计

课程类 别

关于修订《沪市股票上网发行资金申购

珠江钢琴股东大会

合 并 计 算 配 售 对 象 持 有 多 个 证 券 账 户 的, 多 个 证 券 账 户 市 值 合 并 计 算 确 认 多 个 证 券 账 户 为 同 一 配 售 对 象 持 有 的 原 则 为 证 券 账 户 注 册 资 料 中 的 账 户 持 有 人 名 称 有 效 身 份 证 明 文 件

一 从 分 封 制 到 郡 县 制 一 从 打 虎 亭 汉 墓 说 起

采 取 行 动 的 机 会 90% 开 拓 成 功 的 道 路 2

正 规 培 训 达 规 定 标 准 学 时 数, 并 取 得 结 业 证 书 二 级 可 编 程 师 ( 具 备 以 下 条 件 之 一 者 ) (1) 连 续 从 事 本 职 业 工 作 13 年 以 上 (2) 取 得 本 职 业 三 级 职 业 资 格 证 书 后, 连 续 从 事 本 职 业

(4) 具 有 较 强 的 书 面 表 达 口 头 表 达 评 价 决 策 能 力 (5) 具 有 良 好 的 计 算 机 应 用 能 力 和 英 语 能 力 2. 招 聘 岗 位 : 综 合 管 理 部 行 政 综 合 管 理 (1) 负 责 做 好 公 司 领 导 日 常 工 作 安 排 和 协

随着执业中医师资格考试制度的不断完善,本着为我校中医学专业认证服务的目的,本文通过对我校中医类毕业生参加2012年和2013年的中医执业医师考试成绩及通过率、掌握率进行分析,并与全国的平均水平进行差异比较分析,以此了解我校执业中医师考试的现状,进而反映我校中医类课程总体教学水平,发现考核知识模块教学中存在的不足,反馈给相关学院和教学管理部门,以此提高教学和管理水平。

,,,,, :,, (.,, );, (, : ), (.., ;. &., ;.. &.., ;, ;, ),,,,,,, ( ) ( ),,,,.,,,,,, : ;, ;,.,,,,, (., : - ),,,, ( ),,,, (, : ),, :,

附件1:

龚 亚 夫 在 重 新 思 考 基 础 教 育 英 语 教 学 的 理 念 一 文 中 援 引 的 观 点 认 为 当 跳 出 本 族 语 主 义 的 思 维 定 式 后 需 要 重 新 思 考 许 多 相 连 带 的 问 题 比 如 许 多 发 音 的 细 微 区 别 并 不 影 响 理 解 和

( 二 ) 现 行 统 一 高 考 制 度 不 利 于 培 养 人 的 创 新 精 神,,,,,,,,,,,,, [ ],,,,,,,,,,, :, ;,,,,,,? ( 三 ) 现 行 统 一 高 考 制 度 不 利 于 全 体 学 生 都 获 得 全 面 发 展,, [ ],,,,,,,,,,,

2016年南开大学MBA招生信息

中国石化油品销售企业CRM调研报告

上海证券交易所会议纪要


0 年 上 半 年 评 价 与 考 核 细 则 序 号 部 门 要 素 值 考 核 内 容 考 核 方 式 考 核 标 准 考 核 ( 扣 原 因 ) 考 评 得 3 安 全 生 产 目 30 无 同 等 责 任 以 上 道 路 交 通 亡 人 事 故 无 轻 伤 责 任 事 故 无 重 大 质 量

目 录 关 于 图 标... 3 登 陆 主 界 面... 3 工 单 管 理... 5 工 单 列 表... 5 搜 索 工 单... 5 工 单 详 情... 6 创 建 工 单... 9 设 备 管 理 巡 检 计 划 查 询 详 情 销 售 管

<4D F736F F D20BFC9B1E0B3CCD0F2BFD8D6C6CFB5CDB3C9E8BCC6CAA6B9FABCD2D6B0D2B5B1EAD7BC2E646F63>

·岗位设置管理流程

<4D F736F F D20B3D6B2D6CFDEB6EEB1EDB8F1D7EED6D52E646F63>

上证指数

工 程 勘 察 资 质 标 准 根 据 建 设 工 程 勘 察 设 计 管 理 条 例 和 建 设 工 程 勘 察 设 计 资 质 管 理 规 定, 制 定 本 标 准 一 总 则 ( 一 ) 本 标 准 包 括 工 程 勘 察 相 应 专 业 类 型 主 要 专 业 技 术 人 员 配 备 技 术

Microsoft Word - 工业品封面.doc

目 录 第 一 章 博 星 卓 越 电 子 商 务 营 销 策 划 实 践 平 台 硬 件 使 用 介 绍... 3 第 二 章 博 星 卓 越 电 子 商 务 营 销 策 划 实 践 平 台 管 理 员 端 功 能 使 用 介 绍 系 统 管 理 员 登 陆 班

<4D F736F F D20B9D8D3DAB0BABBAAA3A8C9CFBAA3A3A9D7D4B6AFBBAFB9A4B3CCB9C9B7DDD3D0CFDEB9ABCBBE C4EAC4EAB6C8B9C9B6ABB4F3BBE1B7A8C2C9D2E2BCFBCAE92E646F6378>

抗 战 时 期 国 民 政 府 的 银 行 监 理 体 制 探 析 % # % % % ) % % # # + #, ) +, % % % % % % % %

自 服 务 按 钮 无 法 访 问 新 系 统 的 自 服 务 页 面 因 此 建 议 用 户 从 信 网 中 心 ( 主 页, 右 下 角 位 置 的 常 用 下 载, 或 校 园 网 用 户 自 服 务 ( 首 页

!!

《深圳市场首次公开发行股票网上按市值申购实施办法》.doc

(1) 信 息 系 统 项 目 管 理 综 合 知 识, 考 试 时 间 为 150 分 钟, 笔 试, 选 择 题 ; (2) 信 息 系 统 项 目 管 理 案 例 分 析, 考 试 时 间 为 90 分 钟, 笔 试, 问 答 题 ; (3) 信 息 系 统 项 目 管 理 论 文, 考 试

学 年 第 二 学 期 集 中 考 试 安 排 (18 周 ) 考 试 日 期 :6 月 27 日 星 期 一 8:10-9:50 第 二 公 共 教 学 楼 A 区 A 高 等 数 学 ( 理 二 2) 复 材 材 料 科 学 与 工 程

证监会行政审批事项目录

Microsoft Word - 中节能_工业项目节能评估审查导则Draft.doc

第四章 投资性房地产

<4D F736F F D20C6F3D2B5C5E0D1B5CAA6B9FABCD2D6B0D2B5B1EAD7BC2E646F63>

年中国煤炭行业研究分析报告

定 位 和 描 述 : 程 序 设 计 / 办 公 软 件 高 级 应 用 级 考 核 内 容 包 括 计 算 机 语 言 与 基 础 程 序 设 计 能 力, 要 求 参 试 者 掌 握 一 门 计 算 机 语 言, 可 选 类 别 有 高 级 语 言 程 序 设 计 类 数 据 库 编 程 类

Microsoft Word - 第7章 图表反转形态.doc

:厦门安妮股份有限公司关于重大资产重组事项相关公告的更正公告+

HSK( 一 级 ) 考 查 考 生 的 日 常 汉 语 应 用 能 力, 它 对 应 于 国 际 汉 语 能 力 标 准 一 级 欧 洲 语 言 共 同 参 考 框 架 (CEF) A1 级 通 过 HSK( 一 级 ) 的 考 生 可 以 理 解 并 使 用 一 些 非 常 简 单 的 汉 语

伊 犁 师 范 学 院 611 语 言 学 概 论 全 套 考 研 资 料 <2016 年 最 新 考 研 资 料 > 2-2 语 言 学 纲 要 笔 记, 由 考 取 本 校 本 专 业 高 分 研 究 生 总 结 而 来, 重 点 突 出, 借 助 此 笔 记 可 以 大 大 提 高 复 习 效

公 开 刊 物 须 有 国 内 统 一 刊 (CN), 发 表 文 章 的 刊 物 需 要 在 国 家 新 闻 出 版 广 电 总 局 ( 办 事 服 务 便 民 查 询 新 闻 出 版 机 构 查 询 ) 上 能 够 查 到 刊 凡 在 有 中 国 标 准 书 公 开

西 南 民 族 学 院 学 报 哲 学 社 会 科 学 版 第 卷 资 料 来 源 中 国 统 计 年 鉴 年 年 新 中 国 五 十 年 统 计 资 料 汇 编 中 国 人 口 统 计 年 鉴 年 数 据 资 料 来 源 中 国 统 计 年 鉴 中 国 统 计 出 版 社 年 版 资 料 来 源

系统设计文档_样稿管理模块 V1.1_.doc

!!!!!

21 业 余 制 -- 高 起 专 (12 级 ) 75 元 / 学 分 网 络 学 院 学 生 沪 教 委 财 (2005)49 号 江 西 化 校 工 科 22 业 余 制 -- 高 起 专 (12 级 ) 70 元 / 学 分 网 络 学 院 学 生 沪 教 委 财 (2005)49 号 吉

过 天 天 基 金 申 购 ( 含 定 投 ) 本 基 金, 享 有 申 购 费 率 优 惠, 具 体 折 扣 费 率 以 天 天 基 金 网 站 页 面 3 上 海 好 买 基 金 销 售 有 限 公 司 过 好 买 基 金 电 子 交 易 平 台 申 购 ( 含 定 投 ) 本 基 金, 享 有

中 国 社 会 科 学 年 第 期!!!! ( ( ) % ) ) ) % % % %

内 容 二 : 建 立 并 完 善 了 三 点 的 网 络 教 学 管 理 体 系 内 容 三 : 注 重 培 养 学 生 的 听 说 能 力 14

2016年德州市机构编制委员会

抗 日 战 争 研 究 年 第 期

证券代码: 证券简称:大唐电信 编号:XXXXX-XXX号

金融全渠道银行彩页中文版0702

收 入 支 出 项 目 2016 年 预 算 项 目 2016 年 预 算 预 算 01 表 单 位 : 万 元 ( 保 留 两 位 小 数 ) 一 公 共 财 政 预 算 拨 款 一 人 员 经 费 一 般 财 力 人 员 支 出 成 品

第 六 章 债 券 股 票 价 值 评 估 1 考 点 一 : 债 券 价 值 的 影 响 因 素 2

世华财讯模拟操作手册

年证券行业运行市场运营及投资战略咨询报告

国际财务报告准则第13号——公允价值计量

第二讲 数列

untitled

doc

中 中 中 中 部 中 岗 位 条 件 历 其 它 历 史 师 地 理 师 生 物 师 体 与 健 康 师 从 事 中 历 史 工 从 事 中 地 理 工 从 事 中 生 物 工 从 事 中 体 与 健 康 工 2. 课 程 与 论 ( 历 史 ); 2. 科 ( 历 史 )

2016 年 荔 湾 区 财 政 核 定 支 出 汇 总 表 表 二 单 位 名 称 : 广 州 文 化 公 园 基 本 支 出 项 目 支 出 科 目 编 码 预 算 科 目 名 称 一 般 公 共 预 算 5, , , , ,

Transcription:

Spark 技 术 研 究 与 实 践 分 享

About Me 田 毅 tianyi.asiainfo@gmail.com @ 亚 信 科 技 - 田 毅 Spark 社 区 Contributor 北 京 SparkMeetup 的 发 起 人 主 要 关 注 SparkSQL 与 Spark Streaming

提 纲 为 什 么 选 择 Spark Spark 实 践 分 享 使 用 Spark 的 建 议

为 什 么 选 择 Spark 多 种 计 算 场 景 的 结 合 多 数 据 源 的 计 算 中 心 活 跃 的 社 区 支 持

多 种 计 算 场 景 的 结 合 User Application 用 户 应 用 SQL 批 处 理 Streaming 流 处 理 MLlib 机 器 学 习 GraphX 图 计 算 Spark Core (SparkContext+RDD+DAG) 随 着 信 息 技 术 的 发 展, 越 来 越 多 的 企 业 面 临 着 复 杂 计 算 场 景 的 考 验 1 机 器 学 习 的 不 断 发 展 和 应 用 2 信 息 时 效 性 决 定 了 流 处 理 技 术 的 重 要 性 3 传 统 业 务 人 员 操 作 熟 练 的 SQL 编 写 能 力

多 种 计 算 场 景 的 结 合 假 设 场 景 : 与 新 浪 微 博 合 作, 通 过 一 个 消 息 队 列 实 时 接 收 微 博 信 息, 根 据 指 定 关 键 字 过 滤 消 息 消 消 微 息 息 Storm 博 队 队 列 列 传 统 方 案 : 使 用 Storm 读 取 消 息 队 列 内 容, 设 定 Bolt 进 行 关 键 字 过 滤

多 种 计 算 场 景 的 结 合 假 设 场 景 : 与 新 浪 微 博 合 作, 通 过 一 个 消 息 队 列 实 时 接 收 微 博 信 息, 根 据 指 定 关 键 字 过 滤 消 息, 再 通 过 实 时 配 置 SQL 对 微 博 进 行 统 计 分 析, 生 成 实 时 报 表 微 博 消 息 队 列 Storm 传 统 方 案 : 使 用 Storm 读 取 消 息 队 列 内 容, 设 定 Bolt 进 行 关 键 字 过 滤, 将 结 果 写 入 HDFS 使 用 Hive 或 者 Impala 实 现 SQL 统 计 分 析 H D F S Hive/ Impala

多 种 计 算 场 景 的 结 合 假 设 场 景 : 与 新 浪 微 博 合 作, 通 过 一 个 消 息 队 列 实 时 接 收 微 博 信 息, 根 据 指 定 关 键 字 过 滤 消 息, 通 过 机 器 学 习, 对 关 键 字 不 断 进 行 调 整, 再 通 过 实 时 配 置 SQL 对 微 博 进 行 统 计 分 析, 生 成 实 时 报 表 ; 微 博 消 息 队 列 Storm 传 统 方 案 : 使 用 Storm 读 取 消 息 队 列 内 容, 设 定 Bolt 进 行 关 键 字 过 滤, 将 结 果 写 入 HDFS 使 用 Hive 或 者 Impala 实 现 SQL 统 计 分 析 使 用 Mahout 实 现 机 器 学 习 算 法, 将 训 练 后 的 算 法 模 型 回 传 给 Storm H D F S Hive/ Impala Mahout

多 种 计 算 场 景 的 结 合 Spark 方 案 : 微 博 消 息 队 列 Spark Streaming + MLlib 消 息 队 列 优 势 : 1 同 一 套 架 构, 学 习 成 本 较 低 2 资 源 可 统 一 规 划 3 流 计 算 与 Machine Learning 数 据 交 互 简 单 商 业 产 品 :Databricks Cloud 开 源 产 品 :zeppelin https://github.com/nflabs/ zeppelin

多 数 据 源 的 计 算 中 心 对 于 大 多 数 公 司 来 说, 数 据 会 根 据 应 用 场 景 被 存 储 到 多 种 数 据 源 以 我 们 熟 悉 的 电 信 行 业 举 例 : 数 据 类 型 举 例 应 用 场 景 存 储 方 式 单 据 类 数 据 通 信 详 单, 账 单 随 机 查 询 HBase, Cassandra 日 志 类 数 据 关 系 类 数 据 信 令 数 据, 应 用 日 志 用 户 资 料, 订 购 关 系 汇 总 分 析 实 时 更 新, 关 联 查 询 HDFS RDBMS 但 是, 这 些 数 据 单 独 应 用 只 能 满 足 企 业 内 部 若 干 独 立 的 应 用 场 景 想 要 真 正 的 从 数 据 中 获 得 最 大 的 价 值, 必 须 让 所 有 数 据 关 联 到 一 起 进 行 计 算 分 析

多 数 据 源 的 计 算 中 心 计 算 引 擎 RDBMS ETL HDFS MR HBASE 复 杂 的 数 据 同 步 流 程 极 大 消 耗 网 络 带 宽 和 存 储 资 源

多 数 据 源 的 计 算 中 心 Spark 1.1.0 通 过 扩 展 RDD 实 现 外 部 数 据 访 问 Spark HadoopFileRDD RDBMS HDFS HBASE 使 用RDD 扩 展 存 在 的 问 题 : 只 能 全 量 获 取, 网 络 压 力 大, 无 用 传 输 太 多 引 用Cheng Lian@Databricks 在 Meetup 上 的 slide

多 数 据 源 的 计 算 中 心 Spark 1.2.0 External Datasource API BaseRelation 尽 可 能 将 列 过 滤 与 行 过 滤 在 Server 端 进 行, 降 低 传 输 大 小 可 以 更 好 的 利 用 数 据 源 的 特 性 TableScan 全 量 扫 描 PrunedScan 指 定 列 扫 描 PrunedFilteredScan 根 据 Filter 指 定 列 扫 描 (Parquet and ORC) 引 用Cheng Lian@Databricks 在 Meetup 上 的 slide

多 数 据 源 的 计 算 中 心 查 询 所 有 开 通 GPRS 用 户 中, 各 项 增 值 业 务 的 用 户 数, 平 均 年 龄, 总 花 费 select t2.businame, count(t2.user), avg(age), sum(t2.fee) from ( select businame, user, sum(fee) as fee from user_bill where busitype in ('sms','gprs') group by businame, user ) t1 left outer join ( select user, age from user_info where user_usegprs=1 ) t2 on t1.user = t2.user where t2.user is not null group by t2.businame requiredcolumns=(user,age) filter=( user_usegprs=1 ) SQL RDD DB2Relation ResultSet DB2 user_info SPARK RDD HBaseRelation RowSet requiredcolumns filter Hbase user_bill Filter

多 数 据 源 的 计 算 中 心 企 业 级 数 据 计 算 中 心 SPARK HBase RMDBS HDFS Cassandra Json Parquet

活 跃 的 社 区 支 持 2013 年 6 月 2014 年 6 月 2014 年 12 月 Contributor 数 量 参 与 贡 献 的 公 司 68 255 368 17 50 未 统 计 代 码 行 数 63000 175000 239000

活 跃 的 社 区 支 持 活 跃 的 邮 件 列 表 : user@spark.apache.org dev@spark.apache.org 日 均 70+ 的 邮 件 JIRA 问 题 收 集 : 日 平 均 报 告 / 解 决 issue 15 个 Github Pull Request: 日 平 均 merge pull request 10 个

活 跃 的 社 区 支 持 11 月 刚 刚 推 出 的 模 块 维 护 人 制 度, 确 保 每 个 模 块 都 有 至 少 2 个 committer 专 门 跟 踪 维 护 - Spark core public API: Matei, Patrick, Reynold - Job scheduler: Matei, Kay, Patrick - Shuffle and network: Reynold, Aaron, Matei - Block manager: Reynold, Aaron - YARN: Tom, Andrew Or - Python: Josh, Matei - MLlib: Xiangrui, Matei - SQL: Michael, Reynold - Streaming: TD, Matei - GraphX: Ankur, Joey, Reynold

Spark 实 践 分 享 使 用 Spark 实 现 信 令 数 据 的 实 时 营 销 使 用 Spark 实 现 广 告 竞 价 效 果 实 时 反 馈 平 台

使 用 Spark 实 现 信 令 数 据 的 实 时 营 销 场 景 描 述 : 输 入 数 据 用 户 信 令 数 据 : 每 秒 钟 5w 条 业 务 需 求 沉 淀 : 形 成 用 户 实 时 位 置 信 息 和 行 为 轨 迹 匹 配 : 合 适 的 业 务, 对 用 户 进 行 主 动 营 销 需 要 支 持 多 业 务 的 扩 展 输 出 数 据 用 户 实 时 位 置 信 息 用 户 历 史 行 为 轨 迹 需 要 进 行 业 务 营 销 的 用 户 信 息 难 点 大 量 的 数 据 查 询 更 新

业 务 架 构 主 流 程 业 务 流 程 1 数 据 筛 选 业 务 判 断 数 据 清 洗 消 息 队 列 数 据 增 强 消 息 队 列 业 务 流 程 2 数 据 筛 选 业 务 判 断 数 据 沉 淀 业 务 流 程 3 数 据 筛 选 业 务 判 断

技 术 架 构 1.0 消 息 队 列 增 量 数 据 Spark Streaming 预 处 理 业 务 流 程 消 息 队 列 输 出 数 据 增 量 数 据 业 务 流 程 外 围 系 统 增 量 数 据 HBase 输 出 数 据 增 量 数 据 HDFS 输 出 数 据 关 联 数 据 1 关 联 数 据 2 关 联 数 据 关 联 数 据 n

技 术 架 构 1.0 实 践 优 化 : Spark 优 化 Kafka 接 收 数 据 优 化 : 多 Topic, 多 Dstream,Repatition Task 并 行 数 量 优 化 Hbase 优 化 预 建 多 分 区 balance 表 现 : 集 群 处 理 吞 吐 能 力 无 法 满 足 要 求 分 析 : 集 群 规 模 较 小,Spark 最 大 并 发 任 务 数 不 到 300, 同 时 Hbase 操 作 平 均 不 到 150 Hbase 单 次 request 处 理 时 间 1-2ms, 每 秒 处 理 700( 单 线 程 ) 总 计 处 理 100000 每 秒 实 际 需 求 :5w*4 =200000 每 秒 结 论 : 机 器 数 量 有 限 时, 有 限 的 任 务 并 行 度 会 限 制 Hbase 的 吞 吐 能 力

技 术 架 构 2.0 消 息 队 列 增 量 数 据 Spark Streaming 预 处 理 业 务 流 程 消 息 队 列 输 出 数 据 增 量 数 据 业 务 流 程 外 围 系 统 增 量 数 据 增 量 数 据 RDD File HDFS 广 播 变 量 输 出 数 据 输 出 数 据 动 态 数 据 只 读 数 据

实 现 信 令 数 据 的 实 时 处 理 预 处 理 流 程 业 务 : 沉 淀 用 户 实 时 位 置 信 息 和 行 为 轨 迹 在 流 数 据 上 增 加 用 户 历 史 位 置 信 息 实 现 方 式 : val cogroup = leftrdd.cogroup(rightrdd).map { (lout, rout) } cogroup.cache() cogroup.flatmap(_._1) cogroup.flatmap(_._2) 流 入 数 据 输 出 数 据 COGroup 用 户 历 史 用 户 历 史 更 新

实 现 信 令 数 据 的 实 时 处 理 子 流 程 业 务 ( 举 例 ): 判 断 是 否 校 园 用 户 ( 根 据 校 园 基 站 列 表 ) 判 断 是 否 营 销 对 象 ( 根 据 用 户 资 料 表 与 营 销 规 则 表 ) 对 比 更 新 营 销 结 果 表 ( 避 免 重 复 营 销 ) 数 据 通 过 Kafka 发 给 营 销 系 统 实 现 方 法 : inputdstream.foreachrdd(rdd=>{ rdd.. registerastable( inputtable") val temprs = sql( xxxxx ) temprs.. registerastable( temptable") val result = sql( xxxxx ) }) 流 入 数 据 关 联 表 1 SQL 临 时 数 据 SQL 关 联 表 2 输 出 数 据

使 用 Spark 实 现 广 告 竞 价 效 果 实 时 反 馈 平 台 浏 览 网 页 竞 价 请 求 点 击 广 告 广 告 位 XX 网 站 广 告 交 易 平 台 出 价 竞 价 成 功 DSP 平 台 报 表 系 统 跳 转 浏 览 记 录 目 标 网 站 购 买 记 录

使 用 Spark 实 现 广 告 竞 价 效 果 实 时 反 馈 平 台 业 务 需 求 1: 1 实 时 收 集 所 有 出 价 记 录, 竞 价 成 功 记 录, 浏 览 记 录 和 购 买 记 录 2 按 广 告 位 统 计 : 最 近 2000 次 的 竞 价 成 功 次 数 最 近 2000 次 的 平 均 成 功 价 格 最 近 2000 次 的 点 击 比 率 3 将 实 时 统 计 结 果 反 馈 到 竞 价 模 块 对 竞 价 策 略 进 行 调 整 业 务 需 求 2: 1 按 广 告 主 统 计 : 出 价 次 数 花 费 金 额 转 化 率 等 等 指 标 2 将 实 时 统 计 结 果 更 新 到 报 表 模 块 展 示 技 术 难 点 : 1 数 据 量 较 大, 每 秒 消 息 数 量 在 3-5 万 2 不 按 照 常 用 的 时 间 窗 口 统 计, 而 按 照 竞 价 次 数 统 计

技 术 架 构 HDFS Spark Streaming 消 息 队 列 Spark Streaming 日 志 1 日 志 1 预 处 理 竞 价 统 计 反 馈 DSP 平 台 日 志 2 日 志 3 日 志 2 预 处 理 日 志 3 预 处 理 Spark Streaming 日 志 4 日 志 4 预 处 理 报 表 统 计

技 术 架 构 HDFS Spark Streaming 日 志 1 日 志 1 预 处 理 竞 价 统 计 反 馈 DSP 平 台 日 志 2 日 志 3 日 志 2 预 处 理 日 志 3 预 处 理 UNION &CACHE 报 表 统 计 日 志 4 日 志 4 预 处 理

预 处 理 数 据 获 取 数 据 清 洗 数 据 聚 合 格 式 转 换 数 据 清 洗 : DStream.filter: 清 洗 非 法 格 式 数 据 DStream.map: 清 洗 不 使 用 的 数 据 字 段 数 据 聚 合 : DStream.reduceByKey: 对 数 据 进 行 统 计 聚 合 维 度 : 广 告 位 广 告 主 格 式 转 换 : DStream.map: 将 数 据 转 换 格 式 为 统 一 格 式

竞 价 统 计 反 馈 数 据 获 取 数 据 聚 合 数 据 输 出 数 据 获 取 : DStream.filter: 按 需 获 取 需 要 的 数 据 数 据 聚 合 : DStream.updateStateByKey: 对 每 个 广 告 位 的 状 态 ( 统 计 信 息 ) 进 行 更 新 其 中 State 可 以 是 自 定 义 的 class 数 据 输 出 : DStream.mapPartition: 将 数 据 输 出 到 指 定 的 接 口 (http 或 者 JDBC)

SparkStreaming 实 施 中 的 问 题 Hdfs 文 件 正 在 生 成 时 文 件 后 缀 问 题 java.io.filenotfoundexception: File does not exist: / user/streaming/tmp/test/bidinput/2bid.gz._copying_ 产 生 原 因 : SparkStreaming 读 取 目 录 时 没 有 过 滤 正 在 拷 贝 的 文 件 Patch: [SPARK- 4314]

SparkStreaming 实 施 中 的 问 题 FileInputDStream 只 能 读 取 单 级 目 录 对 于 这 样 的 目 录 层 级, 无 法 使 用 SparkStreaming 读 取 --data --20141201 --20141202 --20141203 --20141204 Patch: [SPARK-3586]

SparkSQL 相 关 Patch HashOuterJoin 优 化 [SPARK-4483] 通 过 单 表 遍 历 的 方 式, 替 换 原 有 两 边 HashMap 的 Join 方 式 100 万 join 1 万 性 能 对 比, 性 能 提 升 16%, 内 存 消 耗 减 少 70% master: 耗 时 : 12671 ms 耗 时 : 9021 ms 耗 时 : 9200 ms Current Mem Usage:787788984 after patch: 耗 时 : 10382 ms 耗 时 : 7543 ms 耗 时 : 7469 ms Current Mem Usage:208145728

SparkSQL 相 关 Patch BroadcastHashOuterJoin 优 化 [SPARK-4485] 通 过 Broadcast 实 现 小 表 在 Map 端 实 现 OuterJoin 性 能 对 比, 性 能 提 升 7 倍 Original: left outer join : 15439 ms right outer join : 9707 ms Optimized: left outer join : 1992 ms right outer join : 1288 ms

SparkSQL 相 关 Patch 重 要 Feature: 动 态 分 区 功 能 [SPARK-3007] Window 函 数 功 能 [SPARK-1442]

使 用 Spark 的 建 议 如 何 与 社 区 互 动 参 加 meetup 活 动

如 何 与 社 区 互 动 最 简 单 的 方 法 : 加 入 spark-user 邮 件 组 发 送 邮 件 到 :user-subscribe@spark.apache.org ( 引 用 @ 连 城 404 在 beijingmeetup 上 的 分 享 Spark 社 区 协 作 指 南 ) 更 多 人 关 注, 可 以 及 时 得 到 丰 富 翔 实 的 答 案 更 易 于 积 累, 供 自 己 和 他 人 日 后 检 索 篇 幅 不 受 限 的 富 文 本 支 持, 可 以 清 晰 详 尽 地 描 述 问 题 英 语? 不 是 问 题 ( 惧 怕 英 语 才 是 问 题 )

参 加 meetup 活 动 2014 年 8 月 开 始, 在 北 京 组 织 了 中 国 首 个 Spark Meetup 小 组, 活 动 的 宗 旨 是 : 更 好 的 推 广 Spark 技 术, 推 进 中 国 Spark 使 用 者 的 技 术 交 流 12 月 13 日 刚 刚 举 行 了 第 4 次 meetup(sparksql 专 题 ) 活 动 活 动 得 到 Databricks 公 司 的 多 名 技 术 人 员 支 持, 并 且 汇 集 了 多 名 国 内 Spark 技 术 专 家 国 内 Spark Meetup 人 数 最 多 且 最 活 跃 的 小 组, 全 世 界 Spark Meetup 人 数 排 名 第 7 全 国 范 围 目 前 还 有 上 海, 杭 州, 深 圳 组 织 了 各 种 活 动 http://www.meetup.com/ 搜 索 beijing spark

按照惯例 加入我们的团队 Email to : tianyi@asiainfo.com 我们有 大量的大数据项目实践机 会 50+的Spark Patch提交记 录 请和我们一起把Spark做的 更好

谢 谢