ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

Similar documents
PowerPoint Presentation


培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

untitled

PowerPoint 演示文稿

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

北京金英杰医学考试中心

2009年挑战乔戈里

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

PowerPoint 演示文稿

中華民國青溪協會第四屆第三次理監事聯席會議資料

第 06 期 李祥池 : 基于 ELK 和 Spark Streaming 的日志分析系统设计与实现 1 日志 1.1 日志定义 IT 1.2 日志处理方案演进 v1.0 v2.0 Hadoop Storm Spark Hadoop/Storm/Spark v3.0 TB Splunk ELK SI

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

(排后2)中心组学习4.doc

2. 下 列 理 解 和 分 析, 不 符 合 原 文 意 思 的 一 项 是 ( ) A. 水 手 在 伦 敦 讲 东 印 度 群 岛 的 所 见 所 闻, 匠 人 在 火 炉 边 讲 自 己 的 人 生 经 历, 他 们 讲 的 故 事 各 有 特 点, 但 同 属 于 传 统 故 事 模 式

《米开朗琪罗传》

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

Azure_s

逢甲大學實習工場

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

PowerPoint Presentation

中國大陸台商個案分析簡報.ppt



第一章

WinXP

! $%%&! (!"# $%%& $) * +, -. / 0 *-./ 0 /1 -!!!!!! 21.!!!!!! 31 /!!!!!! 41 0 $%%& )% $%%& 5 $%%& 6 $%%& $%%& ( #!! " #

雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO

(Microsoft Word - 01\277n\306{\271q\250\256.doc)

穨_1_.PDF

标题

目 录 一 重 要 提 示... 3 二 公 司 主 要 财 务 数 据 和 股 东 变 化... 3 三 重 要 事 项... 8 四 附 录 / 28

合集

记 忆 155 期 北 京 大 学 文 革 专 辑 (9) 目 录 专 稿 章 铎 从 高 云 鹏 的 遭 遇, 看 迟 群 之 流 的 专 制 附 : 高 云 鹏 给 胡 宗 式 章 铎 的 信 (2015 年 11 月 19 日 ) 评 论 马 云 龙 王 复 兴 抢 救 记 忆 : 一 个 北

硕士论文正文


不 会 忘 记, 历 史 不 会 忘 记, 当 一 个 古 老 神 州 正 以 崭 新 的 姿 态 昂 首 屹 立 于 世 界 东 方 的 时 候, 当 世 界 把 延 伸 的 广 角 镜 瞄 准 这 片 神 奇 土 地 的 时 候, 中 国 人 民 已 深 深 感 到, 现 在 所 拥 有 的,

第一章

标题

第 二 章 鉴 证 业 务 的 定 义 和 目 标 第 五 条 鉴 证 业 务 是 指 注 册 会 计 师 对 鉴 证 对 象 信 息 提 出 结 论, 以 增 强 除 责 任 方 之 外 的 预 期 使 用 者 对 鉴 证 对 象 信 息 信 任 程 度 的 业 务 鉴 证 对 象 信 息 是 按

Microsoft Word - media-tips-zh.doc

A 单 位 负 责 人 B 会 计 机 构 负 责 人 C 会 计 主 管 人 员 D 会 计 人 员 多 选 题 : 1. 单 位 伪 造 变 造 会 计 凭 证 会 计 账 簿, 编 制 虚 假 财 务 会 计 报 告 的, 县 级 以 上 人 民 政 府 财 政 部 可 以 依 法 行 使 的

第六篇守势





untitled

文档 1


_題目卷

!!! #!!! $##%!!! $!!!! &!!!! (!! %!! )!!! *!!!!!!! #!!!!! $

!##$ %!!##$ & (!##$ %!!##$ &!##$!##(!##$! "

<4D F736F F D20D5D0B1EACEC4BCFEBCB0C7E5BDE0B7FECEF1BACFCDAC28C2C9CAA6B0E631A3A92E646F6378>

<4D F736F F D20B160A5CEA4A4B0EABCF4BB79A5DCA8D22E646F63>

國立中山大學學位論文典藏.PDF

"#" " "" " " "# $ " %( )# #( %& ( " % " " # ) *# " # " $ " #(( " " "#+( % " % $ " & # " " $ $ " " $ % & " #$ % $ "& $ "" " ") # #( "( &( %+"(

89,,,,,,,,,,,,,,,,?,???,,,,,,,,,,,,,

!"#!" # $% & ($) *! +,-./ 0%)!1"%& 0%2!$!$$$ "$$$$ #$ % $$30!4$4 5,6 *& (+ 0!&" * + 7!!4 & ( )! & ( )! 80)09! 7&! #!1!1$" &&!!%!,-./ 0%)!1"%& 0%2 &1$

國立嘉義高中96學年度資優班語資班成班考國文科試題

untitled

User ID 150 Password - User ID 150 Password Mon- Cam-- Invalid Terminal Mode No User Terminal Mode No User Mon- Cam-- 2



Tech Radar2015修改111

菩提道次第廣論

路 上 沒 說 話, 車 子 被 爸 離 去 後 開 走 了, 沒 什 麼 變, 除 了 一 股 淡 淡 的 香 味, 我 不 太 習 慣, 像 空 氣 中 的 粉 塵, 左 飄 右 飄, 光 中 飛 舞 我 沒 提, 看 車 窗 外, 外 面 不 太 有 趣, 我 只 是 沒 事 幹, 我 們 本

繁 華 國 小 101 學 年 母 親 節 感 恩 惜 福 - 跳 蚤 市 場 暨 科 學 闖 關 遊 戲 親 子 活 動 實 施 計 畫 一 依 據 : 本 校 101 學 年 度 校 務 計 畫 及 行 事 曆 二 目 的 : 1. 培 養 學 生 感 恩 惜 物 知 福 惜 福 的 節 儉 觀

台 中 市 北 屯 區 東 山 里 橫 坑 9 林 志 明 巷 89-5 菜 豆 菜 大 漿 果 菜 豆 菜 大 漿 果 小 漿 果 核 果 柑 桔 無 陳 錦 生 新 竹 市 香 山 區


育儿小故事(四)


高中國文科期末考            年班號姓名:

2 A

华南理工大学广州学院

东 奥 解 析 (1) 小 规 模 纳 税 人 销 售 货 物, 应 按 照 3% 的 征 收 率 计 算 应 纳 税 额, 不 得 抵 扣 进 项 税 额 ;(2) 计 税 依 据 含 增 值 税 的, 应 价 税 分 离 计 算 应 纳 税 额 知 识 点 小 规 模 纳 税 人 应 纳 税 额

Historical Fund Prices_TC_mt_2017.pdf

山东2014第四季新教材《会计基础》冲刺卷第二套

国家测绘局政府网站

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

自动化接口

8 A B C D 9 A B C D 10 ABC D 11 A B C D 12 AB C D 13 A B CD 14 A B C D 15 A B C D 16 A B C D A1 B2 C3 D5 18 ABC D 19

(黃).indd

P4i45GL_GV-R50-CN.p65

山东2014第四季新教材《会计基础》冲刺卷第三套

新疆天业股份有限公司

( ) 16. 老 年 人 因 老 化 現 象 導 致 聽 力 較 差, 溝 通 時 應 以 高 頻 率 音 調 說 話 較 佳 編 碼 :01743 出 處 :0105 來 源 : 課 本 ( ) 17. 老 年 人 因 為 對 甜 鹹 的 味 覺 遲 鈍, 因 此 口 味 會 偏 重 此 時 可

Unix®t Œ fi z.PDF

untitled

B. 高 估 自 己 C. 低 估 自 己 D. 发 掘 特 长 解 析 : 自 知, 就 是 认 识 自 己 ; 自 己 明 了 ; 或 自 然 知 晓 自 己 有 什 么 特 点, 优 势 劣 势, 自 己 都 很 清 楚 BC 说 法 都 不 对,D 说 法 不 符 合 题 意, 所 以 选

! "#$! " # $%%&#! ()*+, - %& - %.,/ - /!! ! " ! #0 $ % &0 123.! 4(5 $%%& %3 &$!!!!!!!!!!!!!!! % % - /&%.&.33!!! &! 3%% - 3 % -

REPORT ID: SS-220D COMPILED BY: HONG KONG HOUSING SOCIETY 香港房屋協會 PROJECT:THS2018 HONG KONG HOUSING SOCIETY 香港房屋協會 T-HOME TRANSITIONAL RENTAL HOUSING S

考 查 知 识 点 肝 气 疏 泄 调 畅 气 机 的 作 用, 主 要 表 现 在 以 下 几 个 方 面 :(1) 促 进 血 液 与 津 液 的 运 行 输 布 ;(2) 促 进 脾 胃 的 运 化 功 能 和 胆 汁 分 泌 排 泄 ;(3) 调 畅 情 志 ;(4) 促 进 男 子 排 精

就 构 成 了 盗 窃 罪 与 破 坏 交 通 设 施 罪 的 想 象 竞 合, 按 照 其 中 处 罚 较 重 的 犯 罪 处 罚 5. 答 案 :B 本 题 主 要 考 察 如 何 区 分 收 买 被 拐 卖 的 妇 女 儿 童 罪 与 拐 卖 妇 女 儿 童 罪 的 共 犯 问 题 ( 对 向

!""#!$% & # &((! $% ) &((! %" & $!""# & # &((( )# &( &((! # &(((!*+ % *

13 A DSS B DSS C DSS D DSS A. B. C. CPU D. 15 A B Cache C Cache D L0 L1 L2 Cache 16 SMP A B. C D 17 A B. C D A B - C - D

Reducing Client Incidents through Big Data Predictive Analytics

Guide to Install SATA Hard Disks

!! "#$% & ()*+,-. &/ 00 " %0#0 % 00 " %0#0 %1% 2 %1$ 2 % )869:;.,*8656<,*= 9*>? *> A6)5, B,55, C,*D, B6 E)*)7)55) " F9D,

精 品 库 我 们 的 都 是 精 品 _www.jingpinwenku.com 7. 根 据 中 华 人 民 共 和 国 会 计 法 的 规 定, 对 登 记 会 计 账 簿 不 符 合 规 定 的 单 位 县 级 以 上 人 民 政 府 财 政 部 门 责 令 限 期 改 正, 并 可 以 处

Transcription:

完整的大数据解決方案

ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

Dataframe Pig YARN Spark Stand Alone HDFS Spark Stand Alone Mesos Mesos Spark Streaming Hive Hadoop MapReduce Spark Spark SQL

HDFS MongoDB 共同点 横向扩展, 支持 TB-PB 级数据量低成本, x86 数据自动多份复制支持非结构化数据 差异点 粗颗粒度存储 无索引 一次写入, 多次读 细颗粒度, 结构化存储 二级索引 读写混合 非交互式, 离线分钟级 SLA 交互式, 实时在线毫秒级 SLA

{ ts: 2016-07-31 23:50:50, host: xyz, error:404,.body: { } } { ts: 2016-07-31 23:49:23, host: def, error:019,.body: { } } { ts: 2016-07-31 23:49:22, host: xyz, error:null, body: { } }... { ts: 2016-07-01 02:04:12, host: abc, error: 500, body: { } }... HDFS MongoDB

map filter union intersect Parellelize Transform Action Parellelize Transform Action Result Parellelize Transform Action Result Result Result Parellelize Transform Action

STORAGE

STORAGE

https://github.com/mongodb/mongo-spark

50%

DISMISSED! x 1000+ LAX LAX NYC NYC BOS BOS LAX BOS LAX NYC PVG SZX Stay Duration Stay Duration Stay Duration Stay Duration Stay Duration MongoDB MongoDB 365 Date Date Date Date Date Date

B2T IB2C B2M Inv API Fare API Fare Inv Impl DRV DRV TEXT Spark Master Spark Master Spark Submit Call Center Mobile B2C Inv API Fare API Fare Inv Impl DRV DRV... Fare Cache Seat Inventory

START Vars: Flight schedule Base price Price Rules vars Submit Batch Job Load Reference Data Broadcast Variables Split Jobs vars Master Input job Parallel Compute Parallel Compute Input job output Collect Results Collect Results output END

// initialization dependencies including base prices, pricing rules and some reference data Map dependencies = MyDependencyManager.loadDependencies(); // broadcasting dependencies javasparkcontext.broadcast(dependencies); // create job rdd cabinsrdd = MongoSpark.load(javaSparkContext).withPipeline(pipeline) // for each cabin, date, airport pair, calculate the price cabinsrdd.map(function calc_price); // collect the result, which will cause the data to be stored into MongoDB cabinsrdd.collect() cabinsrdd.savetomongo()

3500 350 3000 300 2500 250 2000 200 1500 Throughput 150 Latency 1000 100 500 50 0 Legacy Spark+Mongo 0 Legacy Spark+Mongo

# curl -OL http://d3kbcqa49mib13.cloudfront.net/spark-1.6.0-bin-hadoop2.6.tgz # mkdir -p ~/spark # tar -xvf spark-1.6.0-bin-hadoop2.6.tgz -C ~/spark --strip-components=1

# cd spark #./bin/spark-shell \ --conf "spark.mongodb.input.uri=mongodb://127.0.0.1/flights.av" \ --conf "spark.mongodb.output.uri=mongodb://127.0.0.1/flights.output" \ --packages org.mongodb.spark:mongo-spark-connector_2.10:1.0.0 import com.mongodb.spark._ import org.bson.document MongoSpark.load(sc).take(10).foreach(println)

MongoSpark.load(sc).map(doc=>(doc.getString("flight"),doc.getLong("seats"))).reduceByKey((x,y)=>(x+y)).take(10).foreach(println)

import org.bson.document MongoSpark.load(sc).withPipeline(Seq(Document.parse("{ $match: { orig : 'KMG' } }"))).map(doc=>(doc.getstring("flight"),doc.getlong("seats"))).reducebykey((x,y)=>(x+y)).take(10).foreach(println)

chunksize (MB) Total data size / chunksize = chunks = RDD partitions = spark tasks CPUSpark 1-2core spark+mongoio

+ MongoDB Spark SparkHadoop MongoDB

更快 更敏捷 Questions