Similar documents
ABOUT ME AGENDA 唐建法 / TJ MongoDB 高级方案架构师 MongoDB 中文社区联合发起人 Spark 介绍 Spark 和 MongoDB 案例演示

【结构化面试名师精品班2ATY15K002】讲义.docx

PowerPoint 演示文稿

(Microsoft Word - 11\244T\246\342\277\337\260l\302\334.doc)

培 训 机 构 介 绍 中 科 普 开 是 国 内 首 家 致 力 于 IT 新 技 术 领 域 的 领 航 者, 专 注 于 云 计 算 大 数 据 物 联 网 移 动 互 联 网 技 术 的 培 训, 也 是 国 内 第 一 家 开 展 Hadoop 云 计 算 的 培

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

Reducing Client Incidents through Big Data Predictive Analytics

PowerPoint Presentation

<4D F736F F D F6F70B4F3CAFDBEDDBCB0BAA3C1BFCAFDBEDDCDDABEF2D3A6D3C3B9A4B3CCCAA6C5E0D1B5B0E056312E332E646F63>

you have a dream, you got to protect it

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

2013年云南省公务员考试真题解析(完整版)春闻网

目 录 1 不 断 开 发 工 具 以 管 理 大 数 据 Hadoop* 简 介 : 支 持 从 大 数 据 中 获 得 出 色 价 值 的 可 靠 框 架 大 数 据 技 术 的 行 业 生 态 系 统 在 关 键 组 件 中 实 现 平 衡...

國立嘉義高中 103 學年度第 1 學期第 6 次行政會議紀錄 日期時間 103 年 12 月 15 日(星期一) 時間 08:30~ 地點 旭陵樓 3 樓第 1 會議室 主席 黃校長義春 紀錄彙整 葉國宗 參加人員 如簽到表 壹 主席報告 1.今天上午 11:30 要出發至溪湖高中進行 104 學

美國政府推行 大數據的研究與發展計畫, 希望藉著提升從大型複雜的資料中提取知識的能力, 能加快科學和工程的開發並保障國家安全 資料科學與大數據 National Institute of Standards and Technology, NIST Jim Gray NI

<4D F736F F D20D1A7C9FACAD6B2E1B8C4D7EED6D5A3A8B4F8B1EDB8F1BCD3D2B3C2EBB0E6A3A9372E3239>

桂林市劳动和社会保障局关于

第三章 維修及管理

Microsoft Word 年度选拔硕博连读研究生的通知.doc

2013 年 科普工作全面扎实推进 科普能力建设稳步增强 科 普队伍继续壮大 科普经费投入增长显著 科普基础设施日益完善 全国科技活动周 等一系列重大科普活动得到公众广泛参与 针对 农村 青少年等特定地区 特定人群的科普活动在保持原有特色的 基础上不断创新 新媒体科普迅速发展 官方的科技资源网络共享

雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO

Microsoft Word - 送報伕2.doc

申 请 律 师 执 业 许 可 初 审 服 务 指 南 目 录 一 办 理 要 素 ( 一 ) 事 项 名 称 和 编 码 4 ( 二 ) 实 施 机 构 4 ( 三 ) 申 请 主 体 4 ( 四 ) 受 理 地 点 4 ( 五 ) 办 理 依 据 4 ( 六 ) 办 理 条 件 5 ( 七 )

环 境, 我 在 巩 固 在 校 期 间 所 学 习 的 理 论 知 识 的 同 时, 不 断 的 充 实 己, 利 用 业 余 时 间 主 动 学 习 专 业 知 识, 技 能, 把 理 论 联 系 到 工 作 实 践 中 作 为 一 名 工 作 生 活 中 的 党 员, 我 始 终 注 意 与

邻居啊 第二天 对门却悄无声息了 莫非昨夜的吵闹 仅是个幻觉 夜幕拉下时 寒风又吱溜溜地叫个不停 老婆 睡下后 我这只夜猫子 继续兴致勃勃地跟着福尔 摩斯去探案 白天的喧嚣退去了 周围格外安静 正 是读书的好时候 突然 响起了钟摆声 哒 哒 哒 节奏匀称 不疾不徐 声响却愈来愈大 格外突兀 了 原来

<4D F736F F D BAC520CAD7B6BCCAA6B7B6B4F3D1A C4EAD7A8D2B5BCBCCAF5D6B0CEF1C6C0C6B8B9A4D7F7D2E2BCFB2E646F63>

其 他 方 面 也 可 以 采 用 同 样 的 方 式, 这 样 又 可 以 锻 炼 除 语 文 方 面 的 其 他 能 力 了 而 英 语 方 面, 我 认 为 配 合 英 语 专 业 举 办 英 语 演 讲 比 赛 就 很 不 错 这 样 开 展 一 系 列 的 创 新 活 动, 锻 炼 多 方

第 六 条 办 法 第 五 条 ( 三 ) 协 会 考 评, 考 评 指 考 核 评 价 第 七 条 办 法 第 六 条 职 业 操 守 包 括 的 内 容 : 个 人 诚 信 不 做 假 账 不 偷 漏 税 不 贪 污 盗 窃 等 第 八 条 企 业 财 务 管 理 人 才 评 价 实 行 五 星

<4D F736F F D A67EABD7A4BAB3A1B1B1A8EEA8EEABD7A6DBA6E6B5FBA6F4AD70B5652E646F63>

统计工作情况汇报

他 随 身 带 有 二 三 十 张 古 方, 白 天 卖 药, 夜 晚 将 药 材 精 细 研 末, 按 方 配 制 对 于 病 人 服 药 后 反 应, 特 别 留 心 发 现 问 题, 就 近 向 老 医 生 老 药 贩 虚 心 求 教, 千 方 百 提 高 药 效 同 时 对 于 春 夏 秋

目 录 第 一 章 地 方 陪 同 导 游 人 员 服 务 程 序...1 第 一 节 地 方 陪 同 导 游 人 员 的 概 念 与 职 责...1 第 二 节 服 务 准 备...2 一 熟 悉 接 待 计 划...2 二 落 实 接 待 事 宜...5 三 物 质 和 知 识 的 准 备...

走 吧, 到 三 峡 去 : 那 里 是 我 们 先 人 用 生 命 之 血 打 造 的 家 园 走 吧, 到 三 峡 去 : 那 里 的 浪 涛 承 载 过 千 百 万 只 我 们 先 人 驶 向 今 天 的 航 船 走 吧, 到 三 峡 去 : 那 里 的 每 一 座 青 山 都 刻 满 了 我

6寸PDF生成工具

Microsoft Word - N011 斷翅天使

中 国 科 学 院 国 家 科 学 图 书 馆

申论写作套路万能模板

( 地 ( ) 组 织 机 构 代 码 企 业 详 细 名 称 哈 密 地 伊 吾 新 疆 广 汇 新 能 源 有 限 公 司 玛 纳 斯 玛 纳 斯 祥 云 化 纤 有 限 公 司 玛 纳 斯 玛 纳 斯 澳 洋 科 技 有 限 责

图 文 聚 焦 国 培 计 划 (2013) 甘 肃 省 农 村 小 学 音 乐 骨 干 教 师 短 期 集 中 培 训 9 月 4 日 开 班 了, 学 员 老 师 们 从 甘 肃 省 各 个 县 市 州 汇 聚 湖 南 一 师, 开 始 了 为 期 14 天 的 培 训 学 习 : 鲜 明 的

申請機構基本資料

申請機構基本資料

Microsoft Word - 三方协议书与接收函的相关说明学生版.doc

附件1

~2~

,,

untitled

中国证券监督管理委员会公告

勞動條件檢查執行重點(雲林)_ [相容模式]

醋 水 法 在 水 盆 內 放 入 約 七 分 滿 的 水 與 1/2 到 1 小 杯 的 醋 量, 將 髒 襪 子 浸 泡 一 晚, 隔 天 再 丟 入 洗 衣 機, 就 能 洗 得 相 當 乾 淨 醋 有 殺 菌 除 臭 和 漂 白 功 效, 使 用 過 的 醋 水, 還 可 清 理 地 板,

穨 PDF

Microsoft Word - 完全手冊-課程.doc

第一冊 第四章 分裂與再統一 班級 座號 姓吊

浙江师范大学2014年度毕业生就业质量报告

目 录 监 管 资 讯 2016 年 全 国 保 险 监 管 工 作 会 议 召 开...3 协 会 动 态 赤 峰 保 险 行 业 协 会 召 开 数 据 统 计 和 信 息 宣 传 总 结 表 彰 会 议...5 赤 峰 市 保 险 行 业 协 会 秘 书 处 召 开 2015 年 度 述 职

同 时, 采 取 提 供 新 闻 线 索 和 素 材 安 排 专 访 等 方 式 主 动 为 新 闻 媒 体 服 务, 为 采 访 报 道 活 动 创 造 便 利 条 件 建 设 网 络 信 息 发 布 平 台 2013 年 9 月 开 通 中 央 纪 委 监 察 部 网 站,2015 年 1 月

公務員服務法第13條相關解釋彙整表

资 讯 速 递 台 基 于 大 数 据 的 学 校 督 导 评 估 系 统 建 设 上 海 市 闵 行 区 人 民 政 府 教 育 督 导 室 ( 摘 要 ) 闵 行 教 育 在 深 化 教 育 改 革 探 索 管 办 评 分 离 的 背 景 下, 把 教 育 督 导 评 估 系 统 建 设 作 为

時間軸上的竹蓮記憶 學務主任 黃雅彙 我不是竹蓮國小的畢業校友 但對於身為新竹人的我來 說 仔細回想起來 似乎和竹蓮有著一種特別的緣分 對竹蓮國小最初的印象是在小學的時候 猶記得年幼的 我經過一段時日的啦啦隊舞蹈訓練後 老師便帶著我們從學 校步行到竹蓮國小來參加比賽 一踏入竹蓮校門 映入眼簾 的是黑

B1

Microsoft Word - 临政办发6.doc

大陸教育部等6個部門公佈「現代職業教育體系建設規劃 ( 年)」規劃到2015年初步形成現代職業教育體系框架,到2020年基本建成「中國」特色現代職業教育體系

B1

Microsoft Word yildin kiyinki Jonggoning Shinjianggha bolghan hokumiranliqi

《捕捉儿童敏感期》

2 國 文 考 科 試 題 解 析 命 題 出 處 與 南 一 版 第 五 冊 第 二 課 幽 夢 影 選 課 程 內 涵 同 試 題 解 析 某 君 講 信 用, 重 然 諾, 行 事 穩 健, 工 作 負 責 較 符 合 謹 飭 友 謹 飭 友 指 的 是 言 行 謹 慎 而 有 節 制 的 朋

untitled

29 碳 酸 钙 D3 片 ( 别 名 维 生 素 D3 碳 酸 钙 ) 吉 林 省 第 一 批 低 价 药 30 炔 诺 酮 滴 丸 吉 林 省 第 一 批 低 价 药 31 去 氯 羟 嗪 片 吉 林 省 第 一 批 低 价 药 32 茶 苯 海 明 片 吉 林 省 第 一 批 低 价 药 33

untitled

穨飲食與養老_決定版_.PDF

untitled

客户端虚拟机使用说明

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

MyCOS

MapReduce

生命科学学院 学年度学风建设实施方案

Microsoft PowerPoint - Big Data rc Sharing掃盲時間.ppt [相容模式]

德阳市文化馆​德阳市作协举办儿童诗人杨一郎诗集《初心》座谈交流会

Microsoft Word - 1HF12序.doc

Microsoft Word - 讀報看科普─人體篇_橫_.doc

Microsoft Word - 2B802內文.doc

鍟嗗搧瑙傚療鈥㈤挗鏉

席 远 杨 一 人 了, 正 当 她 开 枪 时 却 发 现 子 弹 没 了 该 死, 只 能 赤 手 空 拳 了 洛 水 云 与 席 远 杨 交 起 手 来, 洛 水 云 出 手 招 招 致 命 想 那 席 远 杨 也 不 是 泛 泛 之 辈, 很 快 掌 握 了 洛 水 云 出 招 路 数 看

東區校園中法治教育種子師資教學研習營

閱 讀 素 材 V.S 分 組 方 式 的 差 異 化 教 學 工 具 表 班 級 :( ) 閱 讀 素 材 V.S 分 組 方 式 獨 立 閱 讀 夥 伴 閱 讀 ( 同 質 性 ) 夥 伴 閱 讀 ( 異 質 性 ) 友 善 陪 伴 虛 心 受 教 國 語 日 報 新 聞 生 活 文 藝 兒 童

投影片 1

PowerPoint 演示文稿

真 是 可 怜 啊! 嗯, 真 是 可 怜 啊, 不 过 如 果 这 次 实 验 成 功 了, 我 就 可 以 回 家 与 家 人 团 聚 了 回 家? 就 是 死 着 回 家 也 是 会 啊 国 家 会 这 么 容 易 让 你 泄 露 机 / 密 么? 只 有 死 人 才 不 会 泄 密 你 们

Apache CarbonData集群模式使用指南



重庆市人民政府关于印发重庆市国民经济和社会发展第十个五年计划人才发展重点专题规划的通知

,,,,, 21,,,,,, ( %, %, 016 %),,,,,,, 2002,,,, , 3400, 3157, 9219 %, ( ) ( ) ( ) ( ) ( ) ( ) (

目 錄 第 一 章 緒 論 第 一 節 問 題 提 出

所 内 要 闻 ( 上 接 P1 ) 宾 馆 客 房?vs 手 术 室? 篁 园 市 场 附 近 一 家 小 宾 馆 的 客 房 内, 一 名 身 着 一 次 性 手 术 衣, 戴 着 一 次 性 口 罩 和 手 套 的 医 生, 正 在 床 边 像 模 像 样 地 为 一 名 女

分布式数据库期中作业说明

5B_sasaki.pdf

201316

PowerPoint 演示文稿

2016 年 7 月 14 日 星 期 四 2 版 名 人 本 版 编 辑 : 刘 辉 美 术 编 辑 : 张 博 ( 上 接 1 版 ) 我 和 世 界 一 起 成 长 我 从 不 为 自 己 做 过 的 事 后 悔 秦 勇 是 中 国 著 名 音 乐 人 歌 手 1986 年 与 几 位 好 友

记 忆 126 期 教 育 专 辑 ( 三 ) 目 录 编 者 按 大 家 来 讨 论, 什 么 是 狼 奶? 专 稿 何 蜀 文 革 时 期 的 重 庆 教 育 评 论 潘 祛 病 红 色 读 物 读 解 ( 一 ) 革 命 新 人 斗 志 昂 : 读 新 来 的 小 石 柱 述 往 李 南 央

Transcription:

DPark MapReduce (Davies) davies@douban.com 2011/12/07 Velocity China 2011

Douban

Douban 5500

Douban 5500 1000G,

Douban 5500 1000G, 60+

Douban 5500 1000G, 60+ 200+

Douban 5500 1000G, 60+ 200+ >

MooseFS 260 T, 44

MooseFS 260 T, 44 InfoBright ICE weblog 60+ B

MooseFS 260 T, 44 InfoBright ICE weblog 60+ B Python R MPI (C++)

Hadoop

Hadoop 08

Hadoop 08

Hadoop 08 09

Hadoop 08 09 HDFS, MapR, ZooKeeper, Hive

Hadoop 08 09 HDFS, MapR, ZooKeeper, Hive Dumbo

Hadoop, MPI

Hadoop, MPI

Hadoop, MPI Hadoop

Hadoop, MPI Hadoop MPI

Apache Mesos* Linux Container MPI Hadoop DRun DPark Mesos Node Node Node Node http://www.mesosproject.org/

DRun

DRun Mesos

DRun Mesos MPICH2

DRun Mesos MPICH2 ad-hoc RANK, SIZE

DRun Mesos MPICH2 ad-hoc RANK, SIZE $ drun -n 10 -c 1 -m 10m -r 2 hostname [3@alg221] alg221 [2@alg224] alg224...

DRun

DRun 70 AAC

DRun 70 AAC

DRun + Mesos

Spark* Lightning-Fast Cluster Computing val file = spark.textfile("hdfs://...") file.flatmap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) Word Count in Spark * http://www.spark-project.org/

Spark

Spark Logistic regression in Spark vs Hadoop

Spark

Spark Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. USENIX HotCloud 2010. June 2010. 1 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauley, Michael J. Franklin, Scott Shenker, Ion Stoica.Technical Report UCB/EECS-2011-82. July 2011.

Spark

Spark

Spark Scala, 10000 locs

Spark Scala, 10000 locs

Spark Scala, 10000 locs

Spark Scala, 10000 locs Scala

Spark Scala, 10000 locs Scala Python / C

DPark

DPark Spark Python

DPark Spark Python Python

DPark Spark Python Python 7

DPark Spark Python Python 7 Hive 15 :-)

DPark Spark Python Python 7 Hive 15 :-),

DPark Spark Python Python 7 Hive 15 :-), Hadoop

DPark

DPark RDD (Resilient Distributed Dataset)

DPark RDD (Resilient Distributed Dataset) RDD Split Split Split Split Split

RDD

RDD

RDD dpark.parallelize(range(100), 10)

RDD dpark.parallelize(range(100), 10)

RDD dpark.parallelize(range(100), 10) dpark.textfile( /mfs/weblog/ )

RDD

RDD RDD RDD

RDD RDD RDD

RDD RDD RDD FileRDD Split Split Split Split

RDD RDD RDD FileRDD Split Split Split Split map()

RDD RDD RDD FileRDD Split Split Split Split map() MappedRDD Split Split Split Split

RDD RDD RDD FileRDD Split Split Split Split map() MappedRDD Split Split Split Split reduce()

RDD RDD RDD FileRDD Split Split Split Split map() MappedRDD Split Split Split Split reduce() ShuffledRDD Split Split Split

RDD count(), collect(),save() DAG Stage Shuffle, Result

RDD FileRDD count(), collect(),save() DAG Stage map() MappedRDD reduce() ShuffledRDD Shuffle, Result

RDD FileRDD count(), collect(),save() DAG Stage Shuffle, Result map() MappedRDD reduce() ShuffledRDD collect() Result

RDD FileRDD count(), collect(),save() map() MappedRDD DAG reduce()... Stage Shuffle, Result collect() ShuffledRDD Result

RDD FileRDD count(), collect(),save() map() MappedRDD Shuffle DAG reduce()... Stage Shuffle, Result collect() ShuffledRDD Result

RDD FileRDD count(), collect(),save() map() MappedRDD Shuffle DAG reduce()... Stage Shuffle, Result ShuffledRDD Result collect() Result

RDD FileRDD Split Split Split Split map() MappedRDD Split Split Split Split reduce()............ ShuffledRDD Split Split Split collect() Result Result

RDD FileRDD Split Split Split Split map() MappedRDD Split Split Split Split reduce()............ ShuffledRDD Split Split Split Task collect() Result Result

DPark on Mesos Mesos Mesos Master Slave 1 Mesos Slave 2...

DPark on Mesos Mesos Mesos Master Slave 1 Mesos Slave 2... DPark App

DPark on Mesos Mesos Mesos Master Slave 1 Mesos Slave 2... DPark App

DPark on Mesos Mesos Mesos Master Slave 1 Mesos Slave 2... DPark Executor DPark App

DPark on Mesos Mesos Mesos Master DPark App Slave 1 Mesos Slave 2... DPark Executor Worker Worker Worker

DPark on Mesos Mesos Mesos Master DPark App Slave 1 Mesos Slave 2 DPark Executor... Cache, Broadcast Worker Worker Worker

Word Count

Word Count files = dpark.textfile( word.txt')

Word Count files = dpark.textfile( word.txt') words = files.flatmap(str.split).map(lambda x:(x,1))

Word Count files = dpark.textfile( word.txt') words = files.flatmap(str.split).map(lambda x:(x,1)) cnt = words.reducebykey(add).collectasmap()

Word Count files = dpark.textfile( word.txt') words = files.flatmap(str.split).map(lambda x:(x,1)) cnt = words.reducebykey(add).collectasmap() $ python wordcount.py

Word Count files = dpark.textfile( word.txt') words = files.flatmap(str.split).map(lambda x:(x,1)) cnt = words.reducebykey(add).collectasmap() $ python wordcount.py $ python wordcount.py -m mesos

>>> dpark = DparkContext('mesos') >>> d = dpark.parallelize(range(1000), 10) >>> print d.reduce(add) [dpark] 2011-12-02 17:10:47,670 Got a job with 10 tasks [dpark] 2011-12-02 17:11:04,926 Finished 5 (progress: 1/10) in 6.64s... 499500

K-Means

K-Means

K-Means

K-Means

K-Means

K-Means

K-Means

K-Means

K-Means

K-Means points = dpark.textfile('kmeans.txt').map(parsevector).cache()

K-Means points = dpark.textfile('kmeans.txt').map(parsevector).cache() centers = [Vector() for i in range(k)]

K-Means points = dpark.textfile('kmeans.txt').map(parsevector).cache() centers = [Vector() for i in range(k)] for it in range(n):

K-Means points = dpark.textfile('kmeans.txt').map(parsevector).cache() centers = [Vector() for i in range(k)] for it in range(n): ps = points.map(lambda p:(closestcenter(p, centers), (p, 1)))

K-Means points = dpark.textfile('kmeans.txt').map(parsevector).cache() centers = [Vector() for i in range(k)] for it in range(n): ps = points.map(lambda p:(closestcenter(p, centers), (p, 1))) ncenters = ps.reducebykey(mergepoints).collectasmap()

K-Means points = dpark.textfile('kmeans.txt').map(parsevector).cache() centers = [Vector() for i in range(k)] for it in range(n): ps = points.map(lambda p:(closestcenter(p, centers), (p, 1))) ncenters = ps.reducebykey(mergepoints).collectasmap() centers = ncenters.values()

def cos((a, b)): return cos_sim(a, b) ratings = spark.csvfile( r.csv ).map(parse).groupbykey() blocks = ratings.glom().cache() sims = blocks.cartesion(blocks).flatmap(cos) final = sims.reducebykey(lambda x,y:x+y)

def cos((a, b)): return cos_sim(a, b) ratings = spark.csvfile( r.csv ).map(parse).groupbykey() blocks = ratings.glom().cache() sims = blocks.cartesion(blocks).flatmap(cos) final = sims.reducebykey(lambda x,y:x+y) C

DPark

DPark Hadoop

DPark Hadoop

DPark Hadoop

DPark Hadoop C

DPark Hadoop C PyPy

Hadoop

DPark

DPark

DPark

DPark

Thank you Question???