PowerPoint 演示文稿

Similar documents
第8組 王玉妏、黃怡君、殷秀菁

成 都 诗 词 田 正 中 水 调 歌 头 感 丙 戌 金 秋 风 树 生 凉 意, 胸 次 觉 清 新 园 中 丹 桂 撑 月, 雏 菊 傲 霜 芬 情 系 南 飞 北 雁, 坐 爱 枫 林 醉 染, 秋 色 更 迷 人 歌 故 早 相 约, 览 胜 宝 宾 村 巨 龙 腾, 金 风 翥, 气 凌

标题

大 綱 最 有 利 標 目 的 及 類 型 最 有 利 標 之 辦 理 方 式 準 用 最 有 利 標 取 最 有 利 標 精 神 最 有 利 標 之 類 型 及 其 相 關 規 定 適 用 最 有 利 標 準 用 最 有 利 標 及 取 最 有 利 標 精 神 作 業 程 序 及 實 務 分 析

第一章.FIT)

Microsoft Word - 1HF12序.doc

Microsoft Word - 讀報看科普─人體篇_橫_.doc

鍟嗗搧瑙傚療鈥㈤挗鏉

席 远 杨 一 人 了, 正 当 她 开 枪 时 却 发 现 子 弹 没 了 该 死, 只 能 赤 手 空 拳 了 洛 水 云 与 席 远 杨 交 起 手 来, 洛 水 云 出 手 招 招 致 命 想 那 席 远 杨 也 不 是 泛 泛 之 辈, 很 快 掌 握 了 洛 水 云 出 招 路 数 看

閱 讀 素 材 V.S 分 組 方 式 的 差 異 化 教 學 工 具 表 班 級 :( ) 閱 讀 素 材 V.S 分 組 方 式 獨 立 閱 讀 夥 伴 閱 讀 ( 同 質 性 ) 夥 伴 閱 讀 ( 異 質 性 ) 友 善 陪 伴 虛 心 受 教 國 語 日 報 新 聞 生 活 文 藝 兒 童

Microsoft Word - 2B802內文.doc

東區校園中法治教育種子師資教學研習營

PowerPoint Presentation

2019大數據平台案例分享與統計輯要 封面+上光

由社會發展趨勢探討國人睡眠品質

1 背 景 介 紹 許 多 應 用 科 學 牽 涉 到 從 資 料 (data) 中 分 析 出 所 需 要 ( 含 ) 的 資 訊 (information) 希 望 從 已 知 的 資 料 中 瞭 解 問 題 的 本 質, 進 而 能 控 制 或 做 出 預 測 這 些 資 料 通 常 有 兩

所 内 要 闻 ( 上 接 P1 ) 宾 馆 客 房?vs 手 术 室? 篁 园 市 场 附 近 一 家 小 宾 馆 的 客 房 内, 一 名 身 着 一 次 性 手 术 衣, 戴 着 一 次 性 口 罩 和 手 套 的 医 生, 正 在 床 边 像 模 像 样 地 为 一 名 女

方圆并济:基于 Spark on Angel 的高性能机器学习_V3

<4D F736F F F696E74202D20C7E3B3ADBCBA20B9DFC7A5C0DAB7E1205BC0D0B1E220C0FCBFEB5D205BC8A3C8AF20B8F0B5E55D>


P8

第二章.FIT)

使用Cassandra和Spark 2.0实现Rest API服务

數據分析 Big Data Analytics) ( 資科系 / 融系學碩班 ) 上課 綱 2019 年秋季班 上課期間 :2019/09/ /01/09 學資 科學系 jong at g.nccu.edu.tw 2019 年 數據分析 (Big Data Analytics

學 過 程 技 能 中 是 重 要 的 一 環, 雖 然 控 制 變 因 的 課 程 要 進 入 小 學 階 段 才 會 接 觸, 但 我 們 嘗 試 讓 孩 子 在 科 學 遊 戲 中, 察 覺 到 不 同 的 條 件 會 影 響 比 賽 結 果, 進 而 讓 孩 子 把 這 些 條 件 一 一

Spark读取Hbase中的数据

Ps22Pdf

黄镇目录.tpf

<CCE5D3FDC4DCC1A6C5E0D1F8B7BDB0B8>

第 二 章 校 草 出 现 圣 迪 亚 学 院, 一 所 远 近 闻 名 的 贵 族 学 院 它 的 知 名 度 就 好 像 猪 的 知 名 度 一 样, 无 人 不 知 无 人 不 晓 是 所 有 人 都 向 往 的 学 校 圣 迪 亚 学 院 是 以 欧 式 建 筑 风 格 为 主 的 大 门

Microsoft Word - 21??¡N??`?C?~??-1.doc, page Normalize ( Microsoft Word - 21ºÝ¤È¸`§C¦~¯Å-1.doc )

括 教 育 在 内 西 学 得 以 力 推 广 制 颁 发 和 癸卯 学制 实 施 更 使 教 育在 学 校 教 育 占 据 相 当 重 要 地 位 达到 了 前所 未 有 程度 以 学为 例 科 学 时数 占 总 学 时数 比 例 甚至超 过 国 文科 壬寅学 直维持 在 约 辛亥 革命 以 后

日照县志0903-.FIT)

【结构化面试名师精品班2ATY15K002】讲义.docx

目录 决策树 Adaptive Boosting (AdaBoost) Gradient Boost Decision Tree (GBDT) TreeBoost XGBoost 总结


ttian


扭 轉 生 命 旅 程 ~ 部 長 序 ~ 我 國 家 庭 暴 力 防 治 法 自 87 年 公 布 至 今, 近 15 年 推 動 家 庭 暴 力 防 治 工 作 的 歷 程 中, 除 了 建 置 社 政 警 政 教 育 司 法 醫 療 等 防 治 網 絡, 積 極 協 助 遭 受 暴 力 傷 害

untitled

附3

<4D F736F F D20BAD3B1B1CAA1CAAED2BBCEE5D7DBBACFBDBBCDA8CCE5CFB5B7A2D5B9B9E6BBAE2E646F63>

Ps22Pdf

水晶分析师

[9] R Ã : (1) x 0 R A(x 0 ) = 1; (2) α [0 1] Ã α = {x A(x) α} = [A α A α ]. A(x) Ã. R R. Ã 1 m x m α x m α > 0; α A(x) = 1 x m m x m +


溝通協調與激勵領導

% % 34


穨series019-IA.PDF


PK IBM Warren McCulloch Walter Pits MP 1949 Hebb Hebb Hebb 145

Microsoft PowerPoint - CRISC认证考试指南.pptx


Ps22Pdf

C 22H 23 N 3 O 4 HCl EGFR NSCLC ++ NSCLC NSCLC EGFR 15mg/

PDF

履歷撰寫與面試技巧.ppt

16.2(copy)


17

第二章 各級人員工作職責

God's Masterpiece- the Cross

Microsoft Word - 第四章.doc


清 理 违 法 违 规 的 招 标 投 标 制 度, 工 信 部 在 行 动! 小 编 的 话 : 我 们 本 月 先 后 发 送 了 山 东 和 湖 南 两 省 清 理 各 类 招 投 标 办 法 及 相 关 规 定 的 消 息, 引 起 了 微 友 的 广 泛 关 注 和 热 烈 讨 论 我 们

C 22H 23 N 3 O 4 HCl EGFR NSCLC ++ NSCLC NSCLC EGFR 150mg/

總目100-海事處

Microsoft Word - MIS.doc

1.第二卷第二期p1



中国帝王私生活未解之谜(三).doc

CSC1530 Java CSC CSC INE2720 CSC1740 CSC B CSC CSC2520 CSC2110 CSC CASE CSC

( 413 1), (2003) ,,,,

壹 前 言 : 一 研 究 動 機 不 久 前, 我 的 祖 母 因 地 板 濕 滑 而 造 成 手 部 骨 折, 醫 生 說 祖 母 年 長, 骨 質 疏 鬆 造 成 傷 勢 嚴 重, 需 要 多 補 充 鈣 質 頓 時, 讓 我 想 起 一 句 話 你 攝 取 足 夠 的 鈣 質 嗎? 這 句

~ 主 == 且 一. fju 百 顏 元, 字 易 直, 叉 字 渾 然, 於 清 初 學 術 界 以 異 軍 之 勢 帽 起 於 河 北 博 野 I] ' 與 顧 炎 武 黃 宗 羲 王 夫 之 同 為 清 初 重 要 思 想 家 顏 元 早 期 好 陸 王 心 學, 後 叉 醉 心 純 粹 切

<4D F736F F D20A8CFA952A6A12DAED1ADB1B8EAAEC62E646F63>

《太平广记》第二册

进击的巨人:基于Angel的高维度Online Learning_V3

论 文 :?,,,,,,,,,, (, ),, ( ),,,,,,,, (, ) : (, ),,, :,, ;,,,,

國立屏東教育大學碩士班研究生共同修業要點


第十二章 新文化與新思潮

<4D F736F F D20A4BDA640BDC3A5CDAED6A4DFBDD2B57BB0F2A5BBAFE0A44FB4FAC5E72DAC79A6E6AF66BEC7B8D5C344A4BDA FA7B9BD5AAAA9>

浙江省软件和信息服务业简 报

"航海王"人物人格特質探究doc


Ps22Pdf

Untitled

昆明城市增长边界规划研究报告

Microsoft Word - administrative-law-08.doc

國家圖書館典藏電子全文

浙江省高等学校师资培训中心

Microsoft Word - 論辯文基本要求.doc

第六章 中国中等收入者调查的三个发现



主 管 部 會 列 進 來 ; 另 外, 民 眾 就 醫 的 習 慣 生 活 習 慣 等 跟 健 保 署 相 關 的 部 分, 也 要 納 入 ; 有 關 開 放 醫 院 的 型 態 改 變, 必 須 有 配 套 措 施 修 正 法 規 來 具 體 規 範, 例 如 涉 及 醫 師 報 備 支 援

<4D F736F F F696E74202D20C8EDBCFEBCDCB9B9CAA6D1D0D0DEBDB2D7F92E707074>

Transcription:

Fregata: 轻量级大规模机器学习算法库 Chief Data Scientist, TalkingData

大纲 大规模机器学习的挑战 Fregata 的优点 GSA 算法介绍 GSA 算法在 Spark 上的并行化与 MLLib 的对比如何使用 Fregata Fregata 的发展目标

大规模机器学习两个挑战 计算瓶颈 调参困难

经典算法的计算瓶颈 计算复杂度随数据规模超线性增长 Cheng T. Chu, Sang K. Kim, Yi A. Lin, Yuanyuan Yu, Gary R. Bradski, Andrew Y. Ng, Kunle Olukotun, Map-Reduce for Machine Learning on Multicore, NIPS, 2006.

梯度下降法 随机梯度下降法

三大计算瓶颈 IO 开销 通信开销 模型规模

Map Reduce IO 开销 : 可通过内存 /SSD 加速来缓解 通信开销 : 无法解决 模型规模 : 无法解决

Parameter Server IO 开销 : 可通过内存 /SSD 加速来缓解 通信开销 : 通过异步更新部分缓解 模型规模 : 分布式管理, 解除了模型规模限制

调参困难 参数搜索空间大 对经验依赖比较大

大纲 大规模机器学习的挑战 Fregata 的优点 GSA 算法介绍 GSA 算法在 Spark 上的并行化与 MLLib 的对比如何使用 Fregata Fregata 的发展目标

Fregata 项目 https://github.com/talkingdata/fregata

Fregata 项目 基于 Spark, 目前支持 1.6 目前实现了四种算法 Logistic Regression Combine Features Logistic Regression Softmax Random Decision Trees

Fregata 项目的特点 速度快 只需要扫描一遍数据 调参容易 LR 和 Softmax 算法不需要调参 RDT 调参容易

大纲 大规模机器学习的挑战 Fregata 的优点 GSA 算法介绍 GSA 算法在 Spark 上的并行化与 MLLib 的对比如何使用 Fregata Fregata 的发展目标

https://arxiv.org/abs/1611.03608 Greedy Step Averaging 优化方法

GSA 优点 SGD 方法需要调学习率 衍生方法 Adadelta, ADMM, SVRG 同样存在着调参的问题, 有些还需要付出更大的存储代价 GSA 方法不需要调参

GSA 算法流程图

Greedy Step 方法

Averaging 策略

Logistic Regression & Softmax via GSA Logistic Regression 学习率公式 Softmax 学习率公式

GSA LR & Softmax 实验 数据

GSA LR & Softmax 实验 对比算法和总体结果 对比算法 SGD, Adadelta, SCSG

GSA LR & Softmax 实验 GSA vs SGD

GSA LR & Softmax 实验 GSA vs Adadelta

GSA LR & Softmax 实验 GSA vs SCSG

大纲 大规模机器学习的挑战 Fregata 的优点 GSA 算法介绍 GSA 算法在 Spark 上的并行化与 MLLib 的对比如何使用 Fregata Fregata 的发展目标

大规模机器学习并行化方法 梯度平均 模型平均 n w t = w t 1 η n i=0 n Q i (w t 1 ) w t = 1 n i=0 w t 1,i 结果平均 m y j = 1 m k=0 y j,k

模型平均的收敛性 当 N 个样本均匀分配给 m 台机器训练出 m 个 p 维的模型,n=N/m 时, 对线性模型且当 n>>p 时逼近效果是比较好的, 当 p 很大时, 误差和 m 呈线性关系 对非线性模型, 误差包含二阶项, 可能会很大 Rosenblatt J D, Nadler B. On the optimality of averaging in distributed statistical learning[j]. Information and Inference, 2016: iaw013 MLA

大纲 大规模机器学习的挑战 Fregata 的优点 GSA 算法介绍 GSA 算法在 Spark 上的并行化与 MLLib 的对比如何使用 Fregata Fregata 的发展目标

LR 实验结果 1

LR 实验结果 2 Lookalike 300million X 20 million dataset 0.01% postive class instances Epsilon 400000X 2000 dataset

Softmax 实验结果 - MNIST

大纲 大规模机器学习的挑战 Fregata 的优点 GSA 算法介绍 GSA 算法在 Spark 上的并行化与 MLLib 的对比如何使用 Fregata Fregata 的发展目标

Maven 配置 <dependency> <groupid>com.talkingdata.fregata</groupid> <artifactid>core</artifactid> <version>0.0.1</version> </dependency> <dependency> <groupid>com.talkingdata.fregata</groupid> <artifactid>spark</artifactid> <version>0.0.1</version> </dependency> SBT 配置 librarydependencies += "com.talkingdata.fregata" % "core" % "0.0.1" librarydependencies += "com.talkingdata.fregata" % "spark" % "0.0.1"

LR 算法示例 import fregata.spark.data.libsvmreader import fregata.spark.metrics.classification.{areaunderroc, Accuracy} import fregata.spark.model.classification.logisticregression import org.apache.spark.{sparkconf, SparkContext} // 加载数据 val (_, traindata) = LibSvmReader.read(sc, trainpath, numfeatures.toint) val (_, testdata) = LibSvmReader.read(sc, testpath, numfeatures.toint) // 训练模型 val model = LogisticRegression.run(trainData) val pd = model.classpredict(testdata) // 测试 AUC 指标 val auc = AreaUnderRoc.of( pd.map{ case ((x,l),(p,c)) => p -> l })

大纲 大规模机器学习的挑战 Fregata 的优点 GSA 算法介绍 GSA 算法在 Spark 上的并行化与 MLLib 的对比如何使用 Fregata Fregata 的发展目标

Fregata 的目标 轻量级 高性能 易使用

邮箱 :xiatian.zhang@gmail.com 微博 : _ 机器学习