目录 决策树 Adaptive Boosting (AdaBoost) Gradient Boost Decision Tree (GBDT) TreeBoost XGBoost 总结

Similar documents
- - - α α

比干洗店还专业 To:



untitled

2




untitled

國立中山大學學位論文典藏.PDF

2015 年 度 收 入 支 出 决 算 总 表 单 位 名 称 : 北 京 市 朝 阳 区 卫 生 局 单 位 : 万 元 收 入 支 出 项 目 决 算 数 项 目 ( 按 功 能 分 类 ) 决 算 数 一 财 政 拨 款 一 一 般 公 共 服 务 支 出 二

目 录 第 一 部 分 档 案 局 概 况 一 主 要 职 责 二 部 门 决 算 单 位 构 成 第 二 部 分 档 案 局 2016 年 度 部 门 预 算 表 一 2016 年 度 市 级 部 门 收 支 预 算 总 表 二 2016 年 度 市 级 部 门 支 出 预 算 表 三 2016

總目100-海事處


上海浦~1

untitled

兽医临床诊断学实验指导

NOTEBOOK COOLING PAD WITH THREE-DIMENSION SEAKERS

水土保持通报 第 31 卷 192 发现状出发分析了水电开发对生态环境产生的主要 型水电站被列入 十一五 重点项 目 31 云 南 省 水 电 问题和影响 6 王学琴 7 以岷江 嘉陵江上已 建 正建 资源的可开发程度低可开发的潜能 巨 大 云南省地 和规划设计的一些 低 水 头 河 床 式 或 引

¥]¸Ë»¡©ú

100-1「經典研讀:梁啟超《新民說》」學習歷程檔案

<4D F736F F D D C4EAC5A9D2B5B2FAD6B5BACDBCDBB8F1D7DBBACFCDB3BCC6B1A8B1EDD6C6B6C82E646F63>

美容 丙級 工作項目0 1 : 職業道德

yy.xls

16 标 本 缓 急 的 护 理 原 则 不 包 括 ( 扶 正 祛 邪 法 ) 17 顺 从 疾 病 假 象 而 进 行 护 理 的 方 法 为 ( 反 护 法 ) 18 下 列 属 于 正 护 法 的 是 ( 虚 则 补 之 ) 19 因 中 气 不 足 脾 阳 不 运 而 致 的 腹 胀 便

???p???????????i?h?h?D???N_?s_

人体解剖实习指导.doc

穨finaldiss.doc


第十二章 角色转换 走向成功

國立和美實驗學校103學年度第1次教師甄選簡章

104 年 度 推 廣 校 園 正 確 用 藥 教 育 模 式 中 心 學 校 成 果 報 告 書 學 校 : 桃 園 市 中 心 學 校 田 心 國 民 小 學 壹 計 畫 目 的 一 凝 聚 本 市 中 心 學 校 與 重 點 種 子 學 校 正 確 用 藥 教 育 推 廣 共 識, 期 能 培

cm 50.5cm


13. 下 列 植 物 的 向 性 或 運 動, 哪 些 是 受 到 生 長 素 作 用 的 影 響?(5-4) 甲. 睡 蓮 的 花 到 了 晚 上 會 合 起 來 ; 乙. 黃 瓜 的 捲 鬚 攀 附 竹 竿 向 上 生 長 ; 丙. 含 羞 草 的 葉 經 碰 觸 後 閉 合 ; 丁. 紅 豆

3. 透 過 團 體 小 組 分 別 設 計 出 一 套 自 行 車 伸 展 操 4. 教 師 介 紹 騎 乘 自 行 車 上 座 方 法 煞 車 及 踩 踏 等 要 領. 練 習 自 行 車 運 動 中 基 本 的 上 座 平 衡 直 行 轉 彎 煞 車 等 動 作 ( 二 ) 自 行 車 運 動

( ) 5. 自 行 車 有 吱 吱 喳 喳 的 聲 音 可 能 是 什 麼 原 因 所 造 成?(1) 鈴 號 的 聲 音 (2) 螺 栓 ( 帽 ) 鬆 動 (3) 腳 踏 板 磨 損 ( ) 6. 下 列 敘 述 何 者 是 對 的?(1) 輪 胎 的 胎 壓 是 愈 高 愈 好, 所 以 填

学做一体手册,餐饮.doc

硕士论文正文

ZW.PDF

外科手术基础概述


: 29 : n ( ),,. T, T +,. y ij i =, 2,, n, j =, 2,, T, y ij y ij = β + jβ 2 + α i + ɛ ij i =, 2,, n, j =, 2,, T, (.) β, β 2,. jβ 2,. β, β 2, α i i, ɛ i

王卫杰-R会议

第一章 绪论

10-03.indd

Microsoft Word - AEL CH12_彩色.doc

(CIP) : /. :, 2004 ISBN T S CIP (2004) (1 : ) : * : : :

08-01.indd

( ) t ( ) ( ) ( ) ( ) ( ) t-

Microsoft Word - p11.doc

Figure 1: Game Tree 为 了 方 便 讨 论, 我 们 这 里 设 这 里 讨 论 的 博 弈 树 是 一 棵 有 限 树, 设 有 两 个 棋 手 甲 与 乙 进 行 这 场 博 弈, 这 样, 博 弈 树 分 为 三 类 结 点 : 1. 奇 数 层 的 非 叶 子 结 点 :

从零构建支持向量机(SVM)

07-3.indd

Microsoft Word - 小論文.doc

33219.nps

Microsoft Word 李强.doc

(CIP) :. :, 2004 ( ) ISBN TS974.2 CIP (2004) ( 1 : ) : * : : : 010-6

Vol. 36 ( 2016 ) No. 6 J. of Math. (PRC) HS, (, ) :. HS,. HS. : ; HS ; ; Nesterov MR(2010) : 90C05; 65K05 : O221.1 : A : (2016)

, 2017,.50,.3. 1, 2, 3.., ,., ;,, ;, ; (--,) [1-2] (, ) [1,3-4], (,), (, ), 96% 92% [3-4],, (, ) [5-11], [5-7,12-13],

审 计 报 告

gongGaoMingCheng

5 Ν !! !! 5 6! 5 6! /! 0 5 # / # /! /!

. () ; () ; (3) ; (4).. () : P.4 3.4; P. A (3). () : P. A (5)(6); B. (3) : P.33 A (9),. (4) : P. B 5, 7(). (5) : P.8 3.3; P ; P.89 A 7. (6) : P.

撰 寫 人 :2B1 王 清 燕 書 名 : 追 風 箏 的 女 孩 條 碼 號 : 月 份 閱 讀 心 得 佳 作 我 覺 得 這 是 一 本 教 我 們 用 殘 酷 的 角 度 認 識 生 命 的 小 說 ; 與 同 儕 甚 是 摯 友 間 也 可 能 出 現 競 奪 下 的

596.doc

<4D F736F F F696E74202D203135C9E7C7F8D3AAD1F8B9DCC0EDD3EBB8C9D4A42E707074>

穨CH17VER1a.PDF

08_toukei03.dvi

LIST OF ALGORITHMS NegaMax

17

Microsoft Word - 荆红卫 板.doc

[9] R Ã : (1) x 0 R A(x 0 ) = 1; (2) α [0 1] Ã α = {x A(x) α} = [A α A α ]. A(x) Ã. R R. Ã 1 m x m α x m α > 0; α A(x) = 1 x m m x m +

國家圖書館典藏電子全文

第一部分:前言


清 潔 機 器 人 覆 蓋 率 分 析 之 研 究 A Study of Coverage Analysis for Cleaning Robot 研 究 生 : 林 育 昇 撰 指 導 教 授 : 陳 智 勇 博 士 樹 德 科 技 大 學 電 腦 與 通 訊 研 究 所 碩 士 論 文 A Th

1 背 景 介 紹 許 多 應 用 科 學 牽 涉 到 從 資 料 (data) 中 分 析 出 所 需 要 ( 含 ) 的 資 訊 (information) 希 望 從 已 知 的 資 料 中 瞭 解 問 題 的 本 質, 進 而 能 控 制 或 做 出 預 測 這 些 資 料 通 常 有 兩

3. 反 映 : 4. 五 花 八 门 : 5. 慷 慨 : 6. 参 与 : 7. 慰 劳 : 8. 延 续 : 9. 珍 爱 : 10. 浪 漫 : 三. 找 出 下 列 每 组 词 中 的 近 义 词 或 同 义 词 : 节 日 节 气 节 令 时 节 习 俗 民 俗 仪 式 风 俗 文 献


6寸PDF生成工具

会 计 科 目 考 试 时 间 为 小 时, 审 计 财 务 成 本 管 理 科 目 考 试 时 间 为.5 小 时, 公 司 战 略 与 风 险 管 理 经 济 法 税 法 科 目 考 试 时 间 为 小 时 四 考 试 题 型 专 业 阶 段 考 试 的 题 型 主 要 分 为 三 类 : (

# # # #!! % &! # % 6 & () ) &+ & ( & +, () + 0. / & / &1 / &1, & ( ( & +. 4 / &1 5,

<4D F736F F D20C1B9CAB3D2A9BCE0A1B A1B33536BAC520D3A1B7A C4EACFC2B0EBC4EAD2A9C6B7B3E9D1E9BFECBCECB9A4D7F7CAB5CAA9B7BDB0B8B5C4CDA8D6AA2E646F63>

Microsoft Word - 实验习题N.doc


FZ1.s92

!! # % & ( )!!! # + %!!! &!!, # ( + #. ) % )/ # & /.

西安讲座-体视学基本问题与注意事项pdf.ppt

< A5D8BFFD6F6BAAA92DB54C242E706466>

總目160-香港電台


终端安全2

终端安全10

! # % & # % & ( ) % % %# # %+ %% % & + %, ( % % &, & #!.,/, % &, ) ) ( % %/ ) %# / + & + (! ) &, & % & ( ) % % (% 2 & % ( & 3 % /, 4 ) %+ %( %!

呐喊

u l l u u l l

05Cv1.mps

作 品 名 稱 : 好 膨 友 的 夢 幻 烘 培 屋 膨 鬆 劑 之 探 討 摘 要 我 們 使 用 酵 母 粉 泡 打 粉 和 小 蘇 打 作 為 膨 鬆 劑 探 討 烘 培 食 品 中 膨 鬆 劑 的 作 用 在 麵 糰 組 ( 迷 你 吐 司 ) 的 烘 烤 實 驗 中, 我 們 發 現 :

Transcription:

树模型的进化之路 颜发才 facaiyan@gmailcom facaiygithubio 新浪微博算法平台 2017 年 3 月 11 日

目录 决策树 Adaptive Boosting (AdaBoost) Gradient Boost Decision Tree (GBDT) TreeBoost XGBoost 总结

决策树 决策树直观印象进化分支

决策树 直观印象 petal length (cm) 245 gini = 06667 samples = 150 value = [50, 50, 50] class = setosa False True gini = 00 samples = 50 value = [50, 0, 0] class = setosa petal width (cm) 175 gini = 05 samples = 100 value = [0, 50, 50] class = versicolor petal length (cm) 495 gini = 0168 samples = 54 value = [0, 49, 5] class = versicolor petal length (cm) 485 gini = 00425 samples = 46 value = [0, 1, 45] class = virginica petal width (cm) 165 gini = 00408 samples = 48 value = [0, 47, 1] class = versicolor petal width (cm) 155 gini = 04444 samples = 6 value = [0, 2, 4] class = virginica sepal length (cm) 595 gini = 04444 samples = 3 value = [0, 1, 2] class = virginica gini = 00 samples = 43 value = [0, 0, 43] class = virginica gini = 00 samples = 47 value = [0, 47, 0] class = versicolor gini = 00 samples = 1 value = [0, 0, 1] class = virginica gini = 00 samples = 3 value = [0, 0, 3] class = virginica sepal length (cm) 695 gini = 04444 samples = 3 value = [0, 2, 1] class = versicolor gini = 00 samples = 1 value = [0, 1, 0] class = versicolor gini = 00 samples = 2 value = [0, 0, 2] class = virginica gini = 00 samples = 2 value = [0, 2, 0] class = versicolor gini = 00 samples = 1 value = [0, 0, 1] class = virginica 图 : 决策树示意 1 1 Decision trees of iris data, scikit-learn

GBDT TreeBoost 和 XGBoost 决策树进化分支集成方法 (Ensemble Method) 图 : Bagging 和 Boosting 示意 2 2 What is the difference between Bagging and Boosting, xristica

GBDT TreeBoost 和 XGBoost Adaptive Boosting (AdaBoost) Adaptive Boosting (AdaBoost)

GBDT TreeBoost 和 XGBoost Adaptive Boosting (AdaBoost) 图 : AdaBoost, 啊打,Boost! 3 3 甄子丹对打李小龙全集视频, 视觉网

GBDT TreeBoost 和 XGBoost Adaptive Boosting (AdaBoost) 图 : AdaBoost 训练示意 4 4 The Viola/Jones Face Detector (2001) (Most slides from Paul Viola)

GBDT TreeBoost 和 XGBoost Gradient Boost Decision Tree (GBDT) Gradient Boost Decision Tree (GBDT) 直观印象算法流程从最优化角度的理解从泛函角度的理解从降维角度的理解 spark 实现代码

GBDT TreeBoost 和 XGBoost Gradient Boost Decision Tree (GBDT) 直观印象图 : GBDT 示意 5 5 Boosted Random Forest and Transfer Learning

Gradient Boost Decision Tree (GBDT) 算法流程 Algorithm 1: Gradient_Boost 1 F 0 (x) = arg min ρ N i=1 L(y i, ρ) 2 for m = 1 to M do 3 ỹ = [ L(yi,F(x i )) F(x i ) ] F(x)=F m 1 (x), 4 m = arg min,β N i=1 [ỹ i βh(x i ; )] 2 i = 1, 2,, N 5 ρ m = arg min ρ N i=1 L (y i, F m 1 (x i ) + ρh(x i ; m )) 6 F m (x) = F m 1 (x) + ρ m h(x; m ) 7 end Greedy function approximation: A gradient boosting machine, Jerome H Friedman

GBDT TreeBoost 和 XGBoost Gradient Boost Decision Tree (GBDT) 从最优化角度的理解图 : 损失函数示意 6 6 Gradient Visual, Wikipedia

Gradient Boost Decision Tree (GBDT) 从最优化角度的理解 y 0 L(y, F 0 (x)) = L(y, y 0 ) ỹ 0 L(y, y 1 ) L(y, y 2 ) y y n ỹ 2 y 2 ỹ 1 y 1 L(y, y n ) y i = F i (x) (a) (b)

Gradient Boost Decision Tree (GBDT) 从最优化角度的理解 y 0 = F 0(X) ỹ 0 L( ) y y n ỹ 1 y 1 F 0 y 2 F 1 h(x; ) X F m (x) = F m 1 (x) + ρ m h(x; m ) h(x; )

Gradient Boost Decision Tree (GBDT) 从泛函角度的理解 y0 = F0(X) F0 y yn y1 y2 Fn F h(x; ) X 图 : 三维向量空间 7 7 x = (1, 0, 0), y = (0, 1, 0), z = (0, 0, 1)

GBDT TreeBoost 和 XGBoost Gradient Boost Decision Tree (GBDT) 从泛函角度的理解泰勒展开 : n=0 f (n) (a) n! (x a) n 图 : sin 函数泰勒展开示意 8 GBDT: F n (x) = F 0 (x) + n ρ mh(x; m ) 8 Intuitive Understanding of Sine Waves

Gradient Boost Decision Tree (GBDT) 从降维角度的理解 y0 = F0(X) F0 y yn y1 y2 Fn F h(x; ) X (a) (b) 图 : PCA 9 比较示意 9 Tutorial: Principal Components Analysis (PCA)

Gradient Boost Decision Tree (GBDT) spark 实现代码

GBDT TreeBoost 和 XGBoost TreeBoost TreeBoost 直观印象算法推导常见的损失函数 sklearn 实现代码

TreeBoost 直观印象 m = arg min,β N i=1 [ỹ i βh(x i ; )] 2 ρ m = arg min ρ N i=1 L (y i, F m 1 (x i ) + ρh(x i ; m )) ρ 33 15 47 10 20 38 51 5 18 36 39 49 图 : Tree boost 示意 10 10 Red-black tree, Madit

TreeBoost 算法推导 J- 叶子树模型 h(x; {b j, R j } J 1 ) = J j=1 b j (x R j ) petal length (cm) 245 gini = 06667 samples = 150 value = [50, 50, 50] class = setosa False True gini = 00 samples = 50 value = [50, 0, 0] class = setosa petal width (cm) 175 gini = 05 samples = 100 value = [0, 50, 50] class = versicolor petal length (cm) 495 gini = 0168 samples = 54 value = [0, 49, 5] class = versicolor petal length (cm) 485 gini = 00425 samples = 46 value = [0, 1, 45] class = virginica petal width (cm) 165 gini = 00408 samples = 48 value = [0, 47, 1] class = versicolor petal width (cm) 155 gini = 04444 samples = 6 value = [0, 2, 4] class = virginica sepal length (cm) 595 gini = 04444 samples = 3 value = [0, 1, 2] class = virginica gini = 00 samples = 43 value = [0, 0, 43] class = virginica gini = 00 samples = 47 value = [0, 47, 0] class = versicolor gini = 00 samples = 1 value = [0, 0, 1] class = virginica gini = 00 samples = 3 value = [0, 0, 3] class = virginica sepal length (cm) 695 gini = 04444 samples = 3 value = [0, 2, 1] class = versicolor gini = 00 samples = 1 value = [0, 1, 0] class = versicolor gini = 00 samples = 2 value = [0, 0, 2] class = virginica gini = 00 samples = 2 value = [0, 2, 0] class = versicolor gini = 00 samples = 1 value = [0, 0, 1] class = virginica

TreeBoost 算法推导 ρ m = arg min N ρ i=1 L (y i, F m 1 (x i ) + ρh(x i ; m )) ( = arg min N ρ i=1 L y i, F m 1 (x i ) + ρ ) J j=1 b j (x R j ) ( = arg min N ρ i=1 L y i, F m 1 (x i ) + ) J j=1 ρb j (x R j ) {γ jm } J 1 = arg min {γj } J 1 N i=1 (y L i, F m 1 (x i ) + ) J j=1 γ j (x R jm ) γ jm = arg min γ x i R jm L(y i, F m 1 (x i ) + γ)

TreeBoost 常见的损失函数 γ jm = arg min γ x i R jm L(y i, F m 1 (x i ) + γ) L2 γ jm = arg min γ (y i, F m 1 (x i ) + γ) 2 x i R jm = Ave(y F m 1 (x)) L1 { } yi F m 1 (x i ) N γ jm = median W h(x i ; m ) 1 详细推导可见 :TreeBoost 原理和实现 (sklearn) 简介, 颜发才

TreeBoost sklearn 实现代码

GBDT TreeBoost 和 XGBoost XGBoost XGBoost 思路来源具体推导重要参数

GBDT TreeBoost 和 XGBoost XGBoost 思路来源 GBDT, 毎次迭代可描述成最优问题 : f m = arg min f n i=1 L (y i, ŷ i + f(x i )) = arg min L(f)

XGBoost 具体推导 泰勒展开 L(f) n i=1 g i = L(y i, ŷ i ) ŷ i h i = 2 L(y i, ŷ i ) ŷ 2 i [ L(y i, ŷ i ) + g i f(x i ) + 1 ] 2 h if 2 (x i ) + Ω(f) L(f) = J ( i Ij j=1 g i )b j + 1 2 ( h i + λ)b 2 j + γ R j i I j 详细推导可见 :xgboost 的基本原理与实现简介, 颜发才

XGBoost 具体推导 叶子值 b j = arg min bj L J = arg min bj ( j=1 i Ij J = arg min bj j=1 ( i Ij g i )b j + 1 2 ( h i + λ)b 2 j + γ R j i I j g i )b j + 1 2 ( h i + λ)b 2 j + γ R j i I j b j = i I j g i i I j h i + λ

XGBoost 具体推导 不纯性度量 (impurity) L = 1 2 J j=1 ( i I j g i ) 2 i I j h i + λ + γ R j = 1 2 H + γt L split = L L L L R = 1 2 (H L + H R H) + γ(t T L T R ) = 1 2 (H L + H R H) γ

XGBoost 具体推导 最终, 树生成公式 : L = 1 2 H + γt b i I j g i j = i I j h i + λ

GBDT TreeBoost 和 XGBoost XGBoost 重要参数 XGBoost Parameters objective reg:linear, binary:logistic, multi:softmax num_round, max_depth eta lambda (L2 reg), alpha (L1 reg) Notes on Parameter Tuning 稀疏数据 :0 和 missing

总结 总结

GBDT TreeBoost 和 XGBoost 总结总结 CART: 统一回归和分类问题 AdaBoost: 加权 GBDT: 残差 TreeBoost: 叶子权重 XGBoost: 损失函数指导决策树

谢谢! GBDT TreeBoost 和 XGBoost 树模型的进化之路 颜发才 facaiyan@gmailcom facaiygithubio 新浪微博算法平台 2017 年 3 月 11 日