奇虎360正式开源深度学习调度平台XLearning

Similar documents
深度学习 + 大数据 TensorFlow on Yarn 李远策 2017 年 4 月 17 日

通过Hive将数据写入到ElasticSearch

Flink on YARN部署快速入门指南


Hadoop&Spark解决二次排序问题(Hadoop篇)

Guava学习之Resources

Flume-ng与Mysql整合开发

使用MapReduce读取XML文件

Hive:用Java代码通过JDBC连接Hiveserver

三种方法实现Hadoop(MapReduce)全局排序(1)

使用Apache Beam读写HDFS上的文件

Hadoop元数据合并异常及解决方法

册子0906

PowerPoint 演示文稿

如何在 Apache Hive 中解析 Json 数组

A9RF716.tmp

在Spring中使用Kafka:Producer篇

Submarine:在 Apache Hadoop 中运行深度学习框架

skta00013_read.pdf

Spark作业代码(源码)IDE远程调试

勞動條件檢查執行重點(雲林)_ [相容模式]

醋 水 法 在 水 盆 內 放 入 約 七 分 滿 的 水 與 1/2 到 1 小 杯 的 醋 量, 將 髒 襪 子 浸 泡 一 晚, 隔 天 再 丟 入 洗 衣 機, 就 能 洗 得 相 當 乾 淨 醋 有 殺 菌 除 臭 和 漂 白 功 效, 使 用 過 的 醋 水, 還 可 清 理 地 板,

穨 PDF

第一冊 第四章 分裂與再統一 班級 座號 姓吊

第一章

江门:中国第一侨乡

PowerPoint 演示文稿

是 喔, 就 是 那 個 在 BBS 醫 療 版 跟 你 嗆 聲, 自 稱 有 三 十 多 年 推 拿 經 驗 的 大 叔 嗎? 一 個 看 來 頗 為 清 秀 的 女 生 問 道, 她 語 氣 中 略 感 訝 異 是 啊, 什 麼 推 拿 按 摩 有 多 好, 還 要 人 生 病 盡 量 不 要

Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7.

一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页

PowerPoint Presentation

Itext Sign Pdf Example Download

水晶分析师

目 录 监 管 资 讯 2016 年 全 国 保 险 监 管 工 作 会 议 召 开...3 协 会 动 态 赤 峰 保 险 行 业 协 会 召 开 数 据 统 计 和 信 息 宣 传 总 结 表 彰 会 议...5 赤 峰 市 保 险 行 业 协 会 秘 书 处 召 开 2015 年 度 述 职

同 时, 采 取 提 供 新 闻 线 索 和 素 材 安 排 专 访 等 方 式 主 动 为 新 闻 媒 体 服 务, 为 采 访 报 道 活 动 创 造 便 利 条 件 建 设 网 络 信 息 发 布 平 台 2013 年 9 月 开 通 中 央 纪 委 监 察 部 网 站,2015 年 1 月

公務員服務法第13條相關解釋彙整表

资 讯 速 递 台 基 于 大 数 据 的 学 校 督 导 评 估 系 统 建 设 上 海 市 闵 行 区 人 民 政 府 教 育 督 导 室 ( 摘 要 ) 闵 行 教 育 在 深 化 教 育 改 革 探 索 管 办 评 分 离 的 背 景 下, 把 教 育 督 导 评 估 系 统 建 设 作 为

時間軸上的竹蓮記憶 學務主任 黃雅彙 我不是竹蓮國小的畢業校友 但對於身為新竹人的我來 說 仔細回想起來 似乎和竹蓮有著一種特別的緣分 對竹蓮國小最初的印象是在小學的時候 猶記得年幼的 我經過一段時日的啦啦隊舞蹈訓練後 老師便帶著我們從學 校步行到竹蓮國小來參加比賽 一踏入竹蓮校門 映入眼簾 的是黑

Microsoft Word - 临政办发6.doc

(Microsoft Word - \244\255\244U\260\352\273yok)

fl studio 12 crack dll files

(Microsoft Word - \244g\246a\247B\244\275\253H\245\365\244\247\275\325\254d\254\343\250s doc)


書本介紹

菩提道次第廣論

繁 華 國 小 101 學 年 母 親 節 感 恩 惜 福 - 跳 蚤 市 場 暨 科 學 闖 關 遊 戲 親 子 活 動 實 施 計 畫 一 依 據 : 本 校 101 學 年 度 校 務 計 畫 及 行 事 曆 二 目 的 : 1. 培 養 學 生 感 恩 惜 物 知 福 惜 福 的 節 儉 觀

台 中 市 北 屯 區 東 山 里 橫 坑 9 林 志 明 巷 89-5 菜 豆 菜 大 漿 果 菜 豆 菜 大 漿 果 小 漿 果 核 果 柑 桔 無 陳 錦 生 新 竹 市 香 山 區


育儿小故事(四)

由社會發展趨勢探討國人睡眠品質

专业特色、实施过程和效果说明

Transcription:

本文系奇虎 360 系统部相关工程师投稿 近两年人工智能技术发展迅速, 以 Google 开源的 TensorFlow 为代表的各种深度学习框架层出不穷 为了方便算法工程师使用各类深度学习技术, 减少繁杂的诸如运行环境部署运维等工作, 提升 GPU 等硬件资源利用率, 节省硬件投入成本, 奇虎 360 系统部大数据团队与人工智能研究院联合开发了深度学习调度平台 XLearning XLearning 平台将大数据与深度学习相融合, 基于 Hadoop Yarn 完成了对 TensorFlow MXNet C affe Theano PyTorch Keras XGBoost 等常用深度学习框架的集成, 是典型的 AI on Hadoo p 的实现 XLearning 从今年 (2017)4 月份正式开发上线运行, 经多次版本迭代更新, 为各学习框架的使用者提供了统一 稳定的调度平台, 实现了资源共享, 极大的提高了资源利用率, 并且具有良好的扩展性和兼容性 目前已经在公司搜索 人工智能研究院 商业化 数据中心等业务部门广泛使用 XLearning 项目开源地址 : GitHub 地址 Gitee 地址 g-xlearning-dev@360.cn 加入 QQ 群 :588356340 XLearning 架构 1 / 5

Client:XLearning 客户端, 负责启动作业及获取作业执行状态 ; ApplicationMaster(AM) : 负责输入数据分片 启动及管理 Container 执行日志保存等 ; Container: 作业的实际执行者, 负责启动 Worker 或 PS(Parameter Server) 进程, 监控并向 AM 汇报进程状态, 上传作业的输出等 对于 TensorFlow 类型作业, 还负责启动 Tens orboard 服务 XLearning 功能特性 XLearning 虽然架构简洁, 但具有丰富的功能方便用户进行模型训练, 并依托于 Yarn 提供有作业资源的统一管理 支持多种深度学习框架 XLearning 支持 TensorFlow MXNet 分布式和单机模式, 支持所有的单机模式的深度学习框架, 如 Caffe Theano PyTorch 等 对于同一个深度学习框架支持多版本和自定义版本, 满足用户个性化需求, 不受限于集群机器上各学习框架的安装版本 基于 HDFS 的统一数据管理 2 / 5

XLearning 提供多种模式用于数据的输入 输出, 包括数据的流式读写 直接 HDFS 读写等, 可根据作业处理的数据量与集群机器硬盘容量, 视情况决定所采用的读写方式 可视化界面 为方便用户查看作业信息,XLearning 提供可视化界面用于展示作业执行进度和输出日志等内容 作业执行完毕后, 亦可查看日志内容, 便于分析训练过程进展 对于 TensorFlow 类型作业, 支持 TensorBoard 服务 作业运行界面大致分为三部分 ( 如下图所示 ): All Containers: 显示当前作业所含 Container 列表及各 Container 对应信息, 如 Contianer ID 所在机器 (Container Host) 所属类型 (Container Role) 当前执行状态 (Container Status) 开始时间 (Start Time) 结束时间 (Finish Time) 执行进度 (Reporter Progress); View TensorBoard : 当作业类型为 TensorFlow 时, 可点击该链接直接跳转至 TensorBoard 页面 ; Save Model : 用户可在作业执行过程中, 可以将当前训练模型的输出结果上传至 HDFS, 并显示目前已上传的模型列表 原生代码兼容 XLearning 支持 TensorFlow 分布式模式的 ClusterSpec 自动分配构建, 单机模式和其他深度学习框架代码不用做任何修改即可迁移到 XLearning 上, 便于用户快速使用 Checkpoint 功能 利用深度学习框架本身的 Checkpoint 机制和直接读写 HDFS 数据功能,XLearning 方便用户实现训练恢复继续执行 XLearning 开源版本环境依赖简单, 可直接运行于社区 Hadoop 版本, 使用方便, 入门学习成本极低 公司的 Yarn 版本是我们在社区版本上做了不少增强, 比如支持 GPU 的资源调度 GPU 通信亲和性的感知 DockerContainer 支持等 依赖于这些特性公司在用的版本多出了 GPU 资源调度支 3 / 5

持 作业 Docker 化 临时 GPU 虚拟机 Container Metrics 可视化图表展示等功能 这些功能我们后续会通过提供 Yarn Patch 或者开源自用 Yarn 版本来分享给大家, 也欢迎大家随时跟我们沟通 快速入门 在 XLearning 客户端, 使用 $XLEARNING_HOME/bin/xl-submit 提交脚本将作业提交至 Yarn 集群 以 TensorFlow 作业提交为例 : 上传训练数据至 hdfs 路径 将发布包解压后的 data 文件夹上传至 hdfs, 如 : cd $XLEARNING_HOME hadoop fs -put data /tmp/ 提交运行 cd $XLEARNING_HOME/examples/tensorflow $XLEARNING_HOME/bin/xl-submit \ --app-type "tensorflow" \ --app-name "tf-demo" \ --input /tmp/data/tensorflow#data \ --output /tmp/tensorflow_model#model \ --files demo.py,datadeal.py \ --launch-cmd "python demo.py --data_path=./data --save_path=./model --log_dir=./eventlog - -training_epochs=10" \ --worker-memory 10G \ --worker-num 2 \ --worker-cores 3 \ --ps-memory 1G \ --ps-num 1 \ --ps-cores 2 提交脚本各参数含义如下 : 参数名称 app-name 含义 作业名称为 "tf-demo" 4 / 5

Powered by TCPDF (www.tcpdf.org) 参数名称 app-type input output files launch-cmd worker-memory 含义 作业类型为 "tensorflow" 输入文件,HDFS 路径 :/tmp/data/tensorflow, 对应本地路径./data 输出文件,HDFS 路径 :/tmp/tensorflow_mod el, 对应本地路径./model 需要传给各 container 的本地文件, 包括 demo.py datadeal.py 训练执行命令 worker 内存使用为 10G worker-num worker 数目为 2 worker-cores worker 使用 CPU 核数为 3 ps-memory parameterserver 内存使用为 1G ps-num parameterserver 数目为 1 ps-cores parameterserver 使用 CPU 核数为 2 更多相关参数详细说明请见运行提交参数部分 本博客文章除特别声明, 全部都是原创! 转载本文请加上 : 转载自过往记忆 (https://www.iteblog.com/) 本文链接 : () 5 / 5