PowerPoint 演示文稿

Similar documents
PowerPoint 演示文稿

泰迪杯全国数据挖掘挑战赛 OCR (CNN) OCR() CNN % 92.1% 15% 90%. Viterbi. OCR..,,,,,

Kubenetes 系列列公开课 2 每周四晚 8 点档 1. Kubernetes 初探 2. 上 手 Kubernetes 3. Kubernetes 的资源调度 4. Kubernetes 的运 行行时 5. Kubernetes 的 网络管理理 6. Kubernetes 的存储管理理 7.

PowerPoint Presentation

册子0906

奇虎360正式开源深度学习调度平台XLearning

京东容器平台与数据中心协同发展实践 鲍永成 京东商城 - 基础平台部 技术总监

Presentation Title

A9RF716.tmp

RKNN-Toolkit ARM 平台快速上手指南 V1.1.0

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

書本介紹


1 IT IT IT IT Virtual Machine, VM VM VM VM Operating Systems, OS IT

PowerPoint Presentation

因 這 將 成 為 你 一 生 中 最 珍 貴 也 最 難 得 的 資 產 在 本 系 徐 主 任 積 極 努 力 安 排 之 下, 東 海 大 學 國 貿 系 與 南 京 大 學 國 貿 系 簽 定 交 換 計 畫, 系 上 開 放 四 個 名 額 到 南 京 大 學 進 行 為 期 一 學 期

1吴正轩

获取 Access Token access_token 是接口的全局唯一票据, 接入方调用各接口时都需使用 access_token 开发者需要进行妥善保存 access_token 的存储至少要保留 512 个字符空间 access_token 的有效期目前为 2 个小时, 需定时刷新, 重复

第 一 节 认 识 自 我 的 意 义 一 个 人 只 有 认 识 自 我, 才 能 够 正 确 地 认 识 到 自 己 的 优 劣 势, 找 出 自 己 的 职 业 亮 点, 为 自 己 的 顺 利 求 职 推 波 助 澜 ; 一 个 人 只 有 认 识 自 我, 才 能 在 求 职 中 保 持

mvc

(Microsoft Word - \245\325\250\337\257Z\266\351\260T2.doc)

SDK 概要 使用 Maven 的用户可以从 Maven 库中搜索 "odps-sdk" 获取不同版本的 Java SDK: 包名 odps-sdk-core odps-sdk-commons odps-sdk-udf odps-sdk-mapred odps-sdk-graph 描述 ODPS 基

Microsoft Word - 在VMWare-5.5+RedHat-9下建立本机QTopia-2.1.1虚拟平台a.doc

菩提道次第廣論

繁 華 國 小 101 學 年 母 親 節 感 恩 惜 福 - 跳 蚤 市 場 暨 科 學 闖 關 遊 戲 親 子 活 動 實 施 計 畫 一 依 據 : 本 校 101 學 年 度 校 務 計 畫 及 行 事 曆 二 目 的 : 1. 培 養 學 生 感 恩 惜 物 知 福 惜 福 的 節 儉 觀


育儿小故事(四)

台 中 市 北 屯 區 東 山 里 橫 坑 9 林 志 明 巷 89-5 菜 豆 菜 大 漿 果 菜 豆 菜 大 漿 果 小 漿 果 核 果 柑 桔 無 陳 錦 生 新 竹 市 香 山 區

2005 3

深度学习 + 大数据 TensorFlow on Yarn 李远策 2017 年 4 月 17 日

PowerPoint 演示文稿

超算平台下的应用容器化实践简介 张文帅 中国科学技术大学超级计算中心 2019 年 03 月 15 日

录 环 录结 统 资 查 环 设 设 环 变 库 问题 业 计 结 资 请 业 业查 WRF CESM

A API Application Programming Interface 见 应 用 程 序 编 程 接 口 ARP Address Resolution Protocol 地 址 解 析 协 议 为 IP 地 址 到 对 应 的 硬 件 地 址 之 间 提 供 动 态 映 射 阿 里 云 内

BYOD Http Redirect convergence Client (1) 2008R2 NLB( ) (2) NLB Unicast mode switch flooding (arp ) NLB DNS Redirect 1. Round-Robin DNS DNS IP/DNS Cli

電子支付機構使用者身分確認機制及交易限額暨交易紀錄保存管理辦法草案總說明

Qcon2016-唐容.key

AI Cloud Brochure_v2_CHT

要 闻 解 读 宏 观 政 策 李 克 强 : 积 极 发 展 股 权 融 资 有 效 缓 解 融 资 难 融 资 贵 问 题 7 月 18 日, 中 共 中 央 政 治 局 常 委 国 务 院 总 理 李 克 强 主 持 召 开 各 省 ( 区 市 ) 政 府 负 责 人 促 进 社 会 投 资

Microsoft Word zw

TensorFlow 深度學習講座 By Mark Chang

PowerPoint 演示文稿

CH01.indd

自由軟體社群發展經驗與 Linux認證介紹

ChinaBI企业会员服务- BI企业

Quantum Overview

untitled

6 徐 咏 深 圳 市 明 亚 科 技 有 限 公 司 电 子 技 术 助 理 7 谢 庆 辉 深 圳 市 奇 辉 电 力 建 设 工 程 有 限 公 司 电 子 技 术 助 理 8 李 威 深 圳 市 地 铁 三 号 线 投 资 有 限 公 司 通 信 技 术 助 理 9 姚 元 全 深 圳 市

ESP-Jumpstart

COCO18-DensePose-BUPT-PRIV

javascript sdk javascript sdk 列出 Bucket 内的对象上传 textarea 内容到 Bucket 上传本地文件生成私有下载链接生成带过期时间的私有链接删除对象下载对象拷贝对象查看文件访问权限设置文件访问权限获取静态网站配置设置静态网站删除静态网站查询对象元数据查询

1 1 大概思路 创建 WebAPI 创建 CrossMainController 并编写 Nuget 安装 microsoft.aspnet.webapi.cors 跨域设置路由 编写 Jquery EasyUI 界面 运行效果 2 创建 WebAPI 创建 WebAPI, 新建 -> 项目 ->

MASQUERADE # iptables -t nat -A POSTROUTING -s / o eth0 -j # sysctl net.ipv4.ip_forward=1 # iptables -P FORWARD DROP #

Microsoft Word - mei.doc

PowerPoint 演示文稿

自由軟體教學平台

自由軟體教學平台

深 圳 市 远 东 皓 星 科 技 有 限 公 司 深 圳 市 信 利 通 电 子 有 限 公 司 深 圳 市 兆 力 电 机 有 限 公 司 深 圳 市 深 祥

Ioncube Php Encoder 8 3 Crack 4. llamaba octobre traslado General Search colony

自由軟體教學平台

RPN 2 DeepParts 22 part pool 2 3 HOG 12 LBP 13 Harr - like 15 DPM 16 Deformable Parts Model VGG16 X. Wang 14 VGG Convolutiona

Paratune用户手册

Microsoft Word - VRP物理引擎应用.doc

4 付 凤 奇 深 圳 市 景 旺 电 子 股 份 有 限 公 司 电 子 技 术 助 理 工 程 师 5 袁 维 中 兴 通 讯 股 份 有 限 公 司 电 子 技 术 助 理 工 程 师 6 李 高 峰 深 圳 市 丰 日 科 技 有 限 公 司 电 子 技 术 助 理 工 程 师 7 叶 秋

目录 1 H3C R4900 G2 服务器可选部件与操作系统兼容性列表 控制卡 GPU 卡 网卡 FC HBA 卡 TPM/TCM 模块 NVMe SSD PCle 加速卡 1-31 i

PowerPoint Presentation

目录 1 IPv6 快速转发 IPv6 快速转发配置命令 display ipv6 fast-forwarding aging-time display ipv6 fast-forwarding cache ipv6 fas

ARM JTAG实时仿真器安装使用指南

Ch03_嵌入式作業系統建置_01

业 务 与 运 营 Business & Operation (Transform) 加 载 (Load) 至 目 的 端 的 过 程, 该 部 分 在 数 据 挖 掘 和 分 析 过 程 中 为 最 基 础 的 一 部 分 一 个 良 好 的 ETL 系 统 应 该 有 以 下 几 个 功 能 1

CCAI 2015 中国人工智能大会 活动总结

白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

untitled

2017ÅàÑø·½°¸

Chapter #

2

Learning Java

目录 1 IPv6 快速转发 IPv6 快速转发配置命令 display ipv6 fast-forwarding aging-time display ipv6 fast-forwarding cache ipv6 fas

Transcription:

AI 公有云实践 范融 UCloud 深度学习工程师 第 1 页

目录 为什么要建设 AI UCloud AI 基础平 利用 AI 平台加速训 公有云平台 台架构 练实例 第 2 页

为什么要建设 AI 公有云平台 第 3 页

AI 运用的各类场景 零售 安防 医疗 教育 艺术 游戏 金融 第 4 页

AI 技术的各类选择 TensorFlow VGG CNTK VGG + LSTM MXNet 框 算 ResNet 架 法 多 样 多 样 LSTM Fast-RCNN + LSTM Caffe 性 性 Theano Keras Fast-RCNN 第 5 页

AI 项目研发周期 选择 AI 框架 选择场景 选择训练环境 选择推理环境 选择算法 第 6 页

AI 平台需求 ( 技术平台 ) TensorFlow Caffe VGG VGG + LSTM MXNet LSTM Fast- RCNN Keras Fast-RCNN + LSTM ResNet AI 基础平台 计算 CPU GPU 存储 S3 NSF HDFS 网络 单节点 分布式 第 7 页

AI 平台需求 ( 项目需求 ) 项目组资源需求曲线 12 10 8 6 资源闲置 计算资源 4 损坏, 资 2 源不足 ++ 0 0 4 8 12 16 20 需求 配置 第 8 页

AI 平台的兼容性 算法兼容性 更好地兼容各类 AI 框架和算法 平台扩展性 平台具备横向扩展能力, 支持业务规模的不断扩大 分布式化 具备弹性伸缩的能力以及容灾能力 同时可以支持 CPU GPU 等各种计算设备 纵向扩展 同时可以支持 S3 NFS HDFS 等多种存储类型 易用性 上手简单, 方便进行代码迁移 第 9 页

UCloud AI 基础平台架构 第 10 页

UCloud AI 平台整体架构 训练日志 TensorBoard TensorFLow Keras Caffe MXNet 图形化界面 Python SDK 接入层 Task Scheduler Task Scheduler AI Train Fault Tolerancer AI Inference Fault Tolerancer 训练平台 在线推理平台 Task Monitor Load Balancer Data Store 存储接入 GPU CPU KNL UFile(S3) UFS(NFS) HDFS 第 11 页

UCloud AI 训练平台 GPU 节点 TensorFlow 部署 GPU 节点 MXNet Caffe 任务调度 GPU 节点 GPU 节点 数据 存储 Keras GPU 节点 GPU 节点 第 12 页

UCloud AI 在线推理平台 TensorFlow 负载均衡器 负载均衡器 部署 Service Service Service Service Service Service Caffe 节点 节点 节点 节点 节点 节点 MXNet 负载均衡器 负载均衡器 Keras Service 节点 Service 节点 Service 节点 Service 节点 Service 节点 Service 节点 空闲 空闲 空闲 空闲 空闲 空闲 节点 节点 节点 节点 节点 节点 Service 平台 第 13 页

兼容性好的运行环境 统一基础镜像 ( 开 Ubuntu 14.04/16.04 + Python 2.7/3.6 numpy pillow scipy opencv_python cython 源 ) 无需用户考虑 GPU CPU 自动支持 GPU 加速 cuda 8 cudnn6/cudnn5 cuda 7 cudnn5/cudnn4 OpenBlas MKL/MKL- DNN 分类基础镜像 ( 开源 ) 用户根据实际使用选择 支持各类 AI 框架 TensorFlow 1.4 Caffe1.0.0 MXNet 0.11.0 Keras+TF1.2 TensorFlow 1.4 Intel Caffe MXNet 0.11.0 Keras+TF1.2 用户自定义镜像 用户编写代码 算法, 代码 第 14 页

兼容性好的运行环境 封装 运行环境完全隔离, 不同任务之间不会产生软件冲突 预装 基础镜像内置各类基础软件环境, 减少使用者环境准备开销 自由 可以自由安装各类软件包, 封装各类算法 可重用 算法的容器镜像可以重复使用 兼容性 GPU 容器镜像可以在任意类型 GPU 节点运行 CPU 容器镜像可以在任意类型 CPU 节点运行 第 15 页

灵活接入的数据源 GPU 主机 CPU 主机 本地存储 NFS 本地存储 NFS 接口转义带宽控制权限控制完整性检查 数据接入层 对象 存储 HDFS NFS 本地 存储 第 16 页

灵活接入的数据源 封装 计算节点逻辑不需要支持各种存储接口, 仅需要通过 2-3 种 ( 例 如本地存储 NFS) 接口就可以对接各类存储类型 灵活 通过扩展数据接入层可接入的存储类型, 也就可以扩展 AI 平台 的数据接入类型 弹性 数据接入层作为中间层可以承载更大的数据访问流量 安全 数据接入层可以做数据流量控制, 确保各个任务的 SLA, 同时 对后端的数据存储系统进行带宽 流量保护 第 17 页

弹性资源调节 上海区域 负载均衡 Set0 Set1 Set2 负载均衡 请求 ( 任务 ) 调度集群节点发现 Kubernutes 集群节点注册 北京区域 CPU GPU ( 单卡 ) GPU ( 多 卡 ) 第 18 页

弹性资源调节 兼容 根据训练实际算力需求申请不同机型 弹性 多项目共享资源池, 即使申请, 即时分配, 即时使用 随时扩容缩容, 无资源浪费 托管 资源池计算节点损坏自动退出集群, 任务恢复, 不影响 AI 业务 第 19 页

利用 AI 平台加速训练实例 第 20 页

利用 AI 平台加速训练实例 图像分类算法 图像分类算法 其他开源资源共享 简介 云上加速 第 21 页

图像分类案例 cifar 数据集 Cifar10 数据集 十类物体图片 (10*6000 张 ) + 相应标签 大小为 32*32 的 RGB 图像 50000 份训练数据 10000 份测试数据 第 22 页

图像分类神经网络 卷积计算 第 23 页

图像分类神经网络 卷积计算 第 24 页

图像分类神经网络 卷积核 需要卷积的图像 卷积计算 第 25 页

图像分类神经网络 卷积计算 卷积运算 提取图像中的特征 ; 不同的卷积核提取不同的特征 ; 卷积核 训练卷积神经网络, 实际上也就是训练每一个卷积层的卷积核, 让这些卷积核对特定的模式有高的激活, 以达到 CNN 网络的分类 / 检测等目的 卷积计算 第 26 页

图像分类神经网络 池化计算 池化运算 提取主要特征 ; 减小计算复杂度 池化计算过程 第 27 页

图像分类神经网络 神经网络构建 conv1 conv2 Fully connected Fully connected layer layer Fully connected layer softmax conv relu pool norm 5 第 28 页

利用 AI 平台加速训练实例 图像分类算法 图像分类算法 其他开源资源共享 简介 云上加速 第 29 页

图像分类 ( 训练过程 ) 1 操作环境准备 Linux 环境或类 Linux 环境 安装 docker 安装 UFIle SDK 安装 Ucloud AI SDK 2 代码和数据准备 准备训练代码 代码下载地址 : https://github.com/ucloud/uai-sdk/tree/master/examples/tensorflow/train/cifar_simple 第 30 页

图像分类 ( 训练过程 ) 打包方法 UAI-SDK 提供的打包工具 :tf_tool.py UAI-SDK 自定义打包工具 :base_tool.py 通过 Dockerfile 来打包镜像 以 Dockerfile 打包为例 1 创建 Dockerfile FROM uhub.service.ucloud.cn/uaishare/gpu_uaitrain_ubuntu-14.04_python-2.7.6_tensorflow-1.4.0:v1.0 ADD./code/ /data/code/ 设置基础镜像 :uhub.service.ucloud.cn/uaishare/gpu_uaitrain_ubuntu-14.04_python-2.7.6_tensorflow-1.4.0:v1.0 将./code/ 拷贝到 docker 镜像的 /data/code/ 目录下 2 编译镜像 Sudo docker build t uhub.service.ucloud.cn/uai_demo/cifar-train-gpu:v1.0 f cifar.dockerfile. 第 31 页

图像分类 ( 训练过程 ) 4 上传镜像 将镜像上传至 UHub 容器镜像库中以备调用 Sudo docker push uhub.service.ucloud.cn/uai_demo/cifar-train-gpu:v1.0 5 下载并上传数据 下载数据 sudo docker run -it -v /data/data:/data/data uhub.service.ucloud.cn/your_uhub_registry/cifar-train-cpu:v1.0 /bin/bash -c "python /data/data/download.py" 将数据上传至 UFile 平台./filemgr-linux64 --action mput --bucket uai-demo --dir /data/data/ --prefix /cifar/train/ 第 32 页

图像分类 ( 训练过程 ) 6 平台训练 选择相应的训练镜像 : uhub.service.ucloud.cn/uai_demo/cifar-train-gpu:v1.0 设置输入数据路径 设置输出数据路径 训练命令 /data/code/cifar10_train.py 第 33 页

图像分类 ( 训练过程 ) 7 获取训练结果 训练结果将自动上传到 Ufile 指定的输出中 通过命令行或 UFile 界面下载训练结果例 :./filemgr-linux64 --action download --bucket uai-demo --key cifar_simple/train/output/model.ckpt-11428.data-00000-of-00002 - -file /data/model.ckpt-11428.data-00000-of-00002 第 34 页

图像分类 ( 在线推理 ) 1 操作环境准备 Linux 环境或类 Linux 环境 安装 docker 安装 UFIle SDK 安装 Ucloud AI SDK 2 模型和推理服务代码准备 准备推理服务代码 准备模型文件 第 35 页

图像分类 ( 在线推理 ) # 加载模型 推理服务代码 :cifar_inference.py # 给出类别 label_dict={0:'airplane,1:'automobile, 2:'bird,3:'cat',4:'deer',5:'dog',6:'frog, 7:'horse,8:'ship',9:'truck'} # 实现一个在线服务的类, # 继承了 TFAiUcloudModel(TensorFlow 在线服务基类 ) from uai.arch.tf_model import TFAiUcloudModel class cifarmodel(tfaiucloudmodel): 1 def load_model(self): # 创建 graph sess = tf.session() x = tf.placeholder(dtype=tf.float32, shape=[1, 24, 24, 3], name='input ) pred = tf.argmax(cifar10.inference(x),axis=1) # 读入模型文件, model_dir 路径在初始化时从 conf.json 中获取 saver = tf.train.saver() params_file = tf.train.latest_checkpoint(self.model_dir) saver.restore(sess, params_file) # 将执行推理所需的 sess x y_ 三个变量保存到 #cifarmodel.output 全局变量中 self.output['sess'] = sess self.output['x'] = x 2 self.output['y_'] = pred 第 36 页

图像分类 ( 在线推理 ) 推理服务代码 :cifar_inference.py for i in range(batch_size): 4 def execute(self, data, batch_size): # 从 cifarmodel.output 全局变量中获取 sess x y_ 三个变量 sess = self.output['sess ] x = self.output['x ] y_ = self.output['y_ ] # 从 data 获取 batching 的请求数据 ret = [] 3 image = Image.open(data[i]) image = cv2.cvtcolor(np.asarray(image),cv2.color_rgb2bgr) image = cv2.resize(image, (24, 24)) mean=np.mean(image) std=np.std(image) image=(image-mean)/max(std,1/np.sqrt(image.size)) image = np.expand_dims(image, axis=0).astype(np.float32) # 请求推理操作 : preds = sess.run(y_, feed_dict={x: image}) pred_label=label_dict[preds[0]] ret.append(pred_label) return ret 第 37 页

图像分类 ( 在线推理 ) 打包方法 UAI-SDK 提供的打包工具 :uai_tool.py 通过 Dockerfile 来打包镜像 以 Dockerfile 打包为例 FROM uhub.service.ucloud.cn/uaishare/cpu_uaiservice_ubuntu-14.04_python-2.7.6_tensorflow-1.4.0:v1.2 EXPOSE 8080 ADD./inference/ /ai-ucloud-client-django/ ADD./code/ /ai-ucloud-client-django/ ADD./cifar.conf /ai-ucloud-client-django/conf.json ENV UAI_SERVICE_CONFIG /ai-ucloud-client-django/conf.json CMD cd /ai-ucloud-client-django && gunicorn -c gunicorn.conf.py httpserver.wsgi 第 38 页

图像分类 ( 在线推理 ) 本地测试 在本地 docker 中运行 :sudo docker run -it -p 8080:8080 uhub.service.ucloud.cn/uai_demo/cifar_infer_simple:v1.0 使用图片 cat.jpg 测试 :curl -X POST http://localhost:8080/service -T cat.jpg 平台测试 在 UAI-Inference 中创建新任务, 选择我们 push 上去的镜像进行部署, 启动 ; 使用图片 cat.jpg 测试 :curl -X POST http://<url>/service -T cat.jpg (url 是我们在平台上得到的地址 ) 第 39 页

利用 AI 平台加速训练实例 图像分类算法 图像分类算法 其他开源资源共享 简介 云上加速 第 40 页

开源镜像仓库 推理案例镜像仓库 https://docs.ucloud.cn/ai/uai-inference/general/examples 训练案例镜像仓库 https://docs.ucloud.cn/ai/uai-train/general/examples 第 41 页

开源 github 及 SDK github 开源项目 https://github.com/ucloud/uai-sdk 开源案例源码 (example) 推理打包工具 (uai_tools) 训练打包工具 (uaitrain_tools) 第 42 页

第 43 页