南京航空航天大学CPU/GPU集群使用手册

Similar documents
资源管理软件TORQUE与作业调度软件Maui的安装、设置及使用

手册 doc

快 速 入 门 (Linux) 概 述 文 档 目 的 本 文 档 介 绍 了 如 何 快 速 创 建 Linux 系 统 实 例 远 程 连 接 实 例 部 署 环 境 等 旨 在 引 导 您 一 站 式 完 成 实 例 的 创 建 登 录 和 快 速 环 境 部 署 云 服 务 器 ECS 实

迅闪2009帮助手册(xshelp)

幻灯片 1

自由軟體教學平台

<5C5C D2D CB1BEB5D8B4C5C5CC CBACDCAA25CBBD45CBDF8D0D0D6D05CD5FEB2C95CCAFDD7D65CC2DBD6A4BBE15C E31322E3234C2DBD6A4B8E529C3B7D6DDCAD0CAFDD7D6BBAFB3C7CAD0D7DBBACF2E2E2E2E646F63>

3 3 4 Apollo System 5 HPE Apollo System 6 HPE Apollo 2000 System 7 HPE Apollo 2000 System 8 HPE Apollo 4000 System 10 HPE Apollo 4200 Gen9 13 HPE Apol

IBM System x 系列手册

untitled

自由軟體社群發展經驗與 Linux認證介紹

untitled

PowerPoint 簡報

录 环 录结 统 资 查 环 设 设 环 变 库 问题 业 计 结 资 请 业 业查 WRF CESM

二 程序开发及调试环境 1) 基本编译环境目前在 Tesla GPU 集群上各节点均提供用于编译通用程序代码的 GCC 编译器, 能够编译 C/C++/Fortran 程序, 对应的命令为 gcc/g++/gfortran, 该编译器为系统默认安装, 安装路径位于 /usr 下 另外在所有计算节点

Paratune用户手册

元 [ 所 ] IA27 ( D ) 下 列 何 項 情 況, 其 夫 妻 所 得 可 免 合 併 申 報? (A) 當 年 度 結 婚 (B) 當 年 度 離 婚 (C) 妻 58 歲, 夫 62 歲 無 所 得 受 其 子 扶 養 (D) 以 上 皆 是 [ 所 ]

相 关 知 识 1 计 算 机 工 作 原 理 1946 年 2 月, 世 界 上 第 一 台 电 子 计 算 机 ENIAC (Electronic Numerical Integrator And Computer, 电 子 数 字 积 分 计 算 机 ) 诞 生 于 美 国 宾 夕 法 尼 亚

一 登录 crm Mobile 系统 : 输入 ShijiCare 用户名和密码, 登录系统, 如图所示 : 第 2 页共 32 页

(Quad-Core Intel Xeon 2.0GHz) ()(SAS) (Quad-Core Intel Xeon 2.0GHz) (Windows )(Serial ATA) (Quad-Core Intel Xeon 2.0GHz) (Linux)(Serial ATA)

Red Flag Linux Desktop 4.0 Red Flag Linux Desktop 4.0 1

国 家 图 书 馆 年 鉴 0 重 点 文 化 工 程 一 中 华 古 籍 保 护 计 划 0 年, 国 家 图 书 馆 ( 国 家 古 籍 保 护 中 心 ) 根 据 文 化 部 要 求, 围 绕 习 近 平 总 书 记 关 于 弘 扬 中 华 优 秀 传 统 文 化 系 列 讲 话 精 神, 对

目 录 第 一 章 概 述 总 体 框 架 临 床 信 息 系 统 建 设 医 院 管 理 信 息 系 统 信 息 平 台 建 设 需 求... 5 第 二 章 基 于 电 子 病 历 的 临 床 信 息 系 统 建 设 需 求...

Microsoft Word SRS - 軟體需求規格.doc

校友会系统白皮书feb_08

Microsoft Word - VRP物理引擎应用.doc

Acronis True Image 2015

0 配置 Host MIB 设备 V ( 简体版 ) 0 Update: 2016/1/30

( 注 : 在 Windows 有的终端工具在自动执行配置脚本时不出现界面, 出现登录僵死状 态, 如 Xmanager, 这时可先使用其它工具如 putty 登录, 配置好之后再用原来工具登录 则不会出现问题 ) 登录后如需临时更改编译环境, 可执行 : source /opt/cluster/s

09 Linux Linux Linux Linux 009.indd /9/4 下午 12:11:10

脚本文件中定义的参数默认是以 #PBS 开头的 其中 : -N 定义的是 job 名称, 可以随意 -o 定义程序运行的标准输出文件, 如程序中 printf 打印信息, 相当于 stdout; -e 定义程序运行时的错误输出文件, 相当于 stderr -l 定义了申请的结点数和 gpus 数量

untitled

2 Requirements Documentation Doc Name Doc No. 1.0 Version No. Total Page Generated By V6.0.0 Generated Date 2011/10/21 Checked By Checked Date 2011/10

MASQUERADE # iptables -t nat -A POSTROUTING -s / o eth0 -j # sysctl net.ipv4.ip_forward=1 # iptables -P FORWARD DROP #

Microsoft Word - 134招标文件.doc

V A. 1 Hyper-V R2 V C. A. Hyper-V B. Microsoft SCOM 20 V C. MAP D. Microsoft SCVMM 2008 V B. V D. 2. IT IT 2

要 闻 解 读 宏 观 政 策 李 克 强 : 积 极 发 展 股 权 融 资 有 效 缓 解 融 资 难 融 资 贵 问 题 7 月 18 日, 中 共 中 央 政 治 局 常 委 国 务 院 总 理 李 克 强 主 持 召 开 各 省 ( 区 市 ) 政 府 负 责 人 促 进 社 会 投 资

温州市政府分散采购

1 SQL Server 2005 SQL Server Microsoft Windows Server 2003NTFS NTFS SQL Server 2000 Randy Dyess DBA SQL Server SQL Server DBA SQL Server SQL Se

Microsoft PowerPoint - SVR325_陈新

.. 3 N

内 容 培 训 目 标 基 础 知 识 常 用 监 控 命 令 在 实 战 中 综 合 运 用 2

总 目 录 第 一 章 投 标 邀 请 第 二 章 招 标 项 目 需 求 第 三 章 投 标 人 须 知 第 四 章 合 同 格 式 第 五 章 投 标 文 件 格 式 招 标 编 号 :JXBJ2016-G

Acronis True Image 2014

未命名 -1

HighPoint产品的FAQ手册

<4D F736F F D CAD3C6B5BCE0BFD8BDE2BEF6B7BDB0B8A3A8B4E6B4A2B2BFCAF0A3A9BCBCCAF5B0D7C6A4CAE92E646F63>

营 销 策 划 岗 部 门 招 聘 职 位 招 聘 人 数 岗 位 职 责 基 本 要 求 岗 位 任 职 要 求 6 参 与 项 目 产 品 研 究 客 户 需 求 研 究 竞 争 环 境 研 究 价 格 研 究 等 项 目 市 场 研 究 ; 7 公 司 经 纪 业 务 的 品 牌 管 理, 对

Microsoft Word - 在VMWare-5.5+RedHat-9下建立本机QTopia-2.1.1虚拟平台a.doc

六域链联盟 SDChain-Matrix 节点搭建指南 2018/07/26 Version : 1.0.0

HPC TOP , HPC 2004SCIDACTOPS PI David Keyes TOP100 HPC Supercomputing in China TOP500 Hans Meuer

Dell EMC Data Domain DDOS 5.5 Data Domain Data Domain Data Domain : Data Domain Boost (DDBoost) Dell EMC DDBoost Data Domain DDBoost Source De-Dup Bac

中国科学院文件

5 whuTrainee


doc

Apache CarbonData集群模式使用指南

RTX3.2.0标准版 - 技术白皮书

软件概述

cosa Quick Start Manual

Microsoft Word - PS2_linux_guide_cn.doc

untitled

1 o o o CPU o o o o o SQL Server 2005 o CPU o o o o o SQL Server o Microsoft SQL Server 2005

Sun Storage Common Array Manager 阵列管理指南,版本 6.9.0

turbomail方案

双机模板方案0404.doc

IT Data-intensive application,iscsi Middl

计算机网络实验说明

册子0906

公开招标文件

PowerPoint Presentation

スライド 1

Chapter #

Microsoft Word - PKUCS计算机教育 doc

A9RF716.tmp

共同供應契約項次總 表 PowerConnect 8024F ( IPV6) 679, /100/1000Base-T PowerConnect , /100Base-TX ( IPV6) PowerConnect ,64

目录 1 H3C R4900 G2 服务器可选部件与操作系统兼容性列表 控制卡 GPU 卡 网卡 FC HBA 卡 TPM/TCM 模块 NVMe SSD PCle 加速卡 1-31 i

<4D F736F F D20D0C5CFA2BBAFB7A2D5B9D6D8B5E3D7A8CFEEB9E6BBAE2E646F63>

关于建立境内违法互联网站黑名单管理制度的通知

? 這 全 都 是 市 政 府 提 供 給 我 的 資 料 低 底 盤 公 車 計 畫 96 年 預 算 新 台 幣 4,500 萬 元 97 年 預 算 新 台 幣 1 億 6,500 萬 元 98 年 預 算 新 台 幣 3 億 2,300 萬 元, 共 有 307 台 低 底 盤 公 車,99

COP中文范本

冶金企业安全生产监督管理规定

PowerPoint 演示文稿

<4D F736F F D20BAECB1A6C0F6A3BAB7C7B9ABBFAAB7A2D0D0B9C9C6B1C4BCBCAFD7CABDF0CAB9D3C3B5C4BFC9D0D0D0D4B1A8B8E62E646F63>


Basic System Administration

ebook70-21

untitled

untitled

Sun Blade X6275 M A

第1章 QBASIC语言概述

Windows 2000 Server for T100

Microsoft Word - View存储注意事项.doc

untitled

2 中 国 农 业 资 源 与 区 划 2016 年 可, 有 效 减 少 确 定 中 存 在 的 主 观 性 和 人 情 倾 向 三 要 健 全 精 准 扶 贫 大 数 据 平 台 2016 年, 全 国 将 建 设 扶 贫 开 发 大 数 据 平 台, 各 地 要 在 精 准 识 别 的 基 础

1 软件介绍 Gromacs 是一个开源的 高效的 基于标准 MPI 并行环境设计的大规模分子动力学并行程序, 基于 Gromacs 分子力场, 由荷兰的 Groningen 大学 Department of Biophysical Chemistry 开发 Gromacs 主要执行生物大分子如蛋白

考 試 日 期 :2016/04/24 教 室 名 稱 :602 電 腦 教 室 考 試 時 間 :09: 二 技 企 管 一 胡 宗 兒 中 文 輸 入 四 技 企 四 甲 林 姿 瑄 中 文 輸 入 二 技 企 管 一

xueshu004.doc

充电宝充电多长时间?友利来车载充电电源怎么样_友利来应急启动电源好吗

<4D F736F F D20EEA3BDDDB7FECEF1C6F7CCD7BCFED3C3BBA7CAD6B2E156332E302E646F63>

Transcription:

HM 南京信息工程大学 GPU 集群使用说明 Aaron Liu 2013-6-17 1

目 录 一 系统配置清单及产品介绍... 3 1.1 集群管理节点 (ServMax XN-12301,1 台 )... 4 1.2 存储节点配置 (ServMax XR-42303,1 台 )... 4 1.3 GPU 节点配置 (SerMax Xr-4801GK2,6 台 )... 4 二 系统规划及配置图... 5 2.1 系统网络拓扑图... 5 2.2 各节点 IP 及主机名分配... 5 三 集群基础及配置... 7 3.1. 支持的硬件架构... 7 3.2 最低硬件需求... 7 3.3 一般集群网络结构... 8 3.4 网络规划及 IP 地址分配... 8 3.5 集群的文件系统... 10 3.5.1 管理节点文件系统... 10 3.5.2 存储节点文件系统... 10 3.5.2 计算节点文件系统... 10 四 常用软件的路径... 12 五 资源管理器 Torque 的使用... 13 5.1 作业递交命令... 13 5.2 查看队列中的作业状态 :qstat... 13 5.3 挂起作业 :qhold... 14 5.4 取消挂起 :qrls... 14 5.5 终止作业 :qdel... 14 5.6 显示节点信息 :pbsnodes 和 qnodes... 14 六. windows 端用 ssh 工具远程登录... 15 6.1 安装... 15 6.2 从远程主机下载文件... 15 6.3 ssh 远程登录... 17 2

一 系统配置清单及产品介绍 总体配置 : 项目 描述 数量 管理节点 1U 1 台 存储节点 4U 1 台 GPU 计算节点 4U 6 台 集群附件 千兆网络交换机 Infiniband 交换机 KVM 等 1 套 3

1.1 集群管理节点 (ServMax XN-12301,1 台 ) 配置表 : 项目 描述 数量 CPU 6 核心 Intel E5-2620 2 内存 DDR3 1333 4G ECC REG 8 硬盘 600GB 企业级 SAS 盘 2 Infiniband 卡 Mellanox FDR(56Gb/s) 1 1.2 存储节点配置 (ServMax XR-42303,1 台 ) 配置表 : 项目 描述 数量 CPU 6 核心 Intel E5-2620 2 内存 DDR3 1333 4G ECC REG 8 硬盘 3TB 企业级 SATA 盘 16 硬盘 240GB 企业级 SSD 1 Infiniband 卡 Mellanox FDR(56Gb/s) 1 1.3 GPU 节点配置 (SerMax Xr-4801GK2,6 台 ) 配置表 : 项目 描述 数量 CPU 6 核心 Intel E5-2620 2 内存 DDR3 1333 8G ECC REG 8 硬盘 500GB 企业级 SATA 盘 1 Infiniband 卡 Mellanox FDR(56Gb/s) 1 GPU Tesla K20 6 4

二 系统规划及配置图 2.1 系统网络拓扑图 2.2 各节点 IP 及主机名分配 外网访问及 IPMI 系统管理管理网络计算网络 主机名 外网端口 IP( eth1) IPMI 端口 内网端口 ( eth0)ip ib0 hpccluster 192.168.1.x 10.2.x.253 10.1.1.1 10.3.3.1 nas-0-0 10.2.x.254 10.1.1.254 10.3.3.254 compute-0-1 10.2.x.1 10.1.1.253 10.3.3.253 5

compute-0-2 10.2.x.2 10.1.1.252 10.3.3.252 compute-0-6 10.2.x.6 10.1.1.248 10.3.3.248 6

三 集群基础及配置 AMAX 集群管理软件是一套以性能优秀 成熟和稳定的 RedHat Advance Server 基础, 融合节点管理, 任务管理, 状态监控等多种功能, 使用方便的集群管理系统 具有以下的功能和特点 : 在集群管理上, 由 FRONTEND( 前端或管理节点 ) 加 NODE( 计算节点 ) 组成, 默认的情况下前者承担集群的管理和服务, 后者承担计算任务 在系统的安装 维护方面简单易操作, 因为系统集成大量的自动化脚本及各种所需功能的软件包, 在安装的时候会自动设置好多种服务如 NFS 性能监控服务程序等, 计算节点全部通过 PXE 网络系统从主节点下载文件并自动完成所有的安装与设置, 增加删除节点等, 管理起来相当方便 在故障维护上也非常简单, 如对于故障节点, 在硬件修复完成后, 只需接入集群网络即会自动完成文件的下载与安装, 无需人为干预 这些工作在管理节点上就可以完成, 无需围绕每个计算节点重复设置 在任务管理与状态监控上, 集群管理系统提供了一整套基于 WEB 的组件用于监控自身的活动及配置状况, 如处理器 内存及交换分区使用情况 网络负载 节点状态和当前计算任务的进展等 3.1. 支持的硬件架构 处理器架构 : x86 (ia32, AMD Athlon.) x86_64 (AMD Opteron and EM64T) 网络 : 以太网支持一些专用网络及组件 (e.g., Myrinet, Infiniband, nvidia GPU) 可以从各自供应商的官网获得需要的硬件和软件信息 3.2 最低硬件需求 前端节点 ( 管理节点或头节点 ): 硬盘容量 : 30 GB 内存容量 : 1 GB 7

2 个以太网卡 ( 如 :"eth0" and "eth1") BIOS 启动顺序 : 光驱,Hard Disk 计算节点 : 硬盘容量 : 30 GB 内存容量 : 1 GB 1 个以太网卡 ( 如 "eth0") BIOS 启动顺序 : 光驱, PXE (Network Boot), 硬盘 3.3 一般集群网络结构 下图显示了前端节点与计算节点的连接关系 : 计算节点管前端节点的 eth0 网卡接在交换机上, 通过此网络提供集群的安装管理和文件系统的共享和传递 管理节点至少需要 2 个网卡, 除了一个 eth0 接在交换机上与计算节点通信外, 还有另外的 eth1 接在外部网络上, 可以是公网也可以是校内局域网 3.4 网络规划及 IP 地址分配 本次集群网络总共分为 3 个部分 : 8

其中外网访问 192.168.1.x; 千兆以太网占用 10.1.1.x 网段, 主要作为计算节点的管理网络, 同时作为 infiniband 网络的备份, 辅助计算网络, 保证 Infiniband 网络出现故障需要维护时, 整个计算集群也依然可以继续使用 ;IPMI 远程管理在 10.2.2.x 网段, 方便同时进行远程访问和系统管理, 计算网络主要使用 infiniband 网络进行计算数据传递, 在 10.3.3.x 网段 系统网络 IP 地址分配如下 : 外网访问及 IPMI 系统管理管理网络计算网络 主机名 外网端口 IP( eth1) IPMI 端口 内网端口 ( eth0)ip ib0 hpccluster 192.168.1.x 10.2.x.253 10.1.1.1 10.3.3.1 nas-0-0 10.2.x.254 10.1.1.254 10.3.3.254 compute-0-1 10.2.x.1 10.1.1.253 10.3.3.253 compute-0-2 10.2.x.2 10.1.1.252 10.3.3.252 compute-0-6 10.2.x.6 10.1.1.248 10.3.3.248 9

3.5 集群的文件系统 3.5.1 管理节点文件系统 Filesystem Size Used Avail Use% Mounted on /dev/sda1 197G 15G 173G 8% / tmpfs 16G 24K 16G 1% /dev/shm /dev/sda5 337G 3.8G 316G 2% /export /dev/sda2 7.9G 529M 7.0G 7% /var tmpfs 7.7G 49M 7.7G 1% /var/lib/ganglia/rrds nas-0-0.local:/export/home 15T 138M 14T 1% /export/home 其中 /export 下的一些目录还是 nfs 文件共享目录 ;/export/home 目录是通过网络共享的存储节点的文件系统, 所以文件其实是保存在存储节点, 这个目录保存的是普通用户的数据文件 3.5.2 存储节点文件系统 Filesystem Size Used Avail Use% Mounted on /dev/sda1 197G 31G 157G 17% / tmpfs 16G 0 16G 0% /dev/shm /dev/sda3 288G 191M 273G 1% /export/data1 /dev/sdb1 15T 139M 14T 1% /export/home /dev/sdb2 12T 154M 11T 1% /export/data2 /dev/sdb3 12T 154M 11T 1% /export/data3 3.5.2 计算节点文件系统 Filesystem Size Used Avail Use% Mounted on /dev/sda1 16G 5.1G 9.6G 35% / tmpfs 32G 0 32G 0% /dev/shm /dev/sda5 439G 2.2G 414G 1% /state/partition1 /dev/sda2 3.9G 163M 3.5G 5% /var nas-0-0.local:/export/home/user 15T 138M 14T 1% /home/user 10

其中 user 为实际用户名称的代表 11

四 常用软件的路径 /opt 大部分软件位于 /opt 下, 如 openmpi 位于 /opt/openmpi,torque 位于 /opt/torque 等, 是 Linux FHS 标准建议的软件安装路径 /share/apps 一些可执行程序可以放在 /share/apps 下, 计算节点就可以看到和运行, 因为这个目录是管理节点通过 NFS 共享出来给其它节点使用的目录 /export/local 在管理和计算节点实际创建的目录, 软件会真正安装在各个节点, 这样软件在启动和运行中就会减少网络占用, 提高效率, 但相比 /share/apps 来说安装会比较花费时间 /root/backup 此目录下暂时放置一些重要的配置文件, 软件 12

五 资源管理器 Torque 的使用 与作业相关常用的用户命令主要有 : pbsnodes: 显示节点信息 qdel: 取消指定的作业 qhold: 挂起一个作业 qmove: 将一个作业从一个队列移到另一个队列中 qnodes:pbsnodes 的别名, 显示节点信息 qorder: 交换两个作业的排队顺序 qrls: 将被挂起的作业送入准备运行的队列中 qselect: 显示符合条件的作业的作业号 qstat: 显示队列 服务节点和作业的信息 qsub: 提交作业 5.1 作业递交命令 qsub mytask.sh mytask.sh 为作业脚本, 下面为一简单样例 : #PBS -S /bin/bash #PBS -o script.out #PBS -j oe #PBS -l nodes=1:ppn=1:gpus=1 cd $PBS_O_WORKDIR /opt/nvidia_gpu_computing_sdk/c/bin/linux/release/fdtd3d 5.2 查看队列中的作业状态 :qstat 利用 qstat 可以查看作业的运行状态 : user@hpc:~$ qstat 输入上面命令后, 将给出类似下面的输出 : Job id Name User Time Use S Queue 4 8. hpc job name4 us e r 0 E dque 4 9. hpc job name1 us e r 0 0 : 0 0 : 0 0 R dque 5 0. hpc job name2 us e r 0 H dque 5 1. hpc job name3 us e r 0 Q dque 上面几列的含义分别为 : 作业号 作业名 用户名 使用的时间 状态 队列 名, 其中状态中的 C E H Q 和 R 分别表示作业处于完成 退出 挂起 排 队和运行中, 使用 qstat f 可以查询作业退出状态 13

5.3 挂起作业 :qhold qhold 命令可以挂起作业 ( 只能是排队等待的作业才能挂起, 正在运行的作业不能挂起 ), 被挂起的作业将不被执行, 这样可以让其余作业优先得到资源运行, 被挂起的作业在用 qstat 命令查询时显示的状态标志为 H, 下面命令将挂起作业号为 50.hpc 的作业 : user@hpc: $ qhold 50.hpc 5.4 取消挂起 :qrls 被挂起的作业可以利用 qrls 来取消挂起, 重新进入等待运行状态 : user@hpc:~$ qrls 50.hpc 5.5 终止作业 :qdel 用户如果想终止一个作业, 可以利用 qdel 来取消 : user@hpc: $ qdel 50.hpc 5.6 显示节点信息 :pbsnodes 和 qnodes 利用 pbsnodes 和 qnodes( 实际两者是同一个命令的两个名字 ) 可以显示系统各个节点的信息, 比如空闲 (free) 当机 (down) 离线 (offline) 例如 : 显示所有空闲的节点 : user@hpc: $ pbsnodes -l free 其输出为 : node0101 free node0102 free node0104 free 14

六. windows 端用 ssh 工具远程登录 SSH Secure Shell Client 3.2.9 是一个免费的基于 SSH 协议的远程工具 下载地址 :http://www.onlinedown.net/softdown/20089_2.htm 6.1 安装 双击安装, 按默认设置, 直到完成 安装后会在桌面产生两个快捷方式 : 一个 ( 白色图标的 SSH Secure Shell Client) 用于远程登录操作, 另一个 ( 黄色图标的 SSH Secure File Transfer Client) 可以用来上传 / 下载文件, 后面会用到 请见下图 : 6.2 从远程主机下载文件 软件在我们公司的集群管理节点上, 使用 SSH Secure File Transfer Client 下 载到本地 打开该文件, 如下图所示 15

点击左上方的 Quick Connect, 见下图红色方框圈住的地方 : 在弹出的窗口中输入 ip 地址和用户名, 如下图所示 : 16

接下来会提示密码 ( 见上面 ), 然后就可以登录了, 界面如下 : 6.3 ssh 远程登录 Ssh 远程登录通过 SSH Secure Shell Client, 登录方式和上述 SSH Secure File Transfer Client 一样 : 可以直接从双击 SSH Secure Shell Client 的白色图标开始, 象上述 SSH Secure File Transfer Client 一样登录, 登录后界面如下图所示 : 17

接下来就可以象在本地一样操作了 18