分层并行计算模型 Loyered Models of Parallel Computation

Similar documents
并行计算

2.1与2.2 并行计算机系统结构模型与并行计算机性能测评_软件学院_徐悦甡_第二部分

<453A5CBDCCD1A72DBFCEB3CC5C C4EAB4BA20B2A2D0D0BCC6CBE35C536C E65775C D E >

Microsoft PowerPoint - PC1.pptx

并行计算

第六章

PowerPoint 演示文稿

并行计算

Microsoft PowerPoint - PC2.pptx

并行程序设计基础

Research on Efficient Collective Communication Algorithms of Interconnection Networks for Multicomputers Dissertation for the Doctor Degree of Univers

Microsoft Word - 21??¡N??`?C?~??-1.doc, page Normalize ( Microsoft Word - 21ºÝ¤È¸`§C¦~¯Å-1.doc )

Intel® Core2™ i7 Processor

Microsoft PowerPoint - yxu_并行开发概述1

VASP应用运行优化

科学出版中国科学杂志社

模板

Untitled-3

<4D F736F F D20CDACCDFB4F CEC4B5B5BFD8BCFE20D6D0B5C4CEC4B5B5>

投影片 1

PowerPoint 演示文稿

多核心CPU成長日記.doc

PROFIBUS3.doc

例 如, 一 个 含 有 2000 个 记 录 的 文 件, 每 个 磁 盘 块 可 容 纳 250 个 记 录, 则 该 文 件 包 含 8 个 磁 盘 块 然 后 对 该 文 件 作 二 路 归 并 的 外 排 序, 每 次 往 内 存 读 入 两 个 磁 盘 块, 排 序 后 再 写 回 磁


Ps22Pdf

<BABAD3EFD1D4CEC4D1A7D7A8D2B5D1A7C9FABBF1B5C3B8F7C0E0D7CAB8F1B4D3D2B5D6A4CAE9C7E9BFF6CDB3BCC6B1ED2E786C73>

ebook105-12

Ch03_嵌入式作業系統建置_01

OSI OSI 15% 20% OSI OSI ISO International Standard Organization 1984 OSI Open-data System Interface Reference Model OSI OSI OSI OSI ISO Prototype Prot

BPR JIT

ch6

一量动…

_12-17.QXD

Tel:

untitled

P4i45GL_GV-R50-CN.p65

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

, : III

MyCOS

支付宝2011年 IT资产与费用预算

Cloudy computing forEducation

Microsoft Word - A doc

2 2 3 DLight CPU I/O DLight Oracle Solaris (DTrace) C/C++ Solaris DLight DTrace DLight DLight DLight C C++ Fortran CPU I/O DLight AM

ch_code_infoaccess

solutions guide

自由軟體教學平台

1.ai

<4D F736F F D C4EAC0EDB9A4C0E04142BCB6D4C4B6C1C5D0B6CFC0FDCCE2BEABD1A15F325F2E646F63>

目 錄 實 施 計 畫 1 專 題 演 講 因 應 十 二 年 國 民 基 本 教 育 課 程 綱 要 學 校 本 位 課 程 的 整 體 布 局 A-1 推 動 十 二 年 國 民 基 本 教 育 課 程 綱 要 相 關 配 套 措 施 A-10 分 組 研 討 法 規 研 修 B-1 課 程 教

—西安电子科技大学—

KV-cache 1 KV-cache Fig.1 WorkflowofKV-cache 2.2 Key-value Key ; Key Mem-cache (FIFO) Value Value Key Mem-cache ( Value 256B 100 MB 20%

Microsoft Word - No_HK doc

Panaboard Overlayer help

A B A 18 A a 2007b

Untitiled

中艺华海修改1.7.indd

北 京 蓝 皮 书 公 共 服 务 相 比 而 言, 养 老 医 疗 失 业 等 保 险 都 早 已 经 由 国 务 院 颁 布 了 相 应 的 立 法 条 例, 在 全 国 范 围 内 形 成 了 统 一 的 制 度 党 的 十 八 届 四 中 全 会, 首 次 以 依 法 治 国 为 主 题,

2006年中央、国家机关公务员录用考试


untitled

1 1 2 OSPF RIP 2

南華大學數位論文

Microsoft Word 箕æ−¥ï¼‹å®ı稿;

98年度即測即評學科測試與即測即評即發證技術士技能檢定簡章

RAID RAID 0 RAID 1 RAID 5 RAID * ( -1)* ( /2)* No Yes Yes Yes A. B. BIOS SATA C. RAID BIOS RAID ( ) D. SATA RAID/AHCI ( ) SATA M.2 SSD ( )

Microsoft Word 養生與保健_中山大學_講義


萬里社區老人健康照護手冊

Microsoft Word - 強制汽車責任保險承保及理賠作業處理辦法 doc

Microsoft Word - 06.Understanding of Pregnancy and Birth.doc

(➂)11. 炎 炎 夏 日, 即 使 下 起 滂 沱 大 雨, 都 消 除 不 了 令 人 心 煩 的 暑 氣 這 句 話 主 要 想 表 達 什 麼? ➀ 夏 日 裡 經 常 下 著 滂 沱 大 雨, 令 人 心 煩 ➁ 下 著 滂 沱 大 雨 的 日 子, 可 以 消 除 暑 氣 ➂ 夏 日

範本檔

附 件 一 : 办 理 集 中 式 银 期 转 账 业 务 网 点 名 单 序 号 地 区 网 点 名 称 地 址 联 系 人 电 话 23 工 商 银 行 安 徽 省 铜 陵 百 大 支 行 铜 陵 市 长 江 东 路 50 号 鲁 桂 珍 工 商 银 行 安 徽

2. 二 年 級 吳 毓 秀 老 師 : 感 謝 午 餐 公 司 平 時 均 能 準 時 送 餐, 但 希 望 能 不 要 使 用 加 工 品, 且 學 生 反 映 希 望 能 多 加 蛋 品 的 食 物 3. 三 年 級 柯 阿 青 老 師 : 雞 肉 有 血 水 味, 請 午 餐 公 司 能 調

高雄市立五福國民中學九十四學年度第一學期第三次段考二年級本國語文學習領域試題卷

台北老爺校外實地參訪結案報告


糖尿病食譜



,,,,,,, (,, ),,,,,,,,,,,,,,, ,,, 4 11,, ( ),,,, ( ), :, ( ),,, 1995, 66 ; ( ),, 1996, , 3-4,,


2002 4,,, 1941,,,,,,,,,,,,,,,,,, : ;:, 1991,

人 物 春 秋 杨 永 泰 将 其 削 藩 策 略 概 括 为 : 以 经 济 方 法 瓦 解 冯 玉 祥 的 第 二 集 团 军, 以 政 治 方 法 解 决 阎 锡 山 的 第 3 集 团 军, 以 军 事 方 法 解 决 李 宗 仁 的 第 四 集 团 军, 以 外 交 方 法 对 付 张 学


HPC TOP , HPC 2004SCIDACTOPS PI David Keyes TOP100 HPC Supercomputing in China TOP500 Hans Meuer

從篤加有二「區」談當代平埔文化復振現相

投影片 1

苗 ) 种 质 资 源 进 出 口 的 审 批 工 作 ; 组 织 农 作 物 品 种 管 理, 拟 订 农 作 物 品 种 审 定 和 农 业 植 物 新 品 种 保 护 的 办 法 标 准, 承 担 农 作 物 品 种 审 定 登 记 和 农 业 植 物 新 品 种 授 权 复 审 工 作, 组

<4D F736F F D FA1B C4EAB9F3D6DDBDF0C8DAD4CBD0D0B1A8B8E6A1B7B6A8B8E5>

<4D F736F F D20D0ECB7C9D4C6A3A8C5C5B0E6A3A92E646F63>



深 圳 蓝 皮 书 (2008) 的 企 业 向 境 外 拓 展, 出 台 了 一 系 列 资 金 外 汇 等 扶 持 政 策, 鼓 励 企 业 向 境 外 拓 展, 逐 步 放 宽 对 外 投 资 管 理 下 放 权 力 简 化 程 序, 由 审 批 管 理 向 核 准 制 转 变, 开 始 构

. I/O Third Generation Input Output 3GIO PCI Express 3D 10GHz CPU 1Gb Gbps QoS PCI. PCI Express PCI 10 AGP PCI-X HyperTransport PCI 133MB Mu

Microsoft Word - 十月號.doc

Microsoft PowerPoint - VCAD.ppt []

相 关 知 识 1 计 算 机 工 作 原 理 1946 年 2 月, 世 界 上 第 一 台 电 子 计 算 机 ENIAC (Electronic Numerical Integrator And Computer, 电 子 数 字 积 分 计 算 机 ) 诞 生 于 美 国 宾 夕 法 尼 亚

USPTO Academic research Corporate needs Global/International Inventors Libraries News Media/Publication Patent Attorney or Agent USPTO e (ebusiness Ce

Transcription:

并行计算 Parallel Computing 主讲人 孙广中 Spring, 2018 2018/3/19 1 / 43

思考题 1 问题 1: 谈谈你所知道的高性能计算与云计算的区别? 问题 2: 并行程序的描述应如何? 与串行程序有什么不同? 问题 3: 如何并行地尽快求解 n 个元素的最大值或排序? 2018/3/19 2 / 43

并行计算 结构 算法 编程 ( 第三版 ) 第一篇并行计算硬件平台 : 并行计算机 第一章并行计算与并行计算机结构模型 第二章并行计算机系统互连与基本通信操作 第三章典型并行计算机系统介绍 第四章并行计算性能评测 2018/3/19 3 / 43

第一章并行计算及并行机结构模型 1.1 计算与计算机科学 1.2* 单处理机与指令级并行 1.3* 多核处理器与线程级并行 1.4 并行计算机体系结构 1.4.1 并行计算机结构模型 1.4.2 并行计算机访存模型 1.4.3* 并行计算机存储模型 1.5 并行计算概述 2018/3/19 4 / 43

并行计算 计算科学 计算需求 并行计算 : 并行机上所作的计算, 又称高性能计算或超级计算 计算科学 : 计算物理 计算化学 计算生物等 计算是科学发现的三大支柱之一 科学与工程问题的需求 : 气象预报 油藏模拟 核武器数值模拟 航天器设计 基因测序等 美国 ASCI 计划 (1996): 核武器数值模拟 需求类型 : 计算密集 数据密集 网络密集 2018/3/19 5 / 43

第一章并行计算及并行机结构模型 1.1 计算与计算机科学 1.2* 单处理机与指令级并行 1.3* 多核处理器与线程级并行 1.4 并行计算机体系结构 1.4.1 并行计算机结构模型 1.4.2 并行计算机访存模型 1.4.3* 并行计算机存储模型 1.5 并行计算概述 2018/3/19 6 / 43

并行计算机结构模型 (1) VP VP VP P/C P/C P/C MB P/C LM MB P/C LM 交叉开关 总线或交叉开关 NIC NIC SM SM SM SM SM I/O (a)pvp (b)smp 定制网络 (c)mpp MB P/C LM DIR MB P/C LM DIR MB P/C M Bridge MB P/C M Bridge NIC NIC LD IOB LD IOB NIC NIC 定制网络 (d)dsm 商品网络 ( 以太网,ATM,etc.) (e)cow 2018/3/19 7 / 43

并行计算机结构模型 (2) SM SM SM DSM DSM DSM SMP SMP SMP MPP MPP MPP SAN/LAN SAN/LAN (f) SMP-Cluster (g) DSM-Cluster SM LM DSM SMP MPP MPP WAN (h) Grid (Cluster of Clusters) 2018/3/19 8 / 43

并行计算机结构模型 (3) SISD computer -Von Neumann's model SIMD computer 2018/3/19 9 / 43

并行计算机结构模型 (4) Symmetric multiprocessor MIMD-SM Massively parallel processor MIMD-DM 2018/3/19 10 / 43

并行计算机结构模型 (5) Cluster of workstations MIMD-DM 2018/3/19 11 / 43

并行计算机结构模型 (6) 五种结构小结 属性 PVP SMP MPP DSM COW 结构类型 MIMD MIMD MIMD MIMD MIMD 处理器类型专用定制商用商用商用商用 互连网络 定制交叉开关 总线 交叉开 关 定制网络 定制网络 商用网络 ( 以 太 ATM) 通信机制共享变量共享变量消息传递共享变量消息传递 地址空间单地址空间单地址空间多地址空间单地址空间多地址空间 系统存储器集中共享集中共享分布非共享分布共享分布非共享 访存模型 UMA UMA NORMA NUMA NORMA 代表机器 Cray C-90, Cray T-90, 银河 1 号 IBM R50, SGI Power Challenge, 曙光 1 号 Intel Paragon, IBMSP2, 曙光 1000/2000 Stanford DASH,Cray T 3D Berkeley NOW,Alpha Farm 2018/3/19 12 / 43

并行计算机访存模型 (1) UMA UMA(Uniform Memory Access) 模型是均匀存储访问模型的简称 其特点是 : 物理存储器被所有处理器均匀共享 ; 所有处理器访问任何存储字取相同的时间 ; 每台处理器可带私有高速缓存 ; 外围设备也可以一定形式共享 处理器 P 1 P 2 P n 系统互连 ( 总线, 交叉开关, 多级网络 ) I/O SM 1 SM m 共享存储器 2018/3/19 13 / 43

并行计算机访存模型 (2) NUMA NUMA(Nonuniform Memory Access) 模型是非均匀存储访问模型的简称 特点是 : 被共享的存储器在物理上是分布在所有的处理器中的, 其所有本地存储器的集合就组成了全局地址空间 ; 处理器访问存储器的时间是不一样的 ; 访问本地存储器 LM 或群内共享存储器 CSM 较快, 而访问外地的存储器或全局共享存储器 GSM 较慢 ( 此即非均匀存储访问名称的由来 ); 每台处理器照例可带私有高速缓存, 外设也可以某种形式共享 2018/3/19 14 / 43

并行计算机访存模型 (2) NUMA GSM GSM GSM 全局互连网络 P CSM P CSM LM 1 LM 2 P 1 P 2 互连网络 P P C I N CSM CSM P P C I N CSM CSM LM n P n 群 1 群 N (a) 共享本地存储模型 (b) 层次式机群模型 2018/3/19 15 / 43

并行计算机访存模型 (3) COMA COMA(Cache-Only Memory Access) 模型是全高速缓存存储访问的简称 其特点是 : 各处理器节点中没有存储层次结构, 全部高速缓存组成了全局地址空间 ; 利用分布的高速缓存目录 D 进行远程高速缓存的访问 ; COMA 中的高速缓存容量一般都大于 2 级高速缓存容量 ; 使用 COMA 时, 数据开始时可任意分配, 因为在运行时它最终会被迁移到要用到它们的地方 2018/3/19 16 / 43

并行计算机访存模型 (3) COMA 互连网络 D D D C C C P P P 2018/3/19 17 / 43

并行计算机访存模型 (4) CC-NUMA CC-NUMA(Coherent-Cache Nonuniform Memory Access) 模型是高速缓存一致性非均匀存储访问模型的简称 其特点是 : 大多数使用基于目录的高速缓存一致性协议 ; 保留 SMP 结构易于编程的优点, 也改善常规 SMP 的可扩放性 ; CC-NUMA 实际上是一个分布共享存储的 DSM 多处理机系统 ; 它最显著的优点是程序员无需明确地在节点上分配数据, 系统的硬件和软件开始时自动在各节点分配数据, 在运行期间, 高速缓存一致性硬件会自动地将数据迁移至要用到它的地方 2018/3/19 18 / 43

并行计算机访存模型 (4) CC-NUMA P/C 节点 1 P/C 总线或交叉开关 Mem P/C 节点 N P/C 总线或交叉开关 Mem I/O NIC,DIR,RC I/O NIC,DIR,RC 系统互连网路 2018/3/19 19 / 43

并行计算机访存模型 (5) NORMA...... NORMA(No-Remote Memory Access) 模型是非远程存储访问模型的简称 NORMA 的特点是 : 所有存储器是私有的, 仅能由其处理器访问 ; 绝大数 NORMA 都不支持远程存储器的访问 ; M M P P... M P M P M P 消息传递互连网络 ( 网络, 环网, 超立方, 立方环等 ) P M P M P M P M... P M 2018/3/19 20 / 43

并行机系统的不同存储结构 MIMD 多处理机 ( 单地址空间共享存储器 ) NORMA 多计算机 ( 多地址空间非共享存储器 ) 中央存储器 UMA NUMA 分布存储器 Cluster PVP (Cray T90) SMP (IBM SP2,DEC TruCluster Tandem Hymalaya,HP, Microsoft Wolfpack,etc) ( 松散耦合 ) MPP (Intel TFLOPS) ( 紧耦合 ) (Intel SHV,SunFire,DEC 8400, SGI PowerChallenge,IBMR60,etc.) COMA (KSR-1,DDM) CC-NUMA NCC-NUMA (Stanford Dash, SGI Origin 2000,Sequent NUMA-Q, HP/Convex Exemplar) (Cray T3E) DSM (TreadMarks, Wind Tunnel, IVY,Shrimp, etc.) 2018/3/19 21 / 43

第一章并行计算及并行机结构模型 1.1 计算与计算机科学 1.2* 单处理机与指令级并行 1.3* 多核处理器与线程级并行 1.4 并行计算机体系结构 1.4.1 并行计算机结构模型 1.4.2 并行计算机访存模型 1.4.3* 并行计算机存储模型 1.5 并行计算概述 2018/3/19 22 / 43

The Landscape of Parallel Computing Research A view from Berkeley 2006 年的白皮书 计算数学 计算物理 计算机软件 计算机硬件 计算机算法 电子学等多个学科 20 余名教授, 半年时间研讨 http://view.eecs.berkeley.edu/wiki/main_page 2018/3/19 23 / 43

A view from Berkeley 2018/3/19 24 / 43

高性能计算应用需求 2018/3/19 25 / 43

超级计算机性能的发展趋势 2018/3/19 26 / 43

作业 1( 研究生必做, 本科生选做 ) 1. 课本第 35 页 1.11 题 并行计算应用调研 2. 根据调研的应用需求, 预算 150 万人民币购置计算资源 请确定购买的机器配置 提交截止时间 :2018 年 3 月 28 日 ( 周二 )22:00 提交方式 :http://home.ustc.edu.cn/~zzh04/pc.html 2018/3/19 27 / 43

思考题 2 与串行计算相比, 并行机系统的存储结构更为复杂 试描述缓存一致性 ( coherence) 问题 请考虑可以如何解决这个问题 2018/3/19 28 / 43

Core 1 Core 2 Core 3 Core 4 Main memory x=15213 multi-core chip 2018/3/19 29 / 43

Core 1 reads x Core 1 Core 2 Core 3 Core 4 x=15213 Main memory x=15213 multi-core chip 2018/3/19 30 / 43

Core 2 reads x Core 1 Core 2 Core 3 Core 4 x=15213 x=15213 Main memory x=15213 multi-core chip 2018/3/19 31 / 43

Core 1 writes to x, setting it to 21660 Core 1 Core 2 Core 3 Core 4 x=21660 x=15213 Main memory x=21660 assuming write-through s multi-core chip 2018/3/19 32 / 43

Core 2 attempts to read x gets a stale copy Core 1 Core 2 Core 3 Core 4 x=21660 x=15213 Main memory x=21660 multi-core chip 2018/3/19 33 / 43

Solutions for coherence This is a general problem with multiprocessors, not limited just to multi-core There exist many solution algorithms, coherence protocols, etc. A simple solution: invalidation-based protocol with snooping 2018/3/19 34 / 43

Inter-core bus Core 1 Core 2 Core 3 Core 4 Main memory multi-core chip inter-core bus 2018/3/19 35 / 43

Invalidation protocol with snooping Invalidation: If a core writes to a data item, all other copies of this data item in other s are invalidated Snooping: All cores continuously snoop (monitor) the bus connecting the cores. 2018/3/19 36 / 43

The coherence problem Revisited: Cores 1 and 2 have both read x Core 1 Core 2 Core 3 Core 4 x=15213 x=15213 Main memory x=15213 multi-core chip 2018/3/19 37 / 43

The coherence problem Core 1 writes to x, setting it to 21660 Core 1 Core 2 Core 3 Core 4 x=21660 x=15213 sends invalidation request Main memory x=21660 INVALIDATED assuming write-through s multi-core chip inter-core bus 2018/3/19 38 / 43

The coherence problem After invalidation: Core 1 Core 2 Core 3 Core 4 x=21660 Main memory x=21660 multi-core chip 2018/3/19 39 / 43

The coherence problem Core 2 reads x. Cache misses, and loads the new copy. Core 1 Core 2 Core 3 Core 4 x=21660 x=21660 Main memory x=21660 multi-core chip 2018/3/19 40 / 43

Alternative to invalidate protocol: update protocol Core 1 writes x=21660: Core 1 Core 2 Core 3 Core 4 x=21660 x=21660 UPDATED broadcasts updated value Main memory x=21660 assuming write-through s multi-core chip inter-core bus 2018/3/19 41 / 43

Which do you think is better? Invalidation or update? 2018/3/19 42 / 43

Invalidation vs update Multiple writes to the same location invalidation: only the first time update: must broadcast each write (which includes new variable value) Invalidation generally performs better: it generates less bus traffic 2018/3/19 43 / 43