Microsoft PowerPoint - yxu_并行开发概述1

Similar documents
HPC TOP , HPC 2004SCIDACTOPS PI David Keyes TOP100 HPC Supercomputing in China TOP500 Hans Meuer

<453A5CBDCCD1A72DBFCEB3CC5C C4EAB4BA20B2A2D0D0BCC6CBE35C536C E65775C D E >

并行程序设计基础

PowerPoint 演示文稿

分层并行计算模型 Loyered Models of Parallel Computation

08-02.indd

PowerPoint 演示文稿

并行计算

候非常煩惱 因為我很喜歡作文 我同學看我悶悶不樂問我為甚 麼 我說我道聽途說背古文可以寫好作文 於是我每次註冊就把整 本國文課本背下來 可是完全沒有長進 他看我這樣就說 那你 多讀一點課外書嘛 我就問他課外書是甚麼 他覺得我在開玩 笑 不理我 我就使用那種 我是嚴肅的 的眼神再問他一次 他 就意味深

《嵌入式系统设计》教学大纲

并行计算

第六章

Intel® Core2™ i7 Processor

科学出版中国科学杂志社

并行计算

378高雄市都市計畫說明書

CSR STORY STORY STORY

06-4.indd

開 創 科 學 計 算 的 研 究 與 職 場 生 涯 13 候 模 型 與 預 測 天 文 以 及 數 位 內 容 產 業 等 等, 這 麼 多 與 我 們 生 活 息 息 相 關 的 產 業, 背 後 有 沒 有 任 何 的 共 通 點? 數 學, 又 在 這 些 產 業 中 扮 演 了 任 何

<4D F736F F D20CDACCDFB4F CEC4B5B5BFD8BCFE20D6D0B5C4CEC4B5B5>

最新执法工作手册(二百六十七)


一量动…

. I/O Third Generation Input Output 3GIO PCI Express 3D 10GHz CPU 1Gb Gbps QoS PCI. PCI Express PCI 10 AGP PCI-X HyperTransport PCI 133MB Mu

3.1 并行程序设计基础与样例_软件学院_徐悦甡_第一部分

股份有限公司

NICI願景與推動策略 簡  報

保母人員丙級應檢資料第二部份 doc

2.1与2.2 并行计算机系统结构模型与并行计算机性能测评_软件学院_徐悦甡_第二部分

Microsoft PowerPoint - RT0950_EliminatingRubyGILthroughHTM_Slides_ja.ppt


PowerPoint Presentation

BQY.PS2

水晶分析师

Microsoft Word - 三峽鎮衛生所_3_-張家宸.李永繁.doc

Microsoft Word - 武漢大學交流營心得_黃莉云_.doc

Microsoft Word - 大连机构资讯周报( )

VASP应用运行优化

册子0906

<4D F736F F D20D5FDB7A8D2ABD1DB20BAE7B9E2CEDECFDE20C7B0D1D4D0DEB8C4342E31332E646F63>

模板

(Quad-Core Intel Xeon 2.0GHz) ()(SAS) (Quad-Core Intel Xeon 2.0GHz) (Windows )(Serial ATA) (Quad-Core Intel Xeon 2.0GHz) (Linux)(Serial ATA)


untitled

98年度即測即評學科測試與即測即評即發證技術士技能檢定簡章

Microsoft Word 箕æ−¥ï¼‹å®ı稿;

<4D F736F F D20CCABB1A3CAD9A3A A3A BAC5B8BDBCFE3836CAC0BCCDD0D0C8CBC9EDD2E2CDE2C9CBBAA6B1A3CFD5A3A843BFEEA3A9CCF5BFEE2E646F63>



Microsoft Word - A doc

Microsoft Word - VRP物理引擎应用.doc


白 皮 书 英 特 尔 IT 部 门 实 施 Apache Hadoop* 英 特 尔 分 发 版 软 件 的 最 佳 实 践 目 录 要 点 概 述...1 业 务 挑 战...2 Hadoop* 分 发 版 注 意 事 项...3 Hadoop* 基 础 架 构 注 意 事 项

$""$!# # )*+,*-.+/ / 812.9/ : ;2364<+ =5<+3/ $""$ $!( $"""!# %% $! $%"" $%""!& (!#!& & $""" $""$!""""#

汇集全球21位医生的经验和智慧,总结出最实用的专业建议,这些都是最值得你牢记的健康提醒

1 行 业 发 展 不 平 衡 我 国 房 地 产 中 介 服 务 业 起 步 较 晚, 专 业 分 工 程 度 和 国 外 发 达 国 家 相 比 还 有 很 大 差 距 房 地 产 中 介 服 务 行 业 的 发 展 水 平 与 房 地 产 开 发 行 业 的 市 场 化 水 平 密 切 相 关

IT Data-intensive application,iscsi Middl

Cloudy computing forEducation

DaoCiDi2003TC ct-P293L02-R

录 环 录结 统 资 查 环 设 设 环 变 库 问题 业 计 结 资 请 业 业查 WRF CESM


蘇櫻 慧雪蘇紅櫻 2

内科自诊自疗

《佛子行三十七颂》讲记1

(给多有拉姆)佛子行三十七颂1——7

至 尊 法 王 蒋 阳 龙 朵 加 参 尊 者 上 师 瑜 伽 皈 依 境

第7章-并行计算.ppt

Untitiled

中艺华海修改1.7.indd

北 京 蓝 皮 书 公 共 服 务 相 比 而 言, 养 老 医 疗 失 业 等 保 险 都 早 已 经 由 国 务 院 颁 布 了 相 应 的 立 法 条 例, 在 全 国 范 围 内 形 成 了 统 一 的 制 度 党 的 十 八 届 四 中 全 会, 首 次 以 依 法 治 国 为 主 题,

2006年中央、国家机关公务员录用考试


untitled

白峰杉:数学的人文内涵与科技外延

untitled

< AE76B0F6B971A46CB3F8>

!"# $%# & %# (

http// Time Warp Operating System [6 ] Mimdix system [7 ] ) ) VLSI (Very large scale integration) 3) 3. 2 LP LP LP

P082-P pdf

深 圳 蓝 皮 书 (2008) 的 企 业 向 境 外 拓 展, 出 台 了 一 系 列 资 金 外 汇 等 扶 持 政 策, 鼓 励 企 业 向 境 外 拓 展, 逐 步 放 宽 对 外 投 资 管 理 下 放 权 力 简 化 程 序, 由 审 批 管 理 向 核 准 制 转 变, 开 始 构

2016 年 地 质 工 程 系 教 学 工 作 安 排 2016 学 年 我 系 将 在 总 结 过 去 工 作 的 基 础 上, 结 合 今 年 学 院 以 抓 质 量 强 内 涵 促 改 革 调 结 构 建 品 牌 细 管 理 重 过 程 为 宗 旨, 以 规 范 管 理 深 化 内 涵 为

<4D F736F F D203136BCADBBD8D2E4D3EBD1D0BEBF2E646F63>

萧山中学课程建设方案.doc


Microsoft Word - 9pinggb_A4.doc

Microsoft Word - 9pinggb_A4-f4.doc

理 论 探 索 事 业 单 位 改 革 的 五 点 思 考 余 路 [ 摘 要 ] 事 业 单 位 改 革 是 中 国 改 革 的 重 要 环 节, 其 影 响 力 和 难 度 不 亚 于 国 有 企 业 改 革 本 文 着 重 围 绕 推 进 事 业 单 位 改 革 应 考 虑 的 五 个 方 面

日 本 位 于 亚 洲 东 部, 太 平 洋 西 北 角, 是 我 国 东 方 的 一 个 岛 国 在 洪 积 世 ( 注 1) 的 大 部 分 时 期 内, 日 本 与 大 陆 相 连 大 约 在 洪 积 世 晚 期 至 冲 积 世 ( 注 2) 初 期, 日 本 各 地 发 生 海 进, 出 现

2深化教育教学改革、创新人才培养模式


Microsoft Word - 9pinggb_let.doc

实 习 上 下 点 表 格 解 释 和 相 关 纪 律 要 求 : 1 表 格 中 所 有 名 词 都 为 简 称, 包 括 医 院 名 称 四 年 级 五 年 级 各 专 业 名 称 等 所 有 时 间 都 为 学 生 装 好 行 李 出 发 时 间, 请 提 前 0 分 钟 将 行 李 运 到

3 基 金 杠 杆 从 分 级 基 金 的 概 念, 我 们 知 道 了 分 级 基 金 的 A 份 额 是 每 年 获 得 固 定 收 益 的 稳 健 份 额,B 份 额 是 具 有 杠 杆 效 应 的 激 进 份 额 分 级 基 金 中 的 杠 杆 一 般 有 三 类 : 份 额 杠 杆 =(A

简报158期.doc

Microsoft Word - 9pingb5_let.doc

退休權益.ppt [相容模式]

Microsoft Word - 1.《國文》試題評析.doc

Ps22Pdf

$%%& ()*+, %&, %-&&%%,. $ %,, $,, & /$- 0(1 $%%& %& 234 %-%, 5&%6&633 & 3%%, 3-%, %643 -%%% :::; 7<9; %-%, 3$%$ :::;

# $# #!# # # # # # # %# # # &# # # # #! "

Transcription:

并行计算的概述 上海超级计算中心

什么是并行计算? 运行于单个处理单元 顺序执行 一次执行一条指令

什么是并行计算?

什么是超级计算? 超级计算机 Supercomputer 当前处理能力最强 运算速度最快的一类计算机 超级计算 Supercomputing 利用超级计算机所进行的计算, 通常为了解决普 通计算机所不能完成的大型复杂问题

相对于串行计算 什么是并行计算? 简单说, 是指利用多个部件共同完成计算任务 柜台 柜台 1 柜台 2 排队 A parallel computer is a collection of processing elements that cooperate to solve large problems fast David E. Culler U.C. Berkeley

为什么要并行计算? 大量应用需求的驱动 有限时间内解决复杂计算问题 汽车碰撞实验 :32 CPU 4 小时 ( 一个工况 ) 中尺度天气预报 :128 CPU 4 小时, 每天定时 药物筛选 : 64 CPU,500 万化合物, 一年 蛋白质折叠,256 256CPU 2 个月只能算一个纳秒过程个纳秒过程 宇宙大尺度结构模拟 : 256 CPU,6 个月 地震层析成像 药物筛选 飞机设计 汽车碰撞

为什么要并行计算? 计算机技术发展的推动? 芯片上晶体管数目 每 18 个月增长一倍 工艺 :90nm 65nm 32nm, 逼近极限 主频 : 从 3.0GHz 到 4.0GHz, 步履艰难 功耗 : 单芯片百瓦功耗,mini 型 核反应堆

为什么要并行计算? 多核 CPU 的发展 在单个芯片上内置多个处理单元 - 核 每个处理器视为小型的并行计算机 双核 多核 并行计算已经成为必然!

并行计算的大量应用 ( 传统应用 ) 气候环境 : 天气预报 气候 气象等 生物技术 : 基因 蛋白质 药物设计 能源 : 石油勘探与模拟 核能模拟 材料 : 纳米材料 高分子材料设计 制造 : 外形设计 碰撞试验 发动机燃烧 国防和国家安全 : 密码破译 先进武器制造 海量数据处理

并行计算怎么算? 4 并行应用开发 3 并行算法设计 2 并行计算机系统软件 1 并行计算机体系结构 并行算法 并行应用 并行通讯协议和实现 操作系统 网络设备和互联 处理器和硬件平台

典型的机群系统结构

并行向量机 主要并行计算机类型 Parallel Vector Processor, 银河 1 号, 地球模拟器 对称多处理机 Symmetric Multiprocessor, 曙光 1 号,SGI Power Challenge 大规模并行处理机 Massively Parallel Processor, 神威 I,IBM IBM SP2 分布共享存储多处理机 Distributed Shared Memory,SGI Origin2000/3000 集群或集群系统 Cluster,Cluster of Workstation, 曙光 4000A, 深腾 6800

并行计算机体系架构 VP VP VP P/C P/C P/C LM LM LM 交叉开关 总线或交叉开关 P/C P/C P/C SM SM 定制网络 (a) PVP (b) SMP, 物理上单一地址空间 (c) MPP, 物理 / 逻辑上多地址空间 虚拟分布共享存储 (DSM) LM LM LM LM LM LM P/C P/C P/C P/C P/C P/C 定制网络 (d) DSM 逻辑上单一地址空间 定制 / 标准网络 (e) Cluster/COW, 物理 / 逻辑上多地址空间 体系架构理论模型 :UMA, NUMA, cc-numa

Top500 体系架构趋势 (1993 (1993-2009)

Top500 互联技术的发展趋势 (1993-2009)

当前世界主要超级计算机 TOP500,2010 年 11 月 Ra nk Site Computer Architecture t 1 2 3 National Supercomputing Center in Tianjin,China DOE/SC/Oak Ridge National Laboratory, United States Tianhe-1A - NUDT TH MPP, X5670 2.93Ghz 6C, NVIDIA GPU, FT-1000 8C NUDT Jaguar - Cray XT5-HE Opteron 6-core 2.6 GHz Cray Inc. National Supercomputing Nebulae - Dawning TC3600 Blade, Intel X5650, Centre in Shenzhen,(NSCS) NVidia Tesla C2050 GPU China Dawning MPP MPP Cluster GSIC Center, Tokyo Institute TSUBAME 2.0 - HP ProLiant SL390s G7 Xeon 6C of Technology X5670, Nvidia GPU, Linux/Windows 4 Japan NEC/HP Cluster 5 DOE/SC/LBNL/NERSC United States Hopper - Cray XE6 12-core 2.1 GHz Cray Inc. MPP

提纲 前言 并行计算机 并行计算方法 并行软件开发 展望与挑战

寻找并行性 数据并行 : 分解数据, 并行处理 for i=0 to 99 do a[i]=b[i]+c[i] end for 功能并行 : 分解问题, 并行处理 a=2 b=3 Task1 = (a+b)/2 Task2 = a*b Result = Task1+Task2 流水线 : 依据次序, 时域并行

并行算法设计三个要点 寻求问题求解过程中的并行性 寻求并行算法与并行计算机结构的最佳匹配 合理的组织任务, 减少额外开销

1. 划分 并行算法设计的四个步骤 数据分解或功能分解 2. 通信 确定通信模式 ( 局部 / 全局 ), 负载均衡, 3. 聚集 依据计算机规模聚合并行化, 最小化并行开销, 可扩展性 4. 映射 将任务分配给处理器

并行算法设计的四个步骤 Partitioning D e c o m p o s i t i o n A s s i g n m e n t O r c h p 0 p 1 e p 0 p 1 s t r a t p 2 p 3 i p 2 p 3 o n M a p p i n g P 0 P 1 P 2 P 3 Sequential computation Tasks Processes Parallel Processors program

Partition 分解 分解, 即将大规模的计算量分解成小份 task 区域分解 domain decomposition 任务分解 functional decomposition 注意事项 check list task 数至少比并行处理器数目多 每个 task 对应的计算量相当 分解 task 数目要和问题规模相对应 分解需要尽可能的避免不必要的通讯 / 存储

Communication 通讯 每个子 task 可以同时 (concurrency) 在不同处理器上计算, 但是无法避免子 task 间交换数据 区域分解 :task 间通讯比较难分析 任务分解 :task 间通讯直接, 即 task 的数据流 Communication 注意事项 check list 子 task 间通讯平衡 任务间的全局通讯 计算和通讯尽量能够重叠 (overlap) 不同 task 的计算能同时 (concurrently) 进行,

Communication 注意事项 check list 各子 task 间通讯平衡 任务间的全局通讯可能会降低并行算法的可扩展性, 稳定性 计算和通讯尽量能够重叠 (overlap),, 如果不, 需要用 divide and conquer 分解算法 不同 task 的计算能同时 (concurrently) 进行,

Agglomeration( ( 聚集 ) 将分解和通讯得到的算法具体化 将子 task 聚集在一起, 增加子任务大小, 减少总的子任务数目 对计算和数据的重复存放 在聚集阶段, 需要面对 3 个目标 减少通讯开销 增加每个子任务的粒度 granularity 一定的灵活性, 保证映射阶段的可扩展性 减少软件工程的开销

Mapping( ( 映射 ) 建立 task 和并行处理器的映射关系 目标 : 减少总的执行时间 增强 concurrency 将相互通讯密集的 task 放在临近的节点上 映射问题有大量理论研究 (NP NP-complete) ) 针对需要负载不均衡 (load imbalance) 考虑动态负载平衡 需要增加额外的通讯 / 计算开销

行粒问题本身 不同的并行层次 专业领域科学家问题本身应用层并专业领域科学家 分析建模方法层度分析建模 计算数学家 并行算法 算法层 计算机专家 并行实现 程序层

提纲 前言 并行计算机 并行计算方法 并行软件开发 展望与挑战

共享存储 CPU 两种内存模型 CPU CPU CPU CPU M M 分布式存储 CPU CPU CPU CPU CPU M M M M M M M M M M

共享存储 并行程序实现技术 自动并行化 线程并行 编译器制导语言,OpenMP 分布式存储 - 消息传递 MPI,Message Message Passing Interface PVM,Parallel Parallel Virtual Machine 其他 数据并行,HPF 混合并行

串行程序自动并行化 程序并行化途径 编译器执行自动并行化, 只对部分应用对部分应用有效 目前为止没有行之有效的方法和为止没有行之有效的方法和工具 半自动化并行途径 ( 编译制导 ) 成为目前的一个重要途径 使用全新的并行语言, 如 HPF 需要重写已有程序 串行程序 + 并行化扩展 基于已有程序进行改写 当前主流的并行程序实现途径 MPI,OpenMP

谢谢, 欢迎提问和讨论!