1800
1800 学 计 发 软 调 术 计 术 应 软 务 2
1. 论 学 2. 实 验 学 3. 计 学 计 学 计 学 计 动 学 计 学 计 学 计 学 计 学 计 学 计 电 学 3
4
( 级 计 ) CRAY, 银 I SMP( ) IBM p690 SUN MPP( 规 ) T3E 1000 HP ccnuma( 储 ) SGI Qrigin 统 联 腾 1800, IBM SP2 5
6
7 CPU 495 1106 1200 600MHz MIPS/R16000 SGI 711 1076 2100 1050MHz UltraSparc Sun 782 1929 4500 2250MHz Athlon2800+ AMD 1019 1945 2500 1250MHz Alpha HP 1204 2444 5600 2.8GHz P4 Xeon Intel 1219 no 3600 1.8GHz Opteron AMD 1285 no 6400 3.2GHz P4 Xeon Intel 1576 3884 6800 1.7GHz Power4 IBM 2119 5303 6000 1.5GHz Itanium2 Intel Specfp 2000Peak TPP n=1000 Peak (Mflops) Clock CPU Manufacturer
http://www.top500.org/list/2003/06/ Rank Manufacturer Computer/Procs R max R peak Installation Site Country/Year 51 Legend Group DeepComp 1800 - P4 Xeon 2 GHz - Myrinet/ 512 1046.00 2048.00 Academy of Mathematics and System Science China/2002 98 Legend Group DeepComp 1800 - P4 Xeon 2.4 GHz - Myrinet/ 256 711.70 1228.00 LASG/Institute of Atmospheric Physics, CAS China/2002 278 Hewlett-Packard SuperDome 875 MHz/HyperPlex/ 192 408.20 672.00 Youngwoo China/2003 292 IBM xseries Cluster Xeon 2.4 GHz - Gig-E/ 256 402.50 1228.80 ShengriLi China/2003 293 IBM xseries Cluster Xeon 2.4 GHz - Gig-E/ 256 402.50 1228.80 Sinopec China/2003 299 Legend Group DeepComp 1800 - P4 Xeon 2.4 GHz - Giganet/ 256 385.40 1228.00 Exploration & Development Res. Inst. of Daqing Oil Field China/2003 486 Hewlett-Packard SuperDome 750 MHz/HyperPlex/ 128 245.30 384.00 8 Beijing Social Insurance China/2001
9
1800 学 计 发 软 调 术 计 术 应 软 务 10
HotSpot BottleNeck 11
IO 12
13
System System Level Level Application Level Level Micro-Architecture Level Level 14
Perfmon* NetMon* ApiMon* System Level Less Intrusive VTune Performance Analyzer Quantify* Application Level More Intrusive Micro-Architecture Level Less Intrusive 15
16
for(i=0;i<num;i++) { for(j=0;j<num;j++) { for(k=0;k<num;k++) { c[i][j] =c[i][j] + a[i][k] * b[k][j]; } } } for(i=0;i<num;i++) { for(k=0;k<num;k++) { } } for(j=0;j<num;j++) { c[i][j] =c[i][j] + a[i][k] * b[k][j]; } SELF IMSL RELEASE OPT 4 CXML ATLAS MKL50 MKL60 16.676s 10.996s 5.445s 5.457s 3.328s 0.762s 0.848s 0.738s 17
1800 学 计 发 软 调 术 计 术 应 软 务 18
PRAM BSP logp C 3 SIMD MIMD SPMD MPMD 19
20
CPU Memory CPU Memory C P U C P U C P U C P U Network Bus CPU Memory CPU Memory Memory OpenMP 21
组 22
The Problem 组 Communication Initial tasks Combined Tasks Final Program 23
Atmosphere Model Hydrology Model Ocean Model Land Surface Model 24
25
26
- 27
N N N N N N 28
N1 N2 N2 N4 N4 N4 N4 N2 N2 N1 29
P1 T1 T2 T3 T4 TN-1 TN P2 T1 T2 T3 TN-2 TN-1 TN P3 T1 T2 TN-3 TN-2 TN-1 TN 30
- Master Slave Slave Slave 31
N1 N2 N3 32
33
数 HPF 储 OpenMP Pthreads 传 递 MPI PVM 34
Navier-Stokes 5000 35
(i,j+1) (i-1,j) (i,j) (i+1,j) (i,j-1) N Y 36
(i,j+1) (i-1,j) (i,j) (i+1,j) (i,j-1) 37
38 P2 P2 N Y P1 P1 N Y P3 P3 N Y P4 P4 N Y
处 数 拟 时 间 / 1 44.4 --- 2 22.5 1.97 4 11.12 3.99 8 5.6 7.93 16 (8 节 点 ) 2.928 15.16 39
1800 学 计 发 软 调 术 计 术 应 软 务 40
1800 41
DL_POLY( ) 80,000 Fortran AIX / Power4 ~> Linux / Intel Xeon DOCK( ) 100,000 C IRIX / SGI ~> Linux / Intel Xeon Ccsm( ) 170,000 Fortran AIX / Power4 ~> Linux / Intel Xeon 42
MOLDY 调 3 DL_POLY 调 2.25 软 调 调 6 庆 Geodepth 调 单 节 点 时 络 达 126MB/s 43
Intel / PGI / LF95 Compiler MKL svml Goto(Math Library) IPP(Performance Library) TotalView(Parallel Debug) VTune(Performance Analysis) VGV(Cluster Performance Analysis) Perfmon ; Apimon ; Netmon 44
45
46