ITAOI2006_28.doc

Similar documents
第一組個人電腦主機

Autodesk Product Design Suite Standard 系統統需求 典型使用用者和工作流程 Autodesk Product Design Suite Standard 版本為為負責建立非凡凡產品的設計師師和工程師, 提供基本概念設計計和製圖工具, 以取得令人驚驚嘆

Microsoft Word - 专论综述1.doc

IBM System x 系列手册

項次 4 (Quad-Core Intel Xeon 2.53GHz 一顆 /Windows 作業系統 ) NT$84,222 HP ProLiant DL120 G6 作業系統 Windows Server 2008 提供 1 顆 Quad-Core Intel Xeon 2.53GHz, 每顆

目 录 第 一 部 分 序 厦 门 大 学 嘉 庚 学 院 简 介... 3 第 二 部 分 教 学 管 理 厦 门 大 学 嘉 庚 学 院 教 师 工 作 规 范... 5 厦 门 大 学 嘉 庚 学 院 课 程 班 管 理 说 明 厦 门 大 学 嘉 庚 学 院 本 科 生 毕 业

并行程序设计基础

(Quad-Core Intel Xeon 2.0GHz) ()(SAS) (Quad-Core Intel Xeon 2.0GHz) (Windows )(Serial ATA) (Quad-Core Intel Xeon 2.0GHz) (Linux)(Serial ATA)

HPC TOP , HPC 2004SCIDACTOPS PI David Keyes TOP100 HPC Supercomputing in China TOP500 Hans Meuer

1711-門市-PC-p1p2

《嵌入式系统设计》教学大纲

热设计网

% 30% % % % %

國家圖書館典藏電子全文

VASP应用运行优化

Microsoft PowerPoint - SSTC_Intel_HPC_Forum_020806_HANDOUT

29 酒 宇 凡 男 河 南 省 30 葛 欣 岩 男 河 南 省 31 李 昱 昂 男 河 南 省 32 李 松 博 男 河 南 省 酒 兵 强 董 慧 葛 海 东 王 瑞 萍 李 俊 涛 高 会 丽 李 新

Intel® Core2™ i7 Processor

IP TCP/IP PC OS µclinux MPEG4 Blackfin DSP MPEG4 IP UDP Winsock I/O DirectShow Filter DirectShow MPEG4 µclinux TCP/IP IP COM, DirectShow I

自由軟體教學平台

2016 英雄聯盟世界大賽暨全明星賽官方指定夥伴 Predator G1-710 Predator G3-710 Predator G6-710 Turbo**G6 IceTunnel 3/27-5/5PredatorGefore GTX 10 [Predator] :

電腦設備LP _第七組顯示卡規範書

Microsoft Word - LP doc

1706-門市-PC-封面封底

電腦設備LP 第七組顯示卡規範書

0 0 = 1 0 = 0 1 = = 1 1 = 0 0 = 1

Fig. 1 1 The sketch for forced lead shear damper mm 45 mm 4 mm 200 mm 25 mm 2 mm mm Table 2 The energy dissip

I 2001年我国计算机制造业的基本运行状况

Microsoft Word - A doc

ASUS RS300-E7 DELL PowerEdge R210 II 5 1U 超薄型伺服器 (Quad-Core Intel Xeon 3.2GHz 一顆 )(Linux Server 作業系統 )(Serial ATA 硬碟 ) 51,173 HP DL120 G7 IBM System x

OSI OSI 15% 20% OSI OSI ISO International Standard Organization 1984 OSI Open-data System Interface Reference Model OSI OSI OSI OSI ISO Prototype Prot

國立中山大學學位論文典藏.pdf

2 2 3 DLight CPU I/O DLight Oracle Solaris (DTrace) C/C++ Solaris DLight DTrace DLight DLight DLight C C++ Fortran CPU I/O DLight AM

Microsoft PowerPoint - RT0950_EliminatingRubyGILthroughHTM_Slides_ja.ppt

Microsoft PowerPoint - VCAD.ppt []

多核心平行運算技術 之應用領域與成功案例

範本檔

這 口 清 泉 像 被 哈 利 波 特 的 魔 法 施 了 咒 語, 彷 彿 一 股 魔 藥 水 在 我 腦 海 裡 竄 流, 所 有 以 前 學 過 土 石 流 水 土 保 持 的 知 識 全 都 傾 瀉 而 出 以 前 總 是 為 了 考 試 學 會 做 好 水 土 保 持 可 以 預 防 土

雲端 Cloud Computing 技術指南 運算 應用 平台與架構 10/04/15 11:55:46 INFO 10/04/15 11:55:53 INFO 10/04/15 11:55:56 INFO 10/04/15 11:56:05 INFO 10/04/15 11:56:07 INFO

IT Data-intensive application,iscsi Middl


1708-門市-PC-封面封底

岳西职教中心

スライド 1

378高雄市都市計畫說明書

多核心CPU成長日記.doc

F4

Microsoft PowerPoint - Performance Analysis of Video Streaming over LTE using.pptx

HP_AMD_front_back.ai

桌上型個人電腦採購規格說明表

最 近 工 作 单 位 : 曼 尼 托 巴 大 学 (University of Manitoba) 职 位 : 助 理 研 究 员, 讲 师 (Sessional instructor) 最 高 学 历 学 历 : 博 士 专 业 : 计 算 机 软 件 学 校 : 曼 尼 托 巴 大 学 自 我

领 英 职 场 报 告 : 互 联 网 是 员 工 流 动 性 最 大 的 行 业 之 一 LinkedIn 发 布 中 国 职 场 人 士 跳 槽 报 告 显 示, 中 国 职 场 人 士 的 跳 槽 频 率 显 著 高 于 美 国, 已 经 成 为 常 态 其 中, 互 联 网 是 员 工 流

JAEA-Technology indb

Microsoft PowerPoint - Aqua-Sim.pptx

投影片 1

System Design and Setup of a Robot to Pass over Steps Abstract In the research, one special type of robots that can pass over steps is designed and se

<A448A4E5AAC0B77CBEC7B3F8B2C43132A8F7B2C434B4C15F E706466>

. I/O Third Generation Input Output 3GIO PCI Express 3D 10GHz CPU 1Gb Gbps QoS PCI. PCI Express PCI 10 AGP PCI-X HyperTransport PCI 133MB Mu

Microsoft Word - A doc

CC213

PowerPoint Presentation

桌上型個人電腦採購規格說明表

場 的 職 能 需 求 狀 況, 並 能 有 一 套 職 能 管 理 資 訊 系 統 對 各 職 位 進 行 職 能 資 料 管 理 分 析 與 應 用 資 料, 則 對 企 業 人 力 應 用 與 提 昇 上 均 有 極 大 之 助 益, 故 本 研 究 之 主 要 目 的 有 二 : (1) 職

ebook 132-2

桌上型個人電腦採購規格說明表

APA Preliminaries Text Reference 1. Cover Page 2. Title Page 3. Signature Page 4. Advisor s recommendation letter 5. Approval page 6. Copyri

NANO COMMUNICATION 23 No.3 90 CMOS 94/188 GHz CMOS 94/188 GHz A 94/188 GHz Dual-Band VCO with Gm- Boosted Push-Push Pair in 90nm CMOS 90 CMOS 94

Agenda PXI PXI

cm /s c d 1 /40 1 /4 1 / / / /m /Hz /kn / kn m ~

論文格式

,2(1) 基 礎 上, 各 種 數 據 均 以 圖 形 化 方 式 表 達, 因 此 各 級 分 析 結 果 均 可 以 隨 時 檢 驗 另 外, 由 於 系 統 是 以 網 站 形 式 發 佈, 任 何 用 戶 均 可 通 過 網 絡 查 詢 瀏 覽 系 統 中 的 數 據, 因

<4D F736F F D20B971B8A3B577C5E9B8CBADD7A441AFC5B2C4A447B3A1A4C039372E342E3232A44AAE77AAA92E646F63>

第八章 審計抽樣 本章學習重點 stratified random sampling systematic sampling PPS PPS MUS 8-3 壹抽樣與審計抽樣 audit sampling 100%

; 3/2, Buck-Boost, 3 Buck-Boost DC-DC ; Y, Fig. 1 1 BBMC The topology of three phase-three phase BBMC 3 BBMC (Study on the control strategy of

Microsoft Word - A _ doc

/3 CAD JPG GIS CAD GIS GIS 1 a CAD CAD CAD GIS GIS ArcGIS 9. x 10 1 b 1112 CAD GIS 1 c R2VArcscan CAD MapGIS CAD 1 d CAD U

LP / / / / / /

3-2 連比例 連比的運算性質 a b c 0 a b c (a m) (b m) (c m

98支用計畫書-報部 修改.doc

输电线路智能监测系统通信技术应用研究

公安机关业务管理与执法实务全书(八).doc

<4D F736F F D20A7EBBCD0B6B7AABEAAFEA5F3322D3935A67EB2C432A6B8B2C433B2D5C5E3A5DCA564B357BD64AED12E646F63>

Microsoft PowerPoint - 数据通信-ch1.ppt

简 介 本 白 皮 书 高 度 概 述 了 支 持 移 动 互 联 网 设 备 (Mobile Internet Device) 的 Intel C++ Software Development Tool Suite for Linux* OS, 目 标 读 者 主 要 是 技 术 决 策 制 订

國立臺灣大學計算機及資訊網路中心年報(2008~2009)

<4D F736F F D20B6C0AE78B0EDAABAC0B8A740B8D65FA7EBA7BAA54EA4E5BEC7ACE3A873C24FA55AA15E2E646F63>

Microsoft Word - F5.docx

<4D F736F F D20C8CBB8A3D2BDD2A9BCAFCDC5B9C9B7DDB9ABCBBECFEACABDC8A8D2E6B1E4B6AFB1A8B8E6CAE9A3A8CEE4BABAB5B1B4FABFC6BCBCB2FAD2B5BCA

Microsoft Word - 朗诵诵材.doc

06-07周年報告template.PDF

第十号 上市公司关联交易公告

Untitiled

中艺华海修改1.7.indd

北 京 蓝 皮 书 公 共 服 务 相 比 而 言, 养 老 医 疗 失 业 等 保 险 都 早 已 经 由 国 务 院 颁 布 了 相 应 的 立 法 条 例, 在 全 国 范 围 内 形 成 了 统 一 的 制 度 党 的 十 八 届 四 中 全 会, 首 次 以 依 法 治 国 为 主 题,

2006年中央、国家机关公务员录用考试


1 摘 要

國立臺東高級中學102學年度第一學期第二次期中考高一國文科試題

!! :!!??!!?!??!!!... :... :'?'?! :' ' :'?' :'?' :'!' : :? Page 2

Page 2 of 12

Transcription:

HPCC 做為叢集電腦採購指標之研究 周朝宜張西亞王順泰陳德民 國家高速網路與計算中心 {cychou, jerry, stwang, gavin}@ nchc.org.tw 摘要 HPCC (HPC Challenge Benchmark Suite) 是美國國防部先進研究計畫署高效能技術電腦計畫 (DARPA HPCS) 所提出新一代效能評估程式以補強 HPL 功能, 做為 2010 年採購或評估機器依據, 本文探討 HPCC 做為採購叢集電腦指標可行性之研究, 在 NCHC Formosa II HPC Cluster 之 Dual-Core AMD Opteron 架構效能分析, 並且模擬 Single-Core 單顆中央處理器之效能分析, 我們更加入成本因素與 CPU 功率 ( 瓦特數 ), 其中 CPU 功率做為衡量 CPU 熱量產生指標, 評估 HPCC 做為採購指標的可能性, 提供採購者建議與協助 關鍵詞 : HPCC, 叢集電腦, 效能分析 Abstract The HPCC (HPC Challenge Benchmark Suite) has been released by the DARPA HPCS program to the acquisition community for 2010 procurements. We will study these factors by using HPCC on the tree simulation platforms of PC Cluster, Dual-Core, Single-core, and Single CPU. We also consider both cost and CPU wattage factors for purchasing the PC Cluster. Keywords: HPCC, PC Cluster, benchmarks 1. 前言 HPCC (HPC Challenge Benchmark Suite) [1] 是美國國防部先進研究計畫署高效能技術電腦計畫 (DARPA HPCS, Defense Advanced Research Projects Agency, High Productivity Computing Systems) 所提出新一代效能評估程式以補強 HPL[2] 功能, 有別於其他效能評估程式只有單一衡量指標, 特別結合幾個簡單效能評估程式成為單一執行檔, 涵蓋處理器 記憶體 訊息傳遞等因素, 企圖模擬應用領域程式並且考量空間 (Spatial) 和時間 (Temporal), 做為 2010 年採購或評估機器依據 軟體包括 HPL STREAM FFT(FFTE) RandomAccess PTRANS DGEMM b_eff(mpi latency/bandwidth test),hpl 廣泛地被應用在 Top 500 Linpack 系統計算效能評比 [3], 這可稱為趨近最高理論值 (Toward Peak Performance) 工具, STREAM 是量測主記憶體頻寬的工具, RandomAccess 是量測主記憶體隨機更新速率, PTRANS 是矩陣轉換 (Matrix Transpose) 平行程式, 藉以衡量整個系統的訊息傳遞效能, b_eff 用來評估 MPI 訊息傳遞的效能, 將這幾個效能評估程式整合為單一個執行檔, 以 HPL 最佳效能之矩陣大小為基礎, 涵蓋 Local, Embarrassingly Parallel, and Global 三項類別 本文將探討此程式在 NCHC Formosa II HPC Cluster 之 Dual-Core AMD Opteron 架構效能分析, 並且模擬 Single-Core 單顆中央處理器之效能分析, 我們更加入成本因素與 CPU 功率 ( 瓦特數 ), 其中 CPU 功率做為衡量 CPU 熱量產生指標, 評估 HPCC 做為採購指標的可能性, 提供採購者建議與協助 2. 實驗平台與研究方法

NCHC Formosa II HPC Cluster 是我們的實驗 平台, 它採用 IBM eserver 326 主機板, 擁有 80 個 2.2 GHz Dual-Core AMD Opteron 計算節點, 總 共有 320 個計算處理核心 (Core), 每個節點配有 4 GB DDR400 記憶體與兩張 Gigabit Ethernet 網路 卡, 透過 6 個 48 port 的 Nortel Baystack 5510 串接 在一起 作業系統為 Fedora Core 4 x86-64 (2.6.14 SMP) Linux, 提供編譯器有 Gnu 4.02 x86-64, Intel 9.0 EM64T, PGI 6.0 x86-64, Pathscale 2.53 x86-64 等,MPI-Middleware 有 MPICH 1.2.7p1, LAM/MPI 7.11 等, 使用 Torque 排程系統 我們採用 Gnu 編 譯器搭配 MPICH, 並且搭配單一執行緒 (Single Thread) 之 ATLAS 3.7.11 [6] 數學函數庫, 做為模擬 實驗的基礎 研究方法如后, 模擬 Dual-Core 時讓每個節 點 (Node) 負責處理 4 個 MPI 工作 (Job), 以下稱為 Dual-Core 模式 模擬 Single-Core 時讓每個節點 執行 2 個 MPI 工作, 以下稱為 Single-Core 模式 和模擬單顆中央處理器時讓每個節點只負責執行 1 個 MPI 工作, 以下稱為 Single-CPU 模式 由於我們的實驗平台是雙核心 (Dual-Core) 架 構的機器, 也就是說, 每一個節點有兩個 CPU, 每一個 CPU 內含 2 個計算處理核心, 假設 Single-Core 模式的 2 個 MPI 工作分別落在 2 個 CPU 上,Single-CPU 和 Single-Core 模式以 CPU 做為 計算單元, 而 Dual-Core 模式則以 Core 當 作 計算單元, 以下使用 計算單元 (Computation Unit) 來統稱不同模式之分析比較 3. 軟體介紹 HPL 利用列樞扭之 LU 分解法 (LU factorization with row pivoting) 求解 N 組線性聯立 方程組,N SQRT(Available Memory in bytes/8), 總共執行 2 3 3 2 N + N 個浮點計算, 資料使用 3 2 cyclic-block 方式對應在二維的計算單元上, 因此 HPL 之計算複雜度 (Complexity) 比訊息傳遞多一 個階 (Order), 無法展現記憶體與訊息傳遞效能, 反 應出記憶體依賴 (Memory Bound) 或是訊息傳遞依 賴 (Communication Bound) 的應用問題之特色, 有 見於此缺陷,HPCC 特別加入記憶體與訊息傳遞效 能評估程式補強 STREAM[4] 包含 4 個模組 :COPY, SCALE, ADD, and TRIAD 量測主記憶體頻寬, 輸出 結果包括單機 ( 只使用 1 計算單元 ) 與 Embarrassingly Parallel 兩種類型, 以下分別使 用 SN 和 EP 來表示, 其中 EP 表示所有的計 算單元同時執行此程式, 但是彼此不做訊息交換, 此種類型的計算對共享記憶體架構衝擊較大 RandomAccess 量測記憶體隨機位置之整數 更新速率以 GUPS 為單位, 分成三種模式, 單機 Embarrassingly Parallel 透過 MPI [5] 介面執行 All-to-All 訊息交換 PTRANS 是矩陣轉換之平行程式, 程式需要 所有計算單元成雙成對同時交換彼此的訊息, 藉以 衡量整個系統的訊息傳遞效能, 所量測出的傳遞速 度以 GB/s 為單位 MPI 訊息傳遞之效能分析, 分成兩部份, 其 一是傳統點對點 (Ping-Pong); 另一種為 Ring 方 式, 此種方式又分為兩種 :Naturally Ring 和 Randomly Ring, 前者是依照 MPI_COMM_WORLD 順序排列, 而後者採取隨機方式, 量測出指標有最 大 Ping-Pong Latency 最小 Ping-Pong 頻寬 Naturally Ring 之 Latency 和頻寬 10 組 Randomly Ring 幾何平均值 (Latency 和頻寬 ), 其中以 8 bytes 訊息來量測 Latency, 以 2 MB 訊息來量測頻寬 [1] 執行 DGEMM 是量測矩陣相乘的計算效能, 總共 3 2N 個浮點計算, 輸出結果包括單機與 Embarrassingly Parallel 兩種,FFT 是一維的離散傅 立葉變換 (Discrete Fourier Transform), 輸出結果 包括單機 Embarrassingly Parallel 透過 MPI 協 同工作版本 4. 結果分析 我們比較兩種不同的採購方式, 第一種是採

購 8 個節點, 第二種是採購 16 個計算單元 4.1 模擬八個節點之結果分析 Table 1 是三個模擬模式使用 8 個節點所呈現之整體效能, 其中 G- 表示透過 MPI 介面之執行整體效能, EP- 表示所有計算單元同時執行, 但是彼此不做訊息交換, 如同第三小節說明 從 Table 1(a) 數據我們發現 Dual-Core 模式在 G-HPL G-PTRANS G-FFT 領先, 而三個模擬模式 Dual-Core Single-Core Single-CPU 的 Efficiency=R max /R peak 值依序為 59 67 75%, 此趨勢與 AMD 公司所呈現相同 [7] G-RandomAccess 所呈現出效能為 Single-CPU > Single-Core > Dual-Core, 主要是受限於 Dual-Core 架構之記憶體控制器 (Memory Controller) 的瓶頸 [8] 從 Table 1(b) 數據我們發現模擬 Dual-Core 模式在 EP-STREAM Trial EP-DGEMM 指標領先, 構, 同樣的 Dual-Core 的頻寬只有 Single-CPU 模 式的不到三分之一 Table 1(b). The Global Results of the HPCC using 8 nodes EP-STRAEM Triad EP- DGEMM Bandwidth (MB/s) Latency (μs) Dual-Core 42.88 124.99 13.48 68.43 Single-Core 21.6 62.88 22.58 52.62 Single-CPU 19.76 31.24 44.19 51.52 Fig. 1 是每一個 MPI 工作的平均值或單一中 央處理器之效能數據等八個指標所呈現之雷達 圖, 其中 PP- 表示每一個計算單元的平均值, SN- 表示單機效能, 如同第三小節說明 從 Fig. 1 雷達圖我們發現以模擬單個中央處理 器模式呈現出最好表現, 尤其在 PP-FFT PP-PTRANS PP-RandomAccess 和訊息傳遞頻寬等 4 項指標, 這主要是受限於 Dual-Core 架構之記憶 每一個計算單元之平均值分別為 1.34 GB/s 1.35 GB/s 2.47 GB/s ( Dual-Core Single-Core Single-CPU ), 這個理由如上所陳述受限於 Dual-Core 的記憶體控制器瓶頸 Table 1(a). The Global Results of the HPCC using 8 nodes G-HPL G- G-Random PTRANS Aceess (Mup/s) G-FFT Dual-Core 83.10 0.460 0.206 1.33 Single-Core 47.04 0.285 0.222 1.07 Single-CPU 26.52 0.281 0.257 0.83 Fig. 1. The Kiviat Diagram using 8 nodes 從 Table 1(b) 數據我們發現 EP-DGEMM 指標比起 G-HPL 更接近最高理論值, 三個模式都可達 89%, 從這三種模式呈現相同效能表現,Dual-Core 平台適合獨立運算同時執行, 不涉及訊息傳遞模式 在訊息傳遞效能方面, 延遲時間 Dual-Core 比起 Single-CPU 增加 33%, 這是因為參加計算的 MPI 工作數目增加 4 倍, 並且涉及共享記憶體架 體控制器的瓶頸,PP-HPL 和訊息傳遞延遲時間相差幅度就沒有那麼明顯, 兩個單機效能指標 SN-DGEMM 和 SN-STREAM Trial 則呈現相同的結果, 這是可以預期的 Fig. 2 是考慮成本因素 ( PP-COST) 與 CPU 瓦特數 (PP-WATT) 兩項指標的雷達圖, 也就是說, 將 PP-COST PP-WATT 兩項指標分別取代 SN-DGEMM 和 SN-STREAM Trial 兩項指標, 發現

Dual-Core 模式在此兩項指標由明顯優勢, 在 CPU 瓦特數指標中 Dual-Core 模式相對於 Single-Core Single-CPU 模式只產生一半的熱量, 在價格指標上 Dual-Core 只需 Single-Core 的六成, 只需 Single-CPU 不到 4 成, 這兩項指標呈現出 Dual-Core 架構優勢 [8], 三者價格效能比 ( PP-HPL / PP-COST ) 為 Dual-Core : Single-Core : Single-CPU = 2.2 : 1.5 : 1, 此項指標值越高越佳 Dual-Core 是 Single-CPU 的 2.2 倍,Dual-Core 是 Single-Core 的 1.5 倍 Single-CPU 在 G-PTRANS 呈現突出表現, 是 Dual-Core 的 2.4 倍, 主要是因為成對之整體交換 在 Switch-based 網路架構可以得到很好表現, 但是 對於需要整體交換模式 (All-to-All) 的 G-Random Aceess 就無法呈現優勢 Table 2(a). The Global Results of the HPCC using 16 MPI Jobs G-HPL G- PTRANS G-Random Aceess (Mup/s) G-FFT Dual-Core 45.93 0.216 0.215 0.72 Single-Core 47.04 0.285 0.222 1.07 Single-CPU 49.45 0.519 0.215 1.72 從 Table 2(b) 數據我們發現 EP-DGEMM 指標與 8 個節點呈現相同結果, 更能印證上述 Dual-Core 平台適合獨立運算同時執行, 不涉及訊息傳遞模式 論點 訊息傳遞效能方面也和 8 個節點呈現相同結果, 這只要也是受限記憶體控制器的瓶頸 Fig. 2. The Cost and Watt related Kiviat Diagram using 8 nodes 從 Table 1 的整體效能指標做為採購標準則以 Dual-Core 機器會有較佳效能表現, 但是若由 Fig. 1 雷達圖為基準則由 Single-CPU 勝選, 如果只考量 經費與伴隨的熱量兩項效應則以 Dual-Core 為首 Table 2(b). The Global Results of the HPCC using 16 MPI Jobs EP-STRAEM Triad EP- DGEMM Bandwidth (MB/s) Latency (μs) Dual-Core 23.04 62.68 15.93 53.63 Single-Core 21.60 62.88 22.58 52.62 Single-CPU 34.56 62.93 40.26 49.92 選, 整體而言,Dual-Core 在價格效能比上呈現出 明顯優勢 4.2 模擬 16 個計算單元之結果分析 Table 2 是三個模擬模式使用 16 個計算單元所呈現之統整體效能, 從數據我們發現模擬 Single-CPU 模式有稍好表現, 相差幅度不大, 僅在 G-PTRANS EP-STREAM Trial 和訊息傳遞頻寬等 3 項指標有明顯領先 從 Table 2(a) 數據 Dual-Core Single-Core Single-CPU 的 Efficiency 值依序為 65 63 70%, 在同樣的 16 個計算單元時,Single-CPU 的 G-HPL 和 Efficiency 都取得領先 Fig. 3 是每一個計算單元之 8 種效能指標雷達圖, 結果與 Table 2 相近,Single-CPU 模式呈現出最佳表現, 尤其在 PP-FFT PP-PTRANS 和訊息傳遞頻寬等 3 項指標, 其他的 5 項指標, 則呈現相近的效能表現,PP-RandomAccess 記憶體存取效能與 Table 2 的 EP-STREAM Trial 指標呈現出不同效能表現 Fig. 4 是考慮成本因素與 CPU 瓦特數兩項指標的雷達圖, 從圖形發現 Dual-Core 在此兩項效應呈現明顯領先優勢, 如同 Fig. 2 價格指標呈現, 三者價格效能比為 Dual-Core : Single-Core :

Fig. 3. The Kiviat Diagram using 16 MPI-Procs Fig. 4. The Cost and Watt related Kiviat Diagram using 16 MPI-Procs Single-CPU = 2.6 : 1.6 : 1,Dual-Core 是 Single-CPU 的 2.6 倍,Dual-Core 是 Single-Core 的 1.6 倍, 比起上述同節點數的情形更明顯差距 如果依據 Table 2 整體效能指標採購需要 16 個 MPI 工作機器則由 Single-CPU 領先, 由 Fig. 3 的雷達圖做為採購基準, 也是得到相同的結果, 但是僅考量經費與伴隨的熱量這兩項效應則以 Dual-Core 為首選, 這與採購 8 節點機器的情形相同 4. 結論與討論 我們已經利用 HPCC 在三種模擬機器平台之採購指標分析, 在同樣採購 8 個節點, 整體效能指標以 Dual-Core 機器較佳, 但是採用雷達圖做為基準的話, 則由 Single-CPU 勝選, 如果只考量經費與伴隨的熱量兩項效應則以 Dual-Core 為首選 ; 同樣採購 16 個計算單元, 整體效能指標與雷達圖仍以 Single-CPU 領先, 但是僅考量經費與伴隨的熱量兩項效應則以 Dual-Core 為首選 採購 8 個節點總價格比為 Dual-Core : Single-Core : Single-CPU = 1.44 : 1.17 : 1, 每個 CPU 價格比 ( PP-COST) 為 Dual-Core : Single-Core : Single-CPU = 0.36 : 0.59 : 1, 價格效能比為 Dual-Core : Single-Core : Single-CPU = 2.2 : 1.5 : 1; 採購 16 個計算單元 (CPU 或是 Core) 之 PP-COST 為 Dual-Core : Single-Core : Single-CPU = 0.36 : 0.59 : 1, 價格效能比為 Dual-Core : Single-Core : Single-CPU = 2.6 : 1.6 : 1, 在兩種採購模式中 Dual-Core 在每個 CPU 價格比與價格效 能比有極大的優勢 EP-DGEMM 指標比起 G-HPL 更接近最高理論值, 三個模式都可達 89%, 從這三種模式呈現相同效能表現,Dual-Core 平台適合獨立運算同時執行, 不涉及訊息傳遞模式 參考文獻 [1] P. Luszczek, et. Al., Introduction to the HPC Challenge Benchmark Suite, LBNL-57493, 2005. [2] High-Performance Linpack Benchmark : http://www.netlib.org/benchmark/hpl [3] Top500 List, http://www.top500.org [4] J. McCalpin, STREM Home Page : http://www.cs.virginia.edu/stream [5] M. Snir, S. Otto, S. Huss-Lederman, D. Walker and J. Dongarra, MPI: The Complete Reference, MIT Press, Cambridge, MA, 1996. [6] ATLAS Home Page : http://math-atlas.sourceforge.net [7] AMD Home Page : http://www.adm.com [8] D. M. Pase and M. A. Eckl, A Comparison of Single-Core and Dual-Core Opteron Processor Performance for HPC, IBM Co., 2005