lecture13

Similar documents

《C语言基础入门》课程教学大纲

Template BR_Rec_2005.dot

说明为了反映教运行的基本状态, 为校和院制定相关政策和进行教建设与改革提供据依据, 校从程资源 ( 开类别开量规模 ) 教师结构程考核等维度, 对 2015 年春季期教运行基

<433A5C446F63756D656E E E67735C41646D696E F725CD7C0C3E65CC2DBCEC4CFB5CDB3CAB9D3C3D6B8C4CFA3A8BCF2BBAFA3A95CCAB9D3C3D6B8C4CF31302D31392E646F63>

修改版-操作手册.doc

何秋琳张立春视觉学习研究进展视觉注意视觉感知

世华财讯模拟操作手册

正规培训达规定标准学时数, 并取得结业证书二级可编程师 ( 具备以下条件之一者 ) (1) 连续从事本职业工作 13 年以上 (2) 取得本职业三级职业资格证书后, 连续从事本职业

第2章数据类型、常量与变量

<4D F736F F D20BFC9B1E0B3CCD0F2BFD8D6C6CFB5CDB3C9E8BCC6CAA6B9FABCD2D6B0D2B5B1EAD7BC2E646F63>

深圳市新亚电子制程股份有限公司

龚亚夫在重新思考基础教育英语教学的理念一文中援引的观点认为当跳出本族语主义的思维定式后需要重新思考许多相连带的问题比如许多发音的细微区别并不影响理解和

定位和描述 : 程序设计 / 办公软件高级应用级考核内容包括计算机语言与基础程序设计能力, 要求参试者掌握一门计算机语言, 可选类别有高级语言程序设计类数据库编程类

Microsoft Word - 第7章图表反转形态.doc

第六章债券股票价值评估 1 考点一 : 债券价值的影响因素 2

教师上报成绩流程图

中国软科学年第期!!!

¹ º ¹ º 农业流动人口是指户口性质为农业户口在流入地城市工作生活居住一个月及以上的流动人口非农流动人口是指户口性质为非农户口在流入地城市工作生活居住一个

采取行动的机会 90% 开拓成功的道路 2

随着执业中医师资格考试制度的不断完善，本着为我校中医学专业认证服务的目的，本文通过对我校中医类毕业生参加2012年和2013年的中医执业医师考试成绩及通过率、掌握率进行分析，并与全国的平均水平进行差异比较分析，以此了解我校执业中医师考试的现状，进而反映我校中医类课程总体教学水平，发现考核知识模块教学中存在的不足，反馈给相关学院和教学管理部门，以此提高教学和管理水平。

Microsoft Word - 第3章.doc

<4D F736F F D D323630D6D0B9FAD3A6B6D4C6F8BAF2B1E4BBAFB5C4D5FEB2DFD3EBD0D0B6AF C4EAB6C8B1A8B8E6>

0 年上半年评价与考核细则序号部门要素值考核内容考核方式考核标准考核 ( 扣原因 ) 考评得 3 安全生产目 30 无同等责任以上道路交通亡人事故无轻伤责任事故无重大质量

,,,,, :,, (.,, );, (, : ), (.., ;. &., ;.. &.., ;, ;, ),,,,,,, ( ) ( ),,,,.,,,,,, : ;, ;,.,,,,, (., : - ),,,, ( ),,,, (, : ),, :,

18 上报该学期新生数据至阳光平台第一学期第四周至第六周 19 督促学习中心提交新增专业申请第一学期第四周至第八周 20 编制全国网络统考十二月批次考前模拟题第一学

HSK( 一级 ) 考查考生的日常汉语应用能力, 它对应于国际汉语能力标准一级欧洲语言共同参考框架 (CEF) A1 级通过 HSK( 一级 ) 的考生可以理解并使用一些非常简单的汉语

精勤求学自强不息 Born to win! 解析 : 由极限的保号性知存在 U ( a) 当 a 时 f ( ) f ( a) 故 f ( ) 在点 a 不取极值 f ( ) f ( a) f ( ) f ( a) lim lim a a a a ( a)

3 复试如何准备 4 复试成绩计算 5 复试比例 6 复试类型 7 怎么样面对各种复试 04 05

目录一系统访问... 1 二门户首页申报用户审核用户... 2 三系统登录用户名密码登录新用户注册用户登录已注册用

(Microsoft Word - NCRE\314\345\317\265\265\367\325\37313\324\27221\272\3051.doc)

珠江钢琴股东大会

IntelBook_cn.doc

一公共卫生硕士专业学位论文的概述学位论文是对研究生进行科学研究或承担专门技术工作的全面训练, 是培养研究生创新能力, 综合运用所学知识发现问题, 分析问题和解决

Microsoft Word - 资料分析练习题09.doc

用节点法和网孔法进行电路分析

Microsoft Word - GT21L16S2W简要说明V3.7.doc

2006年顺德区高中阶段学校招生录取分数线

目录一激活账号... 2 二忘记密码后如何找回密码?... 3 三如何管理学校信息及球队学生教师等信息... 6 四如何发布本校校园文化? 五如何向教师发送通知? 六

生产支援功能　使用说明书（IP-110 篇）

附件 : 上海市建筑施工企业施工现场项目管理机构关键岗位人员配备指南二一四年九月十一日 2

抗日战争研究年第期

第四章投资性房地产

登录、注册功能的测试用例设计.doc

证券代码：证券简称：长城电脑公告编号：

金不少于 800 万元, 净资产不少于 960 万元 ; (3) 近五年独立承担过单项合同额不少于 1000 万元的智能化工程 ( 设计或施工或设计施工一体 ) 不少于 2 项 ; (4) 近三年每年

( ) 信号与系统 Ⅰ 学科基础必修课教周 2016 年 06 月 13 日 (08:00-09:35) ( )

类似地, 又可定义变下限的定积分 : ( ). 与 ψ 统称为变限积分. f ( ) d f ( t) dt,, 注在变限积分 (1) 与 () 中, 不可再把积分变量写成的形式 ( 例如 ) 以免与积分上下限的

Microsoft Word - 文件汇编.doc

抗日战争研究 % 年第期! # # % %

第二讲数列

云信Linux SSH认证代理用户手册

一开放性的政策与法规二两岸共同的文化传承三两岸高校各自具有专业优势远见杂志年月日

自服务按钮无法访问新系统的自服务页面因此建议用户从信网中心 ( 主页, 右下角位置的常用下载, 或校园网用户自服务 ( 首页

<4D F736F F D DB9FAD5AEC6DABBF5B1A8B8E6CAAEC8FDA3BAB9FAD5AEC6DABBF5B5C4B6A8BCDBBBFAD6C6D3EBBBF9B2EEBDBBD2D7D1D0BEBF>

公开刊物须有国内统一刊 (CN), 发表文章的刊物需要在国家新闻出版广电总局 ( 办事服务便民查询新闻出版机构查询 ) 上能够查到刊凡在有中国标准书公开

<433A5C C6B73625C B746F705CB9FABCCAD6D0D2BDD2A9D7A8D2B5B8DFBCB6BCBCCAF5D6B0B3C6C6C0C9F3C9EAC7EBD6B8C4CFA3A CDA8D3C3B0E6A3A92E646F63>

<443A5C6D B5C30312EB9A4D7F7CEC4B5B55C30322EBACFCDACCEC4B5B55C C30342EC8CBC9E7CCFC5C31332ECFEEC4BFC5E0D1B55C E30385C322EB2D9D7F7CAD6B2E12E646F63>

3 月 30 日在中国证券报上海证券报证券时报证券日报和上海证券交易所网站上发出召开本次股东大会公告, 该公告中载明了召开股东大会的日期网络投票的方式时间以及审

第三章作业

抗战时期国民政府的银行监理体制探析 % # % % % ) % % # # + #, ) +, % % % % % % % %

目录关于图标... 3 登陆主界面... 3 工单管理... 5 工单列表... 5 搜索工单... 5 工单详情... 6 创建工单... 9 设备管理巡检计划查询详情销售管

Cybozu Garoon 3 管理员手册

<4D F736F F D C4EAB9A4B3CCCBB6CABFCAFDD1A7D7A8D2B5BFCEBFBCCAD4B4F3B8D9D3EBD2AAC7F3>

第一部分 MagiCAD for Revit 安装流程

2009—2010级本科课程教学大纲与课程简介格式

马克思主义公正观的基本向度及方法论原则!! # #

数学标准不练习 1.1 理解问题并坚持解决这些问题 1.2 以抽象和定量方式推理 1.3 建构可行参数和评判他人的推理 1.4 使用数学方法建模 1.5 策略性地使用合适的工具 1.6

Transcription:

Lecture 13: Cache V 1

Cache 大小 Block 大小和缺失率的关系 Cache 性能由缺失率确定, 而缺失率与 Cache 大小 Block 大小 Cache 级数等有关 Cache 大小 :Cache 越大,Miss 率越低, 但成本越高! Block 大小 :Block 大小与 Cache 大小有关, 且不能太大, 也不能太小!

Block Size Tradeoff ( 块大小的选择 ) 块大能很好利用 spatial locality, BUT: 块大, 则需花更多时间读块, 缺失损失变大块大, 则 Cache 行数变少, 缺失率上升 Average Access Time: = Hit Time x (1 - Miss Rate) + Miss Penalty x Miss Rate Miss Penalty Miss Rate Exploits Spatial Locality Fewer blocks: compromises temporal locality Average Access Time Increased Miss Penalty & Miss Rate Block Size Block Size Block Size 所以, 块大小必须适中!

系统中的 Cache 数目刚引入 Cache 时只有一个 Cache 近年来多 Cache 系统成为主流多 Cache 系统中, 需考虑两个方面 : [1] 单级 / 多级? 片内 (On-chip)Cache: 将 Cache 和 CPU 作在一个芯片上外部 (Off-chip)Cache: 不做在 CPU 内而是独立设置一个 Cache 单级 Cache: 只用一个片内 Cache 多级 Cache: 同时使用 L1 Cache 和 L2 Cache, 有些高端系统甚至有 L3 Cache,L1 Cache 更靠近 CPU, 其速度比 L2 快, 其容量比 L2 大 [2] 联合 / 分立? 分立 : 指数据和指令分开存放在各自的数据和指令 Cache 中一般 L1 Cache 都是分立 Cache, 为什么? L1 Cache 的命中时间比命中率更重要! 为什么? 联合 : 指数据和指令都放在一个 Cache 中一般 L2 Cache 都是联合 Cache, 为什么? L2 Cache 的命中率比命中时间更重要! 为什么? 因为缺失时需从主存取数, 并要送 L1 和 L2cache, 损失大!

多核处理器中的多级 Cache

多级 cache 的性能采用 L2 Cache 的系统, 其缺失损失的计算如下 : 若 L2 Cache 包含所请求信息, 则缺失损失为 L2 Cache 访问时间否则访问主存, 并取到 L1 Cache 和 L2 Cache( 缺失损失更大 ) 例子 : 某处理器在无 cache 缺失时 CPI 为 1, 时钟频率为 5GHz 假定访问一次主存的时间 ( 包括所有的缺失处理 ) 为 100ns, 平均每条指令在 L1 Cache 中的缺失率为 2% 若增加一个 L2 Cache, 其访问时间为 5ns, 而且容量足够大到使全局缺失率减为 0.5%, 问处理器执行指令的速度提高了多少? 解 : 如果只有一级 Cache, 则缺失只有一种即 L1 缺失 ( 需访问主存 ), 其缺失损失为 :100nsx5GHz=500 个时钟,CPI=1+500x2%=11.0 如果有二级 Cache, 则有两种缺失 : L1 缺失 ( 需访问 L2 Cache):5nsx5GHz=25 个时钟 L1 和 L2 都缺失 ( 需访问主存 ):500 个时钟因此,CPI=1+25x2%+500x0.5%=4.0 二者的性能比为 11.0/4.0=2.8 倍!

Cache 性能评估与改善 CPU 时间 :CPU 执行时间 + 等待内存访问时间即 : CPU 时间 =(CPU 时钟数 +Cache 缺失引起阻塞的时钟数 ) X 时钟周期 Cache 缺失引起阻塞的时钟数 = 读操作阻塞时钟数 + 写操作阻塞时钟数读操作阻塞时钟数 =( 读的次数 / 程序 ) x 读缺失率 x 读缺失损失写操作的情况较复杂 : 回写 (write back): 替换时, 需要一次性回写一个块, 故会产生一些附加回写阻塞写操作阻塞时钟数 =( 写次数 / 程序 ) x 写缺失率 x 写缺失损失 + 回写阻塞直写 (write through): 包括写缺失和 write buffer 阻塞两部分写操作阻塞时钟数 =( 写次数 / 程序 ) x 写缺失率 x 写缺失损失 + 写缓冲阻塞假定回写阻塞或写缓冲阻塞可以忽略不计, 则可将读和写综合考虑 : 内存阻塞时钟数 =( 访存次数 / 程序 ) x 缺失率 x 缺失损失内存阻塞时钟数 =( 指令条数 / 程序 ) x ( 缺失数 / 指令 ) x 缺失损失

举例 : 缺失带来的损失到底多大? 设代码 Cache 缺失率为 2%, 数据 Cache 缺失率为 4% 假定一个 CPU 在没有任何存储阻塞时 CPI 为 2, 缺失损失为 100 个时钟如果用 SPECint2000 衡量, 则使用无缺失 Cache 时 CPU 速度会快多少? 分析过程如下 : 指令的缺失时钟数为 :Ix2%x100=2.0xI SPECint2000 的访存指令 (Load 和 Store) 频度为 :36%, 所以数据的缺失时钟数为 :Ix36%x4%x100=1.44xI 指令和数据总的缺失时钟数为 :2xI+1.44xI=3.44I, 也即 : 平均每条指令要有 3.44 个时钟处在存储器阻塞状态因此, 因为存储器阻塞而使得 CPI 数增大到 2+3.44=5.44. 故 : CPU time with stalls CPU time with perfect cache = IxCPIstallxClock cycle IxCPIperfectxClock cycle = 5.44 如果 Cache 不发生缺失, 则 CPU 速度会快 2.72 倍 2

举例 : 处理器速度提高而存储器不变时的情况例 1: 假定上例中 CPI 减为 1, 时钟宽度不变, 则 : 因为存储器阻塞而使得 CPI 数增大到 1+3.44=4.44. 故 : CPU time with stalls CPU time with perfect cache = IxCPIstallxClock cycle = 4.44 IxCPIperfectxClock cycle 1 由此可知 : 存储器阻塞所花时间占整个执行时间的比例从 : 3.44 / 5.44=63% 上升到 3.44 / 4.44=77% 结论 :CPI 越小,Cache 阻塞的影响越大

举例 : 处理器速度提高而存储器不变时的情况例 2: 假定上例中时钟频率加倍, CPI 不变, 则 : 主存速度不会改变, 故绝对时间不变, 所以缺失损失为 200 个时钟每条指令发生的总缺失时钟数为 2%x200+36%x(4%x200)=6.88 故 : 存储器阻塞使得 CPI 数增大到 2+6.88=8.88 时钟快的机器的性能时钟慢的机器的性能 = IxCPIslow xclock cycle IxCPIfast xclock cycle/2 = 5.44 8.88/2 =1.23 由此可知 : 时钟快的机器的性能只是较慢时钟机器的 1.2 倍如果没有 Cache 缺失的话, 应该是 2 倍! 结论 :CPU 时钟频率越高,Cache 缺失损失就越大上述两个例子说明 : 处理器性能越高, 高速缓存的性能就越重要!

设计支持 Cache 的存储器系统指令执行若发生 Cache 缺失, 必须到 DRAM 中取数据或指令在 DRAM 和 Cache 之间传输的单位是 Block 问题 : 怎样的存储器组织使得 Block 传输最快 ( 缺失损失最小 )? 假定存储器访问过程 : CPU 发送地址到内存 :1 个总线时钟访问内存的初始化时间 :10 个总线时钟从总线上传送一个字 :1 个总线时钟 CPU MM 可以有三种不同的组织形式! 假定一个 Block 有 4 个字, 则缺失损失各为多少时钟?

设计支持 Cache 的存储器系统假定存储器访问过程 : CPU 发送地址到内存 :1 个总线时钟内存访问时间 :10 个总线时钟从总线上传送一个字 :1 个总线时钟 4x(1+10+1)=48 缺失损失为 48 个时钟周期代价小, 但速度慢!

假定存储器访问过程 : 设计支持 Cache 的存储器系统 CPU 发送地址到内存 :1 个总线时钟内存访问时间 :10 个总线时钟从总线上传送一个 Block:1 个总线时钟 Two-word: 2x(1+10+1)=24 Four-word: 1+10+1=12 缺失损失各为 24 或 12 个时钟周期速度快, 但代价大!

设计支持 Cache 假定存的储存器访储问器过系程 : 统 CPU 发送地址到内存 :1 个总线时钟内存访问时间 :10 个总线时钟从总线上传送一个字 :1 个总线时钟 Interleaved four banks one-word: 1+1x10+4x1=15 缺失损失为 15 个时钟周期代价小, 而且速度快!

复习 :SPARCstation 20 s Memory Module DRAM Chip 15 512 cols DRAM Chip 0 256K x 8 = 2 Mb One page 512 rows 256K x 8 = 2 Mb 8 bits 512 8 SRAM bits<127:120> 行缓冲 512 8 SRAM bits<7:0> 交叉编址方式! Memory Bus<127:0> Cache 行读从内存读一块连续数据区只要给定一个首地址, 后续数据连续读出, 称为突 ( 猝 ) 发传输方式

复习 :128MB 的 DRAM 存储器 ( 行地址 i, 列地址 j) 交叉编址方式! DRAM 0 8 个芯片同时读出! 若再构 DRAM 7 成多个模块, 地址 A 4096 行则可轮流启动每个模块进行 bits 56-63 bits 48-55 bits 40-47 bits 32-39 bits 24-31 bits 16-23 bits 8-15 bits 0-7 读写! 芯片容量 : 16MB=4096X4096X8 位 63 56 55 48 47 40 39 32 31 24 23 16 15 8 7 主存储器地址 A 处的 64-bit 数据 64-bit 双字 0 存储控制器 : 行列地址为 (i,j) 的 8 个单元

实例 : 奔腾机的 Cache 组织主存 :4GB=2 20 x 2 7 块 x 2 5 B/ 块 Cache:8KB=128 组 x2 行 / 组替换算法 : LRU, 每组一位 LRU 位该位为 0, 下次淘汰第 0 路 ; 该位为 1, 下次淘汰第 1 路写策略 : 默认为 Write Back, 可动态设置为 Write Through Cache 一致性 : 支持 MESI 协议

是 MIPS 结构的嵌入式微处理器 Hit V Tag 18 tag 实例 : 内置 FastMATH 处理器 31 Index Memory Address 2 18 8 4 2 Byte offset 1 512 data 各 Cache 有 : 256 (16KB / 64B) 行 0 Byte 5 Block offset Mux Word 256 lines 1 8 32 32 32 = 3 Mux 3 2 4 Data 写比读复杂! CPU 提供了写通过和写回两种方式, 由 OS 决定采用何种策略 SPEC2000int 的指令数据和综合缺失率分别为 :0.4%, 11.4%, 3.2%

前端总线总线接口部件预取控制逻辑 L2 cache (48GB/s) 实例 :Pentium 4 的 cache 存储器 64 位, 时钟频率有 3 个 cache, 分成两级 : L1cache 指令 cache 及指令预取部件数据缓存 (L1 数据 cache), ),8KB 指令缓存, 8KB L2 cache, 容量为 256 KB~2MB 256 位, 时钟频率 L1 数据 cache(8kb)

缓存在现代计算机中无处不在问题 : 缓存技术可以应用在哪些方面? 问题 : 缓存技术的实现手段和目的各是什么?

小结引入 Cache 的基础是程序访问的局部化特性引入 Cache 减少了对内存的访问,CPU 能在快速的 Cache 中得到信息 Cache 和主存之间的映射方式直接映射 ( 模映射 ): 地址 = 标记行索引块内地址全相联映射 ( 全映射 ): 地址 = 标记块内地址组相联映射 ( 组间模映射, 组内全映射 ): 地址 = 标记组索引块内地址如何提高 cache 的命中率? 增大 cache 容量, 适中的块大小采用多级 cache 技术 (L1 / L2 / L3) 采用快速查找算法, 并采用并行判定是否命中缺失时, 采用有效替换算法, 淘汰 cache 中暂不使用的内容编译器优化目标程序程序员写出 cache-friendly 的程序 Cache 的写策略 Write Back 和 Write Through