Training

Similar documents

何秋琳张立春视觉学习研究进展视觉注意视觉感知

修改版-操作手册.doc

采取行动的机会 90% 开拓成功的道路 2

说明为了反映教运行的基本状态, 为校和院制定相关政策和进行教建设与改革提供据依据, 校从程资源 ( 开类别开量规模 ) 教师结构程考核等维度, 对 2015 年春季期教运行基

《C语言基础入门》课程教学大纲

金不少于 800 万元, 净资产不少于 960 万元 ; (3) 近五年独立承担过单项合同额不少于 1000 万元的智能化工程 ( 设计或施工或设计施工一体 ) 不少于 2 项 ; (4) 近三年每年

中国软科学年第期!!!

正规培训达规定标准学时数, 并取得结业证书二级可编程师 ( 具备以下条件之一者 ) (1) 连续从事本职业工作 13 年以上 (2) 取得本职业三级职业资格证书后, 连续从事本职业

抗战时期国民政府的银行监理体制探析 % # % % % ) % % # # + #, ) +, % % % % % % % %

<4D F736F F D20BFC9B1E0B3CCD0F2BFD8D6C6CFB5CDB3C9E8BCC6CAA6B9FABCD2D6B0D2B5B1EAD7BC2E646F63>

Microsoft Word - GT21L16S2W简要说明V3.7.doc

Template BR_Rec_2005.dot

导数和微分的概念导数的几何意义和物理意义函数的可导性与连续性之间的关系平面曲线的切线和法线导数和微分的四则运算基本初等函数的导数复合函数反函数隐函数以

工程勘察资质标准根据建设工程勘察设计管理条例和建设工程勘察设计资质管理规定, 制定本标准一总则 ( 一 ) 本标准包括工程勘察相应专业类型主要专业技术人员配备技术

( ) 信号与系统 Ⅰ 学科基础必修课教周 2016 年 06 月 13 日 (08:00-09:35) ( )

深圳市新亚电子制程股份有限公司

登录、注册功能的测试用例设计.doc

龚亚夫在重新思考基础教育英语教学的理念一文中援引的观点认为当跳出本族语主义的思维定式后需要重新思考许多相连带的问题比如许多发音的细微区别并不影响理解和

第2章数据类型、常量与变量

评委 : 李炎斌 - 个人技术标资信标初步审查明细表序号投标单位投标函未按招标文件规定填写漏填或内容填写错误的 ; 不同投标人的投标文件由同一台电脑或同一家投标单

Microsoft Word - 文件汇编.doc

目录关于图标... 3 登陆主界面... 3 工单管理... 5 工单列表... 5 搜索工单... 5 工单详情... 6 创建工单... 9 设备管理巡检计划查询详情销售管

第二讲数列

Microsoft Word - 第3章.doc

抗日战争研究年第期

目录一系统访问... 1 二门户首页申报用户审核用户... 2 三系统登录用户名密码登录新用户注册用户登录已注册用

,,,,, :,, (.,, );, (, : ), (.., ;. &., ;.. &.., ;, ;, ),,,,,,, ( ) ( ),,,,.,,,,,, : ;, ;,.,,,,, (., : - ),,,, ( ),,,, (, : ),, :,

类似地, 又可定义变下限的定积分 : ( ). 与 ψ 统称为变限积分. f ( ) d f ( t) dt,, 注在变限积分 (1) 与 () 中, 不可再把积分变量写成的形式 ( 例如 ) 以免与积分上下限的

名称生命科学学院环境科学 1 生物学仅接收院内调剂, 初试分数满足我院生物学复试最低分数线生命科学学院生态学 5 生态学或生物学生命科学学院

世华财讯模拟操作手册

<4D F736F F D C4EAB9A4B3CCCBB6CABFCAFDD1A7D7A8D2B5BFCEBFBCCAD4B4F3B8D9D3EBD2AAC7F3>

第三章作业

<4D F736F F D D323630D6D0B9FAD3A6B6D4C6F8BAF2B1E4BBAFB5C4D5FEB2DFD3EBD0D0B6AF C4EAB6C8B1A8B8E6>

<433A5C446F63756D656E E E67735C41646D696E F725CD7C0C3E65CC2DBCEC4CFB5CDB3CAB9D3C3D6B8C4CFA3A8BCF2BBAFA3A95CCAB9D3C3D6B8C4CF31302D31392E646F63>

马克思主义公正观的基本向度及方法论原则!! # #

第六章债券股票价值评估 1 考点一 : 债券价值的影响因素 2

¹ º ¹ º 农业流动人口是指户口性质为农业户口在流入地城市工作生活居住一个月及以上的流动人口非农流动人口是指户口性质为非农户口在流入地城市工作生活居住一个

一开放性的政策与法规二两岸共同的文化传承三两岸高校各自具有专业优势远见杂志年月日

Microsoft Word - 第7章图表反转形态.doc

评委 : 徐岩宇 - 个人技术标资信标初步审查明细表序号投标单位投标函未按招标文件规定填写漏填或内容填写错误的 ; 不同投标人的投标文件由同一台电脑或同一家投标单

HSK( 一级 ) 考查考生的日常汉语应用能力, 它对应于国际汉语能力标准一级欧洲语言共同参考框架 (CEF) A1 级通过 HSK( 一级 ) 的考生可以理解并使用一些非常简单的汉语

2006年顺德区高中阶段学校招生录取分数线

0 年上半年评价与考核细则序号部门要素值考核内容考核方式考核标准考核 ( 扣原因 ) 考评得 3 安全生产目 30 无同等责任以上道路交通亡人事故无轻伤责任事故无重大质量

<433A5C C6B73625C B746F705CB9FABCCAD6D0D2BDD2A9D7A8D2B5B8DFBCB6BCBCCAF5D6B0B3C6C6C0C9F3C9EAC7EBD6B8C4CFA3A CDA8D3C3B0E6A3A92E646F63>

自服务按钮无法访问新系统的自服务页面因此建议用户从信网中心 ( 主页, 右下角位置的常用下载, 或校园网用户自服务 ( 首页

精勤求学自强不息 Born to win! 解析 : 由极限的保号性知存在 U ( a) 当 a 时 f ( ) f ( a) 故 f ( ) 在点 a 不取极值 f ( ) f ( a) f ( ) f ( a) lim lim a a a a ( a)

一公共卫生硕士专业学位论文的概述学位论文是对研究生进行科学研究或承担专门技术工作的全面训练, 是培养研究生创新能力, 综合运用所学知识发现问题, 分析问题和解决

一从分封制到郡县制一从打虎亭汉墓说起

附件 : 上海市建筑施工企业施工现场项目管理机构关键岗位人员配备指南二一四年九月十一日 2

珠江钢琴股东大会

18 上报该学期新生数据至阳光平台第一学期第四周至第六周 19 督促学习中心提交新增专业申请第一学期第四周至第八周 20 编制全国网络统考十二月批次考前模拟题第一学

生产支援功能　使用说明书（IP-110 篇）

全国建筑市场注册执业人员不良行为记录认定标准（试行）.doc

云信Linux SSH认证代理用户手册

<443A5C6D B5C30312EB9A4D7F7CEC4B5B55C30322EBACFCDACCEC4B5B55C C30342EC8CBC9E7CCFC5C31332ECFEEC4BFC5E0D1B55C E30385C322EB2D9D7F7CAD6B2E12E646F63>

西南民族学院学报哲学社会科学版第卷资料来源中国统计年鉴年年新中国五十年统计资料汇编中国人口统计年鉴年数据资料来源中国统计年鉴中国统计出版社年版资料来源

第期李伟等用方法对中国历史气温数据插值可行性讨论

抗日战争研究 % 年第期! # # % %

证券代码：证券简称：长城电脑公告编号：

2014年中央财经大学研究生招生录取工作简报

定位和描述 : 程序设计 / 办公软件高级应用级考核内容包括计算机语言与基础程序设计能力, 要求参试者掌握一门计算机语言, 可选类别有高级语言程序设计类数据库编程类

Microsoft Word - 资料分析练习题09.doc

IntelBook_cn.doc

用节点法和网孔法进行电路分析

数学标准不练习 1.1 理解问题并坚持解决这些问题 1.2 以抽象和定量方式推理 1.3 建构可行参数和评判他人的推理 1.4 使用数学方法建模 1.5 策略性地使用合适的工具 1.6

教师上报成绩流程图

中中中中部中岗位条件历其它历史师地理师生物师体与健康师从事中历史工从事中地理工从事中生物工从事中体与健康工 2. 课程与论 ( 历史 ); 2. 科 ( 历史 )

公开刊物须有国内统一刊 (CN), 发表文章的刊物需要在国家新闻出版广电总局 ( 办事服务便民查询新闻出版机构查询 ) 上能够查到刊凡在有中国标准书公开

随着执业中医师资格考试制度的不断完善，本着为我校中医学专业认证服务的目的，本文通过对我校中医类毕业生参加2012年和2013年的中医执业医师考试成绩及通过率、掌握率进行分析，并与全国的平均水平进行差异比较分析，以此了解我校执业中医师考试的现状，进而反映我校中医类课程总体教学水平，发现考核知识模块教学中存在的不足，反馈给相关学院和教学管理部门，以此提高教学和管理水平。

( 二 ) 现行统一高考制度不利于培养人的创新精神,,,,,,,,,,,,, [ ],,,,,,,,,,, :, ;,,,,,,? ( 三 ) 现行统一高考制度不利于全体学生都获得全面发展,, [ ],,,,,,,,,,,

Transcription:

高等计算机系统结构主存与存储管理系统 Main Memory & Memory Management ( 第六讲 ) 程旭 2013.4.15

微处理器 - 主存 (DRAM) 的延迟差距 Performance (1/latency) Gap grew 50% per year How do architects address this gap? Put small, fast cache memories between CPU and DRAM. Create a memory hierarchy

Memory Hierarchy Take advantage of the principle of locality to: Present as much memory as in the cheapest technology Provide access at speed offered by the fastest technology Processor Datapath Control Registers On-Chip Cache Second Level Cache (SRAM) Main Memory (DRAM/ FLASH/ PCM) Secondary Storage (Disk/ FLASH/ PCM) Tertiary Storage (Tape/ Cloud Storage) Speed (ns): 1s 10s-100s 100s Size (bytes): 100s Ks-Ms Ms 10,000,000s (10s ms) Gs 10,000,000,000s (10s sec) Ts

主存系统的性能延迟 (Latency): 主要与 Cache Miss Penalty 相关访问时间 (access time): time between request and word arrives 周期时间 (cycle time): : time between requests 带宽 (Bandwidth): 主要与 I/O 的性能相关带宽对 Cache 的性能也很重要 (Large Block Miss Penalty ---- L2 cache) 提高带宽比减低延迟容易些在系统级 ( 板级 ) 提高存储系统性能受限制在芯片内部提高存储系统的性能

Core Memories (1950s & 60s) The first magnetic core memory, from the IBM 405 Alphabetical Accounting Machine. Core Memory stored data as magnetization in iron rings Iron cores woven into a 2-dimensional mesh of wires Origin of the term Dump Core Rumor that IBM consulted Life Saver company See: http://www.columbia.edu/acis/history/core.html

随机存储器 (RAM) 技术为什么计算机设计人员需要了解 RAM 技术? 处理器的性能通常受到存储器带宽的限制随着集成电路密度的增加, 一些存储器将和处理器集成在同一芯片上 - 片载存储器来满足特殊需求 - 指令 cache - 数据 cache - 写缓冲器为什么不用触发器技术来实现 RAM? 密度 :RAM 需要更高的密度

静态 RAM 单元 6 管 SRAM 单元 0 1 word ( 行选 ) word 0 1 bit bit 写操作 : bit 1. 驱动位线 (bit) 2. 选择行读操作 : 拉高 1. 对两条位线预充电, 使得 bit Vdd 2. 选择行 3. 存储单元将一条线拉为低 4. 列上的信号放大器检测 bit 和 bit 之间的差异 bit

典型的 SRAM 组织 : 16 字 4 位 Din 3 Din 2 Din 1 Din 0 Precharge WrEn Wr Driver & Wr Driver & Wr Driver & Wr Driver & - Precharger + - Precharger + - Precharger + - Precharger + SRAM Cell SRAM Cell SRAM Cell SRAM Cell SRAM Cell SRAM Cell SRAM Cell SRAM Cell Word 0 Word 1 Address Decoder A0 A1 A2 A3............ SRAM Cell SRAM Cell SRAM Cell SRAM Cell - Sense Amp + - Sense Amp + - Sense Amp + - Sense Amp + Word 15 Dout 3 Dout 2 Dout 1 Dout 0

寄存器堆所用的单端口 ( 写 ) SRAM 单元 SelA SelB SelW w b a w 为了将新值写入存储单元 : 我们需要同时驱动两边每次只能写入一个存储字增设另外一对位线 (w 和 w) 可以同时进行读和写

双读端口单写端口的寄存器堆 : : busw<31> busw<1> busw<0> WrEn - Wr Driver + - Wr Driver + - Wr Driver + SelA0 Register Cell Register Cell Register Cell : : : Register Cell Register Cell Register Cell SelB0 SelW0 SelA31 SelB31 Address Decoder 5 5 5 Ra Rb Rw SelW31 busa<31> busa<1> busa<0> busb<31> busb<1> busb<0>

典型 SRAM 的逻辑图 A N WE_L OE_L 2 N words x M bit SRAM M D 写使能信号通常是低电平有效 (WE_L) Din 和 Dout 是结合在一起的 : 需要一个新的控制信号输出使能信号 (OE_L) WE_L 有效 (Low), OE_L 禁止 (High) - D 为数据输入 WE_L 禁止 (High), OE_L 有效 (Low) - D 为数据输出 WE_L 和 OE_L 都有效 : - 结果不确定. 千万不要这样做!!!

典型的 SRAM 时序 A N WE_L OE_L 2 N words x M bit SRAM M D Write Timing: Read Timing: D Data In High Z Garbage Data Out Junk Data Out A Write Address Junk Read Address Read Address OE_L WE_L Write Hold Time Write Setup Time Read Access Time Read Access Time

进一步分析 SRAM 单元 6 管 SRAM 单元 word ( 行选择 ) word P1 P2 N1 N2 bit bit bit bit 通常 SRAM 具有许多存储字 ( 行 ) 位线 (bit lines) 就很长, 因而也就具有较大的电容晶体管 N1 N2 P1 和 P2 就必须非常小晶体管 N1 P1 没有足够的能量来快速驱动位线 (Bit): 需要增设一个信号放大器 (sense amplifier) 来比较 Bit 和 Bit

SRAM 的问题 Select = 1 P1 P2 Off On On N1 On Off N2 On 六个晶体管需要较多的芯片面积假设在某单元中存储 0 : 晶体管 N1 将试图将 Bit 拉为 0 晶体管 P2 将试图将 Bit 为 1 但是由于这些位线在预充电时都将置为高 : 那么是否必须需要 P1 和 P2? bit = 1 bit = 0

SRAM 的问题 ( 续 ) Select = 1 N1 的门电容 Vdd P2 当将入 0 到这个单元时, 置为高在下一次写入之前, P2 将一直保持为高 On On On N1 On bit = 1 bit = 0 P 型晶体管 (P2) 具有三个功能 : 在读操作期间, 将 Bit 线驱动为高 (Select = 1) 在下一次写操作之前, 保持 N1 的门一直在高电平在读操作期间, 防止 N1 的门电容将它的所有电荷都泄漏给 Bit

4 管 RAM 单元 Row Select 读操作 : 1. 对 b 预充电, 使得 b Vdd 2. 选择行 3. 感应 4. 放大数据 5. 写刷新 : 假读周期写操作 : 1. 驱动位线 ( bit lines) 2. 选择行在读取数据期间, 消耗掉的电荷, 必须被恢复 b 优点 : 较小 : 取消了 2 个负载设备和 1 个供电端缺点 : 附加了刷新周期降低了抗干扰能力 b

单管单元写操作 : 1. 驱动位线 2. 选择行读操作 : 1. 预充电, 使得位线 Vdd 2. 选择行 3. 单元和位线共享电荷位线 - 在位线上只有非常小的电压变化 4. 感应 ( 非常奇妙的感应放大器 ) - 可以检测到大约一百万电子伏特的变化 5. 写 : 恢复电压值刷新 1. 仅仅需要对每个单元进行一次假读操作行选择

DRAM 引论 Dynamic RAM (DRAM): 需要刷新密度非常高耗电非常低 ( 工作时 0.1~0.5 W, 等待 (standby)0.25 ~10 mw) 每位的成本非常低管脚敏感 : - 输出使能 (Output Enable: OE_L) - 写使能 (Write Enable:WE_L) addr - 行地址过滤 (Row address strobe: ras) - 列地址过滤 (Col address strobe:cas) log N 2 r o w cell array N bits c o l sense 单感应放大器耗电较少, 面积小 D

传统的 DRAM 组成位线 ( 数据 ) 行译码器 RAM 单元阵列 RAM Cell Array 每个交叉点代表一个单管 DRAM 单元字选择 ( 行选择 ) 行地址列选择器 & I/O 电路列地址数据行和列地址在一起 : 每次选择一位

512 行典型的 DRAM 组成典型 DRAMs: 并行访问多位例如 : 2 Mb DRAM = 256K x 8 = 512 行 x 512 列 x 8 位行和列地址并行作用于所有 8 个位面 (planes) 位面 7 512 列位面 0 256 Kb DRAM 的一个位面位面 1 256 Kb DRAM D<1> 256 Kb DRAM D<7> D<0>

典型 DRAM 的逻辑框图 RAS_L CAS_L WE_L OE_L A 256K x 8 DRAM 9 8 D 控制信号 (RAS_L, CAS_L, WE_L, OE_L) 都是低电平有效 Din 和 Dout 合并在一起 (D): WE_L 有效 ( 低 ), OE_L 禁止 ( 高 ) 时, - D 作为数据输入管脚 WE_L 禁止 ( 高 ), OE_L 有效 ( 低 ) - D 作为数据输出管脚行和列地址共享相同的一组管脚 (A) RAS_L 变成低 : 管脚 A 被锁定为行地址 CAS_L 变成低 : 管脚 A 被锁定为列地址

Row Address Decoder DRAM Architecture Col. 1 bit lines Col. word lines 2 M Row 1 N Row 2 N N+M M Column Decoder & Sense Amplifiers Memory cell (one bit) Data D Bits stored in 2-dimensional arrays on chip Modern chips have around 4 logical banks on each chip each logical bank physically implemented as many smaller arrays 北京大 4/18/2011 学计算机科学技术系 cs252-s11, Lecture 22 北京大学微处理器研究 22开发中心

DRAM Operation: Three Steps Precharge charges bit lines to known value, required before next row access Row access (RAS) decode row address, enable addressed row (often multiple Kb in row) bitlines share charge with storage cell small change in voltage detected by sense amplifiers which latch whole row of bits sense amplifiers drive bitlines full rail to recharge storage cells Column access (CAS) decode column address to select small number of sense amplifier latches (4, 8, 16, or 32 bits depending on DRAM package) on read, send latched bits out to chip pins on write, change sense amplifier latches. which then charge storage cells to required value can perform multiple column accesses on same row without another row access (burst mode) 北京大 4/18/2011 学计算机科学技术系 cs252-s11, Lecture 22 北京大学微处理器研究 23开发中心

DRAM 写操作时序当 RAS_L 有效时, 所有 DRAM 开始访问 A RAS_L CAS_L 256K x 8 DRAM WE_L OE_L 9 8 D RAS_L DRAM 写时钟周期 CAS_L A Row Address Col Address Junk Row Address Col Address Junk OE_L WE_L D Junk Data In Junk Data In Junk WR Access Time Early Wr Cycle: WE_L asserted before CAS_L WR Access Time Late Wr Cycle: WE_L asserted after CAS_L

DRAM 读操作时序当 RAS_L 有效时, 所有 DRAM 开始访问 A RAS_L CAS_L 256K x 8 DRAM WE_L OE_L 9 8 D RAS_L DRAM 读时钟周期 CAS_L A Row Address Col Address Junk Row Address Col Address Junk WE_L OE_L D High Z Junk Data Out High Z Junk Read Access Time Output Enable Delay Early Read Cycle: OE_L asserted before CAS_L Late Read Cycle: OE_L asserted after CAS_L

DRAM 读操作时序

主存性能 ( 周期时间与访问周期 ) 访问时间周期时间时间 DRAM ( 读 / 写 ) 周期时间 >> DRAM ( 读 / 写 ) 访问时间 DRAM ( 读 / 写 ) 周期时间 : 我们可以以多快的频率来开始进行存储访问? 比喻 : 我们只能在 4x 的年度的夏天, 才能收看到奥运会足球赛 DRAM ( 读 / 写 ) 访问时间 : 一旦我们开始进行访问, 那么要过多长时间可以获得数据? 比喻 : 在奥运会期间, 一旦我们想看, 最多等一天就可以收看到下一场比赛 DRAM 的带宽限制 : 比喻 : 如果我们 2014 年还想看新的世界级足球比赛?

增加带宽交叉访问 (Interleaving) 非交叉访问的访问模式 : CPU Memory 得到 D1 开始访问 D1 四路交叉访问的访问模式 : 访问体 0 访问体 1 访问体 2 开始访问 D2 访问体 3 我们可以再次访问体 0 CPU Memory Bank 0 Memory Bank 1 Memory Bank 2 Memory Bank 3

主存性能简单 : CPU Cache 总线和主存同宽 (32 或 64 位 ) 宽度 : CPU/Mux 1 个存储字 ; Mux/Cache 总线和主存 N 个存储字 (Alpha: 64 位 & 256 位 ; UtraSPARC 512 位 ) 交叉 (Interleaved): CPU Cache 和总线 1 个存储字 : 存储器 N 个存储体 (4 模 ); 示例为字交叉 (word interleaved) CPU CPU CPU Cache bus M mux cache bus M Cache bus M M M M 第一种解决方案高带宽 DRAM 第二种解决方案存储器和 Cache 之间宽数据通路第三种解决方案存储模块交叉访问

主存性能时序模型 ( 字长 32 位 ) 1 个周期发送地址, 6 个周期访问时间, 1 个周期发送数据 Cache 块为 4 个字 Simple M.P. = 4 x (1+6+1) = 32 Wide M.P. = 1 + 6 + 1 = 8 Interleaved M.P. = 1 + 6 + 4x1 = 11

计算机中的主存系统

主存访问过程

Need for Error Correction! Motivation: Failures/time proportional to number of bits! As DRAM cells shrink, more vulnerable Went through period in which failure rate was low enough without error correction that people didn t do correction DRAM banks too large now Servers always corrected memory systems Basic idea: add redundancy through parity bits Common configuration: Random error correction - SEC-DED (single error correct, double error detect) - One example: 64 data bits + 8 parity bits (11% overhead) Really want to handle failures of physical components as well - Organization is multiple DRAMs/DIMM, multiple DIMMs - Want to recover from failed DRAM and failed DIMM! - Chip kill handle failures width of single DRAM chip

Quest for DRAM Performance 1. Fast Page mode Add timing signals that allow repeated accesses to row buffer without another row access time Such a buffer comes naturally, as each array will buffer 1024 to 2048 bits for each access 2. Synchronous DRAM (SDRAM) Add a clock signal to DRAM interface, so that the repeated transfers would not bear overhead to synchronize with DRAM controller 3. Double Data Rate (DDR SDRAM) Transfer data on both the rising edge and falling edge of the DRAM clock signal doubling the peak data rate DDR2 lowers power by dropping the voltage from 2.5 to 1.8 volts + offers higher clock rates: up to 400 MHz DDR3 drops to 1.5 volts + higher clock rates: up to 800 MHz Improved Bandwidth, not Latency

Fast Memory Systems: DRAM specific Multiple CAS accesses: several names (page mode) Extended Data Out (EDO): 30% faster in page mode Newer DRAMs to address gap; what will they cost, will they survive? RAMBUS: startup company; reinvented DRAM interface - Each Chip a module vs. slice of memory - Short bus between CPU and chips - Does own refresh - Variable amount of data returned - 1 byte / 2 ns (500 MB/s per chip) Synchronous DRAM: 2 banks on chip, a clock signal to DRAM, transfer synchronous to system clock (66-150 MHz) - DDR DRAM: Two transfers per clock (on rising and falling edge) Intel claims FB-DIMM is the next big thing - Stands for Fully-Buffered Dual-Inline RAM - Same basic technology as DDR, but utilizes a serial daisy-chain channel between different memory components. 北京大 4/18/2011 学计算机科学技术系 cs252-s11, Lecture 22 北京大学微处理器研究 35开发中心

DRAM 技术的发展 Throughput vs. Latency

N 行 N 行快速页模式 (Fast Page Mode, FPM)DRAM 常规 DRAM 组成 : N 行 x N 列 x M 位同时读和写 M 位每 M 位访问需要一个 RAS / CAS 周期 FPM DRAM N x M 锁存器来保存一行列地址列地址 M 位输出 N 列 DRAM N 列 M 位行地址在读取一行到寄存器后仅仅需要 CAS 来访问该行中的其他 M 位存储块 (bank) 在 RAS_L 保持有效, 同时 CAS_L 不断变化 DRAM N x M SRAM M 位输出 M 位行地址

快速页模式操作 DRAM 性能指标 :(x-y-y-y, 例如 6-3-3-3) x:first data access time in clock/bus cycles y:successive burst data access time in clock/bus cycles

快速页模式操作

EDO DRAM(Extended Data Out) (20%-40% 性能提升 ) EDO DRAM 性能指标 :5-2-2-2 at 66MHz

Burst EDO DRAM

SDRAM(Synchronous DRAM) 基于 DRAM 的技术 (CAS RAS,etc) 允许在一个 DIMM 中包含多个 BANK DIMM SDRAM 168 pin 增加了 ba0 ba1 两个管脚与 CPU 或芯片组使用同步时钟信号五组控制信号, 可组成多种命令 CS:chip select RAS:raw address select CAS:col address select WE:write enable DQM:output enable 更好的支持 Burst 方式可编程设置模式 : Bust length,sequence...

SDRAM(Synchronous DRAM) SDRAM Mode Register

SDRAM read

SDRAM performance CAS Latency is important x-y-y( 例如 :3-2-2) CAS Latency the RAS-to-CAS delay RAS precharge time 时钟主频 PC66:66MHz PC100:100MHz PC133:133MHz

DDR SDRAM DDR:Double data rate 时钟上升沿和下降沿均可以发送数据 ( 带宽 X2!!) 在原有的 SDRAM 的架构基础上加以较小的改进 ( 可复用原有生产线 ) SDRAM 和 DDR 均为开放标准 (JEDEC)(Important!!) SDRAM DDR

DDR-SDRAM Timing Diagram

图 1: 图 2: SDRAM 的 Bank 和内存规范 4M X 1bit X 32chip 4bank in a dimm SIMM DIMM single/doul in-line memory module 目前使用的都是 DIMM 时钟频率 PC1600 100MHz - 100 2 8 MB/s PC2100 133MHz PC2400 150MHz 图 1 图 2

DDR3 SDRAM

其它 DRAM VCDRAM (Virtual Channel DRAM,NEC)

SDRAM timing (Single Data Rate) CAS RAS (New Bank) CAS Latency x Precharge Burst READ Micron 128M-bit dram (using 2Meg 16bit 4bank ver) Row (12 bits), bank (2 bits), column (9 bits) 北京大 4/18/2011 学计算机科学技术系 cs252-s11, Lecture 22 北京大学微处理器研究 51开发中心

Double-Data Rate (DDR2) DRAM 200MHz Clock Row Column Precharge Row Data [ Micron, 256Mb DDR2 SDRAM datasheet ] 400Mb/s Data Rate 北京大 4/18/2011 学计算机科学技术系 cs252-s11, Lecture 22 北京大学微处理器研究 52开发中心

DDR vs DDR2 vs DDR3 vs DDR4 All about increasing the rate at the pins Not an improvement in latency In fact, latency can sometimes be worse Internal banks often consumed for increased bandwidth DDR4 (January 2011) Samsung, Currently 2.13Gb/sec Target: 4 Gb/sec 北京大 4/18/2011 学计算机科学技术系 cs252-s11, Lecture 22 北京大学微处理器研究 53开发中心

DRAM Power: Not always up, but 北京大 4/18/2011 学计算机科学技术系 cs252-s11, Lecture 22 北京大学微处理器研究 54开发中心

PCB 板的 Path Length

DRAM Research Areas 提高带宽是最重要目标降低 Latency Topology Memory Command Address Mapping

DRAM Packaging Clock and control signals Address lines multiplexed row/column address ~7 ~12 Data bus (4b,8b,16b,32b) DRAM chip DIMM (Dual Inline Memory Module) contains multiple chips arranged in ranks Each rank has clock/control/address signals connected in parallel (sometimes need buffers to drive signals to all chips), and data pins work together to return wide word e.g., a rank could implement a 64-bit data bus using 16x4-bit chips, or a 64-bit data bus using 8x8-bit chips. A modern DIMM usually has one or two ranks (occasionally 4 if high capacity) A rank will contain the same number of banks as each constituent chip (e.g., 4-8)

Main Memory Overview

DRAM: Banks Enable concurrent DRAM accesses (overlapping)

2Gb x8 DDR3 Chip [Micron] Observe: bank organization

Observe: row width, 64 8 bit datapath

DRAM: Timing Constraints Memory controller must respect physical device characteristics trcd= Row to Column command delay - How long it takes row to get to sense amps tcas= Time between column command and data out tccd= Time between column commands - Rate that you can pipeline column commands trp= Time to prechargedram array tras= Time between RAS and data restoration in DRAM array (minimum time a row must be open) trc= tras+ trp= Row cycle time - Minimum time between accesses to different rows

DRAM: Timing Constraints There are dozens of these twtr= Write to read delay twr= Time from end of last write to PRECHARGE tfaw= Four ACTIVATE window (limits current surge) Makes performance analysis, memory controller design difficult Datasheets for DRAM devices freely available http://download.micron.com/pdf/datasheets/dram/ddr3/2gb_ddr3_s DRAM.pdf

DRAM Modules DRAM chips have narrow interface (typically x4, x8, x16) Multiple chips are put together to form a wide interface DIMM: Dual Inline Memory Module To get a 64-bit DIMM, we need to access 8 chips with 8-bit interfaces Share command/address lines, but not data Advantages Acts like a high-capacity DRAM chip with a wide interface 8x capacity, 8x bandwidth, same latency Disadvantages Granularity: Accesses cannot be smaller than the interface width 8x power

A 64-bit Wide DIMM (physical view)

A 64-bit Wide DIMM(logical view)

Multiple DIMMs on a Channel Advantages: Enables even higher capacity Disadvantages: nterconnect latency, complexity, and energy get higher Addr/Cmdsignal integrity is a challenge

DRAM Ranks A DIMM may include multiple Ranks A 64-bit DIMM using 8 chips with x16 interfaces has 2 ranks Each 64-bit group of chips is called a rank All chips in a rank respond to a single command Different ranks share command/address/data lines - Select between ranks with Chip Select signal Ranks provide more banks across multiple chips (but don t confuse rank and bank!)

Multiple Ranks on a DIMM DIMM1 Rank1 Rank2 Rank3 DIMM2 Rank4

DRAM Channels Channel: a set of DIMMsin series All DIMMsget the same command, one of the ranks replies System options Single channel system Multiple dependent (lock-step) channels Single controller with wider interface (faster cache line refill!) Sometimes called Gang Mode Only works if DIMMs are identical (organization, timing) Multiple independent channels Requires multiple controllers Tradeoffs Cost: pins, wires, controller Benefit: higher bandwidth, capacity, flexibility

DRAM Channel Options lock-step Independent

DRAM Controller Functionality Translate memory requests into DRAM command sequences Map Physical Address to DRAM Address Obey timing constraints of DRAM, arbitrate resource conflicts (i.e. bank, channel) Buffer and schedule requests to improve performance Row-buffer management and re-ordering Ensure correct operation of DRAM (refresh) Manage power consumption and thermals in DRAM Turn on/off DRAM chips, manage power modes

A Modern DRAM Controller

FB-DIMM Memories Regular DIMM FB-DIMM Uses Commodity DRAMs with special controller on actual DIMM board Connection is in a serial form: FB-DIMM FB-DIMM FB-DIMM FB-DIMM FB-DIMM Controller

Choices for Future

主存系统模型通道 (channel): 主存控制器与 DRAM 之间独立的数据总线目前大部分处理器和北桥芯片组有 2 条通道, 允许同时访问 2 组 DRAM

主存系统的研究空间并行性每个通道都可以独立并行地处理主存访问时间并行性单个通道内多个主存访问延迟的重叠局部性如果连续二个访问指向同一个通道内同一个设备中同一个体同一行, 则第二个主存访问可以仅需要 Read 或 Write 一个命令, 能够大大降低第二个主存访问延迟

Embedded DRAM CPU 和 DRAM 合并在一个芯片中消除由于 Pin 和 PCB 所带来的带宽限制巨大的 On-chip L3 Cache 的需求 IRAM

FLASH Memory Like a normal transistor but: Has a floating gate that can hold charge To write: raise or lower wordline high enough to cause charges to tunnel To read: turn on wordline as if normal transistor - presence of charge changes threshold and thus measured current Two varieties: NAND: denser, must be read and written in blocks NOR: much less dense, fast to read and write Samsung 2007: 16GB, NAND Flash 北京大 4/18/2011 学计算机科学技术系 cs252-s11, Lecture 22 北京大学微处理器研究 79开发中心

Tunneling Magnetic Junction (MRAM) Tunneling Magnetic Junction RAM (TMJ-RAM) Speed of SRAM, density of DRAM, non-volatile (no refresh) Spintronics : combination quantum spin and electronics Same technology used in high-density disk-drives cs252-s11, Lecture 22 北京大学微处理器研究 80开发中心

Phase Change memory (IBM, Samsung, Intel) Phase Change Memory (called PRAM or PCM) Chalcogenide material can change from amorphous to crystalline state with application of heat Two states have very different resistive properties Similar to material used in CD-RW process Exciting alternative to FLASH Higher speed May be easy to integrate with CMOS processes 4/18/2011 cs252-s11, Lecture 22 81

虚拟存储系统提供一种理想中的非常非常大的存储器许多工作所需存储器的总和大于实际的物理存储器每个工作的地址空间大于实际的物理存储器使得可利用的 ( 快速昂贵 ) 的物理存储器得以很好地利用简化存储器的管理 ( 当今, 使用虚拟存储技术的主要原因 ) 使用存储层次, 保持平均访问时间很低至少包括两级存储层次 : 主存和二级存储虚拟地址程序员使用的地址虚拟地址空间上述地址的集合存储器地址物理存储器中存储字的地址, 也称为物理地址或实地址 ( Real address)

虚拟存储系统设计的基本问题如何在分配主存空间以安放代码和数据? 如何为程序分配主存空间, 分配多少, 何时分配? 超过主存容量的一个程序或多个程序的替换策略? 如何软硬件协同保证运行正常? 如何为用户程序提供独立的地址空间? 如何提供存储保护?( 病毒恶意破坏错误的编程 ) reg cache mem disk frame pages

页式存储管理将主存物理空间按照固定页面大小分割将不连续的主存物理空间映射为连续的程序虚拟空间提供页表 (OS) 和 MMU(CPU) 管理机制的支持使用 TLB(Translation lookaside buffer) 提供地址快速变换提供页表基址寄存器 V = {0, 1,..., n - 1} 虚拟地址空间 M = {0, 1,..., m - 1} 物理地址空间映射 : V M U {0} 地址映射函数

0 4096 进程页表页帧 0 1 4K 4K 0 4096 页 0 1 2 4K 4K 0 4096 页帧 0 1 4K 4K 7 4K 31 4K 7 4K 进程 1 虚拟地址空间 33 34 进程 2 虚拟地址空间索引 0 1 7 权限位权限位权限位权限位物理页号 31 1 63 物理地址空间... 63 4K 索引 0 1 7 权限位权限位权限位权限位物理页号 2 34 33 进程 1 页表进程 2 页表

虚实地址变换机制 MMU(mem management unit) CPU 发出虚拟地址 MMU 通过 table walk 访问主存页表, 获得映射关系 MMU 将虚页号变换为物理页号, 产生物理地址, 访存缺页时, 处理器转到页面失效入口, 交给 OS 处理 VA 虚页号偏移量页表基址寄存器 PA PPN V 页表访问权限偏移量虚实地址变换 PPN 处理器 VA MMU 地址变换机制 PA table walk 地址变换机制页面失效故障入口 OS 缺页处理主存页表 DISK OS 完成

两级页表变换虚拟地址经过两级页表映射页表基址寄存器存储一级页表首址一级页表中将一个较大虚拟地址范围映射到一个二级页表考虑多页面大小的支持 (4K 64K 4M...) 二级页表页表基址寄存器一级页表代码页数据页

快表 TLB(Translation lookaside buffer) TLB(Translation lookaside buffer, 变换旁路缓冲器 ) TLB 是页表的 Cache 典型的实现 :64Entry 全相联存储器同样要实现替换算法等 v 虚页号权限位物理页号相比页表, 要多出虚页号的域 64 路全相联

主要的虚拟存储实现方式段式将程序划分成为若干个地址连续的区域 ( 段 ), 通过段描述符和段内偏移来访问代码段数据段堆栈段共享段等优点 : 十分方便的存储共享和存储保护缺点 : 段的连续性容易造成存储碎片问题? 页式将地址空间划分成大小固定的页优点 : 灵活性好缺点 : 可能造成空间浪费, 即使只使用一个字节也要分配一个页段页式在段式划分的基础上, 将段再划分成页优点 : 解决了段的连续存放问题缺点 : 开销大, 控制复杂, 操作系统多不愿使用

虚拟存储的主要组成 MMU:Memory Management Unit TLB:Translation lookaside buffer TLB 的功能一般包含在 MMU 中 Table walking: 页表查找机制页表 : 主存中的虚实地址转换信息物理地址 Main Memory CPU 虚拟地址 MMU TLB Table walking Page Table

MMU MMU: 存储管理部件, Memory Management Unit MMU 是系统中进行虚实地址转换的核心部件 MMU 的主要工作如下 : 在 TLB 的协助下完成虚实地址转换维护 TLB 的控制机制负责存储保护在 TLB 失效或非法访问时向处理器发起中断维护一个 TLB 失效后的再填充机制 (Table walking) CPU 虚拟地址 MMU TLB TLB 失效 TLB 命中物理地址 Table walking Cache or Main Memory Page Table

TLB TLB: 变换旁视缓冲器,Translation Lookaside Buffer TLB 是内存中页表的 Cache, 用来保存最近用过的页表项信息极大地提高了地址变换的速度相对于 Cache, 页表项的存储局部性更好, 有更小的失效率典型的 TLB 表项包含符号位 VPN PPN 和权限位符号位 : 有效位等 VPN:Virtual Page Number PPN:Physical Page Number,Also as Physical Frame Number 权限位 : 对该页面的访问权限控制, 禁止只读只写读写虚拟地址 VPN Offset Flag VPN PPN Perm 物理地址 PPN Offset

TLB( 续 ) VPN TLB 可以应用 Cache 中的绝大部分技术直接映射组相联或者全相联组相联 -> 全相联 -> 组相联多级 TLB Victim TLB 等 VPN0 VPN1 VPN2 VPN3 PPN0 PPN1 PPN2 =? =? =? =? PPN PPN3 CPU CPU CPU CPU Instr Data Instr Data Instr Data Instr Data TLB Unified TLB ITLB DTLB Split TLB ITLB DTLB Macro TLB ITLB DTLB TLB Level2 TLB

Table walking Table walking 是当 TLB 失效发生后, 重新填充 TLB 表项的机制硬件 Table walking 机制典型代表 :Intel IA32 系列 PowerPC 当 TLB 失效时, 通过硬件状态机的控制, 搜索页表, 获得相应的信息并填充到 TLB 中优点 : 速度快 ( 不需中断不需指令执行访问 DCache) 缺点 : 操作系统必须使用规定格式的页表注意 :TLB 失效后访问 DCache 也可能造成一级二级 Cache 失效, 从而导致较大的失效损失 CPU 虚拟地址 MMU TLB S TLB 命中 S 物理地址 S Table walking TLB 失效 Cache or Main Memory Page Table

Table Walking( 续 ) 软件 Table walking 典型代表 :MIPS Alpha 当发生 TLB 失效时,MMU 发出一个失效中断操作系统的失效中断处理函数搜索页表, 找到相应的表项, 并通过特定的指令填充到 TLB 中去优点 : 操作系统具有完全的灵活性可移植性好缺点 : 性能较硬件要差 - 中断损失 - 处理函数导致指令 Cache 失效 - 处理函数访问页表导致数据 Cache 失效 - 处理函数访问页表导致嵌套的 TLB 失效 CPU 虚拟地址 MMU TLB TLB 命中 TLB 失效中断物理地址 OS Cache or Main Memory Page Table Table walking

相关研究 TLB 失效率全相联, 层次式两级 TLB 页表结构 MPT LPT HPT GPT CPT Table Walking 机制的开销硬件软件, 最多访存次数, 与 Cache 的关系大虚地址空间支持新型页表, 支持多种页大小稀疏空间使用的支持

请求页式管理与存储保护请求页式管理 (Demand Paging) 并不一次将代码和数据全部装如主存通过缺页中断保证程序可以正常的运行存储保护页表中的权限位使得 CPU 和 OS 可以在页面一级管理权限 RWX 访问控制 : 限制该页面可否做读写执行操作 U(user): 限制该页面可否由用户态程序访问辅助位 A(Access): 该页是否曾被访问过 M(Modify): 该页是否曾被改变过 ( 思考, 辅助位应由谁设置,MMU or OS?)

虚拟存储与存储保护进程 (process) vs. 线程 (thread) 多道程序 (multiprogramming) 进程切换 (process switch) 操作系统和硬件结构联合保证多进程共享硬件资源多进程互不影响对体系结构的要求至少两种运行模式 :User,Kenel/Supervisor 提供用户进程只读的处理器状态提供模式转换机制提供限制存储访问的机制保护用户进程存储状态

Virtual Machine Protection via Virtual machine The increasing importance of isolation and security in modern systems The failures in security and reliability of standard operation systems The sharing of a single computer among many unrelated users The dramatic increases in raw speed of processors, which makes the overhead of VMs more acceptable

Virtual Machine Virtualization of Whole Machine A complete system-level environment at binary ISA level (Operating) System Virtual Machine Run different ISAs in the VM from native hardware

System Virtual Machine

Virtual machine 分类

System Virtual Machine CPU Virtualization Memory Virtualization I/O virtualization

Virtual Machine ISA support Impact of Virtual machines on Virtual Memory and I/O Virtual memory Physical memory Machine memory Shadow page table/tlb The Xen Virtual machine

Virtual Machine Monitor Virtual machine monitor(vmm) or Hypervisor Managing software Managing hardware Requirements Guest software should behave on a VM exactly as if it were running on the native hardware, except for performance-related behavior or limitations of fixed resources shared by multiple VMs. Guest software should not be able to change allocation of real system At least two processor modes, system and user. A privileged subset of instructions that is available only in system mode, resulting in a trap if executed in user mode. All system resources must be controllable only via these instructions.

Cloud Computing