3.2 Ö¸Áî¼¶²¢ÐÐ¸ÅÄîÓë¼¼Êõ

Size: px

Start display at page:

Download "3.2 Ö¸Áî¼¶²¢ÐÐ¸ÅÄîÓë¼¼Êõ"

邑洪
5 years ago
Views:

1 第三章高级流水线与指令级并行性第二部分节 -3.5 节石教英

2 3.2 指令级并行概念与技术提高流水线性能的思路 (1) 直观思路 : 缩小流水线的 CPI CPIunpipelined 因为 Speedup= CPIpipelined CPIpipelined = Ideal pipeline CPI+ pipelined stall cycles per instruction =1+ Structual stalls + RAW stalls + WAR stalls + WAW stalls + Control stalls

3 所以 : 缩小 CPIpipelined 的途径就是 : 减少各种竞争造成的停顿周期数

4 各种高级流水线技术及其作用对象 : 技术作用 ( 减少某类 Stall) Loop unrolling Control stalls Basic pipeline scheduling RAW stalls Dynamic scheduling with scoreboarding RAW stalls Dynamic scheduling with register renaming WAR & WAW stalls Dynamic branch prediction Control stalls Issuing multiple instruction per cycle Ideal CPI Compiler dependence analysis Ideal CPI & data stalls Software pipelining and trace scheduling Ideal CPI & data stalls Speculation data and control stalls Dynamic memory disambiguation RAW stalls involving memory

5 本质上思路 (2)---- 研究指令级并行性 (ILP,instruction-level parallelism), 据此进一步开发指令重叠执行的可能性流水线技术就是指令重叠执行技术前提 : 有足够硬件资源 ( 无机构竞争 ) 重叠执行的指令是相互独立的, 也就是说, 无数据依赖关系和执行顺序的约束关系, 即无数据竞争和控制竞争

6 指令之间可重叠执行性, 即所谓指令级并行性因此进一步研究开发存在于指令之间的并行性, 将进一步提高流水线的性能我们将从两个方面研究 ILP 研究循环的多次迭代之间存在的并行性, 即所谓循环级并行性 (loop-level parallelism)( 一类指令并行性 ) 研究指令之间的相关性 (dependences)( 具有普遍意义的指令并行性 )

7 3.2.2 指令级并行性程序基本块 (basic block) 内指令间并行性是有限的程序基本块 : 指不包括转入 ( 除程序入口 ) 和转出 ( 除程序出口 ) 指令的连续代码序列, 通常由 6-7 条指令组成根据统计 ( 参见 Fig.2-28, p107) 在整数程序中动态转移的概率为 16%, 即程序中一对转移指令之间仅含 6-7 条指令 ) 考虑到基本块内指令之间存在各种相关性, 所以程序基本块内可重叠执行的指令数远少于 6 条

8 必须研究多个基本块代码之间的可重叠执行性, 即 ILP 最常见, 也是最简单的一种多个基本块之间的并行行为 : 循环多次迭代之间的并行性, 称微循环级并行性 (loop-level parallelrism--llp) [ 例 ] for (i=1; I<=1000; i=i+1;) x[i] = x[i] + y[i]; loop 内指令无重叠执行可能性, loop 的每一次迭代可重叠执行

9 如何将此类 LLP 转化为 ILP? 首先把 loop 按每次迭代代码序列展开, 再根据代码指令指令之间相关性进行调度

10 3.2.3 将 LLP 转化为 ILP 方法 ---- 循环展开 (loop unrolling) 加流水线调度 (pipeline scheduling) 两种 loop unrolling 方法 : static loop unrolling by compiler dynamic loop unrolling by hardware 流水线调度 : 若 j 指令要用到 I 指令的结果 (RAW 相关 ), 流水线调度是指把 (i 和 j) 两条指令分隔开来, 两者之间应间隔的时钟周期数等于源指令产生结果所需的延时 (latency) 时钟周期数

11 两种流水线调度方法 Static pipeline scheduling by compiler; Dynamic pipeline scheduling by hardware. 本章采用如下假设无结构竞争 ( 即有足够硬件可供使用 ), 每一时钟周期可发射一条指令采用 DLX 标准的整数操作流水线结构 ( 即由 IF,ID,EX,MEM,WB 五拍组成 ) 转移指令 (Branch) 后由一个时钟周期延时浮点操作的延时时钟周期数参见表 ( Fig 4.2, p224; 表 4-37, p204)

12 浮点操作延迟时间前操作指令后继相关指令等待时钟周期数 FP ALU 操作 FP ALU 操作 3 FP ALU 操作 Store( 双字 ) 2 Load( 双字 ) FP ALU 操作 1 Load( 双字 ) Store( 双字 ) 0

13 实例 : 说明编译器如何通过调度和循环展开来提高流水线性能 For (i=1; i<=1000; i++) x[i] = x[i] +s; 其中 : x[i] ----array element; s ---- scalar.

14 转换为 DLX 汇编语言代码如下 : Loop: LD F0, 0(R1) ADDD F4, F0, F2 SD 0(R1), F4 SUBI R1, R1, 8 BNEZ R1, Loop R1: 数组元素的地址, 初始化为最高地址 F2: 标量值 s 双字地址间隔为 8 字节

15 计算未调度时 loop 一次迭代所需时钟周期数 Loop: LD F0, 0(R1) ADDD F4, F0, F2 SD 0(R1), F4 SUBI R1, R1, 8 BNEZ R1, Loop F D X M W F D s A 1 A 2 A 3 A 4 W F s D s s X M W F s s D X M W F s D X M W 10 CC F F

16 对 loop 代码进行调度后, 一次迭代所需时钟周期数 Loop: LD F0, 0(R1) SUBI R1, R1, 8 ADDD F4, F0, F2 BNEZ R1, Loop SD 8(R1), F4 F D X M W F D X M W F D A 1 A 2 A 3 A 4 W F D X M W F D s X M W 6 CC F s D X M W

17 前页说明 : 为了颠倒 SUBI 和 SD 顺序,SD 的地址发生了改变! 即恢复到原地址一次迭代由 9 个时钟周期减少到 6 个时钟周期是积极算一个数组元素仅需 3 个时钟周期 (Load,add 和 store); 另外 3 个时钟周期 (SUBI,BNEZ 和一个 stall) 是 loop 的开销

18 用 loop unrolling 来消除 loop overhead, 以及进一步改善调度性能. Loop: LD F0, 0(R1) stall ADDD F4, F0, F2 stall, stall SD 0(R1), F4 LD F6, -8(R1) stall ADDD F8, F6, F2 stall, stall SD -8(R1), F8 LD F10, -16(R1) stall ADDD F12, F10, F2 stall, stall SD -16(R1), F12 LD F14, -24(R1) stall ADDD F16, F14, F2 stall, stall SD -24(R1), F16 SUBI R1, R1, #32 stall BNEZ R1, loop stall

19 前页说明 Loop 展开 4 次 SUBI 指令中 R1 要减 32 注意 loop 展开后, 每一次迭代采用不同寄存器, 如用 F0, F6, F10, F14 表示 LD 的目的寄存器, 分别表示不同变量展开后 loop 需 28 个时钟周期, 即每次迭代平均需 28/4=7 个时钟周期, 仅通过展开, 消除 loop overhead, 就可缩短每次迭代的时钟周期数, 这里没有做任何调度.

20 对 unrolling loop 进行调度, 达到进一步缩短每次迭代的时钟周期数 Loop: LD F0, 0(R1) LD F6, -8(R1) LD F10, -16(R1) LD F14, -24(R1) ADDD F4, F0, F2 ADDD F8, F6, F2 ADDD F12, F10, F2 ADDD F16, F14, F2 SD 0(R1), F4 SD -8(R1), F8 SUBI R1, R1, #32 SD -16(R1), F12 BNEZ R1, Loop SD 8(R1), F16 ( 因 R1 已减 32, 所以加 8)

21 前页说明 : 展开调度后的 Loop 共需 14 个时钟周期, 则每次迭代平均只需 14/4=3.5 个时钟周期调度展开的循环对提高性能的作用大于单纯的调度

22 例子说明的问题 : 通过例子, 我们看到研究开发 ILP 对提高处理器功能单元性能 ( 即流水线性能 ) 的巨大作用 ; 流水线思想早在 60 年代就开始应用于处理器, 但只有在 80 年代和 90 年代, 在深入研究 ILP 之后提出一系列先进流水线技术, 才成为使微处理器性能突飞猛进的关键技术 ; 上述例子所采用的一些方法对我们人类来讲都十分直观和简单, 但要使硬件和软件 ( 编译器 ) 来完成上述过程, 必须总结出一套形式化的, 方法学上的条例来确定何时以及如何来改变指令的执行顺序

23 小结 : 关于循环展开和调度方法在执行过程中, 我们做出了以下决策和代码变换 (1) 确信把 SD 移到 SUBI 和 BNEZ 之后是合法的, 并求出 SD 的位移量 ; (2) 确信循环体的每次迭代是相互独立的 ( 除维持循环的代码外 ), 以及循环体展开有利于性能提高 ; (3) 为了避免因采用同一寄存器而造成不必要的限制, 可以采用不同寄存器表示不同变量 ;

24 (4) 消除额外测试和转移指令, 调整维持循环的代码 ; (5) 只有确信不同迭代中的 Loads 和 stores 是互相独立的之后,Loads 和 Stores 才能在展开后的循环体中互换位置为此必须分析存储器的地址, 并确信 Loads 和 stores 访问的并非同一地址这就是所谓的 memory disambiguation (6) 在调度指令执行顺序时, 必须确保相关性不变, 才能使调度后的代码的结果与源代码的相同

25 做出上述决策的关键在于了解指令之间的相关性 (dependence) 了解给定的相关性下, 应如何改变指令或重排其执行顺序

26 3.2.4 相关性 (Ep229, Cp215) 两条指令是相互独立的, 则是并行的, 其执行顺序允许重排 ; 两条指令是相关的, 则不是并行的, 其执行顺序不允许重排 ; 明确指令相关性对调度的可行性程序并行程度的多少如何利用程序的并行性至关重要

27 存在三类相关性数据相关性名字相关性控制相关性

28 数据相关性 (data dependences) 定义 : 指令 j 相对于指令 I 存在数据相关性, 则下列条件之一必定成立 : 指令 i 产生的结果被指令 j 所用, 或指令 j 与指令 k 数据相关, 以及指令 k 与指令 I 数据相关 ( 即存在相关 ) 相关性是程序的一种性质存在相关性仅仅指出存在竞争 (hazard) 的可能性, 但是是否会造成可检测到的竞争, 以及是否会造成真正的停顿则是流水线组织的性质

29 举例 : Loop: LD F0, 0(R1) ;F0= 数组元素 ADD F4, F0, F2 ;add scalar in F2 SD 0(R1), F4 ; Store result RAW 1stall RAW 2stalls SUBI R1, R1, #8 ; decrement pointer 8 bytes(per DW) BNEZ R1, Loop RAW, 1 stall

30 注意 : 黑箭头表示存在数据相关性, 即存在 RAW 竞争可能性, 指令的执行顺序不能改变 ; 上一段代码中数据相关性将造成停顿周期 ; 下一段代码中数据相关性将不会造成停顿, 因为在 DLX 即其中提前硬件可以消除这一停顿

31 了解程序中存在相关性的重要性 : 因为相关性将指出存在竞争的可能性 ; 确定指令的执行顺序, 即指令的结果必须按指定的顺序计算 ; 给出可能开发的并行性的上限 ( 参见原版书 4.7 节

32 消除数据相关性的方法, 即克服数据相关性对指令级并行性的限制的方法有两类 : 保持相关性不变, 但设法避免造成竞争 ---- 调度法即调度指令, 降不相关指令插入停顿周期, 或改变指令顺序, 达到避免出现停顿, 又保持相关性不变 ( 如前例 ) 通过变换代码消除相关性 ---- 代码变换法

33 例 : LD F0, 0(R1) ADDD F4, F0, F2 SD 0(R1), F4 SUBI R1, R1, #8 LD F6, 0(R1) ADDD F8, F6, F2 SD 0(R1), F8 SUBI R1, R1, #8 未完全优化 LD F0, 0(R1) ADDD F4, F0, F2 SD 0(R1), F4 LD F6, -8(R1) ADDD F8, F6, F2 SD -8(R1), F8 SUBI R1, R1, #32 BNEZ R1, Loop 优化, 但未调度

34 注意 : 已作循环展开, 保留 SUBI, 但已消除 BNEZ; 由于 SUBI 存在, 造成数据相关性 ( 由箭头表明 ), 涉及 SUBI,LD 和 SD 等指令, 整个代码必须按顺序执行 ; 若由编译器计算 R1 的中间值, 并将其转换成 LD 和 SD 的偏移量, 最后一个 SUBI 减 32, 就可以消去由 SUBI 带来的相关性 ; 同时也可消去 SUBI 指令

35 名字相关性定义 : 当两条指令使用同一寄存器 ( 名 ) 或存储器单元 ( 号 ), 称为名字, 但这两条与该名字相关的指令之间不存在数据流动 ( 传递 ),) 称这两条指令为名字相关

36 两类名字相关性设指令 i 在程序中位于指令 j 之前, 则反相关性 : 当指令 j 写入的寄存器或存储单元是指令 I 读的寄存器或存储单元反相关性对应于 WAR 竞争, 这也是反相关性名称的来由, 因为它与数据相关性对应的 RAW 竞争方向相反因此一旦检测到 WAR 竞争, 说明存在反相关性, 必须保持其先后次序不变, 从而造成无法调度

37 两类名字相关性输出相关性 : 指令 I 和 j 对同一寄存器或存储单元进行写操作输出相关性对应于 WAW 竞争同理, 若存在输出相关性 ( 即意味着存在 WAW 竞争 ), 也不能改变先后次序

38 消除名字相关性的方法根据名字相关性的定义可知, 由于相关指令之间不存在数据流动, 因此只要改变它们使用的寄存器名或存储单元号,( 即两条指令不要使用同名字的寄存器或同一存储单元 ), 即可消除名字相关性因此, 对于寄存器操作数而言, 只要改用其它寄存器即可, 这一方法称为寄存器改名法 (register renaming) 寄存器改名可由 compiler 静态完成, 也可以由硬件动态完成

39 举例 :(p233)

40 注意 : 例中循环体被展开 4 次, 每次迭代中使用相同寄存器 ; 消除了循环的额外开销黑色箭头指示名字相关性, 灰色箭头只是数据相关性

41 采用寄存器改名方法消除名字相关性后, 得代码如下 ( 数据相关性保持不变 )p233

42 控制相关性定义 : 控制相关性指某指令相对于转移指令的顺序关系原则上讲, 除程序中第一基本块指令外, 每一条指令都是控制相关的, 即依赖于某组转移指令, 这种控制相关性时必须遵守的

43 举例 :if - then statements; if p1{ s1; }; if p2{ } s2; s1 与 p1 控制相关, s2 与 p2 控制相关, 但与 p1 控制无关

44 控制相关的两条限制 : 与某转移指令控制相关的指令不能调到该转移指令之前,( 即不能由控制相关变为控制不相关 ) 与某转移指令控制无关的指令不能调到该转移指令之后,( 即不能由控制无关变为控制相关 ) 注意 : 有时候可能破坏上述限制, 而仍有正确结果 ( 详见后述投机策略和条件指令 )

45 举例 : 目的 : 说明控制相关的存在说明如何去掉控制相关性 (p235)

46 第一块指令无控制相关性因为存在三条 BEQZ, 所以存在控制相关性 ( 黑箭头表示 ) 因此此循环展开代码不能进行调度

47 可以去掉中间三条 BEQZ, 从而去掉由它们造成的控制相关性理由 : R1 是等于 32 的倍数, 所以中间三条 BEQZ 是不会成功的, 这三条转移指令相当于空操作去掉了控制相关性后, 整个循环展开代码就可以进行优化 ( 调度 )

48 程序中控制相关性的保证得益于简单流水线 (3.1 节 ) 的两条性质 : 1. 指令的按序执行性确保 Branch 前的指令只能在 Branch 前执行 ; 2. 控制竞争的检测将确保控制相关指令只有当转移方向明确后才能执行

49 遵守控制相关性是保证程序正确性的一种有用的且简单的方法, 然而控制相关性并非是必须确保的关键性质, 例如在上例中, 可以去掉 BEQZ 指令达到消除控制相关性确保程序正确性的两个关键性性质是 : 1. 遵守异常 ( 中断 ) 行为 ; 2. 遵守数据流向通常, 这两个性质是由控制相关性来保证的

50 遵守异常 ( 中断 ) 行为指改变指令执行顺序时不应引起新的异常 ( 中断 ) 例 :BEQZ R2, L1 LW R1, 0(R2); L1: 这里存在控制相关, 但无数据相关若不遵守控制相关性, 把 LW 移到 BEQZ 前, 这里虽然无数据相关性, 但由于执行 LW 时可能出现存储器保护异常 ( 中断 ), 因此不能将 LW 提前

51 数据流向指某结果的产生以及被应用的流向转移指令使数据流向不再是静态的, 而变为动态的, 即源数据可以由多种来源, 因此为确保数据流向, 必须遵守控制相关性

52 例 : ADD R1, R2, R3] BEQZ R4, L SUB R1, R5, R6 L: OR R7, R1, R8 R1 有两个源说明 : OR 的操作数 R1 有两个来源, 即 ADD 或 SUB 这与 BEQZ 成功与否有关所以只有遵守控制相关性才能确保数据的正确流向

53 破坏控制相关性, 而不影响异常 ( 中断 ) 行为和数据流向的例子 : ADD R1, R2, R3 BEQZ R12, skip SUB R4, R5, R6 ADD R5, R4, R9 skip: OR R7, R8, R9 若我们知道 SUB 指令的结果 R4 在 skip 后不再被用到, 称为死的, 且不会引起异常, 则我们可以不遵守控制相关性将 SUB 提前到 BEQZ 前执行

54 这种调度技术称为投机 (speculation), 因为 compiler 通常根据转移指令的行为投机地预测其成功与否这里的做法对于不成功转移概率大的情况有利

55 前面已经介绍过 : 控制竞争与控制相关性是紧密联系在一起的通过检测控制竞争的存在与否来确保控制相关性不被破坏控制竞争将导致控制停顿 (stalls), 因此确保控制相关性可消除控制竞争, 从而消除控制 Stalls.

56 消除或减少控制停顿 (stalls) 的方法有 : 采用 delayed branch 方法减少停顿周期数 ( 见 ) 循环展开来消除控制相关性 ( 见 ) 将转移指令转变为条件执行指令 (conditional instruction) 和 compilerbased and hardware speculation (3.3 节 )

57 3.2.5 循环级并行性 (LLP): 概念和技术本节研究如何把相关性概念扩充到 loop 之间 : 仅指操作数在不同迭代之间的相关性, 即 loop 间的数据相关性 ( 重点研究 ) loop 间的名字相关性 ( 可用 renaming 方法消除 ) Loop 之间存在的数据相关性, 称为 Loop-carried dependence( 循环传递相关性 )

58 举例 1: 指出 loop 中 S1 和 S2 之间的相关性 For (i=1;i<=100;i=i+1){ A[i+1] = A[i]+C[i]; /*S1*/ B[i+1] = B[i] +A[i+1]; /*S2*/ } 分析 : 存在两种数据相关性 : S1 中 A[i+1] 和 S2 中的 B[i+1] 均要用到各自上一次迭代的值这就是所谓 loop-carried dependence. 对这种相关性而言, 该循环的不同迭代是不能并行的, 即必须顺序执行 S2 中的 A[i+1] 来自本次迭代的 S1, 故不是 loopcarried 如果 loop 中只含这种相关性, 则该 loop 的不同迭代是可以并行执行的 S1 S2

59 举例 2: 虽然存在 loop-carried 相关性, 仍能实现 loop 并行执行的例子说明 For (i=1;i<=100;i=i+1){ } A[i] = A[i]+B[i]; /*S1*/ B[i+1] = C[i] +D[i]; /*S2*/ S1 S2 S1 中 B[i] 依赖于上一次迭代的 S2, 所以这是一种 loop-carried 相关性但这一相关性不是 Circular( 连环的 ) 因为 S1 和 S2 本身相对不同迭代无相关性, 且只有 S1 依赖于上次迭代的 S2, 而 S2 不依赖于 S1

60 作程序变换如下 : A[1] = A[1] + B[1]; For (i=1; i<=99; i=i+1){ B[i+1]= C[i] + D[i]; A[i+1] = A[i+1] +B[i+1] } B[101]=C[100+D[100]; 说明 : 作适当程序变幻, 可以使这一 loop 变为并行

61 3.3 克服数据相关的动态调度方法调度 (scheduling)---- 重排指令执行顺序, 消除指令相关性, 达到减少或消除流水线的停顿周期调度分两类静态调度 ---- 由编译器将相关指令隔离开来动态调度 ---- 由硬件在指令执行过程中重排指令的执行次序

62 动态调度动态调度的优点可处理在编译时不清楚的相关性可减轻编译器的复杂性适用于不同流水线动态调度的代价硬件复杂度的提高

63 3.3.1 动态调度思想简单流水线技术的主要缺陷指令按序发射 (issue), 指令按序执行, 按序结束一旦前面指令停顿, 后面指令不能提前执行例 DIVD F0, F2, F4 ADDD F10, F0, F8 SUBD F12, F8, F14 DIVD 与 ADDD 之间存在 RAW 竞争, 它们之间要插入 Stall 周期 ; SUBD 与它们无关, 在普通流水线中, 不能提前执行, 也必须跟着停顿

64 启发 : 若指令能不按顺序执行, 只要它们的操作数已准备好, 可以提前执行, 可以提前完成, 就可提高流水线的效率 ---- 这就是调度思想的基础, 调度又分静态调度和动态调度动态调度的必要条件 : 允许多条指令发射, 有足够硬件支持多条发射, 和多份功能单元支持并行操作即将指令送入 EX

65 动态调度思想 ---- 按顺序发射多条指令, 只要条件成熟 : 无结构竞争 ( 即有足够硬件 ) 操作数已准备好就可以不按顺序执行, 不按顺序完成

66 为实现动态调度, 流水线必须具备以下功能 : (1) 允许按序取多条指令和发射多条指令 ---- 取指 (IF) 流水级允许按顺序取多条指令进入单口暂存器 (single-entry latch) 或队列 (queue), 指令然后从 latch 或 queue 取出, 进入 ID 节拍 (2) 能检查并消除 hazards---- 将 ID 流水级分为独立的两级 :Issue 级和 Read operand 级 : Issue 级功能 ---- 指令译码, 检查是否存在结构竞争 ( 即在这一流水级解决结构竞争问题 ; Read operands 级功能 ---- 等到无数据竞争 (RAW) 后, 读出操作数, 即在这一流水级解决数据竞争问题

67 在简单 DLX 流水线中 Write result 总是发生在最后一拍, 因此在按序执行时, 不可能出现 WAR 和 WAW 竞争, 然而在允许不按序执行时, 就可能出现 WAR 和 WAW 竞争例 :DIVD F0, F2, F4 ADDD F10, F0, F8 SUBD F8, F8, F14 RAW, 要插入 3 个 stalls WAR, 若允许乱序执行, 则出现了 WAR 在动态调度时如何解决 WAR 和 WAW 两种竞争, 将作进一步介绍

68 (3) 具备多重功能单元或流水化的功能单元 ---- 为了满足不按序执行何不按序结束, 在 EX 流水级必须至少准备好多重功能单元, 如多个加法器, 乘法器, 除法器等, 或者将这些功能单元也设计成流水线结构, 允许多条指令重叠执行, 最终达到每一流水周期完成一条指令的目的

69 3.3.2 记分牌动态调度法 (Dynamic Scheduling with Scoreboard) 记分牌是动态调度的一种方法,1964 年 CDC6600 提出这一思想带记分牌的 DLX FP 处理器结构

70 带记分牌的 DLX 处理器基本结构图寄存器数据总线浮点乘浮点乘浮点除浮点加整数部件控制 / 状态记分牌控制 / 状态

71 上图说明 : 处理器有 5 个 : 2 个 FP Multiplier 1 个 FP Divide 1 个 FP Add 1 个 Integer Unit 寄存器和功能单元之间数据流通过数据总线传送记分牌控制指令执行过程, 并纪录数据的状态

72 什么是记分牌? 记分牌是一集中控制部件, 其功能是控制数据寄存器与处理部件之间的数据传送在记分牌中保存有与各个处理部件相联系的寄存器中的数据装载情况当一个处理部件所要求的数据都已就绪 ( 装载完毕 ), 记分牌允许处理部件开始执行当执行完成后, 处理部件通知记分牌释放相关资源所以在记分牌中记录了数据寄存器和多个处理部件状态的变化情况, 通过它来检测和消除或减少数据相关性, 加快程序执行速度

73 记分牌的功能 : 负责指令发射和执行竞争检测和消除每一条指令都要经过记分牌 ( 记录在指令状态表中 ), 即发射到记分牌数据结构中 ; 纪录数据相关性, 把源和目的操作数记录在功能单元状态表中 ; 决定指令何时可读出操作数 ( 检测是否有 RAW 竞争 )

74 决定指令何时可以开始执行 ( 一旦操作数就绪, 立即开始执行 ); 若某条指令不能立即执行, 则由记分牌监控硬件的每一变化, 并决定何时才能开始执行 ; 控制指令何时能将结果写入目的寄存器 ( 即检测是否有 WAR 竞争 )

75 记分牌在每一流水级中的功能 DLX 简单流水线分 5 拍 :IF ID EX MEM WB; 我们只考虑 FP 操作, 因此可略去 MEM 拍 ; 如前所述已将 ID 改为 Issue 和 Read operands 两拍 ; 记分牌的功能是把指令从取指队列取出送入 Issue 拍开始所以我们将考虑记分牌在下列流水级的功能 : Issue, Read operands, EX, WB.

76 1.Issue( 看指令状态表 ) 若某指令所需的功能单元为空 ( 即无结构竞争 ); 且无其它指令用到同一目的寄存器 ( 确保不会出现 WAW 竞争 ), 则记分牌把该指令发射 (issue) 到功能单元, 并更新其内部数据结构 ; 若存在结构竞争或 WAW 竞争, 则停顿指令发射, 直到竞争消失 ---- 检测结构竞争和 WAW 竞争, 若有则停顿

77 2. Read operands( 看功能部件状态表 ) 记分牌监控源操作数是否就绪一个源操作数就绪的条件为 : 早前发射的活动指令对该操作数不进行写入操作 ( 即无 RAW 竞争 ) 含有操作数之一的寄存器, 就是该活动功能单元即将写入的寄存器, 如 SUBD F8, F8, F14. ( 即也不会出现 RAW 竞争 ) 记分牌在这一步解决了 RAW 竞争问题当源操作数准备就绪, 记分牌通知功能单元读出操作数, 并开始执行

78 检测 RAW, 若有, 则停顿该指令, 但是在动态调度时, 有多条指令并行操作, 所以可能有另外指令满足条件, 则继续执行下去, 从而消除了停顿的损失

79 3. Execution 功能单元开始对操作数执行操作当得到结果后, 功能单元通知记分牌该操作已执行完毕

80 4. Write result 当记分牌知道功能单元已结束执行流水线, 记分牌检查是否存在 WAR 竞争如果存在 WAR 竞争, 则停顿指令, 即停顿 Write result 节拍, 一直到上一条指令读完为止 ---- 检测 WAR, 若有则停顿

81 例 :DIVD F0, F2, F4 ADDD F10, F0, F8 SUBD F8, F8, F14 RAW WAR 说明 : ADDD 和 SUBD 之间对 F8 存在 WAR 竞争, 所以 SUBD 将停顿下来, 一直到 ADDD 读出 R8 拍后

82 通常, 一条已完成的指令在下列条件下不允许写它的结果 : 在这条已完成指令前面 ( 按发射顺序而言 ), 有一条指令还未读该操作数这条已完成指令的一个操作数与其结果采用同一个寄存器若不存在 WAR 竞争, 或 WAR 消失后, 记分牌通知功能单元把其结果存入目的寄存器在下一节介绍完记分牌的数据结构以后, 将给出记分牌在每一流水线的功能以形式化描述

83 DLX 记分牌的数据结构由三部分组成指令状态表 (instruction status) 指示每一条指令处于哪一流水级寄存器结果状态表 (Register result status) 指示哪一功能单元将把结果写入哪一个寄存器

84 功能单元状态表 (Functional unit status) 指示功能单元所处状态, 每一功能单元有 9 个状态 : Busy---- 指示功能单元是忙还是空 Op---- 功能单元正在完成何种操作 Fi---- 目的寄存器号 Fj, Fk ---- 源寄存器号 Qj, Qk ---- 生成源寄存器数 Fj, Fk 的功能单元 Rj, Rk ----Fj, Fk 就绪标识

85 举例 : 分析下列指令序列在记分牌中的状态 LD F6, 34(R2) LD F2, 45(R3) MULTD F0, F2, F4 SUBD F8, F6, F2 DIVD F10, F0, F6 ADDD F6, F8, F2

86 指令状态指令发射读操执行写结作数完成果 LD 已结束说明 LD 已结束 EX, 但结果未写入 MULTD SUBD 功能部件有空, 故均已发射, 但操作数未就绪 DIVD ADDD 功能部件忙, 不能发射

87 名称功能部件工作状态 Busy Op Fi Fj Fk Qj Qk Rj Rk Integer Yes Load F2 F3 No Mult1 Yes Mult F0 F2 F4 Integer No Yes Mult2 No Add Yes Sub F8 F6 F2 Integer Yes No Divide Yes Div F10 F0 F6 Mult1 No Yes 寄存器结果状态 F0 F2 F4 F6 F8 F10 F12 F30 FU Mult1 Integer Sub Divide

88 说明 : ADDD 指令因为记分牌有空而列入, 但由于 Fpadd 被 SUBD 占用, 即出现结构竞争 ( 无加法器可用 ), 而处于 Stall, 即未进入 issue 状态 MULTD,SUBD,DIVD 均已进入 issue 状态, 但由于源操作数未就绪, 而不能进入 Read operand.

89 MULTD is ready to go to write result 指令状态指令发射读操执行写结作数完成果 LD 已结束 LD 已结束说明 MULTD 已结束 EX, 但结果未写入 SUBD 已提前结束 DIVD 功能部件忙, 不能发射 ADDD WAR (F6) 竞争, 故不能进入写结果流水级

90 名称功能部件工作状态 Busy Op Fi Fj Fk Qj Qk Rj Rk Integer No Mult1 Yes Mult F0 F2 F4 Yes Yes Mult2 No Add Yes Sdd F6 F8 F2 Yes Yes Divide Yes Div F10 F0 F6 Mult1 No Yes 寄存器结果状态 F0 F2 F4 F6 F8 F10 F12 F30 FU Mult1 Add Divide

91 说明 : 初始状态为 : MULTD 已结束 EX, 但尚未写结果, 即 F0 未就绪 SUBD, 各项条件均满足, 已提早结束, 体现了不按序执行, 即动态调度思想 DIVD 因为 F0 未就绪, 不能进入 Read operand ADDD 已完成执行, 但与 DIVD 之间存在 WAR(F6) 竞争, 故不能写结果

92 DIVD is ready to go to write result 指令状态指令发射读操执行写结作数完成果说明 LD 已结束 LD 已结束 MULTD 已结束 SUBD 已结束 DIVD 以执行完, 还未写结果 ADDD 早已提前结束

93 名称功能部件工作状态 Busy Op Fi Fj Fk Qj Qk Rj Rk Integer No Mult1 Mult2 Add No No No Divide Yes Div F10 F0 F6 Yes Yes 寄存器结果状态 F0 F2 F4 F6 F8 F10 F12 F30 FU Divide

94 说明 : 初始状态为 : DIVD 已结束 EX, 但尚未写结果当 MULTD 将结果写入 F0,DIVD 就立即进入 Read operands 及 EX 两步当 DIVD 一读出 F6, 与 ADDD 之间的 WAR 竞争就消失, 所以 ADDD 立即将其结果写入 F6, 即 ADDD 先于 DIVD 完成

95 指令在不同流水级的功能, 既要做的 checks 和 Bookkeeping 动作的形式化描述如下 : 流水级等待结束条件操作发射级 Not busy(fu) and Not Result(D) Busy(FU) Yes; Op(FU) Op; Fi(FU) D, Fj(FU) S1 ; Fk(FU) S2, Qj Result( S1 ); Qk Result( S2 ), Rj not Qj; Rk not Qk; Result( D ) FU 读操作数 Rj and Rk Rj No; Rk No; Qj 0, Qk 0 执行完成功能执行完写结果 f(fj(f) Fi(FU) or Rj(f)=No &(Fk(f) Fi(FU) or Rk(f)=No)) f(if Qj(f)= FU then Rj(f) Yes) f(if Qk(f)= FU then Rk(f) Yes) Result(Fi(FU)) 0; Busy(FU) No

96 DLX 记分牌动态调度演示实验

97 记分牌算法的性能限制记分牌动态调度方法利用了程序中存在的 ILP, 通过乱序执行, 达到减少 RAW 造成的停顿周期, 然而其性能, 即消除 Stall 的能力受下列因素影响指令级并行性不高 ( 需进一步研究开发更多的 ILP) 记分牌表项较少 ( 可增加硬件加以解决 )

98 功能单元数少 ( 可增加硬件加以解决 ) 存在反相关性 (WAR) 和输出相关性 (WAW), 导致 WAR 和 WAW 停顿, 也就是说, 记分牌方法无法消除 WAR 和 WAW 两种相关性 ---- 这一点对性能影响较大, 需研究新的动态调度方法记分牌方法可消除 RAW 是由于乱序执行, 实际出现 RAW 时, 也是停顿的

99 3.3.3 Tomasulo 动态调度 Tomasulo 算法简介 Tomasulo 动态调度方法是在保留记分牌方法的关键技术 ( 多指令发射和不按顺序执行两种思想 ) 基础上加上寄存器改名技术 ( 用来消除 WAW 和 WAR 两种相关性 ) 的一种动态调度方法这是 Tomasulo 在 1967 年研制 IBM360/91 机器时提出的

100 Tomasulo 方法所采用的 Resister-renaming 的实现方法是把记分牌中的寄存器名用一大组虚拟寄存器的名来代替, 即用虚拟寄存器集来代替真实的 FP 寄存器组虚拟寄存器集所含虚拟寄存器数目远大于真实的寄存器组因此用它来完成寄存器改名就很容易了 See p233, 如何用 reg 改名消除 WAR. Seep248, fig4.5 DIVD,ADDD 有 WAR, 故 ADDD 不能提前结束

101 虚拟寄存器集在 Tomasulo 方法中由每一功能单元所带的保留站 (reservation station) 和 Load buffers 和 Store buffers 组成保留站与发射逻辑相结合完成寄存器改名将进一步介绍

102 DLX 的 Tomasulo FP 处理器的基本结构来自指令部件取数缓冲器来自存储器浮点操作队列浮点寄存器操作数总线操作总线保存站存数缓冲器 2 1 去存储器浮点加法器浮点乘法器公共数据总线 (CDB)

103 结构图说明 (1) FP operation queue----fp 指令发射时, 由指令单元 (instruction unit) 进入 FP 操作队列 Reservation station( 保留站 ) 每一 FP 功能单元带一保留站保留站的内容 : 已发射的, 在功能单元等待执行的指令该指令的操作数 : 若已算出, 或已 Load 的, 则为该操作数的值若是该操作数的源, 即来自哪一保留站, 如某保留站号其它信息, 用于控制该功能单元中正在执行指令所必需的信息

104 与 scoreboard 的区别这里可由 CDB(common data bus) 将由功能单元输出的值, 送到需要改值得保留站 ( 需要该值的可能不止一个保留站 ) 记分牌方法中, 数据传送通路为 : 功能单元 register file 功能单元输入

105 结构图说明 (2) Load buffers---- 保存被访问的存储单元的数据和地址 FP registers---- 通过一对总线 (operand buses) 与每一功能单元相连接, 这一对总线分别对应两个操作数通过一条总线与 Store buffer 相连接, 功能单元的输出和 Load Buffer 的输出汇总在 CDB 与 FP registers 的输入相连接

106 结构图说明 (3) Common data bus(cdb)----cdb 与 FP registers, reservation stations 和 Store buffers 等输入相连, 唯一无连接关系的是 Load buffers 的输入 ( 实际上是正常数据通路 +forwarding path?) 保留站和所有 Buffers 都含有标识域, 用来消除竞争 ( 标识域代表虚拟寄存器号 )

107 Tomasulo 方法的基本思想 (1) 一旦指令从 FP operation queue 进入保留站, 保留站立即从 FP registers, Load buffers 取出已就绪的操作数的值, 并立即送入保留站中暂存起来当指令开始操作时, 不必再从 FP register file 中读取操作数的值 ( 试与记分牌比较 : 记分牌中保存的是操作数的寄存器号, 而不是其值 )

108 Tomasulo 方法的基本思想 (2) 那些未就绪的操作数称为挂起操作数, 挂起操作数的寄存器号在保留站中采用将要提供该操作数的保留站名, 或 Load buffer 名来表示这个过程称为 register renaming( 寄存器改名 ), 由 issue logic( 发射逻辑硬件 ) 完成一旦被挂起操作数由某功能单元算出后, 或在 Load Buffer 就绪后, 可通过 CDB 立即送往需要的保留站

109 Tomasulo 方法的基本思想 (3) 当出现对某寄存器进行相继写入操作时, 只允许最后一次写操作可以更新该寄存器, 避免了 WAW 竞争由此可见,Tomasulo 方法的 register renaming 过程是由 issue logic 和 reservation station 结合起来完成的由于保留站存放操作数的容量远大于 FP register file, 因此通过这一 register renaming 过程就很容易消除 WAR 和 WAW 竞争

110 寄存器改名实质寄存器改名的实质是保留站中的操作数不再使用实际 FP 寄存器名, 而是直接用操作数的值 ( 若该操作数已就绪 ), 或用产生该操作数的保留站号,Load buffers 等的标识号来表示

111 Tomasulo 法和 Scoreboarding 法的异同概念上的异同相同之处 ---- 两者消除 RAW 竞争的思想相同 Tomasulo 方法采用了 Scoreboarding 方法的动态调度的核心思想, 几多条指令处于发射状态, 等待条件成熟, 可以不按顺序执行, 不按顺序完成的思想, 即为动态调度来消除 RAW 竞争

112 Tomasulo 法和 Scoreboarding 法的异同 (2) 不同之处 ---- 两者处理 WAR 和 WAW 竞争的思想不同 Tomasulo 方法通过 Register renaming 过程可以消除 WAR 和 WAW 竞争 Scoreboarding 方法能检测 WAR 和 WAW 竞争, 一旦检测到存在 WAR 和 WAW 竞争, 通过插入停顿周期来解决这一竞争所以 Scoreboarding 方法不能消除 WAR 和 WAW 竞争

113 Tomasulo 法和 Scoreboarding 法的异同 (3) 硬件组织上的不同有两点检测竞争和控制指令执行方式的不同 Tomasulo 方法检测竞争和控制指令执行两方面功能是通过分布在每一功能单元的保留站来进行的, 因此 Tomasulo 方法是一种分布式方法 Scoreboarding 方法的上述功能是通过统一的记分牌来实现的, 因此 Scoreboarding 方法是一种集中式方法

114 Tomasulo 法和 Scoreboarding 法的异同 (4) 写结果方法的不同 Tomasulo 方法通过 CDB 直接将功能单元输出的结果送往需要该结果的所有保留站, 而不必经过 register file 这一中间环节 Scoreboarding 方法是将结果写入 FP register file, 因而可能造成等待着一结果的指令都出现停顿现象, 之后, 所有相关指令的功能单元在读 FP register file 时又可能出现竞争现象

115 Tomasulo 方法在每一流水级的功能 Tomasulo 方法分三个流水级 : 1. Issue---- 从 FP operation queue 取一条指令, 若是一条 FP 操作指令, 如果保留站有空, 则将其送往保留站 ; 如果该指令的操作数已在 FP register file, 将操作数的值送往保留站若是一条 Load 或 Store 指令, 如果 buffer 有空, 将其送往相应的 buffer

116 Tomasulo 方法在每一流水级的功能 (2) 若保留站或 buffers 不空, 则存在结构竞争, 停顿该指令直到对应保留站或 buffer 有空为止本流水级同时完成 register renaming 过城, 因为保留站中的操作数不再使用寄存器号

117 Tomasulo 方法在每一流水级的功能 (3) 2. Execute---- 若有一个或几个操作数未就绪, 等待计算该操作数, 同时监控 CDB 一旦操作数就绪, 立即存入相应的保留站 ; 若两个操作数均已就绪, 则执行该操作本步同时检查是否存在 RAW 竞争

118 Tomasulo 方法在每一流水级的功能 (4) 3. Write result---- 当结果算出后, 将其写入 CDB, 并从 CDB 写入 register file, 以及等待此结果的相应保留站当连续写同一寄存器时, 只有最后一次才能写入

119 Tomasulo 方法的流水级功能与记分牌比较存在三种不同之处 : 1.Tomasulo 方法中无检查 WAW 和 WAR 竞争功能, 因为在指令发射过程中, 由 issue logic 结合保留站完成了 register operands 的改名过程, 即消除了这两种竞争 2.CDB 起到广播结果的作用, 不必通过 register file 直接将结果送到所有需要该结果的保留站和 buffers. 3. Load 和 Store buffers 相当于基本功能单元

120 Tomasulo 方法的数据结构 (1) 1. 用于检测和消除竞争的数据结构附加在保留站,register file,load 和 Store buffer 之上虽然所附加的信息各不相同, 但是除 Load buffer 外, 其它三种对象 ( 保留站 register file 和 store buffer) 的每一表项都附有一标识域 (tag field) 这些 tag 本质上是作为扩展的虚拟寄存器的名字 (name), 用于寄存器改名过程 Tag field 用来描述哪一个保留站含有将生成源操作数的指令

121 Tomasulo 方法的数据结构 (2) 寄存器改名过程 : 当指令发送到保留站, 等待某一操作数时, 用含有将生成所需源操作数的指令的保留站名 (tag field) 来表示该操作数的来源, 不再使用该操作数在指令中的寄存器号, 即寄存器在指令进入保留站时被丢弃不用由于保留站数多于实际寄存器述, 因而应用保留站号 ( 名 ) 对结果进行改名, 从而消除了 WAW WAR 竞争

122 Tomasulo 方法的数据结构 (3) 2. 保留站有 6 个域 : OP- 对源操作数 S1 和 S2 进行的操作 ; Qj Qk- 表示生成相应源操作数的保留站号 ( 名 ) 该值为空表示 Vj 或 Vk 中的源操作数已就绪, 或者是不需要的 ; Vj Vk- 源操作数的值, 对每一操作数的 V 域或 Q 域而言, 其中只能有一个域为有效 ; Busy- 指示这一保留站, 及其相关功能单元已被占用

123 Tomasulo 方法的数据结构 (4) 3.Register file 和 store buffer 各有一个 Qi 域 : Qi- 指示某保留站号 ( 名 ), 该保留站含有某条指令, 其生成的结果应存入该寄存器或存储单元 ;register file 的 Qi 为空时, 表示该寄存器未被占用 ( 不忙 ); 4.Load 和 Store buffer 各有一 Busy field, 表示该 buffer 何时可用 ; 5.Store buffer 还有一个 V 域, 该域保存将要存入存储器的值

124 Tomasulo 方法实例采用下列代码 : LD F6, 34(R2) LD MULTD SUBD DIVD ADDD F2, 45(R3) F0, F2, F4 F8, F6, F2 F10, F0, F6 F6, F8, F2 RAW 竞争 WAR 竞争

125 指令状态表 : 指令状态指令发射执行写结果 LD F6,34(R2) LD F2,45(R3) MULTD F0, F2, F4 SUBD F8, F6, F2 DIVD F10, F0, F6 ADDD F6, F8, F2

126 保留站状态表, 寄存器结果状态名称保留站 Busy Op Vj Vk Qj Qk Add1 Yes SUB Mem[34+ Regs[R2]] Load2 Add2 Yes ADD Add1 Load2 Add3 No Mult1 Yes MULTD Regs[F4] Load2 Mult2 Yes DIV Mem[34+ Regs[R2]] Mult1 域寄存器结果状态 F0 F2 F4 F6 F8 F10 F12 F30 Qi Mult1 Load2 Add2 Add1 Mult2

127 说明 : 指令状态表 - 所有 6 条指令均已进入对应的保留站, 第一条指令 (LD) 已结束, 其结果 (Mem[34+Reg[R2]] 的值 ) 已通过 CDB, 送到 Add1 保留站的 Vj 保留站状态表 - 给出 4 条 FD 指令的状态, 已就绪的操作数 ( 见 Vj,Vk) 和需等待来自何方的操作数 ( 见 Qj,Qk)

128 变化以后的指令状态表指令状态指令发射执行写结果 LD F6,34(R2) LD F2,45(R3) MULTD F0, F2, F4 SUBD F8, F6, F2 DIVD F10, F0, F6 ADDD F6, F8, F2

129 变化后的保留站状态表和寄存器状态表名称保留站 Busy Op Vj Vk Qj Qk Add1 No Add2 No Add3 No Mult1 Yes MULTD Mem[45+ Regs[F4] Load2 Regs[R3]] Mult2 Yes DIV Mem[34+ Regs[R2]] Mult1 域寄存器结果状态 F0 F2 F4 F6 F8 F10 F12 F30 Qi Mult1 Mult2

130 注意 : ADDD 可先于 DIVD 结束, 并先把结果写入 F6, 这样做不会造成 WAR 竞争的原因在于 DIVD 的操作数 F6 在保留站中为实际 Load1 的值, 即寄存器改名后消除了这一 WAR 竞争

131 Tomasulo 方法中指令在不同流水级的功能的形式化描述 : 指令状态发射级读操作数等待结束条件保留站或缓冲器空 (RS[r].Qj=0) and (RS[r].Qk=0) 操作 If (Register[S1].Qj 0) {RS[r].Qj Register[S1].Qj} else {RS[r].Vj S1; RS[r].Qj 0}; if (Register[S2].Qj 0) {RS[r].Qk Register[S2].Qi} else {RS[r].Vk S2; RS[r].Qk 0}; RS[r].Busy Yes; Register[D].Qj= r; 无操作 - 操作数在 Vj 和 Vk 中

132 续前页表写结果在 r 执行完成, 且 CDB 可用 x(if Register[x].Qi=r {Fx result; Register[x].Qi 0}); x(if RS[x].Qj=r {RS[x].Vj result; RS[x].Qj 0}); x(if RS[x].Qk=r {RS[x].Vk result; RS[x].Qk 0}); x(ifstore[x].qi=r {Store[x].V result; Store[x].Qi 0}); RS[r].Busy No;

133 Tomasulo 方法的演示实验

134 Tomasulo 方法在 loop unrolling 中的应用进一步理解 register renaming 消除 WAW 和 WAR 竞争的能力 Loop: LD F0, 0(R1) MULTD F4, F0, F2 SD 0(R1), F4 SUBI R1, R1, #8 BNEZ R1, Loop 循环展开两次, 用 Tomasulo 方法

135 指令状态表指令状态指令来自发射执行写结迭代果 LD F0,0(R1) 1 MULTD F4, F0, F2 1 SD 0(R1), F4 1 LD F0,0(R1) 2 MULTD F4, F0, F2 2 SD 0(R1), F4 2

136 保留站和寄存器状态名称保留站 Busy Op Vj Vk Qj Qk Add1 No Add2 No Add3 No Mult1 Yes MULTD Regs[F2] Load1 Mult2 Yes MULTD Regs[R2]] Load2 域寄存器结果状态 F0 F2 F4 F6 F8 F10 F12 F30 Qi Load2 Mult2

137 取数和存数缓冲器域取数缓冲器 Load1 Load2 Load3 Address Regs[R1] Regs[R1]-8 Busy Yes Yes No 域存数缓冲器 Store1 Store2 Store3 Qi Mult1 Mult2 Busy Yes Yes No Address Regs[R1] Regs[R1]-8

138 说明 : 两次迭代共 6 条指令 : 保留站内仅 2 条 MULT 指令,LD 和 SD 在 Load 和 Store buffer 中保留站中 Qj field 分别用 Load1,Load2 表示原来的 F0, 即已经改名, 消除了 WAW 竞争 Register Status 表中,F4 先后被两次 Mult1 和 Mult2 缩写如, 实际只允许 Mult2 写入, 即最后一次写入才能改写 Register, 消除了 WAW 竞争

139 续前页说明 : 动态消除地址的不明确性 (dynamic disambiguation of address). 针对 Load 与 Store 在不同迭代中的顺序问题, 即第二次迭代中的 Load 的结束可先于第一次迭代中的 Store. 这样做的前提是二种操作 (Store 和 Load) 针对不同地址进行 ( 如针对同一地址, 则必须遵守次序 ) 具体做法是 : 当发射后一条 Load 指令时, 检查是否与上一次迭代中的 Store 地址相同若不同, 则允许 Load 先于上一次 Store 执行, 否则 Load 要停顿从而消除了 Memory address 的不确定性

140 总结 : 动态调度寄存器改名 (register renaming) 动态消除存储器地址不明确性 (dynamic memory disambiguation)

141 3.4 减少控制相关代价的动态预测复习 : Branch 指令的行为及克服控制相关的已有方法 p128 简介 DLX 转移指令执行过程 ; EX 节拍 : 计算转移地址, 条件比较 MEM 拍 : 将转移地址送 PC, 或 NPC 送 PC P130 简介 DLX 硬件与此 cycle 的关系 p162 分析了 Branch 造成三个 stall p163 通过增加硬件并重新安排硬件, 将转移地址计算和条件比较移到 ID 级, 将 3 个 Stall 缩短到 1 个 stall. P169 介绍消除 delay slot 的静态调度的三种方法.

142 本节内容 : 通过硬件动态预测转移指令的行为来减少转移代价基本思想 : 设置一预测 branch 指令行为 ( 即转移成功与否 ) 的硬件, 取出 Branch 指令时, 同时取出其预测结论 ( 转移成功或不成功 ). 若预测为不成功, 则下一节拍就立即取出下一条指令, 无任何停顿. 若预测为成功, 则继续执行把 Branch 指令, 计算出转移地址, 此时有一个 stall, 存在 delay slot.

143 Branch 动态预测过程特别适用于用静态调度方法 ( 即在 compiling 阶段无法解决 ( 预测 ) 的情况如本次转移方向取决于其它的 branch 结果, 即存在关联 (correlation) 关系的时候

144 转移预测的效率与代价 : 转移预测的效率与下列因素有关 : 预测的正确率转移的代价, 指预测正确时的代价, 和预测出错时的代价转移的代价与下列因素有关 : 流水线的结构 ( 如硬件安排方式等 ) 预测器的类型 ( 将在下面介绍不同预测器的效率 ) 预测失败时, 恢复的策略

145 3.4.1 转移预测基础和转移预测缓冲器最简单的动态转移预测器就是采用转移预测缓冲器, 缓冲其中储存预测信息, 又可称为转移历史表这是一个小的存储器, 由转移指令地址的低位来索引介绍两种转移预测缓冲器方案 : 一位预测器 (one-bit) 和两位预测器 (two bits)

146 一位转移预测器所谓一位转移预测器是指预测缓冲器每一存储单元仅含一位 (one bit) 信息, 该位信息表示该 branch 指令最近一次转移的状态, ( 是成功, 还是失败 ) 然后, 根据这一信息来预测本次是否成功存在问题 : 由于预测缓冲器单元, 是由转移指令的低位地址索引的, 因此该单元的信息可能由另一条低位地位与本条 Branch 指令相同的 branch 指令的转移历史纪录, 并非本条 branch 指令上一次转移行为的历史纪录

147 一位转移预测器 (2) 这实际上是没有关系的因为我们把预测仅仅是看作一种提示 ( 预测 ), 若预测是正确的, 则按预测方向取指令 ; 若预测是错误的, 程序仍按正确方向执行, 同时将预测位置反即可也就是说 branch 指令仍然是在执行的, 一旦 branch 指令的判断与预测结果相矛盾时, 仍按实际 Branch 的实际结果执行

148 一位转移预测器 (3) 转移预测缓冲器从硬件角度来看类似于一个每次都命中的 Cache. 同时该缓冲器的性能是与下列因素有关的预测位的结论属于我们感兴趣转移指令的频度, 即预测结论与转移指令是否匹配预测的正确性 ( 一旦匹配的话 ) 我们可以利用 Cache 技术来提高匹配率

149 一位转移预测器 (4) 一位预测器的缺点 : 如果某条 Branch 指令几乎总是成功转移, ( 如 10 次有 9 次成功, 仅有 1 次转移不成功 ), 一旦有 1 此不成功, 则应用一位预测器的话, 将会出现两次预测错误, 而不是应该发生的一次预测错误若成功与不成功交替发生时, 将一直是预测错误的改进的方法是 : 采用两位预测器

150 二位转移预测器 (two-bit predictor) 两位预测器中只有当预测出错两次后才改变预测状态即预测信息有两位, 不再是仅仅指示转移奖惩成功或不成功共有四种预测状态状态转移图见下页

151 两位预测器的状态转移图 : 对偶然一次预测出错, 不会出现两次预测错成功预测转移成功成功预测转移不成功不成功成功不成功成功预测转移成功不成功预测转移不成功不成功

152 转移预测缓冲器的实现技术两种实现方法 : 该缓冲器作为一种专门的 Cache, 在 IF 节拍取指时, 用指令地址访问这一缓冲器即取出指令时, 同时取出预测值在指令 Cache 每一 Block 中附加两个预测位, 从而与指令一起读出

153 转移预测的正确率测试条件 : 转移预测缓冲器有 4096 个 entries, 每个 entry 含 2 位预测位 ; 对 SPEC89 的 banchmark 进行测试

154 转移预测的正确率 matrix300 0% doduc fpppp espresso li 1% 1% 5% 5% 9% 9% 10% 12% 预测出错率 18% 0% 5% 10% 15% 20%

155 缓冲大小对转移预测出错率的影响 SPEC 基准程序 0% nasa7 0% matrix300 0% 0% 0% tomcatv doduc spice fpppp gcc esp resso eqntott li 1% 1% 1% 1% 5% 5% 5% 5% 5% 5% 5% 4% 5% 6% 9% 9% 9% 9% 10% 10% 12% 11% 11% 2 位 4K 项 2 位无限项 1K 项 (2,2) 18% 18% 0% 5% 10% 15% 20%

156 两位预测器测试结果 : 测试结果 : 预测正确率 :82%-99% 预测出错率 :1%-18% 小 buffer 结果差,4K 的 buffer 足够大浮点测试程序的预测正确率高于整数测试程序因为浮点程序中 loop 出现次数多由图 4.15 说明 :buffer 大于 4K 已对提高预测正确率无益同样, 增加预测位 ( 即大于 2 bits) 也无益

157 如何进一步提高预测的正确率迄今为止, 我们根据转移指令最近的转移行为预测当前的转移行为进一步提高预测正确率的出路在于根据其它相关转移指令的行为来预测我们感兴趣 branch 指令的行为, 即称为相关预测 (correlating prediction) 或两级预测 ( two-level prediction)

158 例 IF ( aa == 2) aa = 0; IF ( bb == 2) bb = 0; IF (aa == bb ) { } SUBI R3, R1, #2 BNEZ R3, L1 ; br.b1 (aa!=2) ADD R1, R0, R0 ; aa==0 L1: SUBI F3, R2, #2 BNEZ R3, L2 ; br.b2 (bb!=2) ADD R2, R0, R0 ; bb==0 L2: SUB R3, R1, R2; R3=aa-bb BEQZ R3, L3 ; br.b3 (aa==bb)

159 例子说明 : 这里 b3 的行为与 b1,b2 两条转移指令相关, 即只有当 b1,b2 不成功时,b3 才会成功如果我们仅根据 b3 过去行为来预测 b3 当前行为是不可能的如何预测此类转移指令? 参看下例 :

160 例 If (d==0) d=1; if (d==1){... } 设 Reg[R1] = d BNEZ R1, L1 ; br b1, (d!=0) ADDI R1, R0, #1 ; d==0, so d=0 L1: SUBI R3, R1, #1 ; BNEZ R3, L2 ; br b2, (d!=1) L2:

161 设 d 的初值为 0,1,2, 上述代码段的转移特征如下 : d 的 d==0? B1 在 b2 以前 d==1? b2 初值的 d 值 0 Yes Not taken 1 Yes Not taken 1 No Taken 1 Yes Not taken 2 No Taken 2 no Taken 结论 : 当 b1 not taken, b2 也为 not taken. 所以, 若利用相关预测器, 就能成功作出预测.

162 若利用传统的 one-bit 预测器, 则无法利用这一相关性, 且预测总是错的 d=? b1 b1 新的 b1 b2 b2 新的 b2 预测动作预测预测动作预测 2 NT T T NT T T 0 T NT NT T NT NT 2 NT T T NT T T 0 T NT NT T NT NT 预测与实际动作总是相反预测与实际动作总是相反

163 引入相关性的预测器 : 设 branch 的预测器由两位组成 : 第一位是上次 br. 为 NT 时的预测, 即上次 br. 为 NT 时取第一位作预测值 ; 第二位是上次 br. 为 T 时的预测, 即上次 br. 为 NT 时取第二位作预测值 ; 这样就有四种预测组合

164 四种组合的含义 : 预测上一次 Br 为 NT, 预上一次 Br 为 T, 预测组合测本次位 ( 看第一位 ) 本次为 ( 看第二位 ) NT/NT NT NT NT/ T NT T T /NT T NT T / T T T 注意 : 这里体现了相关性虽然上一次 Br 指令, 并非一定是本次 br 指令, 但在简单的 loop 中是可能的, 如简单 loop 中不含其它 br 指令

165 用这种相关预测器来预测上述例子初值为 NT/NT. ( 第一次迭代预测错, 其余均正确 ) d=? b1 预测 b1 动作新的 b1 预测 b2 预测 b2 动作新的 b2 预测 2 NT/NT T T/NT NT/NT T NT/T 0 T/NT NT T/NT NT/T NT NT/T 2 T/NT T T/NT NT/T T NT/T 0 T/NT NT T/NT NT/T NT NT/T 粗体字表示本次预测预测出错 b1 动作与 b2 预测值选用关系预测正确新预测值 b2 动作与 b1 预测值选用关系

166 上面相关预测器称为 (1,1) 维转移预测器, 即根据前一次 br 指令的执行情况, 以一对预测位选择预测值一般情况的相关预测器应为 (m,n) 维, 即根据前 m 条 br 指令的转移历史纪录, 从 2m 个预测器中选择一个预测器, 每个预测器有 n 位来预测本次 br 指令的行为, 即预测也是相关 ( 纪录 ) 的, 相当于前面介绍过的 2 位预测器一样

167 (2,2) 相关预测器的硬件框图 : 可寻址的预测单元为 :2 4+2 =64 个 4 本次 br 指令的低位地址每个转移预测器 2 位本次 br 的预测位为 xx 2 位全局转移历史记录 : 最后两条指令的转移情况

168 相关预测器与简单预测器性能比较 ( 前提是总预测容量相等 ) SPEC 基准程序 nasa7 matrix300 tomcatv doduc spice fpppp gcc espresso eqntott li 1% 0% 1% 0% 0% 0% 1% 1% 0% 5% 5% 5% 5% 5% 5% 5% 4% 5% 6% 9% 9% 9% 9% 10% 10% 12% 11% 11% 2 位 4K 项 2 位无限项 1K 项 (2,2) 18% 18% 0% 5% 10% 15% 20% 预测出错率

169 比较结果预测容量 (0,2)4K entries: K = 8K (2,2)1K entries: K = 8K 结论相关预测器的性能明显优于简单预测器

170 3.4.2 转移目标缓冲器 ---- 进一步减少控制竞争带来的延迟转移目标缓冲器 : 如果一个转移预测缓冲器存储了被调用转移指令的下一条要执行的预测指令的地址, 则称之为转移目标缓冲器, 或转移目标 Cache.

171 转移目标缓冲器结构 : 要取指令的查找 PC 值预测 PC 值转移目标缓冲器的项数 = N o: 指令未被预测为转移指令, 正常执行预测转移发生或不发生 Yes: 是转移指令, 预测的值将作为下一个 PC 值 PC

172 转移预测缓冲器与转移目标缓冲器的差别在 IF 级访问转移目标缓冲器, 在 IF 级结束前就能得到转移目标地址一般, 在 ID 级访问转移预测缓冲器, 在 ID 级结束前得到转移目标地址 ; 访问转移目标缓冲器时, 还无法判定是否是转移指令, 所以必须进行 PC 值的匹配而转移预测缓冲器是按地址访问的 ] 转移目标缓冲器中只需存放预测转移成功的转移指令, 无需存放预测不成功的转移指令

173 采用转移目标缓冲器时的指令流水处理过程 IF 将 PC 送入存储器和转移目标缓冲器命中转移目标缓冲器 ID 指令正常执行指令是转移成功分支? 送出预测 PC 值转移成功? EX 进入转移目标指令地址并将下一个 PC 值送入转移目标缓冲器错误预测分支, 清除已取的指令 ; 在其它目标处开始重取指令 ; 删除转移目标缓冲器中的相应项预测正确, 不必暂停, 继续执行

174 转移目标缓冲器的几种变形在转移目标缓冲器中直接存放转移目标指令而不是转移目标指令地址同时存放转移目标指令和转移目标地址设置很大的目标缓冲器, 即存放预测路径的转移目标指令, 也同时存放非预测路径的转移目标指令这要求存储器系统必须是双端口的,cache 是以并行交叉方式工作的

175 3.5 应用指令多发射技术进一步利用指令级并行性一指令多发射技术的基本概念迄今为止介绍的各类提高性能的技术都是围绕使 CPI=1 这一目标展开的如 : 流水线中消除数据相关控制相关静态调度动态调度等根据公式 CPUtime=IC CPI cycle time, 进一步提高性能的启发是使 CPI <1

176 多发射技术基本概念 (2) 在传统每一周期发射一条指令的系统中, 是无法实现 CPI<1 的也就是说, 未达到 CPI<1, 必须要求实现在一个时钟周期里发射多条指令, 即指令的多发射技术多发射技术的两种方法 : superscalar( 超标量 ) 方法 VLIW( 超长指令字 ) 方法实现指令多发射技术的前提 : 有足够硬件, 即功能单元寄存器及存储器带宽的基础上也就是说不存在机构竞争

177 Superscalar 的基本概念在一个周期里能发射可变可变数量的指令, 通常为 1-8 条指令 /cycle; 同时发射的指令按一定规律搭配, 即有一定限制, 不能自由搭配 ; 用静态调度 (compiler 完成 ) 和 / 或动态调度 ( 硬件完成 ) 方法确定可同时发射的指令条数

178 VLIW 的基本概念在一个时钟周期里发射固定固定数量的指令, 实际为一条长指令, 或固定的指令包 ; VLIW 也是按固定格式组织的 ; VLIW 是由 Compiler 组织的,( 即不能由硬件动态组织 )

179 二 DLX 的超标量处理器的实现 DLX 的超标量处理器规定 : 每一周期最多能发射 2 条指令 ; 前一条为 Load,Store,Branch,interger ALU 等整数操作指令 ; 后一条为 FP 操作严格按此顺序发射这一规定的理由在于 : (1) 可同时发挥整数和浮点单元的作用 ; (2) 整数寄存器和浮点寄存器不会冲突

180 DLX 的超标量处理器规定 (2) 两条同时发射的指令必须是独立独立的, 即无数据竞争 ; 且只能有一次一次存储器访问 ( 因为在一个时钟周期里, 不能同时完成 2 次存储访问 ) 不满足这一条件的组合作为结构竞争处理

181 双发射处理器的流水时序 (Ep280,4.26; Cp209, 表 4-38) 指令类型 Pipe stages 整数指令浮点指令 IF IF ID ID EX EX MEM MEM WB WB 整数指令浮点指令 IF IF ID ID EX EX MEM MEM WB WB 整数指令浮点指令 IF IF ID ID EX EX MEM MEM WB WB 整数指令浮点指令 IF IF ID ID EX EX MEM MEM WB WB

182 双发射流水线结构示意图 FA1 FA2 FA3 浮点加法部件 IF1 ID1 MD1 MD2 MD3 MEM1 ID1 乘除法部件 IF2 ID2 ALU MEM2 ID2 定点算术逻辑部件 LS 取数存数部件

183 几个情况的处理 (1) 当整数指令为 Load/Store/Move 浮点数时, 可能造成在 FP register file 处出现寄存器口的竞争与下一条 FP 操作指令可能有 RAW 数据竞争解决方法当出现上述情况时, 把它作为结构竞争处理, 即不允许出现此类搭配将 FP register file 做成 Read/Write 双口寄存器, 允许同时访问不同 FP registers.

184 几个情况的处理 (2) Load 浮点数的结果不能被同一周期的另一条指令所应用, 实际上也不能被下一周期的两条指令所应用因为 LD 后跟 FP 操作之间有一个 Stall 周期由于这里每一个周期发射两条指令, 因此 LD 的结果不能被紧接的三条指令所用同理, 由于 Br. 指令后存在一个周期的 Br. Delay, 所以也要影响三条指令, 即要用三条不相关指令来填充这一延时槽, 而不是传统处理器中只需填一条指令所以需要更强的编译调度和硬件调度策略

185 超级标量处理器中循环展开和调度例 :(Ep281, Cp210) Loop: LD F0, 0(R1) ;F0=array element ADDD F4, F0, F2 ;add scalar in F2 SD 0(R1), F4 ;store result SUBI R1, R1, #8 ;decrement pointer ;8 bytes per DW BNEZ R1, Loop ;branch R1!=0

186 循环展开 5 次的结果 (Ep281, 4.27; Cp210, 表 4-39) Integer Instruction FP instruction Clock cycle Loop:LD F0, 0(R1) 1 LD F6, -8(R1) 2 LD F10, -16(R1) ADDD F4, F0, F2 3 LD F14, -24(R1) ADDD F8, F6, F2 4 LD F18, -32(R1) ADDD F12, F10, F2 5 SD 0(R1), F4 ADDD F16, F14, F2 6 SD 8(R1), F8 ADDD F20, F18, F2 7 SD 16(R1), F12 8 SUBI R1, R1, #40 9 SD 24(R1), F16 10 BNEZ R1, Loop 11 SD +8(R1), F20 12

187 结论 : 5 次迭代只需 12 个时钟周期所以每次迭代仅需 12/5 = 2.4 cycles/iteration 由此可见所发射技术带来的好处是显而易见的迄今针对上述 loop 最好的结果是 3.5cycle/iteration. 从 9--> 6 --> > >1.29 ( 调度 ) ( 展开 + 调度 ) ( 多发射 + 展开 + 调度 )

188 三应用动态调度的多发射技术多发射技术也可采用动态调度方法 (Scoreboard Tomasulo) 来组织, 即决策可同时发射的指令现将 Tomasulo 动态调度算法扩展到支持每个周期同时发射两条指令的多发射机制

189 约定两条同时发射的指令搭配 : 一条为整数操作, 一条为 FP 操作 ; 按序发射, 而非乱序发射 ; 采用独立的整数寄存器堆和 FP 寄存器堆, 使同时发射的两条指令可同时进入对应的保留站, 可分别同时访问对应的寄存器堆

190 如何处理相邻相邻的两条相关相关指令? 在非动态调度的多发射处理器钟, 由 compiler 作静态调度, 选择两条非相关指令同时发射同时执行再采用 Tomasulo 动态调度算法时, 可以按序, 按搭配规定同时发射两条指令, 由硬件 ( 保留站等 ) 自动解决相关性问题, 即乱序执行, 乱序结束

191 例 : (Cp283, Ep210) Loop: LD F0, 0(R1) ADDD F4, F0, F2 SD 0(R1), F4 SUBI R1, R1, #8 BNEZ R1, Loop

192 双发射 Tomasulo 流水线 (Ep284, Fig4.28; Cp212) ( 图中的访存时刻 6 10 是否应为 7 11) 迭代次数指令发射时刻执行时刻访存时刻回写时刻 1 LD F0, 0(R1) ADDD F4, F0, F SD 0(R1), F SUBI R1, R1, # BNEZ R1, LOOP LD F0, 0(R1) ADDD F4, F0, F SD 0(R1), F SUBI R1, R1, # BNEZ R1, LOOP 8 9

193 结果注意 : 这里是按序发射的, 且由硬件进行组合, 按搭配要求进行多发射 ; 由于 FP 操作指令少, 所以多发射次数少 ; 这里是不按顺序执行, 也不按顺序写结果结论 : 11 cycles/2 iteration = 5.5 cycles/iteration 如果增加整数部件, 则可提高多发射机会, 达到加速目的

194 四 VLIW 方法 : VLIW 处理器的特点 1 一次发射一条长指令, 其中包含多个操作, 而不是像超标量处理器那样一次发射多条指令这样做可以减轻指令发射逻辑电路的带宽, 因为超标量处理器中为了发射多条指令的需要, 必须将指令发射逻辑电路流水化, 并提高其带宽, 使其硬件复杂化, 同时增加了成本

195 VLIW 处理器的特点 (2) 2 长指令的组装由 Compiler 完成, 而不需要像超标量处理器那样由动态调度硬件完成, 从而进一步减轻硬件负担, 当然也丧失了动态调度的优点所以 :VLIW 与 Superscalar 相比较, 硬件相对简单廉价

196 例 :VLIW 究竟有多长? 以一个拥有 7 个功能单元的 VLIW 处理器为例, 指令长度由多少位? 设 7 个功能单元可支持 2 个整数操作,2 个 FP 操作,2 个 memory 访问操作和 1 个 Br. 则实际上一条 VLIW 含 7 条指令为支持每一功能单元正常工作, 续分配每一个功能单元相应的数据域一般每一数据域为位. VLIW 长度为 :16 7 = 112 bits 或 :24 7 = 168 bits

197 VLIW 处理器的特点 (3) 3 为了使所有功能单元充分发挥作用, 必须要开发更多的指令并行性, 即有足够多能并行执行的指令去填充 VLIW 这里要采用全局调度技术 (Globle scheduling technique) 全局调度技术 : 即跨越条件转移指令的调度技术, 包含 : 循环展开, 跨越基本块的调度, 路径调度 (Trace scheduling) 等技术

198 例 :VLIW 处理器实例含 5 个功能单元 :1 个整数操作和转移指令部件,2 个 FP 操作部件,2 个访存操作部件指令数组加法的实例 : (Ep286,Fig4.29; Cp213, 表 4-41) 例中 loop 展开 7 次, 总共需 9 个时钟周期这是我们得到的最好结果 ( 由 9 cycles/iteration 下降至 1.29cycles/iteration)

199 VLIW 展开循环封装指令的结果 Memory Reference1 Memory Reference2 FP operation1 FP operation2 Int. Operation /branch LDF0, 0(R1) LD F6,-8(R1) LD F10,-16(R1) LDF14, -24(R1) LD F18,-32(R1) LD F22, -40(R1) ADDD F4,F0, F2 ADDD F8, F6, F2 LD F26,-48(R1) ADDD F12, F10, F2 ADDD F16, F14, F2 ADDD F20, F18, F2 ADDD F24, F22, F2 SD 0(R1),F4 SD -8(R1),F8 ADDD F28, F26, F2 SD 16(R1),F12 SD 24(R1),F16 SD 32(R1), F20 SD 40(R1), F24 SUBI R1,R1, #8 SD +8(R1),F28 BNEZ R1, Loop

200 五多发射处理器的局限性既然可以在一个时钟周期内发射 5 条指令, 那么为什么不同时发射 50 条指令呢? 多发射方法的困难由哪些? 存在三方面困难 : 程序中固有 ILP 有限 ; 多发射处理器硬件复杂性高, 成本高 ; Superscalar 和 VLIW 实现的专有困难

201 多发射方法的困难 (1) 程序固有 ILP 有限是多发射处理器的本质困难我们需要的可并行的指令数并非等于功能单元数就能满足一般, 我们需要的可并行 ( 即独立的 ) 指令数大致等于功能单元数乘以平均流水级数这是因为这些功能单元钟, 如存储器访问, 转移指令,FP 操作都是流水化的, 或有一定延时

202 多发射方法的困难 (2) 硬件复杂, 成本高对多发射处理器来讲, 在多指令发射和执行方面, 既要增加发射和执行的硬件数量, 又要提高它们的带宽 ( 速度, 即性能 ) 数量的解释因为执行需要, 需增加功能单元数目和 register file 数 ( 将整数 reg 和浮点 reg. 分离开来 ) 数量增加造成成本线性增加

203 带宽的解释对含 5 个功能单元的 VLIW 处理器来说 : 3 个整数 reg. File 需 6 个读口 ( 对应两个操作数 )+ 3 个写口 ; 2 个浮点 reg. File 需 6 个读口 (2 FP units L/S units 1 ) 4 个写口 (2 FP units L/S units 1 ) 因为有 2 个 L/S 部件, 需增加 2 个 memory ports, 这比 reg. ports 要贵得多 ; 若要增加指令发射率, 还要再增加 memory ports 数目

204 多发射方法的困难 (3) Superscalar 的特殊困难发射逻辑复杂且高速动态调度硬件更复杂化

205 多发射方法的困难 (4) VLIW 的特殊困难造成代码 (code) 量增大因为 VLIW 指令中有很多域是未填满的, 造成浪费码长 ; 一条长指令中任一个功能单元的锁操作 ( 即停顿 ) 造成所有功能单元停顿因为所有功能单元都是同步工作的对 VLIW 系列处理器, 二进制代码兼容困难系列机中发射指令数目和功能单元延时长短不一, 造成系列机中二进制代码不兼容

第五章重叠、流水和现代处理器技术

第五章重叠、流水和现代处理器技术 2006 5 l t 1 t 2 t 3 t 4 I: add r1,r2,r3 J: sub r4,r1,r5 : (Hazard) : (Hazard) Instr 1 Instr 2 ( ) Cycle 1 Cycle 2 Cycle 3 Cycle 4 Cycle 5 Cycle 6 Cycle 7 Load Ifetch ALU DMem Instr 1 Ifetch ALU DMem