3 程序的机器级表示 2017 年 3 月 11 日 11: 计算机执行机器代码, 用字节序列编码低级的操作, 包括处理数据管理存储器读写存储在设备上的数据, 以及利用网络通信通常情况下, 现代的优化编译器产生的代码至少与一个熟练的汇编语言程序员手工编写的代码一样有

3 程序的机器级表示 2017 年 3 月 11 日 11:29 2. 3. 4. 计算机执行机器代码, 用字节序列编码低级的操作, 包括处理数据管理存储器读写存储在设备上的数据, 以及利用网络通信通常情况下, 现代的优化编译器产生的代码至少与一个熟练的汇编语言程序员手工编写的代码一样有效用高级语言编写的程序可以在很多不同的机器上编译和执行, 而汇编代码则是与特定机器密切相关的学习机器代码的意义在于, 以适当的命令行选项调用编译器, 编译器就会产生一个以汇编代码形式表示的输出文件, 通过阅读这些代码, 我们能够理解编译器的优化能力, 并分析代码中隐含的低效率分区深入理解计算机系统笔记的第 1 页

3.1 历史观点 2017 年 3 月 11 日 11:40 Linux 使用平坦寻址 (float addressing), 使程序员将整个存储空间看作一个大的字节数组分区深入理解计算机系统笔记的第 2 页

3.2 程序编码 2017 年 3 月 11 日 11:40 2. 3. 4. 5. 6. 对于机器级编程来说, 计算机系统中的两种抽象尤为重要 : a. 机器级程序的格式和行为, 定义为指令集体系结构 (Instruction set architecture, ISA), 它定义了处理器状态指令的格式, 以及每条指令对状态的影响 ; b. 机器级程序使用的存储器地址是虚拟地址, 提供的存储器模型看上去是一个非常大的字节数组, 存储器系统的实际实现是将多个硬件存储器和操作系统软件组合起来处理器状态 : a. 程序计数器 (PC, %eip), 指示将要执行的下一条指令在存储器中的地址 ; b. 整数寄存器, 包含八个命名的位置, 分别存储 32 位的值 ; c. 条件码寄存器, 保存着最近执行的算术或逻辑指令的状态信息 ; d. 一组浮点寄存器, 存放浮点数据 ; 程序存储器 (program memory), 包含程序的可执行代码, 操作系统需要的一些信息, 用来管理过程调用和返回的运行时栈, 以及用户分配的存储器块 ( 如用 malloc 分配的 ) 程序存储器用虚拟地址来寻址, 在任意给定时刻, 只认为有限的一部分虚拟地址是合法的虽然 IA32 的 32 位地址可以寻址 4GB 的地址范围, 但是通常一个程序只会访问几兆字节操作系统负责管理虚拟地址空间, 将虚拟地址翻译成实际处理器存储器 (processor memory) 中的物理地址汇编代码不区分有符号数或无符号数, 不区分各种类型的指针, 甚至不区分指针和整数一条机器指令只执行一个非常基本的操作分区深入理解计算机系统笔记的第 3 页

3.3 数据格式 2017 年 3 月 11 日 16:02 2. 由于是从 16 位体系结构扩展成 32 位的,Intel 用字 (word) 表示 16 位数据类型因此,32 位数称为双字 (double words), 称 64 位数为四字 (quad words) 大多数 gcc 生成的汇编代码指令都有一个字符后缀, 表明操作数的大小 : a. movb: 传送字节 ; b. movw: 传送字 ; c. movl: 传送双字分区深入理解计算机系统笔记的第 4 页

3.4 访问信息 2017 年 3 月 11 日 16:09 一个 IA32 CPU 包含一组 8 个存储 32 位值的寄存器, 如下图 : 2. a. 在大多数情况下, 前六个寄存器都可以看作是通用寄存器, 对它们的使用没有限制之所以说是在大多数情况下, 是因为有些指令以固定的寄存器作为原寄存器和 / 或目的寄存器 ; b. 在处理过程中, 对 %eax %ecx %edx 的保存和恢复惯例不同于 %ebx %edi 和 %esi; c. %esp %ebp 保存着指向程序栈中重要位置的指针, 只有根据栈管理的标准惯例才能修改这两个寄存器中的值 ; d. 为了后向兼容 8008 和 8080, 字节操作指令可以独立的读写前四个寄存器的两个低位字节, 当一条字节指令更新这些单字节寄存器元素中的一个时, 该寄存器余下的 3 个字节不会改变, 类似的字操作指令读写每个寄存器的低 16 位也有这个特性各种寻址方式 : 分区深入理解计算机系统笔记的第 5 页

3. 数据传送指令 : a. 源操作数指定的值是一个立即数存储在寄存器或者存储器中的值 ; b. 目的操作数指定一个位置, 指向寄存器或存储器 ; c. IA32 限制传送指令的两个操作数不能都指向存储器位置源操作数和目的操作数可能的组合如下 : 4. 5. 6. 7. 8. 9. MOVS 和 MOVZ 指令类都是将一个较小的源数据复制到一个较大的数据位置, 高位用符号位扩展或零扩展, 值得注意的是 movsbl 会改变其他三个字节, 与 movb 具有不一样的特性栈指针 %esp 保存着栈顶元素的地址任何存储在栈顶之外的数据都被认为是无效的 pushl, 压栈,pushl %ebp 相当于 subl, $4 %esp movl %ebp, (%esp) popl, 出栈,popl %eax 相当于 movl (%esp), %eax addl $4, %esp 因为栈和程序代码以及其他形式的程序数据都是放在同样的存储器中, 所以程序可以用标准的存储器寻址方式访问栈内任意位置间接引用指针就是将该指针放在一个寄存器中, 然后再存储器应用中使用这个寄存器其次, 局部变量通常是保存在寄存器中, 而不是存储器中寄存器访问比存储器访问要快得多分区深入理解计算机系统笔记的第 6 页

3.5 算术和逻辑操作 2017 年 3 月 11 日 16:09 一些整数和逻辑操作 : 2. 3. a. 加载有效地址 leal 指令实际上是 movl 指令的变形, 它的指令形式是从存储器读数据到寄存器, 但实际上它根本就没有引用存储器, 假设 %edx 的值为 x,leal 7(%edx,%edx,4),%eax 将设置 %eax 的值为 5x+7 b. 二元操作中的第二个操作数即是源又是目的第一个操作数和第二个操作数引用位置的限制与 movl 指令一致 ; c. 移位量用单个字编码, 因为只允许进行 0~31 位的移位移位量可以是一个立即数或存放在 %cl 中的值移位操作的目的操作数可以是一个寄存器或存储器位置汇编指令与 C 语言源代码中的顺序不同通常, 编译器产生的代码中, 会用一个寄存器存放多个程序值, 还会在寄存器之间传送程序值特殊的算数操作 : 分区深入理解计算机系统笔记的第 7 页

divl 指令执行前, 通常会把 %edx 设置为 0 分区深入理解计算机系统笔记的第 8 页

3.6 控制 2017 年 3 月 11 日 16:55 2. 3. 4. 机器代码提供两种基本的低级机制来实现有条件的行为 : 测试数据值, 然后根据测试结果来改变控制流或者数据流数据相关的控制流是实现有条件行为的更通用和更常见的方法用 jump 指令可以改变一组机器代码指令的执行顺序,jump 指令指令控制应该被传递到程序的哪个其他部分, 可能是依赖于某个测试的结果编译器必须产生指令序列, 这些指令序列构建在这种实现 C 语言控制结构的低级机制之上除了整数寄存器,CPU 还维护着一组单个位的条件码寄存器, 它们描述了最近的算术或逻辑操作的属性可以检测这些寄存器来执行条件分支指令, 最常用的条件码如下 : a. CF: 进位标志最近的操作使最高位产生了进位可以用来检查无符号操作数的溢出 ; b. ZF: 零标志最近的操作得到的结果为 0; c. SF: 符号标志最近的操作得到的结果为负数 ; d. OF: 溢出标志最近的操作导致一个补码正溢出或者负溢出值得注意 : 5. a. leal 指令不改变任何条件码 ; b. 逻辑操作, 例如 XOR, 进位标志和溢出标志会设置成 0; c. 移位操作, 进位标志将设置为最后一个被移出的位, 而溢出标志设置为 0; d. inc 和 dec 指令会设置溢出和零标志, 但不会改变进位标志 ; e. CMP 和 TEST 指令只设置条件码而不改变任何其他寄存器条件码通常不会直接读取, 常用的使用方法有三种 : a. 可以根据条件码的某个组合, 将一个字节设置为 0 或者 1(SET 指令, 目的操作数是 8 个单字节寄存器元素之一或存储一个字节的储存器位置 ); 分区深入理解计算机系统笔记的第 9 页

6. 7. b. 可以条件跳转到程序的某个其他的部分 ; c. 可以有条件的传送数据跳转指令会导致执行切换到程序中一个全新的位置在汇编代码中, 这些跳转的目的地通常用一个标号指明在产生目标代码文件时, 汇编器会确定所有带标号指令的地址, 并将跳转目标编码为跳转指令的一部分 jmp 指令是无条件跳转, 它可以是直接跳转, 即跳转目标是作为指令的一部分编码的 ; 也可以是间接跳转, 即跳转目标是从寄存器或存储器位置中读出的其他跳转指令都是有条件的, 条件跳转只能是直接跳转 8. 跳转指令有几种不同的编码, 但是最常用的都是 PC 相关的, 两种方法描述如下 : a. ( 常用 ) 将目标指令的地址与紧跟在跳转指令后面那条指令的地址之间的差作为编码, 这些地址的偏移量可以编码为 1 2 或 4 个字节 ; b. 给出绝对地址, 即给出 4 个字节直接指定目标分区深入理解计算机系统笔记的第 10 页

9. 10. 汇编器和链接器会选择适当的跳转目的编码当执行与 PC 相关的寻址时, 程序计数器的值是跳转指令后面的那条指令的地址, 而不是跳转指令本身的地址通过使用与 PC 相关的跳转目标编码, 指令编码很简洁, 而且目标代码可以不做改变就已到存储器中的不同位置翻译条件分支 : C 语言通用模版 : C 语言表示的汇编形式 : 1 控制的条件转移为循环翻译成机器代码提供了基本机制大多数汇编器根据一个循环的 do-while 形式来产生循环代码, 即使在实际情况中这种形式用的比较少其他的循环会首先转换成 do-while 形式, 然后再编译成机器代码 : a. do-while 循环 : b. while 循环 : 分区深入理解计算机系统笔记的第 11 页

c. for 循环 : 等价于 12. 实现条件操作的传统方法是利用控制的条件转移这种机制简单而通用, 但是在现代的处理器上, 它可能会非常的低效率数据的条件转移是一种替代的策略这种方法先计算一个条件操作的两种结果, 然后根据条件是否满足从而选择一个只有在一些受限制的情况下, 这种策略才可行, 但是如果可行, 就可以用一条简单的条件传送指令来实现它条件传送指令更好地匹配了现代处理器的性能特性, 通过重叠指令的步骤来获得高性能, 要实现做到这一点, 要求能够事先确定要执行指令的序列, 这样才能保持流水线中充满了带执行的指令分区深入理解计算机系统笔记的第 12 页

处理器采用非常精密的分支预测逻辑试图猜测每条跳转指令是否会执行无论测试的数据是什么, 编译出来使用条件传送的代码所需的时间大约都是 14 个时间周期控制流不依赖于数据, 这使得处理器更容易保持流水线是满的不是所有的条件表达式都可以用条件传送来编译, 使用条件传送也不是总会改进代码的效率, 编译器必须考虑浪费的计算和由于分支预测错误所造成的性能处罚之间的相对性能 13. switch 语句跳转表是一个数组, 表项 i 是一个代码段的地址, 这个代码段实现了当开关索引值等于 i 时应当采取的动作分区深入理解计算机系统笔记的第 13 页

分区深入理解计算机系统笔记的第 14 页

3.7 过程 ( 其实就是函数的使用 ) 2017 年 3 月 11 日 21:49 2. 一个过程调用包括将数据 ( 以过程参数和返回值的形式 ) 和控制从代码的一部分传递到另一部分另外, 它还必须在进入时为过程的局部变量分配空间, 并在退出时释放这些空间大多数机器, 包括 IA32, 只提供转移控制到过程和从过程中转移出控制这种简单地指令数据传递局部变量的分配和释放通过操纵程序栈来实现 IA32 程序用程序栈来支持过程调用机器用栈来传递过程参数存储返回信息保存寄存器用于以后恢复, 以及本地存储为单个过程分配的那部分栈称为栈帧, 结构如下 : 分区深入理解计算机系统笔记的第 15 页

3. 4. 最顶端的帧以两个指针界定,%ebp 为帧指针,%esp 为栈指针, 当程序执行时, 栈指针可以移动, 因此大多数信息的访问都是相对于帧指针将栈指针的值减小适当的值可以分配没有指定初始值的数据的空间类似的, 可以通过增加栈指针来释放空间转移控制指令 : 5. 6. 程序寄存器组是唯一能被所有过程共享的资源虽然在给定时刻只能有一个过程时候活动的, 但是我们必须保证当一个过程 ( 调用者 ) 调用另一个过程 ( 被调用者 ) 时, 被调用者不会覆盖某个调用者稍后会使用的寄存器的值 IA32 采用了一组统一的寄存器使用惯例, 所有的过程都必须遵守, 包括程序库中的过程根据惯例,%eax %edx 和 %ecx 被划为调用者保存寄存器 ;%ebx %esi 和 %edi 被划为被调用者保存寄存器, 这意味着被调用者覆盖这些寄存器的值之前先把他们保存到栈中, 并在返回前恢复它们递归调用一个函数本身与调用其他函数是一样的分区深入理解计算机系统笔记的第 16 页

3.8 数组分配和访问 2017 年 3 月 12 日 13:14 对于数据类型 T 和整型常数 N, 声明如下 : 2. 3. 它有两个效果首先, 它在存储器中分配一个 L*N 字节的连续区域 ; 这里 L 是数据类型 T 的大小 ( 单位为字节 ), 用 x A 来表示起始位置其次, 它引入了标识符 A; 可以用 A 作为指向数组开头的指针, 这个指针的值就是 x A 可以用从 0 到 N-1 之间的整数索引来访问数组元素数组元素 i 会被存放在地址为 IA32 的存储器引用指令可以用来简化数组访问当我们创建数组的数组时, 数组分配和引用的一般原则也是成立的数组元素在存储器中按照行优先的顺序排列, 要访问多维数组的元素, 编译器会以数组起始为基地址,( 可能需要经过伸缩的 ) 偏移量为索引, 产生计算期望的元素的偏移量, 然后使用某种 MOV 指令的数组元素 D[i][j] 的存储器地址为引用变长数组只需要对定长数组做一点概括动态的版本必须用乘法指令对 i 伸展 n 倍, 而不能用系列的移位和加法在一些处理器中, 乘法会招致严重的性能处罚, 但是这种情况下不可避免分区深入理解计算机系统笔记的第 17 页

3.9 异质的数据结构 2017 年 3 月 12 日 13:14 2. 3. 4. 常见的, 将指向结构的指针从一个地方传递到另一个地方, 而不是复制它们为了访问结构的字段, 编译器产生的代码要将结构的地址加上适当的偏移结构的各种各个字段的选取完全是在编译时处理的机器代码不包含关于字段声明或字段名字的信息许多计算机系统对基本数据类型合法地址做出来一些限制, 要求某种类型对象的地址必须是某个值 K( 通常是 2 4 或 8) 的倍数这种对齐限制简化了形成处理器和存储器系统之间接口的硬件设计确保每个数据类型都按照指定方式组织和分配, 即每种类型的对象都满足它的对齐限制, 就可保证实施对齐分区深入理解计算机系统笔记的第 18 页

3.10 综合 : 理解指针 2017 年 3 月 12 日 13:14 2. 3. 4. 5. 6. 7. 每个指针都对应一个类型每个指针都有一个值, 特殊的 NULL(0) 值表示该指针没有指向任何地方指针用 & 运算符创建运算符 * 用于指针的间接引用数组与指针紧密联系将指针从一种类型强制转换为另一种类型, 只改变它的类型, 而不改变它的值指针也可以指向函数函数指针的值是该函数机器代码表示中第一条指令的地址分区深入理解计算机系统笔记的第 19 页

3.12 存储器的越界引用和缓冲区溢出 2017 年 3 月 12 日 13:53 对抗缓冲区溢出攻击 : a. 栈随机化, 地址空间布局随机化 (ASLR) 的一种 b. 栈破坏检测 c. 限制可执行代码区域分区深入理解计算机系统笔记的第 20 页

3.13 x86-64: 将 IA32 扩展到 64 位 2017 年 3 月 12 日 13:53 一些关键的区别 : a. 没有看到 movl 和 addl 指令, 只看到 movq 和 addq 指针和声明为长整数的变量都是 64 位的 b. 寄存器为 64 位的过程将返回值放在 %rax 中 c. 没有生成栈帧 d. 传递参数是通过寄存器而不是栈传递, 这就不需要从存储器中读取参数 2. 访问数据 : 3. x86-64 的一个不同寻常的特性是能够访问栈指针之外的存储器 4. x86-64 遵循一组更严格的对齐要求对于任何需要 K 字节的标量数据类型来说, 它的起始地址必须是 K 的倍数分区深入理解计算机系统笔记的第 21 页