第1章 绪论

Size: px
Start display at page:

Download "第1章 绪论"

Transcription

1 高效能通用微处理器芯片体系结构关键技术途径探讨 安虹 摘要 21 世纪, 计算机系统的核心评价指标由高性能转向高效能, 设计驱动由计算为中心的应用转向以数据为中心的应用, 实现技术由深亚微米工艺转向纳米工艺, 这些变化将对微处理器体系结构技术的未来发展产生深刻的影响 本文从分析传统的通用微处理器体系结构方法面临的挑战和技术局限性入手, 撷取学术界和工业界在未来微处理器芯片体系结构领域具有重要意义的研究和开发实例, 探讨了高效能通用微处理器芯片体系结构的关键技术途径及值得关注的研究问题 1. 通用微处理器芯片体系结构面临的挑战 传统的通用微处理器芯片设计主要采用冯. 诺依曼模型, 利用指令级并行性 (Instruction-Level parallelism, 简称 ILP) 开发资源集中的单处理器单指令流的芯片 自 80 年代中期以来微处理器的性能每年提高 50-60% 70 年代, 微处理器的进步主要是提高数据通路的宽度和对存储管理提供硬件支持 80 年代, 工艺和集成电路技术的发展, 允许将大型机上的很多体系结构技术, 如 : 超标量 多级存储 推测执行等指令级并行处理技术在微处理器芯片上实现 进入 90 年代, 人们继续为提高微处理器的指令级并行度做不懈的努力, 但实际的商用微处理器性能的提高越来越多地得益于时钟频率的提高 目前通用微处理器的指令并行度一般维持在平均每个周期完成不到 2 条指令, 甚至不到 1 条指令 相比之下, 在 90 年代的 10 年中, 微处理器的主频由 90 年的 33MHz 提高到 2001 年的 2G 以上, 每年大约提高 40%, 仅由时钟频率带来的性能提高就占 4/5 时钟频率的提高一方面源于工艺的进步提供了开关速度更快的晶体管 ; 另一方面更多地源于深度流水的结构设计 这一时期, 流水线深度的增加与时钟频率的提高大概呈现出 4 倍的线性关系 但是, 随着深度流水线设计接近每一级流水门数 8~16 的最低下限, 流水深度的增加即将终止 此后, 时钟频率的提高将只能依赖门电路速度的提高, 预计门电路的速度将每年提高 12-19% 因此, 为了获得更高的微处理器性能, 需要开发更多更粗粒度的片上并行性 但是, 随着半导体工艺进入深亚微米, 线延迟超过门延迟, 使得在传统结构上提高 ILP 变得越来越困难, 甚至于连维持现有的 ILP 水平都很困难 这个问题已经成为微体系结构设计的首要约束 在 35nm 工艺下, 在芯片上传输一个信号即使借助于优化的转发器也需要大约 30 个时钟周期的延迟 当工艺进入 100 纳米以下, 指令级并行处理器中一些集中的大结构, 如指令发射窗口 重命名表 分支预测器 旁路网络 寄存器文件和 Cache 都将变慢, 将导致某一特定频率下的 IPC(Instructions Per Cycle) 降低 正因为如此,Intel Pentium4 芯片在 20 级的流水线中, 花费了两个流水级专门用于驱动信号将数值传送到寄存器文件 ;Alpha21264 芯片则采用成簇的功能单元和划分的寄存器文件来解决线延迟问题 指令级并行处理器中集中的 大结构 设计是不可扩展的 随着芯片集成度的增加和线宽变窄, 设计 验证和测试变得越来越困难 ; 为提高性能而增加的硬件资源利用率不高 ; 性能的增长空间有限, 目前已很难继续维持每年 50% 的增长幅度 ; 功耗的增长比性能的增长则要快得多 例如, 从 Intel Pentium PentiumIII, 到 PentiumIV 这 4 代处理器, 整数性能提高了 5 倍左右, 而晶体管数增加了 15 倍, 相对功耗则增加了 8 倍 微处理器芯片呈现出更快 更大 更热的发展趋势 通用微处理器性能的进一步提高将不得不依赖于开发指令级并行性以外的其它更粗粒度的 1

2 并行性, 如数据级并行性和线程级并行性 这要求体系结构和微体系结构进行根本的变革 下面我们从分析传统的 ILP 技术的局限性入手进一步阐明这个观点 2. 传统的通用微处理器芯片体系结构的局限性 传统上, 开发 ILP 主要有两种方法 : 一是采用超流水结构提高主频, 增加每秒钟执行的指令数 另一是采用超标量或超长指令字 (VLIW) 结构增加指令发射和执行的并行度, 每个周期发射多条指令到多个功能部件上执行, 从而提高每个时钟周期执行的指令数 其中, 超标量用硬件动态地从指令窗口中调度相互独立的指令, 发射到空闲的功能部件执行 ; VLIW 则是依靠编译器找出 ILP, 静态地调度这些相互独立的指令执行 然而,ILP 进一步提高受到以下各因素的限制 : 2.1. 硬件复杂度 ILP 的开发主要依靠指令间的独立性 直观上, 增加处理器的发射宽度可以带来 ILP 的提高 但是, 这要求编译器或硬件分析更大的指令窗口才能抽取出更多的 ILP 现代微处理器为开发更多的指令级并行性普遍采用宽发射和大指令窗口, 例如 :PentiumIII 允许有 40 条指令处于执行状态 (in-flight),athlon 有 72 条,Alpha 有 80 条,PentiumIV 则有 126 条, 目的是要找出更多的相互独立的指令 对超标量处理器来说, 加大指令窗口会大大增加动态调度所需的硬件复杂度 一方面, 指令窗口加大以后, 更新处在指令槽中的指令状态 寻找可并行执行的指令将导致流水线在发射阶段的硬件逻辑变得十分复杂, 甚至难以实现 另一方面, 宽发射需要配套宽带取指, 即需要更准确和更宽的分支预测, 势必增加取指部件和动态预测器的复杂度 硬件过于复杂, 不仅难以保证结构的正确性, 而且也难以优化流水线和电路, 实现更高的主频 因此, 为了降低发射的硬件成本和提高处理器的频率, 必需限制指令窗口的大小 这样, 即便程序中存在更多的指令级并行性, 在有限的指令窗口下能够被开发的总的并行性会受到潜在的限制 目前大多数超标量处理器的发射宽度一般为 4-6 发射 例如,UltraSPARC III (6 发射 ), MIPS12000 Alpha PA-RISC 8700 Power3(4 发射 ), 而实际能开发出的 IPC 平均不到 2 对 VLIW 处理器来说, 表面上看, 不需要用硬件调度指令的执行, 而是在复杂的编译器支持下做踪迹 (trace) 调度找出应用程序中的 ILP 但是, 在 VLIW 处理器中, 增加发射宽度需要扩大集中结构的寄存器文件来支持 该寄存器文件还必须提供更多的端口, 以便向更多的功能部件提供操作数 这些寄存器文件的访问时间和连向功能部件的总线的复杂度也会限制时钟频率的提高 我们看到, 从 VLIW 结构发展为 EPIC 1 结构的 Itanium 处理器只做到了 6 发射, 这个发射宽度已难以再提高 2.2. 应用中固有的指令级并行性 ILP 处理器微体系结构的优化主要受到以 SPEC CPU 2000 为代表的传统的科学技术应用的驱动 这类应用大都具有较规则的控制流和较高的 ILP, 可以使现今的动态分支预测器的预测准确率达到 90% 以上 但是, 并非所有的应用都固有很高的 ILP 一般而言, 整型程序中固有的 ILP 较低, 浮点程序中固有的 ILP 较高 因为浮点程序多为科学和工程计算类应用 1 Explicitly Parallel Instruction Computing 2

3 这类应用中存在大量循环 用循环展开, 软流水等编译技术, 可将循环级并行性转换为 ILP 许多研究表明, 处理器从传统的单指令流中实际能开发出的 ILP 是有限的 使用 SPEC92 基准程序,PowerPC 620 的 IPC 达到 0.96~1.77, 8 发射的 Alpha 处理器能维持的 IPC 不到 1.5 乱序超标量处理器 MIPS R10000 和 HP PA-8000 达到的 IPC 稍高是因为它们有更大的指令窗口和乱序发射的能力 Pentium Pro 对 SPEC95 基准程序有类似的 CPI 2 值, 在 0.5~1.5 ( 相当 IPC 为 2~0.667) 之间 有研究表明, 用无限多的资源从单个控制流能够开发出的 IPC 为 7, 用大量资源 ( 例如 8 到 16 个执行部件 ) 能够开发出的 IPC 大约为 4 一些服务器应用, 像商业的在线事务处理 ( 简称 OLTP 3 ) 和决策支持系统 ( 简称 DSS 4 ), 其控制流非常不规则,ILP 较低 在一台由 4 个 Pentium Pro 组成的对称多处理器系统上运行 OLTP 工作负载达到的 CPI 为 3.39(IPC 为 0.295) 在 4 发射的 Alpha21164 处理器上运行 DSS 工作负载测得的 CPI 为 1.3~1.9(IPC 为 0.769~0.526). 这是因为在数据库事务处理中, 有 75% 的时间花在了等候访问大的工作集引起的停顿上 即使有很大的二级 Cache, 这种负载也会使 Cache 不命中率升高 2.3. 传统结构中的长延迟事件 ILP 技术为达到高性能而面临的另一个主要障碍是越来越长的延迟 这些延迟, 短的有几个 ~ 几十个周期, 长的高达几十到数百个周期 短延迟事件主要来源于 :1 浮点除法 2 分支处理 3 访问本地存储系统 ; 长延迟事件主要来源于 :1 访问远程的存储系统 ( 一般称为通信 ) 2 由并发操作引起的延迟不确定的同步等待事件 在当代微处理器中, 通过使用 Cache 已经避免了大量的存储延迟, 许多先进的技术也帮助消除或隐藏一小部分的存储延迟 例如, 乱序执行 预取 非阻塞 Cache 写缓存和流水的系统总线等 然而, 程序的第一次使用或循环的第一次访问将不可避免带来 Cache 不命中, 从而导致流水线停顿 Cache 的某一行数据常常在被访问之前就被别的数据替换了 对于空间局部性较好的应用, 解决访存延迟问题可以通过对内存地址的预取来实现 这种方法对于像路由表更新这样的应用非常有效, 但对于访存行为不规则的应用, 由于经常预取的是不被马上使用的数据, 可能反而会降低系统的存储带宽 通过网络访问远程处理器节点局部存储器上的数据将导致更大的延迟 而且, 这样的远程存储访问延迟通常是不可预测的, 使得一些填充流水线延迟槽的技术不再有效 例如, 在 SGI Origin 2000 分布共享存储系统中, 一级 Cache 不命中的访问延迟为 11 个处理器周期 ; 二级 Cache 不命中的延迟为 60 个周期 ; 远程存储访问不命中的延迟达到 180 个周期 因此现代微处理器经常出现停顿, 不能充分利用更宽的多发射硬件提供的高度的 ILP 并行能力 2.4. 单条串行指令流中的偏序关系 传统的 ILP 处理器体系结构都是单线程结构 一台单线程机器通过一个顺序的状态在某一时间将计算向前推进一步, 每一步对应于一条指令的执行 顺序程序执行的特点是只有一条 控制轨迹, 指令指针 ( 程序计数器 PC 5 ) 唯一地确定下一条可用的指令, 从而控制着到下一个状态的转移 从现代高级程序语言中得到的一条顺序机器程序的 控制流, 不仅受过程嵌套调用的管制, 还要受过程执行实例中各 基本块 间分支的条件测试的管制 对 2 Clocks per Instruction 3 On-Line Transaction Processing 4 Decision Support Systems 5 program counter 3

4 计算模型的分析可以发现, 从根本上讲,ILP 的提高受限于串行指令流中的偏序关系 一条指令流中总的序关系源于冯. 诺依曼语言, 虽然允许乱序地执行指令, 但结果必须按指令流的串行语义顺序回退 (Retire) 或提交 (Commit) 由于这个限制, 无论重定序缓存 ( 或指令窗口 ) 多大, 到一定时候都会引起阻塞, 对在处理器中开发更多的 ILP 构成严重的障碍 例如, 如果有一条 load 指令引起了二级 Cache 不命中, 则整个重定序缓存有可能不久就被已经完成执行的 在串行程序顺序中的后续指令阻塞, 即使这些后续指令独立于这条引起 Cache 不命中的 load 指令 因为这些指令在回退阶段不能在 load 指令提交之前存回结果, 所以这些指令不能马上回退并且从重定序缓存中移走 原理上, 在冯. 诺依曼计算模型中, 由于控制和数据依赖, 一个算法定义了指令间的偏序关系 程序员设计一个偏序算法, 再采用串行的冯. 诺依曼语言, 将算法编码为总的序关系 ; 编译器根据依赖图生成一个新的偏序关系, 再生成一个重定序的 优化的 串行机器代码 ( 在编译阶段解开的串行序只是一个部分串行序 ); 微处理器在它的乱序执行部分, 又一次动态地重新生成偏序关系, 根据微数据流原理 ( 如 Tomasulo 算法 ) 执行 ; 最后, 在回退阶段, 为顺序提交结果重新建立非自然的串行程序顺序 在理想情况下, 一个算法应该以适当高度有序的语言来编码 ( 例如, 用一种类数据流的语言 ) 接下来, 编译器应该产生仍然反映全局并行性的机器码, 而不再是不必要的串行化 因此, 正确的做法是用数据流图 (Data-flow Graph, DFG) 作为机器语言 并行化编译器应能从串行的冯. 诺依曼语言编写的程序中产生这种数据流机器代码 这种编译器可以使用编译优化和编码来简化动态的 ILP 分析和指令发射 总之, 从根本上来讲, 传统的通用微处理器对于并发活动缺少专门的硬件支持 数据的发送 / 接收和处理切换的软件开销以及协调同步的操作开销非常之大, 使得细粒度的延迟容忍技术不再奏效 导致从高级语言表达的应用代码中自动构造出能在由传统的通用微处理器上有效运行的并行程序非常困难 超标量和 VLIW 结构其实并不是性价比最好的开发指令级并行性的方法, 它们都没有提供对长延迟操作的延迟容忍机制 3. 设计驱动的变化对微处理器体系结构发展的影响 3.1. 应用的发展 进入 21 世纪, 微处理器的市场已从以 SPEC CPU2000 所代表的传统的科学技术应用, 扩展到三类不同的应用 : 服务器应用 ( 科学计算和商业事务处理 ) 桌面应用和市场增长最快的部分 嵌入式应用 应用的发展对微处理器的设计带来的挑战主要体现在 : 一是新应用已从计算密集型转向数据密集型, 展现出与传统的科学技术应用完全不同的执行和数据访问行为 当前的系统从计算模型 结构和操作上都没有对此提供很好的支持 传统的应用具有很高的程序和数据访问局部性, 允许有效地利用 Cache 寄存器和 Tomasulo 算法等细粒度的延迟容忍技术 这类应用多是计算敏感的, 对数据的运算操作与装入数据的操作 ( 这种操作目的是获得运算所需的操作数 ) 的比率远远大于 1 而很多新应用的数据访问的时间局部性和空间局部性很差, 或者说很少有数据重用 这类应用是数据敏感的, 大而复杂的 Cache 不仅对这类应用没有多大用处, 甚至成为障碍 传统的单线程串行计算模型和采用指令级并行技术的单处理器结构处理这类应用的能力很差, 尽管花了很大的软硬件代价却收效甚微 最主要的原因在于对这些新的应用没有采取适当的计算方法 4

5 3.2. 工艺的发展 根据美国半导体工业协会制订的 2003 年国际半导体技术发展指南, 未来 10 年集成电路仍将按摩尔定律持续高速发展 预测到 2010 年, 单片上可集成的晶体管数将超过 10 亿, 局部时钟频率将达到 11.2 GHz 半导体技术现在已经允许将许多种不同类型的晶体管( 如,P 型和 N 型沟道 MOS 晶体管,PNP 和 NPN 双极性晶体管 ) 浮动栅器件, 熔丝和反熔丝集成到同一个衬底上, 并允许将处理器和存储器集成到一块芯片上 半导体技术的这些进步, 一方面使得单片上可用的晶体管数量和种类越来越多, 为处理器的设计者提供了更多的资源来实现更高性能的芯片, 可以在单个芯片上创造更复杂和更灵活的系统 另一方面直接引发了微体系结构新的设计约束 : 线宽变窄 ( 线延迟超过门延迟 ) 和功耗增大, 使得微体系结构设计总的发展趋势是越来越强调结构的层次化 功能部件的模块化和分布化, 即每个功能部件都相对地简单, 具有非常高的时钟频率, 部件内部尽可能保持通信的局部性 目前, 许多计算机系统, 从移动 嵌入式到超级计算机, 其性能的提高受到的主要约束不是来自摩尔定律, 而是功耗带来的温度 供电和散热问题 例如, 可穿戴计算机的温度影响舒适度, 移动计算机的电池寿命影响重量和体积, 超级计算机的能耗影响供电和散热成本 越来越高的集成度和时钟频率导致每一代处理器功耗较上一代成倍地增加 因此, 当前无论是通用处理器还是嵌入式处理器, 其体系结构和微体系结构设计的一个主要特点是试图同时满足高性能和低功耗这对相互矛盾的设计目标和设计约束 3.3. 计算机系统核心评价指标正在发生根本变化 当前, 受应用需求和系统实现技术的驱动, 高端计算机系统的核心评价指标正在发生根 本的变化, 从高性能计算 (High Performance Computing) 转向高效能计算 (High Productivity Computing) 这一变化的根本原因在于传统高性能计算机的构造方法越来越不适应未来的应用和系统实现技术 具体表现在以下几个方面 :1 大量的新应用从计算密集型转向数据密集型, 传统的以计算为中心构造系统的体系结构 ( 冯. 诺依曼体系结构 ) 方法, 不适应新应用中不规则的计算和访存特性, 不适应这些应用中程序局部性的变化 2 应用的物理计算模型 并行算法模型与实际的并行体系结构不匹配, 人们至今不知道适当的表示并行计算的方法, 不知道在实际的体系结构上什么样的并行算法才是有效的 3 计算, 存储,I/O 的速度越来越不匹配, 平衡体系结构的设计越来越困难 当前主流的商用微处理器主频已达 2.5GHz 以上, 存储总线主频仅 400MHz; 处理器速度每年增长 60%, 存储器存取延迟每年仅改善 7% 由通信带宽和延迟构成的 存储墙 (Memory wall) 成为提高系统性能的最大障碍, 大量的结构复杂性花在了解决数据访问延迟问题上 4 传统的体系结构方法已跟不上摩尔定律的发展, 大量浪费 ( 滥用 ) 了摩尔定律所提供的计算潜力 这些方面的不适应造成的后果是, 在当今的 HPC 系统上,1 并行程序开发难 开发周期长, 可移植性差, 正确性和效率无法保证 目前, 把一个大型题目从一台串行机移植到一台大型并行机上运行时, 困难可能成百倍地增加 应用人员为求解问题花在学习使用并行系统, 以及开发并行软件上的时间和代价可能比在并行系统上实际算题的时间和代价要大得多 2 系统使用和管理难, 硬件的可靠性和稳定性下降 目前主流的高性能计算系统的全系统平均故障间隔时间 (MTBF 6 ) 明显下降 例如,Intel 为 ASIC 计划研制的 ASIC Red, 装有 9632 个 6 Mean Time between Failures 5

6 P2-333, 每个 CPU+MM 7 的 MTBF 大于 10 年, 但全系统的 MTBF 仅 10 小时 3 计算资源利用率低, 系统的体积和功耗急剧增大 例如, 在当前主流的商用微处理器芯片中, 只有 20% 的面积用于寄存器和运算部件,80% 的面积用于开发并行性 目前在超级计算机 TOP500 中排名第一的日本的地球模拟器 8, 机房面积 平方米, 相当于 7.74 个蓝球场 ; 耗电 千瓦, 相当于一个小城市的用电量 4 应用持续性能低, 大多数应用在当前万亿次计算机上运行时的计算效率只有 10% 左右 面对这种局面,2002 年 4 月美国国防先进研究项目局 (Defense Advanced Research Projects Agency, 简称 DARPA) 提出了研制新一代千万亿次高效能计算系统 (High Productivity Computing System, 简称 HPCS) 的计划 该计划的目标是面向多种国防 国家安全和工业用户的应用, 填补 20 世纪 80 年代末传统超级计算机技术与未来量子计算技术之间的空白, 期望在 2010 年左右研制出新一代经济可行 高效能的千万亿次系统 该计划的要点是 : 1. 性能 ( 实际性能而非峰值指标 ): 将关键的国家安全方面应用的性能提高 10 到 40 倍 2. 可编程性 : 大大降低开发高效能计算机上的应用所需的费用和时间 3. 可移植性 ( 对应用的透明度 ): 把研究与应用软件和系统特征分开 ( 即, 将科学 家和使用应用软件的人员与系统隔离开来, 系统自动实现串行程序的高效并行 化, 使科学家和程序员只需关注求解问题本身, 不必了解结构细节 ) 4. 鲁棒性 ( 可靠性 ): 开发抵御外来攻击 承受硬件故障与编程错误的技术 5. 鼓励学术界对高效能计算的兴趣及工业界在投资和产品方面的介入 概括起来,HPCS 计划的核心思想就是要以创新的思路和革命的手段, 实现超级计算机 的综合效能在未来 20 年内沿摩尔定律向前发展, 将在一台并行计算系统上求解问题所花费 的全部时间 TOS (Time-to-Solution) 作为衡量系统性能的关键指标 从 80 年代开始, 通用微处理器就已成为构造从桌面系统 服务器到超级计算系统的基础部件 90 年代的大规模并行计算机主要采用商用的通用微处理器来构造 实现高效能计算, 作为基础部件的微处理器芯片首当其冲要实现高效能 未来的微处理器芯片将把原来在板上 机柜中实现的并行系统 ( 例如 SMP MPP 机群) 集成到一块芯片上 实现片上超级计算机 SoC(Supuercomputer on a Chip), 使单芯片的性能达到万亿次已变得非常现实 HPCS 计划提出的高效能计算思想不仅将深刻地影响高端计算机系统芯片的构造方法, 也必将带动中低端计算机系统芯片构造方法的变革 因为它们在面临的体积 功耗 成本 编程复杂性 设计复杂性 可靠性等方面的问题是一致的, 最终都归结为如何达到 高效能 这一核心评价指标 7 Memory Module 8 按照 2004 年 11 月的排名, 为第三 6

7 4. 高效能通用微处理器体系结构的几个关键技术途径 4.1. 支持向量处理 向量处理可以很好地挖掘应用中存在的数据并行性 数据并行负载的主要特征是 :(1) 大量数据元素的处理过程之间没有依赖关系, 数据并行性很高 (2) 对每个数据元素往往要连续实施多种运算, 计算密集, 操作规则 (3) 通常要求实时处理能力 (4) 存储访问和 I/O 密集, 数据访问具有很好的空间局部性 ( 即数据访问模式比较规则, 通常表现为对大数据块的相邻访问和跨距访问 ), 但时间局部性很差 ( 即数据重用性极低 ) (5) 与数据访问的延迟相比, 更强调高带宽的数据访问 传统的通用微处理器体系结构主要建立在指令级并行处理的基础上, 采用 Cache 来利用数据重用性, 从而减小了数据访问延迟 复杂的 Cache 优化机制降低了数据访问带宽 但是在数据并行应用中, 要求的数据供应量大, 并且数据重用性极低 采用 Cache 给运算单元供应数据, 不仅容量有限, 无法为大量的计算单元提供数据 ; 而且没有重用性的数据经过复杂的 Cache 机制来存取反而会降低数据访问的性能 最根本的问题是, 指令级并行处理器上的运算单元极其匮乏, 不能很好地开发数据并行性 向量处理器体系结构采用编码效率极高的向量指令, 提供大量的运算部件和高带宽的数据访问能力以匹配计算和访存密集的数据并行应用 采用向量指令可以大大缩短这类应用的代码长度, 并且能在一定程度上减少运算量 每条指令可以编码 N 个相互独立的操作, 从而大大减少了取指和译码的工作量, 同时也减少了由循环产生的分支处理的工作量 ; 向量指令还减少了 load 操作的地址计算量, 一次地址计算可以取进 N 个有用的数据 向量指令自然地表达了对 N 组数据可以相互独立地在多个相同的运算部件上并行计算的数据并行语义, 具有相同的寄存器和存储器访问模式, 不需要复杂的相关性检查和发射逻辑 向量结构具有很强的可扩展性, 通过简单地增加运算部件数目或增加运算部件的流水线深度, 以及增加向量寄存器长度即可方便地实现计算能力的扩展 向量结构大大降低了硬件设计的复杂度, 并能很好地支持低功耗设计 向量处理需要编译器提供自动向量化的支持 数据并行应用的重要性, 多样性以及对硬件的性能需求正在不断增长 向量处理器的设 计需要结合不同的数据并行应用特征研究以下几方面的关键问题 1. 数据并行体系结构模型 传统上存在三种不同的数据并行体系结构模型 : 向量 SIMD 9 和 MIMD 10, 它们是为不同特点的应用构造的, 主要差别在于对指令执行的控制, 以及存储器与 ALU 11 间的通信方式不同 我们可以用执行二维的离散余弦变换 ( 简称 2D DCT 12 ) 这个例子来阐明这些结构的不同 向量结构 : 向量结构的例子有 Cray-1,VectorIRAM,T0 以及 Tarantula 它们采用 简单的取指和译码单元进行全局控制 向量寄存器文件 ( 简称 VRF 13 ) 作为在存储器与 9 Single-Instruction Stream Multiple-Data Stream 10 Multiple-Instruction Stream Multiple- Data Stream 11 Arithmetic-Logic Unit 12 2-Dimension Discrete Cosine Transform 13 vector register file 7

8 ALU 之间传送值的中转区域 中央控制单元对 VRF 和 ALU 间的向量元素进行排序 向量结构利用 VRF 提供了有效规则的存储访问, 但由于没有链接硬件, 向量迭代之间的所有通信都必须在 VRF 内进行 ALU 间的全局同步消除了 ALU 级带数据依赖的分支 在向量机中,2D DCT 被分解为先在列上做一维的 DCT, 在 VRF 中做一次变换, 然后再对行做一次一维的 DCT SIMD 结构 :SIMD 结构的例子有 CM-2 和 Maspar MP1, 它们也是用简单的取指和译码进行全局控制 与向量结构不同的是,SIMD 结构要么每个节点都带私有存储器, 要么以规则的方式从中央存储器广播数据 SIMD 机器通常提供相邻 ALU 间点到点的通信机制, 但是缺少向量寄存器文件和存储系统中有效变换的支持 SIMD 体系结构的特点是对不同数据实体的同一操作通过几条数据通路并行执行 早期的 SIMD 机器的一个严重局限性是缺少对不规则索引存储访问的支持 为了执行一个 8x8 块上的 2D DCT, 需要将图像均匀地分解到不同的处理单元中, 每个 ALU 对分配给它的图像子块执行部分的 DCT, 然后与相邻的 ALU 交换值来完成整个 2D DCT SIMD 执行以子字并行 (sub-word parallelism) 的方式出现在传统的高性能微处理器中, 作为多媒体功能的扩展, 如 MMX, SSE,Altivec 以及 VIS 更新的面向 DSP 14 的处理器如 Imagine 和 Intrinsity, 以及现代实时图像硬件的分片处理中也采用这种结构方式 MIMD 结构 :MIMD 机器采用与 SIMD 机器类似的存储组织 每个处理单元使用独立的指令控制和私有的指令存储进行独立的控制 MIMD 处理器具有广泛的结构粒度, 从细粒度的处理器 ( 如 iwarp) 到粗粒度的多处理器 ( 如 CM-5) 或现代的 SMP( 如 IBM 的 Regatta 系统 ) 通信和同步一般也是粗粒度的, 通过消息传递 共享存储和专用的同步网络来实现 现代实时图像硬件已经朝着为顶点处理提供细粒度 MIMD 执行模型的方向发展 每个 ALU 是局部控制的, 并行处理不同的顶点 像 2D DCT 这样的数据并行应用可以在足够细粒度的 MIMD 结构上执行 2D DCT 的 MIMD 计算除了不同处理单元上的指令不是在指令级同步外, 其它方面都与 SIMD 计算类似 值的交换要用到显式的同步操作 当应用具有规则的存储访问和静态循环边界时 ( 或者没有控制流时 ) 最好采用向量结构或 SIMD 结构 当存在不规则存储访问或访问索引标量常数时, 如果依然采用传统的向量或 SIMD 结构则会导致性能大大下降 当应用带有数据依赖的分支时, 细粒度的 MIMD 结构是最好的选择 2. 数据并行处理的结构粒度 向量 SIMD 和 MIMD 的结构粒度依次增大 向量结构处理那些需要在多个向量元素上进行计算或者以一种无组织或不规则的方式访问存储器的应用时性能较差 SIMD 结构提供了在执行单元间通信的功能 ( 因而能够在多个数据元素上进行计算 ), 但它也是全局同步的, 因此对于带条件执行和数据相关分支的应用支持较差 MIMD 结构一般由粗粒度处理器构成, 使用单程序多数据 (SPMD) 的执行模型来对大块的数据进行操作, 对于细粒度的同步支持较差 新兴的应用, 如实时图像处理, 需要细粒度的 MIMD 完成执行单元间的细粒度通信 早期的细粒度 SIMD 机器, 如 CM-2 和 MasPar MP-1 提供了高的 ALU 密度但是缺 14 Digital Signal Processing 8

9 少对不规则存储访问的细粒度控制和延迟容忍 为了解决这个问题,Intrinsity 处理器在传统的 Cache 存储系统中加入了一个 SIMD 数组 Imagine 流处理器是一个 SIMD 与向量混合的结构, 它将 SIMD 控制单元与向量机的内存系统耦合起来 其他形式的流处理系统都与 MIMD 的执行很相似, 数据流以高度结构化的方式流过多个处理器 新的细粒度片上 MIMD 体系结构例子有 Smart Memory 和 RAW, 它们都是针对流处理而做的设计 3. 数据并行处理机制的通用性 数据并行负载根据要处理的数据类型可以分为几个不同的应用领域, 主要包括 : 数 字信号处理 科学计算 网络和安全 以及实时的多媒体处理 传统上, 不同特征的数据并行应用由不同的体系结构和专用部件执行 例如, 大多数的实时图像处理硬件需要联合采用 MPEG4 解码的可编程专用部件 TMS320C6416 DSP 芯片集成了卷积编码和纠错处理两个专用部件 这些专用部件每个都只能提供简单而有限的功能, 把大量这样的专用部件集成在一起将产生不同种类的处理器, 导致应用系统设计开销和面积增加 现今大多数的数据并行体系结构只针对数据并行应用的一个子集来设计, 对于子集以外的应用缺乏支持 现有的向量体系结构使用昂贵的 SRAM 来提供高速的内存和大的向量寄存器, 对规则的存储访问和具有简单控制行为的程序能够提供有效的计算 处理那些需要在多个向量元素上进行计算或者以一种无组织或不规则的方式访问存储器的应用则性能较差 使用播撒 (scatter) 和收集 (gather) 操作可以容忍一定程度的不规则 ( 但结构化的 ) 内存访问, 但执行有频繁的不规则内存访问和查表的程序时性能很差 已提出和构造了很多体系结构用于克服向量执行模型的严格限制, 并允许动态指令调度 如果只提供对数据并行程序的一个子集的支持, 即使消除这些限制也不能使这些体系结构适应广泛的应用 在理想情况下, 通用的数据并行体系结构模型要能支持每个数据并行应用领域, 即要能支持这些应用的各种不同的计算和存储行为 我们已经非常熟悉专用向量体系结构在多媒体处理 数字信号处理 网络处理以及高性能科学计算领域里的应用 虽然这些数据并行应用领域有许多共同的特性, 但它们在计算 控制和存储访问方面仍有许多不同的特殊需要 多媒体应用典型的数据类型长度是 8 位 12 位 16 位 24 位和 32 位, 与科学计算和其他整数运算程序相比有更多的整数 ALU 操作, 可组织成短向量处理 短向量处理已经在商用处理器的指令集扩展中找到了应用, 如 :Intel x86 上的 MMX SSE SSE2 和 3Dnow!,SUN UltraSparc 上的 VIS,HP PA-RISC 上的 MAX-2,Digital Alpha 上的 MVI, 以及 MIPS V 上的 MDMX 等 一些指令集扩展如 MMX 和 SSE2, 缺少支持标量 - 向量的操作, 当用到一个标量寄存器作为一个操作数时, 只是操作 MMX/SSE2 寄存器的一个子字 (sub-word) 而科学计算程序中通常包含大量的浮点运算, 对计算精度有较高的要求, 所以常要求 64 位甚至更多位数的数据类型, 向量寄存器的长度往往达到 64,128,256 甚至 1024 个元素, 每个元素 64 位 4.2. 支持多线程处理 对多线程处理器体系结构的研究主要有两大推动力 : 9

10 1. 提高对传统的指令级并行处理器中存在的大量延迟的容忍能力, 这是发展当前各类多线程处理器的主要目的 在传统的只采用指令级并行技术的单线程处理器中, 主要利用指令的动态调度 乱序执行 寄存器重命名 数据前馈 (Forwarding) 高速缓存 (Cache) 分支预测和推测执行等多种技术, 分别避免和隐藏由于数据依赖或控制依赖产生的各种不同情况的延迟, 结果硬件做得越来越复杂 与这些技术不同的是, 多线程技术能够隐藏指令级并行方法中出现的各种情况的延迟 在分布式共享存储多处理机系统中, 最为严重的延迟问题是, 访问远程数据时可能要先经由片上 Cache 不命中而访问本地存储器 ; 如果本地存储访问还不命中, 再通过互连通信网络访问远程存储器 这个过程往往需要数百个周期, 比访问本地数据所花的时间要高出 10 倍左右 线程或进程间的同步操作还可能会引起不确定的长时间等待 数据访问延迟已成为提高现代处理器和计算机系统性能的主要瓶颈 解决这个严峻问题的有效办法就是当流水线出现过长时间的等待时, 通过硬件切换到其它线程上执行 2. 开发和利用应用中更多的粗粒度并行性, 增加指令吞吐量, 提高处理器的资源利用率, 这是未来半导体和集成电路技术发展推动的结果 未来单片上可集成 10 亿个晶体管的能力, 允许单处理器具有每周期发射 8~32 条指令的能力, 并且允许在单块芯片上集成成百甚至上千个完整的处理器, 从而引发了两种相互正交的多线程体系结构方法 : 单处理器多线程和多处理器多线程 1 单处理器多线程方法 : 现代单线程处理器进一步提高性能的方法是采用激进的动态预测和推测执行技术, 用复杂的硬件抽取单个线程中更多的指令级并行性 这类方法存在的问题是 : 一方面单个应用内在的 ILP 是有限的, 提高单线程性能的潜力很快就会达到极限 ; 另一方面将导致芯片的硬件复杂度过高, 功耗急剧增加, 使得一个完整的芯片设计 验证和测试成本变得令人难以接受 多线程处理器打破单线程执行模型, 在处理器流水线中并行执行 2 条以上的线程, 可以减少单处理器中指令发射能力的水平浪费和垂直浪费, 提高处理器的资源利用率和指令吞吐量 2 多处理器多线程方法 在一块芯片上放置多个相对简单的处理器核 ( 不超过现今的 4 发射处理器的复杂度 ), 这些核可以是同构的也可以是异构的, 每个处理器核上执行 1~ 多个线程 目的是实现可扩展的芯片系统设计, 降低芯片设计的复杂度和功耗压力 这些处理器核可用多种体系结构方法构成, 包括 RISC/CISC, 或向量 /DSP/ 超标量 /VLIW 等等 硬件多线程正在成为下一代各类高性能微处理器 ( 包括通用微处理器, 多媒体处理器 网络处理器 数字信号处理器等 ) 的主流体系结构技术 从计算模型上分类, 已提出的多线程处理器结构一类源自数据流, 如 Papadopoulos 和 Culler 的 Monsoon, 麻省理工 / 摩托罗拉的 *T, 我们称它们是基于数据流模型的多线程体系结构 其余的称为基于非数据流模型的多线程体系结构 它们由各种传统的处理器结构发展而来, 有多线程的超标量结构, 如华盛顿大学为代表研究的 SMT 15 和 Stanford 大学为代表研究的 Hydra CMP 16 ; 多线程的 VLIW 结构, 如 Sun 的 MAJC; 多线程的向量结构, 如 Espasa 的 SMV 等 不同的多线程处理器体系结构之间的最基本差别在于每一流水阶段对指令的调度执行 方式 这个差别很大程度上影响处理器体系结构设计的其它方面 据此, 多线程处理器可分 15 Simultaneous MultiThreading 16 Chip Multiprocessing 10

11 为指令交错多线程 (Interleaved MultiThreading, 简称 IMT) 块交错多线程(Blocked MultiThreading, 简称 BMT) 和同时多线程 (SMT) 三种基本的体系结构 需要指出的是, 不少文献把 IMT 和 BMT 分别称为细粒度多线程 (Fine-Grained Multithreading, 简称 FGMT) 和粗粒度多线程 (Coarse-Grained Multithreading, 简称 CGMT) 作者认为, 这种说法容易与线程的粒度概念混淆 事实上,FGMT 和 CGMT 并不意味着线程的大小, 主要指线程的调度执行方式 ( 可以看作是一种线程交错执行的 周期粒度 ) 为避免概念上的混淆, 作者倾向于本文的说法 另一个需要说明的是, 我们不把指令调度方式限定为只针对发射阶段, 因为在实际的多线程处理器中, 从每个流水级观察, 可能会综合运用上述指令调度方式从不同的线程中提取指令, 因此这里的定义适于更方便地描述具体的多线程处理器体系结构特征 IMT BMT 和 SMT 中利用的线程级并行性是显式说明的, 因此又可将它们归为显式多线程 (Explicit MultiThreading) 处理器 如果处理器上执行的线程是根据串行程序的控制流和数据流特点, 由编译器或硬件自动划分出来的, 则这样的处理器称为隐式多线程 (Implicit MultiThreading) 处理器 除了以上几种主要的分类以外, 还可以按硬件的组成区分单处理器多线程结构和多处理 器多线程结构 线程级并行技术与其它新型的体系结构技术 ( 例如, 可重构技术 PIM 17 技术 SoC 18 技 术 超导技术等 ) 相结合产生了许多种同时支持多种并行性的多线程处理器体系结构 例如, 德州大学奥斯汀分校与 IBM 联合提出研制的万亿次芯片 TRIPS, 利用可重构技术动态配置片 上大量的处理器核 存储单元和互连, 支持包括线程级并行性 指令级并行性和数据级并行 性混合的并行计算模型, 从而能在一个很宽的应用范围内达到高性能, 提高片上硬件资源的 利用率, 既具有通用处理器那样适应大量应用的灵活性又具备专用处理器那样的高性能和高 效率 美国的 HPCS(High Productivity Computing System) 计划选中的三个 petaflops( 万亿 次 ) 系统方案 Cray 的 Cascade SUN 的 HERO, 以及 IBM 的 PERCS 方案都采用了混合多种 并行的多线程处理器体系结构 在 IBM 的 BlueGene 项目中, 其基于多核 SoC 的单元化体系结 构设计采用了 SMT 技术 NASA 的 HTMT 项目利用超导芯片 PIM 光通信和光全息存储等 全新的技术构建 petaflops 系统, 引入了渗透多线程计算模型, 有效地平衡了计算与存储 多线程处理器需要研究的关键问题包括 : 1. 多线程处理器上的程序执行模型 多线程处理器设计的首要问题是选择程序执行模型 程序执行模型的适用性决定多线程处理器能否以最低的代价提供最高的性能 程序执行模型是编译器设计人员与系统实现人员之间的接口 编译器设计人员决定如何将一种高级语言程序按一种程序执行模型转换成一种目标机器语言程序 ; 系统实现人员则决定该程序执行模型在具体目标机器上的有效实现 当目标机器是多线程体系结构时, 产生的问题是 : 多线程体系结构如何支持重要的程序执行模型? 是否有其它的程序执行模型更适于多线程的体系结构? 这些程序执行模型能多大程度上满足应用的需要并为用户所接受? 2. 上下文切换 17 Processor In Memory 或 Processing In Memory 18 System on a Chip 11

12 在传统的分时和多处理机系统中, 线程的切换是事件驱动, 由操作系统完成的 线程切换要求保存前一个线程的状态, 换入将执行的另一个线程的状态, 以及其它一些管理开销 每次上下文切换需保存和恢复的上下文的大小取决于 :1 已被修改的状态 2 以后还要用的状态 3 线程的粒度 通常短线程的状态所占存储空间较小 现代的商用处理器倾向于运行长线程, 并减少线程切换的频度, 从而降低线程切换代价 如果切换线程的总开销比处理该延迟事件的时间还长, 就不值得切换上下文 硬件多线程在处理器上保存多个线程的上下文, 能够大大降低线程切换的代价, 因此允许做更频繁的切换 指令交错的多线程处理器的线程切换是隐式的, 无论是否发生长延迟事件, 程序总是周期交错地切换到不同的线程执行 同时多线程处理器的线程切换也是隐式的, 每个周期程序都可能切换到新的线程执行 块交错的多线程处理器的线程切换由事件驱动, 可以是隐式的, 也可以是显式的 不同的结构对线程切换的时机和方式有不同的选择 上下文切换是块交错多线程处理器设计中的一个关键问题 由于上下文切换取决于一些动态事件, 这些事例 ( 例如 Cache 失效 ) 只有到达流水线后面的阶段时才能发现 发生切换时流水线中已经引入了许多无效指令, 这些指令须从流水线中清除掉 另一方面, 新线程的指令进入流水线达到执行段也会带来几个周期的垂直延迟槽, 数目取决于流水线的长度 因此, 上下文切换处理不当将引入较大的开销 如果为每个线程复制了流水线寄存器, 每次切换时保存所有流水线的当前状态, 这样可以减少线程下次切换回来的开销, 但这要以增加硬件复杂度为代价 对于长流水线设计这样方案比较合适, 但对于短流水线设计, 为节省少量的流水线周期 (3~4 个 ) 增加太多的硬件复杂度可能不划算 因为块交错的线程切换往往能够隐藏上百个周期的 Cache 不命中延迟, 省下几个周期也不能使性能提高多少 3. 分支处理 在单线程处理器中, 分支误预测的代价很高 例如, 在 Pentium II/III 和 Alpha 中, 分支预测错, 重新刷新流水线需要 11 个周期以上, 将浪费 1~4 个取指周期取来的指令 当前动态预测技术的准确率对 SPEC CPU 中的非数值程序平均已能达到 95%, 这对单条分支指令来说预测精度已经很高了, 但对 n 条分支指令连续做预测的精度却只有 (0.95) n 也即在经过 5~6 次动态预测后, 其精度就下降到不可接受的程度 在多线程处理器中, 可以采取等待分支结果的处理策略, 通过调度多个活动线程, 遇到分支指令则从其它线程取指令, 使分支在进入指令窗口之前已获得分支结果, 从而最大限度减少提取的无用指令数 在当前的 SMT 和 CMP 处理器中, 采用多个粗粒度的线程共享分支预测器的处理策略, 如 Intel PentiumIV 和 IBM Power4 那样 分支预测的精度是改进还是降低取决于正在执行的路径 如果两个线程循环执行的是相同的代码, 但使用的是不同的数据, 分支预测器对这两个线程或其中之一的预测精度就很差 例如, 有一种情形, 如果低的值走一条路径, 高的值要走另一条路径, 两个线程从相反的一端穿过一个数据集, 则每个线程的分支历史将是不同的 另一种相反的情形是, 如果每个线程中这个循环正在做相同类型的操作, 他们的分支模式可能是类似的, 分支预测器能更快地学习这个模式, 因此能做更准的预测 循环执行相同代码的两个线程对分支预测精度将有积极的影响 如果将分支预测器设计成对每个线程分开预测, 则会增加预测器的规模, 或者减小它对单个线程的预测精度 12

13 4. Cache 的作用 在多线程处理器中, 处在不同地址空间上的多个粗粒度的线程共享 Cache, 会减少程序的访存局部性, 增加 Cache 不命中率 而从一个程序中划分出来的处于同一个地址空间的细粒度线程, 经常执行相同的代码段, 因而可能经常访问相同的指令 Cache 项, 数据 Cache 的局部性一般不会有很大改变 相同的数据将被一个线程顺序访问, 或被多个线程稍微乱序地访问 指令或数据 Cache 引用的局部性是增加还是减少主要依赖于被执行代码的性质 在多线程处理器,Cache 不命中的损耗将大大减小 一个线程访问数据 Cache 不命中, 在完成从片外取数的同时, 可以从其它线程中取指令执行 对于指令 Cache 不命中, 可以采用非阻塞指令 Cache, 从其它线程中取指 比较来说, 非阻塞指令 Cache 在多线程处理器中的作用比在单线程处理器中的作用要大 5. 全局存储 对全局存储访问的支持是并行处理的基本问题, 线程级并行技术也不例外 对程序员来说, 支持全局共享存储器的抽象是非常重要的 任何可扩展机器的存储器物理上都是分布的, 为其建立全局共享存储抽象有两个基本方法 :1 建立在消息传递基础上的共享存储协议 ; 2 全局 Cache 这两种方法已经成为实现不同规模并行计算机的流行方式 通过消息传递允许实现一定形式的全局共享存储的基本工作原理如下 : 一个处理器 a, 想得到位于处理器 b 存储器里信息, 可以发送一个消息给 b, 请求这个值 当 b 收到这个请求以后, 向 a 回送所要求的值 当 a 正在等待来自 b 的响应时处理器可以什么也不做, 只是等待这个结果 如果这样处理的话, 就有可能产生死锁 因为 b 在它响应 a 之前, 可能等待 a 返回一个请求 一个解决方案是需要另一条路径, 从其它处理器访问 b 的存储器, 这个方案已被用于 *T 和商用的 Cray T3D, 这个解决方案只要整个要读的值是可用的就能工作 另一个方案是所有的处理器周期轮询以满足其它处理器的请求 这可能使代码生成很复杂, 并降低串行线程的性能 另一个提供全局共享存储的基本方法是使用全局 Cache 即, 在计算处理器中将全局数据缓存到局部 Cache 处理器 a 在全局位置执行一个 load, 如同在局部位置做一样 即, 先检查 Cache, 对于在局部 Cache 里能找到的值, 计算如同在串行机中一样继续执行, 这个值被直接放到寄存器中 如果这个值不在局部 Cache 中, 再通过 a 的标准存储总线接口从远程位置将这个值取过来 在存储总线上必须增加一个设备, 由它来识别全局访问, 再与实际拥有该值的处理器 b 的存储进行通信来完成这个取数请求 全局 Cache 的重要问题是保持 Cache 一致性 如果两个处理器都有每个 Cache 行的拷贝, 并修改了该行, 其它的处理器必须设法自动地获知这个改变 6. 硬件支持和资源共享 多线程处理器更高的指令吞吐量增加了资源的利用率, 这是它好的一面 但是, 多 线程处理器中的某些资源可能被过度利用, 甚至可能变成新的瓶颈 为了满足多线程对 硬件的需求, 可能要对硬件资源做以下改变 : 最需要增加的硬件是线程控制部件 例如, 控制 fork 和 join 过程, 控制互斥运行用 的锁, 识别线程号等 在理想的情况下, 多线程处理器中的每个线程需要一套完整的 13

14 独立使用的寄存器文件, 这将使得 n- 路多线程处理器的寄存器文件增加 n 倍 在多线程的指令窗口中, 可能需要对每条指令存储相应的线程号, 在寄存器重映射期间用其作为寄存器号的高位, 在 Load/Store 调度时用于做检查 当指令由于例外或分支误预测变得无效时也要检查这个线程号 非阻塞指令 Cache 非常适合多线程处理器, 这比阻塞的 Cache 要稍微多花些面积 采用双端口 Cache 用另外的缓冲或多体的 Cache 也可以达到同样的目的, 但非阻塞 Cache 要便宜些 用多个线程交错执行可以容忍更大分支延迟, 所以多线程处理器对分支预测器的依赖可以降低, 并且不会太多地降低单线程处理器的性能 4.3. 智能存储芯片体系结构 采用 ILP TLP 19 和 DLP 20 技术能大大提高处理器内部指令执行的并行度, 而指令和数据 的供应是充分发挥这些技术作用的关键 传统上以处理器为中心的设计思想已经导致处理器 为解决访存延迟问题而大大增加了复杂性 已有许多研究工作致力于减小或缓解访存延迟, 包括 lookup-free Cache( 非阻塞 Cache) Cache 旁路 硬件和软件的指令和数据预取 乱序 取指 取数推测和推测执行 流式缓存 多线程技术等等 即使这样, 处理器与存储器性能 的差距仍在增大, 使得访存速度将成为未来提高处理器性能的主要瓶颈 根据目前的片上并 行处理技术的发展趋势, 不久就会出现当处理器发射数百甚至上千条指令时只能取进一个值 到片上存储器的情况 基于对上述事实的观察, 以及未来半导体技术所提供的能力和数据敏感应用对访存带宽的要求, 智能存储器技术提出将处理器与存储器做在同一块芯片上, 这样可使访存延时减少 5-10 倍以上, 存储器带宽增加 倍以上 在大多数情况下, 整个应用在运行期间都可放到片上存储器里 将存储器集成到芯片上以后, 原来用于增加处理器 - 存储器带宽的大量存储总线引脚可以被节省下来用于增加 I/O 带宽, 这将有利于提高未来大量的网络应用性能 ; 并且由于减少了对片外存储器的访问, 将使得处理器的功耗大大降低 传统上, 逻辑的制造工艺与 DRAM 的制造工艺是根本不同的, 因而难以将处理逻辑与 DRAM 存储在单片上耦合 DRAM 的制造工艺比逻辑工艺要难, 时钟速率做不高 ; 而逻辑的结构不像 DRAM 那样规整 DRAM 工艺为保持稳定性趋向于最大化电容面积, 使用多层硅, 但不需要更多的金属层 逻辑工艺则趋向于用更多的金属层, 对晶体管开关速度做优化 在逻辑工艺中实现 DRAM 单元存储密度做不高, 估计密度仅能达到优化的 DRAM 工艺的 5~25%; 而在 DRAM 工艺中实现逻辑电路则速度做不上去 目前, 半导体工艺已经允许将处理器与存储器集成到单块芯片上, 尽管在密度或速度上 还赶不上它们分开制作的工艺, 但是这种混合的工艺可以大大改进系统的整体性能 智能存储芯片可以看作是让存储离计算更近, 这种结构与传统的体系结构没有本质的区别, 仍然是以计算为中心的结构, 是将大块的 DRAM 集成到处理器芯片上 最具代表性的研究工作是加州大学大学伯克利分校提出的 IRAM 方法 实验的向量 IRAM 处理器原型在 1GHz 的主频下可达到 16Gflops 的峰值性能 另一种智能存储芯片可以看作是以数据为中心的结构, 在存储器中嵌入运算器, 让存储 19 Thread level parallel 20 Data-level parallel 14

15 器芯片具有一定的数据处理能力, 这就是 PIM 芯片结构的思想 PIM 结构的一个显著特点是将存储器分成很多独立的存储小块, 每一个存储小块对应一个节点, 连接一个运算部件 在多线程运行的时候, 这些独立的存储小块可以并行访问, 这样就提高了访存带宽 PIM 技术将很宽的运算部件直接与存储器的行寄存器相联, 这样片内数据传输就会比传统的片间数据传输快很多 ( 一般快 1 个数量级 ), 宽的运算部件可以直接对宽的寄存器数据进行处理, 即一次最多可以处理存储器取出的一行数据 第一个 PIM 芯片是 1993 年推出的 EXECUBE 芯片 1996 年, 第一款商用的 PIM 芯片 M32R/D 诞生 采用 PIM 技术的系统有 Active Pages FlexRAM Gilgamesh,DIVA HTMT BlueGene BG/C Pim-Lite 等 相比之下,PIM 技术能够支持建立可扩展的超大规模并行计算机系统, 适应流式应用和不规则应用数据密集的访存需要 从并行规模上看,PIM 结构有点类似于 MPP 但是, 如何让数百万个 PIM 处理器协同求解单个并行应用问题, 需要寻找不同于 MPP 结构的大规模并行处理和存储平衡的体系结构方法 这种计算方法必须处理全系统的语义需要, 提供共享存储的程序执行模型 与 MPP 相比,PIM 的计算性能与存储能力的比非常之低, 但访存带宽却高数百倍 在 PIM 系统中, 处理器的利用率不如存储带宽来得重要 基于 PIM 技术实现的大规模并行计算系统需要研究的关键问题包括 : (1) 不同 PIM 节点的通信机制 - 这是首要问题 大多数 PIM 系统都采用一种称为 parcel 的通信机制,parcel 的长度是可变的, 其中包含需要通信的信息 BlueGene 系统中的 parcel 主要用来传送数据, 但 Gilgamesh 中提到的 parcel 概念与此大不一样 更多的 PIM 结构中提到的 parcel 概念与 Gilgamesh 的相同, 只是不同系统可能具体参数定义不太一致, 原因是 PIM 结构目前还没制订统一的标准 在 Gilgamesh 中,parcel 是用来传送操作的 这种通信机制适于面向数据的计算, 允许在数据存放的地方调度和执行计算, 计算任务经常根据数据所在的位置从一个 PIM 处理器移到另一个 PIM 处理器上, 而不是把数据在计算单元间移来移去 这种计算方式有点类似于在 Web 上完成一个计算任务, 使用 Java 和面向对象的方法将代码迁移到一个拥有数据和计算资源的本地节点上完成计算, 然后返回计算结果, 从而大大减少了数据通信的开销 parcel 机制要求信息包的大小要尽量压缩, 要有安全保护机制 虽然程序是并行执行的, 但是对信息包的处理仍然要保证原来顺序执行时的语义 (2) 存储模型和地址转换机制 要求应用程序可以控制数据的放置, 支持 PIM 芯 片的数量 大小和主处理器的个数的可扩展性, 支持虚拟存储技术等 (3) 编译和操作系统 要求编译器能够开发粗粒度的并行性, 如把任务分配给各 个 PIM 及节点 ; 同时又能够开发细粒度的并行, 如在节点内的各个处理单元 上并行执行 要求能够划分数据和计算, 支持静态和动态的负载平衡 (4) 应用程序的特性 要求应用程序要有很好的可并行性, 包括粗粒度和细粒度 层次的 粗粒度的并行性便于开发 PIM 芯片之间的并行, 细粒度的并行性便 于开发 PIM 芯片内部的并行 (5) PIM 和非 PIM 系统之间的接口 15

16 4.4. 多型处理器芯片体系结构 多型处理器芯片体系结构能够很好地利用未来的半导体技术提供的能力解决应用的多样性问题 传统设计的通用处理器难于同时很好地运行许多不同的工作负载, 于是出现了桌面 网络服务器 商用服务器 科学计算等 专用化 的通用处理器, 以及图形图像处理器 数字信号处理器 (DSP) 和网络处理器等专用处理器 目标应用的特征直接决定了处理器的体系结构 没有哪个体系结构在运行所有的应用时都能达到最优性能, 因此处理器的设计者必需调整体系结构设计来适应目标应用的要求 专用化 的体系结构匹配于特定应用领域的并行性特征, 从而达到高性能和高效率 这种设计策略虽然降低了单个芯片的设计难度, 但却背离了通用芯片设计 通用性 的基本特征 每种芯片只有在运行适当的应用时才会获得好的性能, 否则性能就很差, 因而降低了系统的灵活性, 增加了芯片系列设计和掩模的成本 并且, 各种专用芯片的出现使得计算机系统的设计复杂度越来越高 由这些芯片构成的插卡 ( 板 ) 越来越多, 由地址和中断冲突造成的系统级复杂性增加, 可靠性大大下降 多型处理器芯片体系结构的基本思想是通过动态配置片上大量的处理器核 存储单元和互连, 支持各种不同类型并行性的计算模型, 从而能在一个很宽的应用范围内达到高性能, 提高片上硬件资源的利用率, 获得通用处理器适应大量应用的灵活性与专用处理器的高性能和高效率 多型处理器芯片体系结构的主要特征包括 : (1) 多型性 (Polymorphism): 指的是具有多种不同的程序执行模型, 能有效地支 持从应用中提取出的 ILP,TLP 和 DLP, 从而能有效地运行广泛的应用 (2) 自适应性 (Adaptability): 硬件是粗粒度 ( 而非 FPGA 那样在细粒度的门级 ) 可重构的 结构资源 ( 计算, 存储和通信 ) 能有效地匹配应用的并行性特征, 实现最佳的动态资源配置, 从而达到接近专用处理器的高性能和有效的资源利用率 (3) 可扩展性 (Scalability): 采用模块化 / 分布化的设计, 基本的构造块设计成简单的 ( 小结构的 ) 和可重用的, 通过简单设计 ( 大量复制相同的简单结构 ) 构成复杂设计 充分考虑未来线宽变窄的半导体制作工艺, 实现高度的可扩展性, 达到一次设计, 多个实现 这样的结构易于实现分布的时钟控制, 克服线延迟问题, 降低芯片设计 验证和测试的复杂度 结构资源的分布设计有利于功率的均匀分布和实现低功耗设计 相关的研究工作主要有 : 麻省理工的 RAW 项目 斯坦福大学的 Smart Memories 项目 德州大学奥斯汀分校的 TRIPS 项目 日本东京大学物理与化学研究院的 MDGrape3 项目 多型处理器芯片体系结构需要研究的关键问题包括 : (1) 计算的表示和程序执行模型的研究 : 如何对各种不同的应用建立所要做计算的静态表示? 如何提取应用中固有的 ILP,TLP 和 DLP? 16

17 如何在多型结构上重建一个动态的计算并执行该计算? 如何与未来的应用集合如何达到最佳匹配? 如何改进该结构以扩展应用集合? (2) 微体系结构的研究 : 需要什么样的内核构造块 (RISC,DSP,ASIC,ASIP, 图形芯片 )? 需要什么样的存储器? 需要什么样的互联和 I/O? 基本构造模块的粒度应该多大 : 是由数千个细粒度的处理单元组成, 还是只由几个粗粒度的处理器组成? 什么样的处理器和存储器粒度对多型能力更好? (3) 资源重构的研究 : 如何平衡结构资源, 以有效地匹配结构资源和应用特征, 提高资源的利用率? 用于开发各种并行性的 (ILP,TLP,DLP) 资源所占的比例? 优化何种并行性? (4) 软硬接口的研究 : 如何兼容现有的系统和应用? 如何适应未来的系统级环境? 等等 5. 几点启示 以上分析使我们对通用微处理器体系结构的发展方向获得如下一些启示 : (1) 现有的体系结构和微体系结构方法已经跟不上半导体技术的进步, 滥用 了摩尔定律提供给我们的计算潜力 大量的结构复杂性放在了解决计算, 存储, I/O 的速度的平衡设计上, 资源的利用率大幅度下降, 增加资源带来的性能提高越来越少, 使得芯片和系统的体积 功耗 成本急剧增加 我们期望通过改变体系结构和微体系结构方法, 相对延长摩尔定律的使用寿命, 在量子计算 分子计算等新的计算方法还没有成为主流之前, 仍能为应用领域不断提供日益强大的计算能力 (2) 长期以来, 商用通用微处理器芯片几乎是构造各种高性能计算系统无可替代的选择 板级 / 柜级并行系统的体系结构千变万化, 但其核心的微处理器体系结构却长期一成不变, 被动地适应系统级变化的需要, 使得系统设计的复杂性和成本越来越高 要降低系统设计的复杂性和成本, 微体系结构必须改变 针对应用固有的并行性特征设计微体系结构是大幅度提高性能 降低功耗和 17

18 设计复杂性的有效方法 (3) 可重构技术使得 DIY(Do It by Yourself) 各种类型的高效能的微处理器芯片成为可能 可重构计算能匹配半导体技术的进步, 将硬件变成是可 编译 的, 在可编程的介质中提供更大的计算能力和密度, 能在单片系统上以低的硬件复杂度适应包含 ILP TLP 和 DLP 等各种类型的应用, 适应完成各种各样新的任务, 适应现代微处理器设计周期短和变化更新快的要求 我们甚至可以设想可重构技术将带来微处理器芯片前端设计和后制作的根本分离, 这将从根本上改变计算机系统的设计 制造和使用方式 致谢 : 感谢中科院研究生院和中国科大研究生院 03 级和 04 级的研究生们, 在我开设的 处理器体系结构前沿 课程上, 积极参与了对高性能微处理器和存储器体系结构前沿问题的讨论, 完成了探索性的小型课程研究项目 本文的许多认识是参与该课程的两届研究生们共同的研究成果 感谢系统结构室主任唐志敏研究员和 CPU 组的胡伟武研究员, 他们对我的研究工作给予了极大的支持 关心和指导 感谢朱书汉和李文银两位老师, 长期不间断地热心为我提供处理器体系结构相关的国内外研究动态, 研究论文和图书资料等, 大大开拓了我的研究工作思路 感谢冀复生老师逐字逐句地对本文进行了修改 18

水晶分析师

水晶分析师 大数据时代的挑战 产品定位 体系架构 功能特点 大数据处理平台 行业大数据应用 IT 基础设施 数据源 Hadoop Yarn 终端 统一管理和监控中心(Deploy,Configure,monitor,Manage) Master Servers TRS CRYSTAL MPP Flat Files Applications&DBs ETL&DI Products 技术指标 1 TRS

More information

<4D F736F F D20B5DAC8FDCBC4D5C2D7F7D2B5B4F0B0B82E646F63>

<4D F736F F D20B5DAC8FDCBC4D5C2D7F7D2B5B4F0B0B82E646F63> 第三章 Q3 1 1. 省略了 I/O 操作的复杂逻辑, 易实现, 耗费低 ; 2. 可以利用丰富的内存寻址模式实现灵活的 I/O 操作 Q3 2 假设存储单元 ds1 处寄存器地址为 0x2000, 代码如下 #define ds1 0x2000 while ( *ds1 == 0 ) ; Q3 3 假设设备 (dev1) 中有两个寄存器 ds1 和 dd1,dev1 的地址为 0x1000,ds1

More information

投影片 1

投影片 1 2 理 1 2-1 CPU 2-2 CPU 理 2-3 CPU 類 2 什 CPU CPU Central Processing Unit ( 理 ), 理 (Processor), CPU 料 ( 例 ) 邏 ( 例 ),, 若 了 CPU, 3 什 CPU CPU 了, 行, 利 CPU 力 來 行 4 什 CPU 5 2-2-1 CPU CPU 了 (CU, Control Unit) / 邏

More information

册子0906

册子0906 IBM SelectStack ( PMC v2.0 ) 模块化私有云管理平台 是跨主流虚拟化技术的统一资源云管理平台 01 亮点 : 快速可靠地实现集成化 私有云管理平台 02/03 丰富的功能支持企业数据中心云计算 扩展性强 : 简单易用 : 04/05 功能丰富 : 06/07 为什么选择 IBM SelectStack (PMC v2.0)? 快速实现价值 提高创新能力 降低 IT 成本 降低复杂度和风险

More information

第 期 曹 源 等 形式化方法在列车运行控制系统中的应用

第 期 曹 源 等 形式化方法在列车运行控制系统中的应用 第 卷 第 期 年 月 交通运输工程学报 曹 源 唐 涛 徐田华 穆建成 为了确保列车运行控制系统设计和开发的正确性 比较了仿真 测试和形式化 种能够验证 系统设计正确性的方式 根据列车运行控制系统对安全的苛求性 提出了 个与系统安全相关的重要特性 即实时性 混成性 分布 并发 性 反应性 并分析了与这些特性相关的具体形式化方法 通 过对每种形式化方法的数学基础和应用范围的分析和归类 给出了各种方法的优势和不足

More information

1 CPU

1 CPU 2000 Tel 82316285 82317634 Mail liuxd@buaa.edu.cn 1 CPU 2 CPU 7 72 A B 85 15 3 1/2 M301 2~17 : 3/4 1/2 323 IBM PC 1. 2. 3. 1. 2. 3. 1.1 Hardware Software 1.2 M3 M2 M1 1.2 M3 M1 M2 M2 M1 M1 M1 1.2 M3 M1

More information

分层并行计算模型 Loyered Models of Parallel Computation

分层并行计算模型 Loyered Models of Parallel Computation 并行计算 Parallel Computing 主讲人 孙广中 Spring, 2018 2018/3/19 1 / 43 思考题 1 问题 1: 谈谈你所知道的高性能计算与云计算的区别? 问题 2: 并行程序的描述应如何? 与串行程序有什么不同? 问题 3: 如何并行地尽快求解 n 个元素的最大值或排序? 2018/3/19 2 / 43 并行计算 结构 算法 编程 ( 第三版 ) 第一篇并行计算硬件平台

More information

Autodesk Product Design Suite Standard 系统统需求 典型用户户和工作流 Autodesk Product Design Suite Standard 版本为为负责创建非凡凡产品的设计师师和工程师提供供基本方案设计和和制图工具, 以获得令人惊叹叹的产品

Autodesk Product Design Suite Standard 系统统需求 典型用户户和工作流 Autodesk Product Design Suite Standard 版本为为负责创建非凡凡产品的设计师师和工程师提供供基本方案设计和和制图工具, 以获得令人惊叹叹的产品 Autodesk Product Design Suite Standard 20122 系统统需求 典型用户户和工作流 Autodesk Product Design Suite Standard 版本为为负责创建非凡凡产品的设计师师和工程师提供供基本方案设计和和制图工具, 以获得令人惊叹叹的产品设计 Autodesk Product Design Suite Standard 版本包包括以下软件产产品

More information

并行计算

并行计算 并行计算 arallel Computing 主讲人孙广中 Spring, 2016 并行计算 结构 算法 编程 第一篇并行计算的基础 第一章并行计算与并行计算机结构模型 第二章并行计算机系统互连与基本通信操作 第三章典型并行计算机系统介绍 第四章并行计算性能评测 2 第一章并行计算及并行机结构模型 1.1 计算与计算机科学 1.2* 单处理机与指令级并行 1.3* 多核处理器与线程级并行 1.4

More information

东南大学硕士学位论文 LCD 显示中灰度控制机理的研究及电路实现姓名 : 曹志香申请学位级别 : 硕士专业 : 微电子学与固体电子学指导教师 : 孙大有 20040327 LCD 显示中灰度控制机理的研究及电路实现 作者 : 曹志香 学位授予单位 : 东南大学 相似文献 (1 条 ) 1.

More information

<4D F736F F D20C7B0CBC4D5C2D7F7D2B5CCE22E646F6378>

<4D F736F F D20C7B0CBC4D5C2D7F7D2B5CCE22E646F6378> 第一章第二章 Q2 1: 高序 : 最低位字节存储在字的最低位 ; 低序 : 最低位字节存储在字的最高位 ; Q2 2: 冯. 诺依曼结构 : 数据和指令都存储在同一存储器中 ; 哈佛结构 : 数据和程序存储在各自独立的存储器中 Q2 3: a) ARM 有 16 个通用寄存器,r0 r15, 其中 r15 还被用作程序计数器 b) CPSR 是程序状态寄存器, 包含了条件码标识 中断禁止位 当前处理器模式和其他状态

More information

长 安 大 学 硕 士 学 位 论 文 基 于 数 据 仓 库 和 数 据 挖 掘 的 行 为 分 析 研 究 姓 名 : 杨 雅 薇 申 请 学 位 级 别 : 硕 士 专 业 : 计 算 机 软 件 与 理 论 指 导 教 师 : 张 卫 钢 20100530 长安大学硕士学位论文 3 1 3系统架构设计 行为分析数据仓库的应用模型由四部分组成 如图3 3所示

More information

第 卷 第 期 年 月 半 导 体 学 报! " # $%&'%' $!&' #% #$1 /#1 $'! / ?/ ?/ / 3 0,?/ ) * +!!! '!,!! -. & ' $! '! 4% %&1)/1(7%&)03 (% )

第 卷 第 期 年 月 半 导 体 学 报!  # $%&'%' $!&' #% #$1 /#1 $'! / ?/ ?/ / 3 0,?/ ) * +!!! '!,!! -. & ' $! '! 4% %&1)/1(7%&)03 (% ) 第 卷 第 期 年 月!"# $%&'%' $!&'#%#$1/#1 $'! /18103 2?/03101?/18103 /3 0,?/0301.13 )*+!!! '!,!! -.&' $!'! 4%%&1)/1(7%&)03(%)%&,%*(1&0)%$-0*,%30)17*1*)0(+1(1+&1*+*),)1; &113(%44(10&.0701&0-&00*/)%;()1%-1+%&0)0*1*)%

More information

FPGAs in Next Generation Wireless Networks WPChinese

FPGAs in Next Generation Wireless Networks WPChinese FPGA 2010 3 Lattice Semiconductor 5555 Northeast Moore Ct. Hillsboro, Oregon 97124 USA Telephone: (503) 268-8000 www.latticesemi.com 1 FPGAs in Next Generation Wireless Networks GSM GSM-EDGE 384kbps CDMA2000

More information

目录 1 IPv6 快速转发 IPv6 快速转发配置命令 display ipv6 fast-forwarding aging-time display ipv6 fast-forwarding cache ipv6 fas

目录 1 IPv6 快速转发 IPv6 快速转发配置命令 display ipv6 fast-forwarding aging-time display ipv6 fast-forwarding cache ipv6 fas 目录 1 IPv6 快速转发 1-1 1.1 IPv6 快速转发配置命令 1-1 1.1.1 display ipv6 fast-forwarding aging-time 1-1 1.1.2 display ipv6 fast-forwarding cache 1-1 1.1.3 ipv6 fast-forwarding aging-time 1-3 1.1.4 ipv6 fast-forwarding

More information

<4D F736F F F696E74202D DB5DABEC5BDB22DCEA2B4A6C0EDC6F7B5C4D3B2BCFEBDE1B9B9A3A8D2BBA3A92E >

<4D F736F F F696E74202D DB5DABEC5BDB22DCEA2B4A6C0EDC6F7B5C4D3B2BCFEBDE1B9B9A3A8D2BBA3A92E > 第九讲 授课教师 : 陆俊林王箫音 2012 年春季学期 主要内容 一 微处理器的总体结构 二 高速缓存 三 流水线 四 超标量流水线 教材相关章节 : 微型计算机基本原理与应用 ( 第二版 ) 第 7 章微处理器的内部结构及外部功能特性 1 主要内容 一 微处理器的总体结构 二 高速缓存 三 流水线 四 超标量流水线 2 微处理器相关的若干关键设计 总线 : 提高微处理器 存储器和外设之间的传输效率

More information

《嵌入式系统设计》教学大纲

《嵌入式系统设计》教学大纲 多 核 架 构 及 编 程 技 术 教 学 大 纲 课 程 代 码 :20062022071 课 程 负 责 人 : 杨 剑 锋 课 程 中 文 名 称 : 多 核 架 构 及 编 程 技 术 课 程 英 文 名 称 :Multi-Core Architecture and Programming Technologies 课 程 类 别 : 专 业 必 修 课 程 学 分 数 :3 课 程 学 时

More information

<453A5CBDCCD1A72DBFCEB3CC5C C4EAB4BA20B2A2D0D0BCC6CBE35C536C E65775C D E >

<453A5CBDCCD1A72DBFCEB3CC5C C4EAB4BA20B2A2D0D0BCC6CBE35C536C E65775C D E > 并行计算 Parallel Computing 主讲人孙广中 Spring, 2018 国家高性能计算中心 ( 合肥 ) 并行计算, 孙广中 ( 中国科学技术大学, 计算机学院 ) 2018-4-11 并行计算 结构 算法 编程 第一篇并行计算的基础 第一章并行计算与并行计算机结构模型 第二章并行计算机系统互连与基本通信操作 第三章典型并行计算机系统介绍 第四章并行计算性能评测 国家高性能计算中心

More information

李俊新 崔 敏 刘艳春 姚艳君 周广芬 孙 宝 河北科技大学理学院 河北石家庄 滦南县职业教育中心基础部 河北滦南 在物理化学实验的基础上 对一级反应的 种不同数据处理模型进行比较和分析 通过对 实验数据处理模型进行系统的比较 来改善传统实验数据处理中存在的一些问题 从而简化数据处 理 减小作图工作量与作图误差 提升实验水平 提高数据处理结果的准确性 一级反应 数据处理模型 过氧化氢 图 过氧化氢分解实验装置图

More information

教学输入与学习者的语言输出 温晓虹 本文从三个方面探讨了语言的输入与输出的关系 首先从理论研究的角度讨 论了从语言输入到语言输出的习得过程 实验研究表明 输入的语言素材必须被学习者所接收 即使接收了的内容也并不会自动进入中介语的体系 而是需要进一步对输入语言进行 分解 归类等分析性与综合性的处理 在语言 内化 的基础上 学习者的中介语系统才能 够不断地得到重新组合 趋于目的语 另外 学习者在语言输出前和输出时需要调节

More information

帝国CMS下在PHP文件中调用数据库类执行SQL语句实例

帝国CMS下在PHP文件中调用数据库类执行SQL语句实例 帝国 CMS 下在 PHP 文件中调用数据库类执行 SQL 语句实例 这篇文章主要介绍了帝国 CMS 下在 PHP 文件中调用数据库类执行 SQL 语句实例, 本文还详细介绍了帝国 CMS 数据库类中的一些常用方法, 需要的朋友可以参考下 例 1: 连接 MYSQL 数据库例子 (a.php)

More information

并行程序设计基础

并行程序设计基础 1800 1800 学 计 发 软 调 术 计 术 应 软 务 2 1. 论 学 2. 实 验 学 3. 计 学 计 学 计 学 计 动 学 计 学 计 学 计 学 计 学 计 学 计 电 学 3 4 ( 级 计 ) CRAY, 银 I SMP( ) IBM p690 SUN MPP( 规 ) T3E 1000 HP ccnuma( 储 ) SGI Qrigin 统 联 腾 1800, IBM SP2

More information

第五章 重叠、流水和现代处理器技术

第五章 重叠、流水和现代处理器技术 2006 5 l t 1 t 2 t 3 t 4 I: add r1,r2,r3 J: sub r4,r1,r5 : (Hazard) : (Hazard) Instr 1 Instr 2 ( ) Cycle 1 Cycle 2 Cycle 3 Cycle 4 Cycle 5 Cycle 6 Cycle 7 Load Ifetch ALU DMem Instr 1 Ifetch ALU DMem

More information

HD ( ) 18 HD ( ) 18 PC 19 PC 19 PC 20 Leica MC170 HD Leica MC190 HD 22 Leica MC170 HD Leica MC190 HD Leica MC170 HD

HD ( ) 18 HD ( ) 18 PC 19 PC 19 PC 20 Leica MC170 HD Leica MC190 HD 22 Leica MC170 HD Leica MC190 HD Leica MC170 HD Leica MC170 HD Leica MC190 HD 5 6 7 8 11 12 13 14 16 HD ( ) 18 HD ( ) 18 PC 19 PC 19 PC 20 Leica MC170 HD Leica MC190 HD 22 Leica MC170 HD Leica MC190 HD 22 23 24 26 Leica MC170 HD Leica MC190 HD ( ) 28

More information

2009 年第 6 期 高清总动员 35

2009 年第 6 期 高清总动员 35 要说 08 年最成功的高清机, 非三合一 F1/F2 莫属 它集中了国内不同的高清接收需求, 整合了当时能想到的各种功能, 为欣赏高清奥运, 满足高端发烧人士, 做出了贡献 F1/F2 的成功, 说明不依赖进口, 我们也有能力打造顶级的高清机, 并且更适合国内的使用习惯 不过, 即使 F1/F2 的终极版, 也不兼容 ABS-S 或 ISDB-S, 没有网络功能, 不能 USB 录像等等, 有一定的局限性

More information

多核心CPU成長日記.doc

多核心CPU成長日記.doc 篇 名 : 多 核 心 CPU 成 長 日 記 作 者 : 劉 重 安 國 立 溪 湖 高 中 高 三 11 班 趙 芃 凱 國 立 溪 湖 高 中 高 三 11 班 蔡 文 凱 國 立 溪 湖 高 中 高 三 11 班 指 導 老 師 : 潘 秀 欽 老 師 第 1 頁 壹 前 言 微 處 理 器 (CPU, 被 稱 為 中 央 處 理 器 ) 可 說 是 電 腦 系 統 的 大 腦, 掌 管 整

More information

¹ º» ¼ ¹ º» ¼

¹ º» ¼ ¹ º» ¼ 重构后冷战时期的跨大西洋关系 理想与现实 赵怀普 冷战时期以北约为支柱的大西洋联盟构成了美欧关系的基础 但由于双方权力的不对称 美欧联盟关系带有从属性质 冷战结束和欧盟崛起对传统的美欧关系格局带来了强烈冲击 重构后冷战时期的跨大西洋关系成为美欧双方的共同议程 美欧在跨大西洋关系重构问题上的互动和博弈表明 由于双方之间存在着利益和目标上的深刻分歧 短期内并不具备形成一种新的全面和机制化的大西洋伙伴关系的现实基础

More information

目录 1 IPv6 快速转发 IPv6 快速转发配置命令 display ipv6 fast-forwarding aging-time display ipv6 fast-forwarding cache ipv6 fas

目录 1 IPv6 快速转发 IPv6 快速转发配置命令 display ipv6 fast-forwarding aging-time display ipv6 fast-forwarding cache ipv6 fas 目录 1 IPv6 快速转发 1-1 1.1 IPv6 快速转发配置命令 1-1 1.1.1 display ipv6 fast-forwarding aging-time 1-1 1.1.2 display ipv6 fast-forwarding cache 1-1 1.1.3 ipv6 fast-forwarding aging-time 1-3 1.1.4 ipv6 fast-forwarding

More information

! %! &!! % &

! %! &!! % & 张海峰 姚先国 张俊森 借鉴 的有效教育概念 本文利用 年间的中国省级面板数据估计了平均教育年限 教育数量 和平均师生比率 教育质量 对地区 劳动生产率的影响 本文的实证分析结果表明 以师生比率衡量的教育质量对劳动生产 率有显著且稳健的正效应 在均值处师生比率每上升一个标准差 有助于提高地区劳动生产率约 教育数量对劳动生产率的影响大小部分取决于教育质量的高低 教育质量越高教育数量对劳动生产率的促进效应越大

More information

01

01 ZEBRA 技术白皮书 条码编码 101 相关知识介绍 引言 20 70 数据 80 20 90 (JIT) AIAG EIA HIBCC HAZMAT 条码的优势提高数据准确性 99% 85% / / 提升效率 / 2 Zebra Technologies 保持一致性 ID 改进库存和资产管理 成本 / 效益分析 ID ID ID (ERP) RFID Zebra Technologies 3 ID

More information

KV-cache 1 KV-cache Fig.1 WorkflowofKV-cache 2.2 Key-value Key ; Key Mem-cache (FIFO) Value Value Key Mem-cache ( Value 256B 100 MB 20%

KV-cache 1 KV-cache Fig.1 WorkflowofKV-cache 2.2 Key-value Key ; Key Mem-cache (FIFO) Value Value Key Mem-cache ( Value 256B 100 MB 20% 38 11 2013 11 GeomaticsandInformationScienceofWuhanUniversity Vol.38No.11 Nov.2013 :1671-8860(2013)11-1339-05 :A GIS Key-value 1 1 1 1 (1 129 430079) : 设计了一种基于 Key-value 结构的缓存 KV-cache 旨在简化数据结构 高效管理缓存数据

More information

关卫和等 我国压力容器行业 检测技术的应用和进展中国工业检验检测网

关卫和等 我国压力容器行业 检测技术的应用和进展中国工业检验检测网 中国工业检验检测网 http://www.industryinspection.com 合肥通用机械研究院国家压力容器与管道安全工程技术研究中心 合肥 兰州兰石机械制造有限责任公司 兰州 技术是 世纪 年代末期发展起来的一项无损检测技术 在国外压力容器等 行业已得到了广泛的应用 自 年以来 随着国家质检总局特种设备安全监察局 号文的发布 技术在我国压力容器行业的应用有了突飞猛进的发展 年 月 日 固定式压

More information

论中日 囚徒困境 的存在及逃逸 马亚华 本文试图用博弈论方法分析中日关系发生困难的原因 并在此基础上提出一点解决问题的思路 目前中日关系已在重复博弈中陷入了 囚徒困境 状态 囚徒困境 不仅为第三方势力提供了渔利的空间 直接损害了两国战略利益 而且其 溢出效应 还损害了全体东亚人民的利益 只有透过中国和平发展的参照系考察中日关系的过去 现在和未来 才能把握当前中日关系困难的本质并找到解决问题的办法 当前中日两国的综合国力基本处于同一层次

More information

L23

L23 Lecture 26: VLIW & Superscalar 高级流水线技术 高性能流水线 - 指令级并行 (ILP) 技术 超流水线 多发射流水线 - 静态多发射 (VLIW 处理器 + 编译器静态调度 ) - 动态多发射 ( 超标量处理器 + 动态流水线调度 ) 静态多发射 (VLIW- 超长指令字 ) 编译器静态推测完成 指令打包 和 冒险处理 MIPS 2- 发射流水线数据通路 循环展开指令调度

More information

数字带通 带阻 高通滤波器的设计 把一个归一化原型模拟低通滤波器变换成另一个所需类型的模拟滤波器, 再将其数字化 直接从模拟滤波器通过一定的频率变换关系完成所需类型数字滤波器的设计 先设计低通型的数字滤波器, 再用数字频率变化方法将其转换成所需类型数字滤波器

数字带通 带阻 高通滤波器的设计 把一个归一化原型模拟低通滤波器变换成另一个所需类型的模拟滤波器, 再将其数字化 直接从模拟滤波器通过一定的频率变换关系完成所需类型数字滤波器的设计 先设计低通型的数字滤波器, 再用数字频率变化方法将其转换成所需类型数字滤波器 数字带通 带阻 高通滤波器的设计 把一个归一化原型模拟低通滤波器变换成另一个所需类型的模拟滤波器, 再将其数字化 直接从模拟滤波器通过一定的频率变换关系完成所需类型数字滤波器的设计 先设计低通型的数字滤波器, 再用数字频率变化方法将其转换成所需类型数字滤波器 模拟原型方法 : 模拟低通 - 模拟带通 H ( j) H ( j) 3 3 3 模拟原型方法 : 模拟低通 - 模拟带通 H ( j) 模拟低通

More information

对利益冲突问题及其危害性有比较清晰的认识 坚持政企分开原则 禁商为主旋律 适用对象的范围逐渐扩大

对利益冲突问题及其危害性有比较清晰的认识 坚持政企分开原则 禁商为主旋律 适用对象的范围逐渐扩大 我国防止公职人员利益冲突制度的变迁及完善 王琳瑜 杜治洲 北京航空航天大学公共管理学院 北京 改革开放三十余年来 中国防止公职人员利益冲突制度的变迁过程可以划分为探索 发展 加速推进三个阶段 呈现出制度建设的科学化水平不断提高 越来越注重制度的执行力 日趋国际化的发展趋势 进一步完善的制度建设应从四个方面入手 对防止公职人员利益冲突进行立法 重构现有制度并使其系统化 建立有效防止公职人员利益冲突的实施机制以提高制度执行力

More information

第四章 102 图 4唱16 基于图像渲染的理论基础 三张拍摄图像以及它们投影到球面上生成的球面图像 拼图的圆心是相同的 而拼图是由球面图像上的弧线图像组成的 因此我 们称之为同心球拼图 如图 4唱18 所示 这些拼图中半径最大的是圆 Ck 最小的是圆 C0 设圆 Ck 的半径为 r 虚拟相机水平视域为 θ 有 r R sin θ 2 4畅11 由此可见 构造同心球拼图的过程实际上就是对投影图像中的弧线图像

More information

邱 江 吴玉亭 张庆林 西南师范大学心理学院 重庆 选取 个具体内容的条件命题作为实验材料 以小四 初一 高一 大三的学生为被试 探讨了命题内容对青少年条件推理的影响机制及其发展特点 结果表明 对同一年级而言 不同内容的条件命题的相同推理 之间表现出显著的差异 对不同年级而言 相同内容的条件命题的四种推理之间也存在显著的差异 青少年的条件推理过程似乎是一种基于对事件发生概率估计的直觉判断 这一判断过程主要取决于个体知识经验的增长和主体认知水平的提高

More information

,,, ( ) ( ), %, %,,,,,,,,,,,,,,,,,,, %,,,,,,,, :,,,,,,,,,,,,,,,,,,,,,,,,,, ( ),,, :., ( ),,,,,, :,, ( ),,

,,, ( ) ( ), %, %,,,,,,,,,,,,,,,,,,, %,,,,,,,, :,,,,,,,,,,,,,,,,,,,,,,,,,, ( ),,, :., ( ),,,,,, :,, ( ),, * ( ) 葛延风 内容提要 : 中国养老保障制度改革的方向是基金预筹积累的个人帐户制度 在向新制度的转轨过程中, 核心的问题是解决老职工的养老金来源 年以来的改 革没有解决这一问题, 以致于陷入困境 作者认为改革的思路是用国有资产存量偿 还对老职工的养老金负债, 在此基础上建立完全的个人帐户制度 医疗和失业保障 改革也应转换思路 医疗保障制度改革应打破城乡分割问题, 建立城乡一体化的保障体系 失业保障不能通过失业保险解决,

More information

投影片 1

投影片 1 9 1 9-1 Windows XP Windows Server 2003 Mac OS Linux, 都 (OS, Operating System ) 2 3 , 來, 行 3 理 行 4 ,, (UI, User Interface), 滑, 令 列 (CLI, Command-Line Interface) (GUI, Graphical User Interface) 2 5 令 列,

More information

)

) 德 塔尼娅 波泽尔忻! 华译! 伍慧萍校!! 本文旨在探讨现有的 欧洲化 方案究竟在何种程度上超越了欧盟边界 扩展至那些在国内制度的效率和民主合法性方面以 恶治 为特征的东部和东南部邻国 这些 欧洲周边国家 既无意愿 亦未必有能力调整自身以适应欧盟的要求 甚至缺乏入盟动力 不愿承担入盟成本 本文探究当将 欧洲化 概念和因果关联机制运用于此类国家时 需要在多大程度上进行进一步限定 笔者认为 只要欧盟不对那些它并不想接纳为成员的国家调整其

More information

»

» 世纪 年代以来 中国社会的城市化日新月异 全球化的消费社会也开始进入 我们的生活 中国的城市文学趋向活跃 年轻一代的作家表达了对城市的感受和反思 积极地探寻着新的审美表现力 但总体看来 城市文学依然很不充分 作家的视野中并没有深刻和开放的城市精神 文学作品没有找到表现更具有活力的城市生活状况的方式 城市文学依然是一种无法解放和现身的 他者 并且被无限期延搁于主体的历史之侧 城市 现代性 乡土 幽灵化

More information

01

01 Zebra Technologies 白皮书 移动打印给仓储运营带来显著优势 综述 RFID RFID (RF) RFID RFID / ROI LAN 采用移动打印机, 享受显而易见的业务成效 - 49.74 28.11 Zebra 2 Zebra Technologies 移动打印机成本效益分析 示例数据固定式打印机移动打印机每年节省资金 10 10 8 8 48 48 3840 3840 15

More information

论文,,, ( &, ), 1 ( -, : - ), ; (, ), ; ;, ( &, ),,,,,, (, ),,,, (, ) (, ),,, :. : ( ), ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ), ( ),,,, 1 原译作 修补者, 但在英译版本中, 被译作

论文,,, ( &, ), 1 ( -, : - ), ; (, ), ; ;, ( &, ),,,,,, (, ),,,, (, ) (, ),,, :. : ( ), ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ), ( ),,,, 1 原译作 修补者, 但在英译版本中, 被译作 * 夏传玲 : 本文简要回顾了国内外定性研究在最近 多年的发展概况, 总结 了定性研究的六个发展趋势和分析策略上的三种流派 在上述两种背景下, 本文探讨了计算机辅助的定性分析给定性研究带来的机遇和挑战, 特别是它和手工操作对比时的优势和劣势, 以及应用这种定性分析技术所可能面临的困难 : 定性研究定性分析 文化差异,, (, ),,,, ( - ) ( - ) ( - ) ( - ) ( - ) (

More information

CH01.indd

CH01.indd 3D ios Android Windows 10 App Apple icloud Google Wi-Fi 4G 1 ( 3D ) 2 3 4 5 CPU / / 2 6 App UNIX OS X Windows Linux (ios Android Windows 8/8.1/10 BlackBerry OS) 7 ( ZigBee UWB) (IEEE 802.11/a/b/g/n/ad/ac

More information

赵燕菁 #!!!

赵燕菁 #!!! 赵燕菁 城市规划在灾后重建中对于工程技术的关注 很容易掩盖城市灾后重建中看不见的制度因素!!! 产权 城市最基本的制度 原型 # 就是公共产品交易的存在 城市 发达 # 与否 取决于公共产品提供的范围和水平 现代城市和传统城市的最大差别 就是可以以信用的方式 抵押未来的收益 获得公共产品建设所需要的原始资本 市场经济与计划经济最大的差别 就在于高度复杂的产权制度 因此 未来灾区规划中 产权的恢复和重建

More information

人类学理论与实践

人类学理论与实践 阮艳萍 在今天轰轰烈烈的遗产运动中 各类传承和保护主体纷纷登场 除了传统的民间的传承人之外 中央和地方政府 学者 商人 新闻媒体等也都纷纷加入了这场博弈 与数字化技术同步进入这场运动的还有一类新型主体 那就是 数字传承人 他们是民族文化遗产传播 生存和发展的又一类新型主体 他们的数字传承活动 使文化遗产从唯一 不可共享和不可再生的变成了无限 可共享和可再生的 文化遗产 数字传承人 民间传承人 遗产表述

More information

RS Pro 以实惠的价格 提供您所需的品质与性能 细节决定成败 正确的选择可以提高整个组织的效率和生产力 每个决策 每个环节都很重要 因此 RS Pro 为您提供了约 40,000 种产品供您选择 这些产品均经过产品质量测试 专为严苛的制造和工业环境而设计 并在不断推陈出新 RS Pro 深知每个

RS Pro 以实惠的价格 提供您所需的品质与性能 细节决定成败 正确的选择可以提高整个组织的效率和生产力 每个决策 每个环节都很重要 因此 RS Pro 为您提供了约 40,000 种产品供您选择 这些产品均经过产品质量测试 专为严苛的制造和工业环境而设计 并在不断推陈出新 RS Pro 深知每个 china.rs-online.com Every part matters china.rs-online.com/rspro RS Pro 以实惠的价格 提供您所需的品质与性能 细节决定成败 正确的选择可以提高整个组织的效率和生产力 每个决策 每个环节都很重要 因此 RS Pro 为您提供了约 40,000 种产品供您选择 这些产品均经过产品质量测试 专为严苛的制造和工业环境而设计 并在不断推陈出新

More information

( 一 ) 外来农民进入城市的主要方式, %,,,,,, :., 1,, 2., ;,,,,,, 3.,,,,,, ;,,, ;.,,,,,,,,,,,,,,,,,,,,,, :,??,?? ( 二 ) 浙江村 概况.,,,,,, 1,, 2,, 3

( 一 ) 外来农民进入城市的主要方式, %,,,,,, :., 1,, 2., ;,,,,,, 3.,,,,,, ;,,, ;.,,,,,,,,,,,,,,,,,,,,,, :,??,?? ( 二 ) 浙江村 概况.,,,,,, 1,, 2,, 3 : 王汉生刘世定孙立平项飚 本文从农村人口进入城市的方式这一新的视角, 对北京著名的外来农村人口聚 居区 浙江村 的形成过程和基本状况进行了生动描述和深入分析 指出 : 浙江村的独特之处在于它不同于一般意义上的 劳动力 的流动, 它是带着综合性资源的 经营者的流动 浙江村村民进入城市的过程是不断寻找市场和开拓市场的过程, 并 在城市中形成了一个以聚居为基础的产业加工基地, 作者将这种类型的流动称为产

More information

C++ 程序设计 告别 OJ2 - 参考答案 MASTER 2019 年 5 月 3 日 1

C++ 程序设计 告别 OJ2 - 参考答案 MASTER 2019 年 5 月 3 日 1 C++ 程序设计 告别 OJ2 - 参考答案 MASTER 2019 年 5 月 3 日 1 1 TEMPLATE 1 Template 描述 使用模板函数求最大值 使用如下 main 函数对程序进行测试 int main() { double a, b; cin >> a >> b; cout c >> d; cout

More information

:, (.., ) ( ),,,,,,, (. ), ( ) (, ) ( ),, -,, (, ),,,,, ;,,, (, ),,,,,,,,, ( ),,,,,,,,, ;,,,,,,

:, (.., ) ( ),,,,,,, (. ), ( ) (, ) ( ),, -,, (, ),,,,, ;,,, (, ),,,,,,,,, ( ),,,,,,,,, ;,,,,,, * 郭于华 内容提要 : 从饮食这一看似平常却是最基本的生活空间入手, 观察与理解文化的 变迁是一个重要而深刻的视角 本文以对儿童食品与进食的调查分析, 探讨当前社 会代际之间文化传承的特点及变化 研究表明 :. 家庭中的三代人分别具有相对不同的关于食物的知识体系, 他们在选择食品和安排进食过程中所考虑的因素 依据的 标准和观念是不同的, 孩子比其父辈 祖辈带有更明显的现代消费主义特征 ;. 代际

More information

器之 间 向一致时为正 相反时则为负 ③大量电荷的定向移动形成电 流 单个电荷的定向移动同样形成电流 3 电势与电势差 1 陈述概念 电场中某点处 电荷的电势能 E p 与电荷量 q Ep 的比值叫做该点处的电势 表达式为 V 电场中两点之间的 q 电势之差叫做电势差 表达式为 UAB V A VB 2 理解概念 电势差是电场中任意两点之间的电势之差 与参考点的选择无关 电势是反映电场能的性质的物理量

More information

Microsoft PowerPoint - yxu_并行开发概述1

Microsoft PowerPoint - yxu_并行开发概述1 并行计算的概述 上海超级计算中心 什么是并行计算? 运行于单个处理单元 顺序执行 一次执行一条指令 什么是并行计算? 什么是超级计算? 超级计算机 Supercomputer 当前处理能力最强 运算速度最快的一类计算机 超级计算 Supercomputing 利用超级计算机所进行的计算, 通常为了解决普 通计算机所不能完成的大型复杂问题 相对于串行计算 什么是并行计算? 简单说, 是指利用多个部件共同完成计算任务

More information

例 如, 一 个 含 有 2000 个 记 录 的 文 件, 每 个 磁 盘 块 可 容 纳 250 个 记 录, 则 该 文 件 包 含 8 个 磁 盘 块 然 后 对 该 文 件 作 二 路 归 并 的 外 排 序, 每 次 往 内 存 读 入 两 个 磁 盘 块, 排 序 后 再 写 回 磁

例 如, 一 个 含 有 2000 个 记 录 的 文 件, 每 个 磁 盘 块 可 容 纳 250 个 记 录, 则 该 文 件 包 含 8 个 磁 盘 块 然 后 对 该 文 件 作 二 路 归 并 的 外 排 序, 每 次 往 内 存 读 入 两 个 磁 盘 块, 排 序 后 再 写 回 磁 说 明 改 动 的 内 容 很 少, 且 都 是 不 怎 么 重 要 的, 因 此 无 需 过 多 纠 结, 大 家 看 完 后 一 目 了 然 第 6 章 排 序 1 增 加 了 :( 十 ) 外 部 排 序 第 一 部 分 : 数 据 结 构 2 后 面 的 修 改 :( 十 一 ) 各 种 内 部 排 序 算 法 的 比 较 ;( 十 二 ) 内 部 排 序 算 法 的 应 用 外 部 排 序

More information

!!

!! 徐二明 陈 茵 以企业资源基础理论为基础 从企业吸收能力这一概念入手 剖析企业吸收能力与企业竞争优势的关系 研究组织管理机制对企业吸收能力构建和发展的影响 依据吸收能力经典文献对吸收能力的前因进行重新梳理和归类 对现有文献中各种思路有一定的整理和明示作用 通过研究两种吸收能力的 类影响因素 辨识出中国企业在吸收能力培养和发展方面的优势和弱势 通过实证方法全面衡量和验证潜在吸收能力与实际吸收能力两者之间以及两能力与企业竞争优势的关系

More information

* 4 6 R P r p . 1 2 3 4 7 89bk 6 5 1 2 3 4 5 6 7 8 9 0 bk r bl bm bn^ bo bl br bq bpbo bn bm [ ] [ ] [ ] bp 8 2 4 6 bq p [ ] [SET] br clckbt bs bs bt ck cl. 1 2 1 2+- 3 3 . 1 2 3 4 5 6 7 8 9 bk bl bm

More information

HP and Canon 单色通用芯片表 SCC 芯片 图片 HP 700 M712, 700 M725 CF214X (14X) 17.5 HP 5200 Q7516A U16-2CHIP SSS 846 芯片记号 (U16-2) Canon LBP-3500, LBP-3900, LBP-392

HP and Canon 单色通用芯片表 SCC 芯片 图片 HP 700 M712, 700 M725 CF214X (14X) 17.5 HP 5200 Q7516A U16-2CHIP SSS 846 芯片记号 (U16-2) Canon LBP-3500, LBP-3900, LBP-392 HP and Canon 单色通用芯片表在线访问我们的网站, 可以得到更多的信息 : www.scc-inc.com/chipcenter 全部开始都是专利通用芯片一个芯片, 多个不同型号的硒鼓 注意 : 当在这个文档上要寻找一个特殊的 或打印机的型号时, 在你的键盘上同时按 CTRL 键和 F 键就能搜索到 HP and Canon 单色通用芯片表 SCC 芯片 图片 HP 700 M712, 700

More information

RM500 CAT / ECM RM300 2

RM500 CAT / ECM RM300 2 CAT 路面再生机/稳定土拌和机 再生和稳定 RM500 CAT / ECM RM300 2 Cat RM500 RM300 3 4 75 mm 3" HMA 125 mm 5" HMA 75 mm 3" HMA 5 提高土壤承重能力 土壤稳定是指以机械或化学方式改进土壤承重特性的过程 粘性和半粘性原 土壤中掺入了煤灰 波特兰水泥和石灰等添加剂 以提高路基的抗压强度或 降低其可塑性 使用正确的添加剂进行稳定

More information

OOP with Java 通知 Project 4: 4 月 18 日晚 9 点 关于抄袭 没有分数

OOP with Java 通知 Project 4: 4 月 18 日晚 9 点 关于抄袭 没有分数 OOP with Java Yuanbin Wu cs@ecnu OOP with Java 通知 Project 4: 4 月 18 日晚 9 点 关于抄袭 没有分数 复习 类的复用 组合 (composition): has-a 关系 class MyType { public int i; public double d; public char c; public void set(double

More information

! " # " " $ % " " # # " $ " # " #! " $ "!" # "# # #! &$! ( % "!!! )$ % " (!!!! *$ ( % " (!!!! +$ % " #! $!, $ $ $ $ $ $ $, $ $ "--. %/ % $ %% " $ "--/

!  #   $ %   # #  $  #  #!  $ ! # # # #! &$! ( % !!! )$ %  (!!!! *$ ( %  (!!!! +$ %  #! $!, $ $ $ $ $ $ $, $ $ --. %/ % $ %%  $ --/ "##$ "% "##& " "##( )$ "##%! ) "##$ * "##( "##$ "##(!!!!!!!!! ! " # " " $ % " " # # " $ " # " #! " $ "!" # "# # #! &$! ( % "!!! )$ % " (!!!! *$ ( % " (!!!! +$ % " #! $!, $ $ $ $ $ $ $, $ $ "--. %/ % $

More information

ebook105-12

ebook105-12 12 12.1 C P U T x X T y Y T x >T y Y P XY Y X P x = 1 / T x P y = 1 / T y ( 1 2-1 ) P y > P x ( 1 2-2 ) C P U = # 12.2 334 C P U 12-1 a I F I D E X E M E M W B C P U 12-1 b C P U C P U t i n s t t i n

More information

untitled

untitled ( ) 2005 2 27 1 70 :SSI(Small Scale Integration), 1 10,MSI (Medium Scale Integration),,, 80 LSI(Large Scale Integration),, 16,Motoral M68000(7 ),Intel 80286 (12.5 ),80386 (27.5 ) 90 : VLSI(Very Large Scale

More information

附件2

附件2 附 件 2 辽 宁 省 普 通 高 等 学 校 本 科 优 势 特 色 专 业 申 报 书 专 业 名 称 : 软 件 工 程 专 业 代 码 : 080902 推 荐 学 校 ( 公 章 ): 大 连 交 通 大 学 推 荐 学 校 代 码 : 10150 专 业 带 头 人 : 梁 旭 联 系 电 话 ( 手 机 ): 13842899132 辽 宁 省 教 育 厅 制 2015 年 6 月 一

More information

I 元器件上市公司经济状况分析及年度展望

I  元器件上市公司经济状况分析及年度展望 2002 1 2002 5 WWW.CEI.GOV.CN 2001-2005 2005 3000 2010 7500 : : : 21 1 FAX 010 68558370 2 FAX 010 68558370 I.. 2...2...3...7...8 2002...9 II..11...11...12...17...21...23 III.26...26...27...27...27 1 2001...3

More information

西铁城电子 设备解决方案 Citizen Electronics Device Solutions 以高附加值的电子设备 来支持持续进化的产品开发 We support the development of evolving equipment with value-added electronic

西铁城电子 设备解决方案 Citizen Electronics Device Solutions 以高附加值的电子设备 来支持持续进化的产品开发 We support the development of evolving equipment with value-added electronic 西铁城电子 设备解决方案 Citizen Electronics Device Solutions 以高附加值的电子设备 来支持持续进化的产品开发 We support the development of evolving equipment with value-added electronic devices. 当今的电子设备市场要求产品的开发必须不断地创新 西铁城电子 在LED 开关 传感器及背光元件等领域可以为客户提供高品质

More information

CPU CPU Intel CPU AMD CPU CPU Socket A/Socket 370 CPU Socket 478 CPU CPU CPU CPU CPU

CPU CPU Intel CPU AMD CPU CPU Socket A/Socket 370 CPU Socket 478 CPU CPU CPU CPU CPU --- CPU CPU Intel CPU AMD CPU CPU Socket A/Socket 370 CPU Socket 478 CPU CPU CPU CPU CPU 2.1 CPU 1. 4 Intel 4004 1971 Intel 4004 2-1 2-1 Intel 4004 2. 8 Intel 8008/8080/8085 1972 Intel 8008 2-2 2-2 Intel

More information

,,, PCB, AR M VxWorks DSP,,,,,,,,,,, (CIP) /,,.:,2005 ISBN TP36 CIP (2005) : ( 10 ) : : (010 ) : (010)

,,, PCB, AR M VxWorks DSP,,,,,,,,,,, (CIP) /,,.:,2005 ISBN TP36 CIP (2005) : ( 10 ) : : (010 ) : (010) ,,, PCB, AR M VxWorks DSP,,,,,,,,,,, (CIP) /,,.:,2005 ISBN 7-5635-1099-0...............TP36 CIP (2005)076733 : ( 10 ) :100876 : (010 )62282185 : (010)62283578 : publish@bupt.edu.cn : : : 787 mm960 mm 1/

More information

Ps22Pdf

Ps22Pdf ( ) ( 150 ) 25 15 20 40 ( 25, 1, 25 ), 1. A. B. C. D. 2. A. B. C. D. 3., J = 1 H = 1 ( A B, J', J, H ) A. A = B = 1, J' =0 B. A = B = J' =1 C. A = J' =1, B =0 D. B = J' = 1, A = 0 4. AB + AB A. AB B. AB

More information

NX Nastran: 适于产品创新的新一代 CAE 系统 eds.com/products/plm/ds NX Nastran 优化工程最佳实践, 并与 NX 的世界级数字化原型开发和仿真能力结合起来, 以帮助企业降低产品全生命周期的成本, 获得竞争优势 NX PLM Solutions

NX Nastran: 适于产品创新的新一代 CAE 系统 eds.com/products/plm/ds NX Nastran 优化工程最佳实践, 并与 NX 的世界级数字化原型开发和仿真能力结合起来, 以帮助企业降低产品全生命周期的成本, 获得竞争优势 NX PLM Solutions NX Nastran: 适于产品创新的新一代 CAE 系统 eds.com/products/plm/ds NX Nastran 优化工程最佳实践, 并与 NX 的世界级数字化原型开发和仿真能力结合起来, 以帮助企业降低产品全生命周期的成本, 获得竞争优势 NX PLM Solutions bap!"#$%&' bap=mij=pçäìíáçåë!"#!"#!"#$%&!"#!"#$%&!"#bap!"#$%!"#$%&'()*+,!"#$%&'()*+,!"#$%&'()

More information

非营利组织专职人员专业化问题研究

非营利组织专职人员专业化问题研究 湖南师范大学硕士学位论文非营利组织专职人员专业化问题研究姓名 : 罗拾平申请学位级别 : 硕士专业 : 社会学指导教师 : 陈成文 20080501 非营利组织专职人员专业化问题研究 作者 : 罗拾平 学位授予单位 : 湖南师范大学 相似文献 (1 条

More information

chx10_arch02_ilp.ppt [兼容模式]

chx10_arch02_ilp.ppt [兼容模式] 高等计算机系统结构 指令级并行处理 ( 第二讲 ) 程旭 2010 年 3 月 29 日 复习 : 三种数据冒险 对于执行如下类型的指令序列 : r k (r i ) op (r j ) 真数据相关 (True Data-dependence) r 3 (r 1 ) op (r 2 ) Read-after-Write r 5 (r 3 ) op (r 4 ) (RAW) hazard 反相关 (Anti-dependence)

More information

BPR JIT

BPR JIT 1. ERP POS. 1) POS 2) POS 3) 1 4) 5) 6) 7) 8) 9) 10) 11) 12) 13) 14 POS 1.3 2. 2001 5 2001 5 30 2001 6 20 2001 7 20 2001 7 25 2001 8 25 21 2001 9 25 2001 10 25 2001 11 1 2002 7 3. 1 BPR 2 3 4 5 JIT 4.

More information

中国科学技术大学博士学位论文指针逻辑的扩展与应用姓名 : 王志芳申请学位级别 : 博士专业 : 计算机软件与理论指导教师 : 陈意云 20090401 指针逻辑的扩展与应用 作者 : 王志芳 学位授予单位

More information

エスポラージュ株式会社 住所 : 東京都江東区大島 東急ドエルアルス大島 HP: ******************* * 关于 Java 测试试题 ******

エスポラージュ株式会社 住所 : 東京都江東区大島 東急ドエルアルス大島 HP:  ******************* * 关于 Java 测试试题 ****** ******************* * 关于 Java 测试试题 ******************* 問 1 运行下面的程序, 选出一个正确的运行结果 public class Sample { public static void main(string[] args) { int[] test = { 1, 2, 3, 4, 5 ; for(int i = 1 ; i System.out.print(test[i]);

More information

Intel® Core2™ i7 Processor

Intel® Core2™ i7 Processor Intel CPU 的 演 進 及 Core2 i7/i5/i3 處 理 器 架 構 之 探 討 報 告 人 : 資 訊 工 程 系 俞 朝 福 中 華 民 國 九 十 九 年 三 月 三 十 一 日 1 PART I Intel 處 理 器 的 演 進 1971~2010 走 過 處 理 器 40 年 2 Intel CPU Pre-x86 4004-- 全 球 第 一 款 微 處 理 器, 於

More information

工程项目进度管理 西北工业大学管理学院 黄柯鑫博士 甘特图 A B C D E F G 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 甘特图的优点 : 直观明了 ( 图形化概要 ); 简单易懂 ( 易于理解 ); 应用广泛 ( 技术通用 ) 甘特图的缺点 : 不能清晰表示活动间的逻辑关系 WBS 责任分配矩阵 ( 负责〇审批

More information

欧盟与欧盟属下的民族国家 刘 泓 本文试图从民族学与人类学的角度审视欧洲人从分散走向联合的步伐 剖析作为新型人们共同体的欧盟的权力 属性与组织功能 阐释欧盟属下民族国家的发展状况 研讨人们共同体的未来发展方向 文章认为 建立欧盟是欧洲人的一种理性选择 欧盟是一个兼有超国家政治成分和政府间政治成分的区域性人们共同体 欧盟的超国家机构服务于跨国社会的利益 致力于超国家的治理 其成员国政府的长期利益将日益屈服于跨国社会的长期利益

More information

<4D6963726F736F667420576F7264202D20C7B6C8EBCABDCFB5CDB3C9E8BCC6CAA6BFBCCAD4B4F3B8D92E646F63>

<4D6963726F736F667420576F7264202D20C7B6C8EBCABDCFB5CDB3C9E8BCC6CAA6BFBCCAD4B4F3B8D92E646F63> 嵌 入 式 系 统 设 计 师 考 试 大 纲 一 考 试 说 明 1 考 试 要 求 : (1) 掌 握 科 学 基 础 知 识 ; (2) 掌 握 嵌 入 式 系 统 的 硬 件 软 件 知 识 ; (3) 掌 握 嵌 入 式 系 统 分 析 的 方 法 ; (4) 掌 握 嵌 入 式 系 统 设 计 与 开 发 的 方 法 及 步 骤 ; (5) 掌 握 嵌 入 式 系 统 实 施 的 方 法

More information

Ch03_嵌入式作業系統建置_01

Ch03_嵌入式作業系統建置_01 Chapter 3 CPU Motorola DragonBall ( Palm PDA) MIPS ( CPU) Hitachi SH (Sega DreamCast CPU) ARM StrongARM CPU CPU RISC (reduced instruction set computer ) CISC (complex instruction set computer ) DSP(digital

More information

untitled

untitled : 36 236 : (025)52121888 : (025)52121555/800 8289722 : 211100 h t t p://www.phoenixcontact.com.cn e-mail: phoenix@phoenixcontact.com.cn MNR 52005577/07.04.2010-01 Printed in China PHOENIX CONTACT 2010

More information

PowerPoint Presentation

PowerPoint Presentation 并行计算 十三 并行程序设计基础 并行程序设计基础 13.1 并行程序设计概述 13.2 并行程序设计模型 并行程序设计难的原因 技术先行, 缺乏理论指导 程序的语法 / 语义复杂, 需要用户自已处理 任务 / 数据的划分 / 分配 数据交换 同步和互斥 并行语言缺乏代可扩展和异构可扩展, 程序移植困难, 重写代码难度太大 环境和工具缺乏较长的生长期, 缺乏代可扩展和异构可扩展 并行语言的构造方法

More information

计算机科学与技术学院 2016 级通信工程 学年教学计划 班级 : 通信 1601, 通信 1602 人数 :67 第一学期 课程性质课程名称学分总学时讲课实验实践上机讨论开课学院备注 选修 选修 通信类专业写作 计算机科学与技术学院 选修通信系统实验 3.0

计算机科学与技术学院 2016 级通信工程 学年教学计划 班级 : 通信 1601, 通信 1602 人数 :67 第一学期 课程性质课程名称学分总学时讲课实验实践上机讨论开课学院备注 选修 选修 通信类专业写作 计算机科学与技术学院 选修通信系统实验 3.0 计算机科学与技术学院 2016 级通信工程 2019-2020 学年教学计划 班级 : 通信 1601, 通信 1602 人数 :67 通信类专业写作 1.0 16 16 计算机科学与技术学院 通信系统实验 3.0 93 10 60 3 20 计算机科学与技术学院 云计算 2.0 32 28 4 计算机科学与技术学院 物联网技术 2.0 32 32 计算机科学与技术学院 小计 : 8 大学体育测试

More information

自然科学版 预处理 视盘粗定位 视盘垂直坐标的粗定位 视盘水平坐标的粗定位

自然科学版 预处理 视盘粗定位 视盘垂直坐标的粗定位 视盘水平坐标的粗定位 自然科学版 文章编号 视网膜图像中视盘的快速自动定位方法 赵晓芳 林土胜 李碧 摘 要 基于眼底视网膜血管的分布结构及视盘本身的特点 提出一种快速自动定位视盘的方法 首先根据视网膜血管的网络分布结构大致定位视盘的垂直坐标 然后根据视盘 的亮度信息及视盘与血管的关系来定位视盘的水平坐标 最后把视盘限定在以粗定位的视盘为中心的一个小窗口内 用 变换精确定位视盘中心 该方法不需要事先分割视网膜血管 也不需要对算法进行训练

More information

Conductix-Wampfler Inductive Power Transfer IPT 2

Conductix-Wampfler Inductive Power Transfer IPT 2 IPT 产品简介 非接触式动力和数据传输系统 Conductix-Wampfler Inductive Power Transfer IPT 2 Conductix-Wampfler Inductive Power Transfer IPT 3 9 1 2 3 4 5 6 7 8 4 2 3 4 1 8 5 7 9 6 ² ² ² - 无限的应用可能性... 用于变速箱总装线上的 AGV 小车

More information

µÚ¶þÕ µ¥´¦ÀíÆ÷Ìåϵ½á¹¹

µÚ¶þÕ  µ¥´¦ÀíÆ÷Ìåϵ½á¹¹ 第二章 单处理器体系结构 石教英 2.1 Intel80x86 处理器体系结构综述 (1) CISC 体系结构 计算机自 40 年代中叶问世以来, 其体系结构的发展经历了 : 简单 复杂 极其复杂 简单 复杂 极其复杂 接线控制器, 速度作数不定:0-6 个; 操作数种类十几种; 寻址方设计, 以便于修改, 纠指令数增加; 寻址方式增加; 指令格式复杂指令数少: 加法和转移令数增加; CPI 接近于1;

More information

<4D6963726F736F667420576F7264202D20B8DFB5C8D1A7D0A3B1BEBFC6CEEFC1AACDF8B9A4B3CCD7A8D2B5D3A6D3C3D0CDC8CBB2C5C5E0D1F8D6B8B5BCD2E2BCFBA3A832303136B0E6A3A92E646F6378>

<4D6963726F736F667420576F7264202D20B8DFB5C8D1A7D0A3B1BEBFC6CEEFC1AACDF8B9A4B3CCD7A8D2B5D3A6D3C3D0CDC8CBB2C5C5E0D1F8D6B8B5BCD2E2BCFBA3A832303136B0E6A3A92E646F6378> 高 等 校 本 科 物 联 网 工 程 专 业 应 用 型 人 才 培 养 指 导 意 见 (2016 版 ) 高 等 校 本 科 计 算 机 类 专 业 应 用 型 人 才 培 养 研 究 项 目 物 联 网 工 程 专 业 工 作 组 序 随 着 信 息 化 社 会 的 发 展, 计 算 机 技 术 越 来 越 重 要, 信 息 产 业 成 为 世 界 第 一 大 产 业 信 息 技 术 的

More information

C++ 程序设计 告别 OJ1 - 参考答案 MASTER 2019 年 5 月 3 日 1

C++ 程序设计 告别 OJ1 - 参考答案 MASTER 2019 年 5 月 3 日 1 C++ 程序设计 告别 OJ1 - 参考答案 MASTER 2019 年 月 3 日 1 1 INPUTOUTPUT 1 InputOutput 题目描述 用 cin 输入你的姓名 ( 没有空格 ) 和年龄 ( 整数 ), 并用 cout 输出 输入输出符合以下范例 输入 master 999 输出 I am master, 999 years old. 注意 "," 后面有一个空格,"." 结束,

More information

计算机组织与系统结构

计算机组织与系统结构 高等计算机系统结构 指令级并行处理 ( 第二讲 ) 程旭 2012 年 3 月 5 日 复习 : 三种数据冒险 对于执行如下类型的指令序列 : r k (r i ) op (r j ) 真数据相关 (True Data-dependence) r 3 (r 1 ) op (r 2 ) r 5 (r 3 ) op (r 4 ) Read-after-Write (RAW) hazard 反相关 (Anti-dependence)

More information

数字信号处理 第五章06 IIR数字滤波器-频率变换2.ppt [兼容模式]

数字信号处理 第五章06 IIR数字滤波器-频率变换2.ppt [兼容模式] 数字信号处理 周治国 05. 第五章数字滤波器 IIR 数字滤波器的频率变换 数字带通 带阻 高通滤波器的设计 把一个归一化原型模拟低通滤波器变换成另一个所需类型的模拟滤波器, 再将其数字化 直接从模拟滤波器通过一定的频率变换关系完成所需类型数字滤波器的设计 先设计低通型的数字滤波器, 再用数字频率变化方法将其转换成所需类型数字滤波器 模拟原型 模拟 - 模拟频带变换 模拟带通带阻高通 数字化 数字带通带阻高通

More information

é ê

é ê 廖光洪 朱小华 杨成浩 徐晓华 基于南海 年夏季调查航次诊断计算的流函数场 选取越南以东偶极子发生海域 进行 不同的声层析观测站位设置实验 模拟计算声线传播时间信息 然后应用基函数重建方法进行了 流函数场的模拟反演研究 讨论了不同随机观测误差对反演结果的影响 研究结果表明该方法是 可行的 在所选取的约 海域内 在观测海域外围配置 个声层析观测站位就能够很好地重构原流函数场 空间分辨率约为 可以分辨模拟海域中尺度涡场结构

More information

CHCN_8-14_K.indd

CHCN_8-14_K.indd 是德科技 三个理由让您选择深存储快响应示波器 应用指南 介绍 1. 更长的波形捕获时间 = / 1 1 Mpts 10 GSa/s 1 2 100 Mpts 10 1. = / 1 Mpts 10 GSa/s 1 ms 2. = / 100 Mpts 10 GSa/s 10 ms 3 12.5 Mpts 3 300 Kpts 3 3. 3 12.5 Mpts 3 300 Kpts? Agilent

More information

¸ß¼¶¼ÆËã»úÌåϵ½á¹¹

¸ß¼¶¼ÆËã»úÌåϵ½á¹¹ 第三章 高级流水线与指令级并行 石教英 内容提要及与各节的关系 (1) 流水线技术就是指令重叠执行技术, 达到加快运算速度的目的 由于存在三种流水线竞争 : 结构竞争 数据竞争 控制竞争, 导致流水线性能降低, 不能运作在理想的重叠状态, 需要插入停顿周期, 从而使流水线性能降低 --3.1 流水线技术基础 内容提要及与各节的关系 (2) 指令之间可重叠执行性称为指令级并行性 (Instruction

More information

2017創形パンフ表1_表4

2017創形パンフ表1_表4 2017 SCHOOL GUIDE BOOK 2017 SOKEI ACADEMY OF FINE ART & DESIGN 关于创形美术学校? 创形美术学校是培育专业艺术家的摇篮 大家知道 : 用普通的教育课程来培育专业的艺术家是件困难的事 在我们创形, 从老师到办公人员, 大家全体都是专业的艺术家 在美术界, 设计界当中取得卓越成绩的艺术家们将为大家面对面地传授心得 我们重视的并不是通过指定的教学说明书来指导大家,

More information

02 看 見 躍 動 的 創 新 力 量 04 矽 數 十 年 金 矽 創 意 十 年 有 成 16 築 夢 之 際 18 20 22 24 26 28 30 32 34 36 38 你 所 不 知 道 的 金 矽 獎 40 樂 在 其 中

02 看 見 躍 動 的 創 新 力 量 04 矽 數 十 年 金 矽 創 意 十 年 有 成 16 築 夢 之 際 18 20 22 24 26 28 30 32 34 36 38 你 所 不 知 道 的 金 矽 獎 40 樂 在 其 中 02 看 見 躍 動 的 創 新 力 量 04 矽 數 十 年 金 矽 創 意 十 年 有 成 16 築 夢 之 際 18 20 22 24 26 28 30 32 34 36 38 你 所 不 知 道 的 金 矽 獎 40 樂 在 其 中 我 們 相 信, 科 技 創 新 是 影 響 台 灣 競 爭 力 的 主 軸, 而 培 育 國 內 高 科 技 人 才, 正 是 金 矽 獎 創 辦 的 理 念

More information

* r p . 4 6 12 3 5 7 8 9bk bm btbsbrbqbp bo bn bl [ ] [ ] [ ] [ ] [SET] 1 2 3 4 5 6 7. cmcl ck 8 9 0 bk bl bm bn bo 1 2 1 2+ - bp bq 8 2 4 6 br r bs p bt ck cl cm 3 3 . 1 2 3 4 5 6 7 8 9 bk bl bm

More information

图 物理模型

图 物理模型 熊可嘉 王 伟 张万平 同济大学汽车学院 上海 奇瑞汽车有限公司 安徽芜湖 采用 算法 紊流模型 考虑了自然对流换热的影响 应用整体求解法计算气固耦合传热问题 讨论了固体壁面间辐射对计算的影响 结果表明 固壁辐射对处于低流速区域的壁 面温度有较大影响 不应忽略 进 回风口的布置不仅影响车室内气流速度和温度的具体数值大 小 而且决定了整个流场和温度场的分布结构 轿车 热舒适性 计算 固壁辐射 图 物理模型

More information

Microsoft PowerPoint - RT0950_EliminatingRubyGILthroughHTM_Slides_ja.ppt

Microsoft PowerPoint - RT0950_EliminatingRubyGILthroughHTM_Slides_ja.ppt Ruby, Jose G. Castanos IBM Research Watson Research Center Ruby Python JIT Rubinius ytljit PyPy Fiorano HPC Ruby 1 2 (HTM) TM TM Sun Microsystems Blue Gene/Q 2012 Rock Processor Intel zec12 2012 Transactional

More information

第6章

第6章 计算机体系结构 周学海 xhzhou@ustc.edu.cn 0551-63606864 中国科学技术大学 05/15-Review GPU: 多线程协处理器 GPU 编程模型 :SPMD (Single Program Multiple Data) 使用线程 (SPMD 编程模型 ), 不是用 SIMD 指令编程 每个线程执行同样的代码, 但操作不同的数据元素 每个线程有自己的上下文 ( 即可以独立地启动

More information

近代日本的兴亚主义思潮与兴亚会 # # # # # ( ( ( ( ( ( ( ( )

近代日本的兴亚主义思潮与兴亚会 # # # # # ( ( ( ( ( ( ( ( ) 戚其章 世纪 年代 日本国内兴起了一股兴亚思潮 对此后的中日关系产生过重大的影响 这是近代中日关系上非常值得研究的重大问题 但也是一个十分庞大而复杂的课题 对此 近年来研究者颇不乏人 多谓兴亚主义的主流是应该肯定的 窃不谓然 本文认为 对兴亚主义须作具体分析 应肯定的只是其中的个别派别 其主流是不能肯定的 至于大力推动兴亚主义的兴亚会 不但不是所谓 民间组织或 民间对清友好组织 而是由日本外务省直接掌控和主导

More information

本文通过对世界体育运动发展的历史与现实的研究 提出了体能文 化的概念 论述了体能文化的国际化和民族性及其对人类社会政治 经济 文化和社 会生活多方面的影响 文章指出 国际竞技体育运动是 世纪以来人类社会生活全 球化的先导 是当代世界各民族 各国家和平共处 平等参与 公平竞争机制实现程度最高的国际事务 是人类社会国际化进程中民族文化多样性实现整合的范例 是展望 新世纪人类社会文明范式的着眼点 同时提示了进行体育人类学研究的必要性和重

More information