程序通过编译生成CPU可执行的程序出讲机器码进行运算,为此设计者在CPU指令执行的员必U优原理编排上做了许多优化工作。本文将从多程序调度执行指令的化秘角度,对CPU指令执行的籍深解设计理念进行剖析
,希望对你有帮助
。入浅 我们首先回顾一下一条指令的执行过程: 这些不同的动作都会交由不同的执行电路执行
,我们以单核CPU为例剖析一下该过程 ,源码下载程序出讲假设我们有4条执行指令,员必U优原理对应的化秘步骤为 : 假设每条指令执行一个步骤需要1ns,那么
: 从CPU微观的角度来说,这就是入浅一种串行的、单位时间内未能充分利用电路单元的令流流水线设计
: 为了解决这个问题,我们需要进行优化。水线上文提及,程序出讲每条步骤都会对应一个电路,模板下载这意味着它们可以并行执行而不冲突。因此,我们可以采用流水线思想
,尽可能地利用各个电路单元 。例如,现在要执行指令1~4,对应的流水线设计思路为: 按照这种设计
,指令1执行完成即4ns的时候 ,对应其它指令执行进度为 : 因为这三条指令是流水线方式执行的,所以在指令4执行完成之后,其它指令也就全部执行完成了
,亿华云最终耗时约为7ns
。相比于完全的串行执行(16ns)
,性能提升了约56%
。 基于这个指令流水线的思想,我们可以看出通过分级流水线的方式 ,可以在单位时间内更多更好的利用到资源保证指令的高效执行
,所以我们是否可以尝试分更多的等级
,加深流水线的高防服务器深度 ,让需要指令的指令更早的加入流水线,保证单位时间内可以容纳更多的指令
,来提升单核CPU的吞吐量 。 假设我们将4个步骤拆分为8个步骤
,每个执行0.5ns,带入之前的4条指令的执行步骤为: 和多线程上下文切换开销一样 ,盲目的增加的电路设备散列工作提升流水线并行度始终会因为过多的电路功耗而出现新的性能瓶颈,所以对于流水线深度设计并不是设置越多越好,而是需要通过压测来平衡流水线级数和功耗。 同时
,上述的情况还是理想情况
,实际上指令的执行并非是串行独立的
,可能指令1执行时需要内存资源 ,指令2也需要这个内存资源,此时的并行就必须存在一方阻塞等待一方用完才能使用,同理对应的竞争存在
: 上文提到的数据冒险和结构冒险都会使CPU电路单元因依赖问题初导致流水线阻塞停顿,导致CPU未能得到充分的利用,于是设计者们就考虑是否存在一种方式可以通过进一步提升CPU利用率从而提升性能表现。 于是就有了乱序执行的设计理念 ,即没有关联性的指令可以预先执行等待使用,如下代码所示,按照原有的流水线设计,整体运算思路为: 在乱序执行的设计思路下
,因num3并不存在依赖性问题
,我们完全可以在代码段2阻塞期间,即: 有了上述的思路 ,我们就需要思考这样一个问题?如何确定指令间的依赖性
?答案是加一层缓存
,我们都知道指令执行的顺序为: 查看该指令是否存在依赖,只需在指令译码和alu执行单元之间加一层缓存我们称为保留站,在译码后通过这层缓存记录当前指令是否有依赖的数据 ?是否依赖硬件且硬件是否忙碌?需要读写的寄存器是哪些?通过这些信息将指令进行归类,执行单元就可以基于这些信息预先执行一些没有依赖性的指令,然后在指令重排序阶段将乱序指令结果重排序输出,从而提升cpu单位时间的吞吐量和利用率: 解决指令乱序执行的依赖性问题,还剩下一个寄存器冲突问题
,即多条指令执行时都依赖于一个寄存器导致阻塞停顿怎么办?CPU还是采用了空间换时间的思路 ,即在内部生产无数寄存器,在指令进入保留站之前预先将其分配映射到内部寄存器中,即执行操作时用到的寄存器都是这些内部寄存器
,然后在重排序缓冲区将指令按顺序排列后存到外部寄存器完成数据回写工作 ,整个过程内部的乱序高效执行,但是对外确是透明让人感觉是顺序执行的一样,由此解决的结构冒险(硬件资源竞争)和数据冒险(后执行的指令依赖于前一条指令的结果)问题,这也就是java并发编程中的as-if-serial思想: CPU流水线技术是现代处理器设计中的核心优化手段
,通过将指令执行过程分解为多个独立的阶段 ,并允许不同指令在不同阶段并行执行,显著提升了CPU的指令吞吐量 。本文从指令串行执行的低效性出发,介绍了流水线设计的基本思想,通过具体的数据计算展示了流水线相比串行执行的巨大性能优势。 同时,我们也了解到流水线设计并非没有代价。随着流水线级数的增加
,虽然理论上可以提高性能
,但也会带来硬件复杂度增加、功耗上升以及各种冒险问题 。因此,CPU设计者需要在流水线深度、硬件资源和性能之间找到平衡点。 基于流水线的设计,我们增加一层保留站和内部寄存器,使得流水线指令可以通过依赖性检测优先执行一些没有依赖性的指令
,然后将结果顺序写回外部寄存器,使得外部看起来指令顺序执行的一样的
。
一、令流CPU 指令流水线设计的水线艺术
1. 指令串行化二、乱序指令CPU指令
1. 乱序执行的设计理念三
、小结