论文部分内容阅读
保证电路的“时序安全”-电路中时序路径的时延变化不引起同步失效-是确保电路可靠工作的基本条件之一。然而,随着制造工艺持续向纳米尺度推进,确保时序安全变得愈发困难和代价高昂,使其成为集成电路领域重要的研究课题。本文旨在克服这些不利因素对时序安全带来的挑战。本文主要贡献有:
1.提出基于信号稳定性侦测的时序偏差在线检测方法。通过分析故障影响下的信号行为,提出了一种统一的故障模型-信号稳定性侵犯(Stability Violation)。该模型可以同时对影响芯片运行时可靠性的几类主要故障(软错误、老化时延及时延故障)进行统一的建模。我们基于该模型进而提出一种新的故障检测模型,称为SVFD。该检测模型一方面扩展了已有的在线时延故障检测的能力,使其可以用于检测电路的老化时延,另一方面也为软错误的检测提供一种全新的检测手段,突破了传统的电路级软错误检测大都只能通过检错码或多模冗余的检测思路。实验结果表明,我们的方法在获得多类故障检测能力的前提下,其功耗与面积的开销均小于基于冗余的软错误检测方案的开销。而且,除了常规的故障检测功能,该方法还可以用于预测老化程度,以及预测动态电压、频率调节(DVFS)过程中潜在的时序故障,具有广泛的应用前景。
2.提出一种动态细粒度(路径粒度)的时序偏差容忍方法。容忍时序偏差本质上就是在不破坏其它路径的时序安全的前提下为某些关键时序路径分配额外的时序余量(Timing Margin)。我们提出了一种“动态,细粒度”的设计模式解决之前“静态,细粒度”的方法不能应对芯片运行过程中的时序动态变化,而“动态,粗粒度”的方法以芯片整体性能为代价,效率低下这一矛盾。我们发现绝大多数的电路都蕴藏了丰富的路径粒度的时序余量。结合前面提出的在线时序偏差检测方法,通过动态调节电路中的某些定时单元的时钟来利用这些细粒度的时序余量。据此,我们提出两个针对不同应用新结构:1)ReviveNet结构,利用局部时序调整来容忍老化导致的时序偏差;在最大程度避免芯片性能降级的前提下,延长芯片的生命期可靠性达49%。2)MicroFix结构,针对DVFS导致的电路时延变化,提出更为系统的“时序内插”(Timing Interpolation)技术来开发电路中细粒度的时序余量,改进现有的DVFS方案。实验结果表明,与理想的动态粗粒度DVFS结构相比,MicroFix的采用平均可以降低20%的电路功耗。
3.提出利用核间互补效应来协同优化PVT偏差导致的时序偏差方法。其中,PVT偏差是制造工艺偏差、电压瞬变及温度波动的总称。PVT导致的时序偏差将直接造成处理器的运行失效,从而导致系统整体的吞吐量损失。我们发现造成时序偏差的这三类原因并不总是同时对时序偏差带来负面影响。针对同构多核处理器体系结构,我们首次提出利用不同核上不同诱发原因的正、负效应相互抵消-互补效应-来容忍时序偏差。据此,提出了一种PVT偏差协同优化的设计方法,极大地弥补了之前方法由于偏重孤立优化某个偏差分量而导致整体设计过于保守的不足,并给出了低开销的实现方案。该方法不仅放松了对单个分量的优化要求,而且达到更优化的设计折中。实验结果表明(四核处理器上分别运行的10组工作负载),我们方法可以避免平均高达25%因时序失效导致的吞吐量损失,同时提高系统的公平性达80%。
4.提出总线分组、异步传输来容忍总线上时序偏差的方法。片上互连线的线间耦合电容逐步凸显,使得传输线间的串扰效应成为决定信号传输延迟的关键因素。我们发现总线上串扰对数据传输延迟的影响存在明显的“木桶效应”,即某拍数据的传输中往往只有小部分对串扰敏感,但却决定了整拍数据的传输延迟。据此,我们首次提出将总线分组后异步传输的方法(BAT)来解决局部串扰敏感的数据对整体传输性能的木桶效应。我们还发现某些类型的总线上串扰呈现空间局部性,并提出利用这种局部性来优化分组,进一步提高串扰容忍的能力。BAT方案在提高传输性能的前提下,能较好地克服基于屏蔽、编解码等方法布线开销大的问题。实验结果表明(BAT应用的64位的指令总线),相比于现有的“定周期”总线传输方案,BAT方案可以提高50%传输速率;即便相比于理想的编解码方案,性能也有10.5%的提高,但布线开销从45%减少至13%。