论文部分内容阅读
半导体行业在过去的半个世纪中一致遵循着“摩尔定律”发展,为了维持芯片的竞争力,集成电路单位面积上的晶体管数量每隔两年会翻一番。目前,单块芯片上已经集成了数十亿的晶体管,为了有效利用芯片上的晶体管,研究者们设计了多核处理系统,但传统的基于总线架构的多核系统存在可扩展性差,带宽低、延迟高和功耗高等缺点。为了避免这些缺陷,片上网络引入报文交换思想到芯片内部,它已经成为多核处理器事实上的通信标准。
随着片上网络的不断发展,基于片上网络互连的多核芯片已经广泛的应用于图像处理、大气物理以及航空航天领域。然而在面对航空、航天等复杂空间环境时,芯片会面临着严重的瞬时故障问题,不得不考虑瞬时故障容错的解决方案。冗余设计就是解决瞬时故障的基础方法。
目标多核系统是面向高密度运算的异构多核系统,作为核间通信的片上网络,在外太空复杂空间环境下,没有有效的冗余保护方案,会使系统受到瞬时故障的影响,导致系统无法正常工作。因此,本文针对片上网络的设计了冗余结构,来屏蔽瞬时故障对目标多核系统的影响,主要分为三个部分:
首先,针对片上网络的通信任务进行研究,分析目标多核系统的通信传输特征,设计了符合单层网络容错和三层网络容错的方案,对单层网络容错方案的设计,满足控制事务和大批量传输事务的要求,同时也满足了容错要求,但性能远逊于三层网络架构。针对三层网络的容错设计,对状态网,配置网和数据网分别提出了符合自身的容错方案,通过延迟和吞吐的分析,分析该算法的设计思想和依据。
然后,对状态网、配置网和数据网分别进行冗余设计,根据不同层网络的功能和数据量级,在状态网和配置网中,对协议控制信号采用三模冗余设计,对传输数据采用时间双模冗余自校验的方法进行容错,在数据网中,采用协议控制信号三模冗余,传输数据双路径双模传输自校验的方案进行容错。
最后,对目标多核系统设计的容错方案进行仿真测试,通过不同的包注入率和故障注入率来验证设计的冗余方案,从数据无误比和延迟来进行分析。通过实验对比,可以发现,对于单粒子翻转引起的瞬时故障,设计的容错方案均能提供接近99%容错的效果,可以保证系统的可靠通信。
随着片上网络的不断发展,基于片上网络互连的多核芯片已经广泛的应用于图像处理、大气物理以及航空航天领域。然而在面对航空、航天等复杂空间环境时,芯片会面临着严重的瞬时故障问题,不得不考虑瞬时故障容错的解决方案。冗余设计就是解决瞬时故障的基础方法。
目标多核系统是面向高密度运算的异构多核系统,作为核间通信的片上网络,在外太空复杂空间环境下,没有有效的冗余保护方案,会使系统受到瞬时故障的影响,导致系统无法正常工作。因此,本文针对片上网络的设计了冗余结构,来屏蔽瞬时故障对目标多核系统的影响,主要分为三个部分:
首先,针对片上网络的通信任务进行研究,分析目标多核系统的通信传输特征,设计了符合单层网络容错和三层网络容错的方案,对单层网络容错方案的设计,满足控制事务和大批量传输事务的要求,同时也满足了容错要求,但性能远逊于三层网络架构。针对三层网络的容错设计,对状态网,配置网和数据网分别提出了符合自身的容错方案,通过延迟和吞吐的分析,分析该算法的设计思想和依据。
然后,对状态网、配置网和数据网分别进行冗余设计,根据不同层网络的功能和数据量级,在状态网和配置网中,对协议控制信号采用三模冗余设计,对传输数据采用时间双模冗余自校验的方法进行容错,在数据网中,采用协议控制信号三模冗余,传输数据双路径双模传输自校验的方案进行容错。
最后,对目标多核系统设计的容错方案进行仿真测试,通过不同的包注入率和故障注入率来验证设计的冗余方案,从数据无误比和延迟来进行分析。通过实验对比,可以发现,对于单粒子翻转引起的瞬时故障,设计的容错方案均能提供接近99%容错的效果,可以保证系统的可靠通信。