为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

片上互连网络(NOC)发展综述

2017-12-27 12页 doc 276KB 108阅读

用户头像

is_447713

暂无简介

举报
片上互连网络(NOC)发展综述片上互连网络(NOC)发展综述 1. 片上网络成为必然趋势 1.1. 单芯片上集成的数百个晶体管的数量 随着集成电路制造工艺尺寸等比例的持续缩小,集成电路芯片的性能和集成度按Moore定律迅速提高。目前单芯片上集成的晶体管的数量可以达到十亿个晶体管,如AMD公司2010年推出的Operon 6100处理器上集成了18亿个晶体管.根据国际半导体技术线路机构2009年预测,微处理器单芯片集成的晶体管的数量在2016年将接近百亿。 图 1 半导体集成工艺的发展趋势 1.2. 互连线延迟 随着工艺尺寸的减小,晶体管的门延...
片上互连网络(NOC)发展综述
片上互连网络(NOC)发展综述 1. 片上网络成为必然趋势 1.1. 单芯片上集成的数百个晶体管的数量 随着集成电路制造工艺尺寸等比例的持续缩小,集成电路芯片的性能和集成度按Moore定律迅速提高。目前单芯片上集成的晶体管的数量可以达到十亿个晶体管,如AMD公司2010年推出的Operon 6100处理器上集成了18亿个晶体管.根据国际半导体技术线路机构2009年预测,微处理器单芯片集成的晶体管的数量在2016年将接近百亿。 图 1 半导体集成工艺的发展趋势 1.2. 互连线延迟 随着工艺尺寸的减小,晶体管的门延迟等比例的缩小。而单位长度的金属线 [53]的电阻变大,而单位长度的金属线的电容基本保持不变。单位长度的金属导线随着工艺尺寸的缩小,线延迟增加。多核体系结构中存在着两种互连线,一是局部互连线,二是全局互连线。局部互连线是指,随着工艺尺寸的缩小,互连线的长度也会相应的缩小,例如处理器中计算单元内部的互连线。全局互连线是指, 随着工艺尺寸的缩小,互连线的长度不会变化。局部互连线随着工艺尺寸的缩小,线延迟也会相应的缩小,但是其减小的速度小于晶体管的门延迟。全局互连线的延迟,随着工艺尺寸的缩小而增加。全局通讯延迟增长的速度非常快。 图 2给出了每个工艺尺寸下时钟周期是8个FO4,在一个时钟周期,互连 2线所能够达到的芯片的区域。在35nm的工艺条件下,在20X20mm的芯片面积上,一个时钟周期内,信号所能够达到的范围小于整个芯片面积的1%。因此需要对全局信号,进行精心的设计。Intel P4处理的设计中采用了2个流水线站来传输数据。 图 2 不同的工艺尺寸下在时钟周期为8FO4~达到的距离 图 3 不同工艺节点下互连的相对延时变化 1.3. I/O引脚数量 按照经验,片外存储器访问通道的数量应至少与片内Core的数量相同。对于一个64位数据宽度的通道,加上地址和控制总线,所需要的I/O管脚的数量是110根。同时如果考虑到电源地的I/O管脚的数量几乎是整个管脚的数量的三分之一,那么,这个数值将达到150根。当片内core数从1个增加到8个的时候,管脚的数量需要增加1050根。然而,受芯片封装技术的限制错误~未找到 引用源。[47],I/O管脚的数量提升比较缓慢,如图1所示,片上晶体管的数量与I/O管脚数量之间的“鸿沟”在迅速扩大。例如在Tile64处理器中64个处理器核心公用4个DDR存储访问通路。 单芯片上集成的晶体管的数量能够达到数十亿个晶体管,将会导致随着单芯片上能够集成数百个IP核。这些IP核的互连结构逐渐成为体系结构设计师关注的重点。由于受到互连线的延迟相对于门延迟的不断增加,诸如交叉开关等集中式互连结构已经不能够满足数百个IP核的互连的延迟的需求。同时也会给增加互连网络的设计复杂度和面积增加。而片上互连网络由于其具有良好的扩展性和较高的吞吐率逐渐成为片上系统的互连结构的首选. 2. 片上互连网络的研究现状 2.1. 原型芯片 MIT大学于2002年推出多核处理器RAW,使用IBM的0.18um CMOS工 错误~未找到引用源。[3]艺,工作主频达500MHz。RAW处理器中集成了16个简单的RISC核心(Tile),每个Tile都有单独的微处理器、数据Cache以及存储器。Tile之间通过动态可重构的二维Mesh网络进行互连,其结构如图1.1所示。 RAW处理器结构 Texas 大学提出的TRIPS万亿次处理系统,如图1.2 所示,是面向2010 年 错误~未找到引用源。[5]的通用多核处理器体系结构。TRIPS 实质上是一种可重构的Tile 阵列,硬件可以根据不同应用软件和不同负载对自身进行重构,实现数据级并行、指令级并行和线程级并行。但它的处理核心粒度较大,每个处理核心具有16个同构的执行节点和相应的存储系统。 TRIPS处理器结构 2005年底,IBM、东芝和索尼公司联合推出了拥有9个处理器核心的Cell 错误~未找处理器,如图1.3所示,主频高达4.6GHz,运算性能峰值为256GFLOPS到引用源。[4]。Sun公司推出UltraSPARC T1处理器,具有8个、6个或4个处理器核 错误~未找到引用源。[6]心,每个核心能同时执行4个线程,主频为1.2GHz。而思科运营商路由系统CSR-1的核心——硅芯片分组处理器SPP内集成了多达188颗32位 错误~未找到引用源。[7]RISC处理器核心。 BIC/ PPESPE3SPE5SPE7SPE1IO I/F0 Data ArbiterEIB IO I/F1MICSPE0SPE2SPE4SPE6 Ring nControls Cell 处理器的互连结构 Teraflops是intel公式推出的80核结构,互连网络采用了8X10的2D Mesh网络拓扑结构.每个IP是一个简单的支持X86指令的处理器核心。 Intel teraflops 微处理器的体系结构 2.2. 网络拓扑结构 自从计算机的出现~对网络的拓扑结构的深入研究就已经开始了。至今已经提出了很多拓扑结构。例如静态网络拓扑结构的模型k-ary n-cube。其中K是指每个维度上网络节点的个数~n是指网络的维数。最常见的网络拓扑结构还包括ring环网、2Dmesh、torus网络、星形结构、胖树结构、二叉树结构、SPIN网络、Octagon和Butterfly Fat-Tree结构~针对NOC的片上网络的互连资源的数量~又提出了两种新型的高基数网络拓扑结构。 错误:未找到引用源。[11]文献提出了一种集中式的mesh拓扑结构。其结构如所示~二维mesh的网络节点不再是一个单一的处理器~而是一个处理器cluster~每个cluster由4个处理器组成。处理器之间通过Crossbar组成~能够减小数据传输的跳步数。为了维持与2D mesh网络具有相同的二分带宽~通过采用较宽的数据链路维持与2D mesh网络相同的二分带宽。这种结构充分利用了Crossbar带来的高带宽的互连特性~以及2Dmesh的可扩展的互连特性。 集中式的2D mesh结构 flattened butterfly 拓扑结构 错误:未找到引用源。[12]文献提出了flattened butterfly的高基数的网络拓扑结构。该网络结构提出的主要根据是当今集成电路的制造技术提供较多的IO引脚。并且主要是针对片外互连网络。图8中的左图给出了2-ary 4-fly的butterfly的网络拓扑结构~右图给出了2-ary 4 flat的flattened butterfly的网络拓扑结构。左图中的R0、R1、R2和R3组合形成R0’。在通道的组合过程中~R0、R1、R2和R3之间的物理通道被消除了~但是和其他路由器之间的物里通道被保留下来~同时原来的两条单向链路被双向链路取代。K-ary n-flat的拓扑结构会生成维度为n’=n-1,N/k 个基数为k’=n(k-1)+1的路由器。这种拓扑结构非常适合高基数的路由器结构。当k’=61时~通过3维网络的拓扑结构能够获得65536个节点。这种网络拓扑结构能够减小平均跳步数。 错误:未找到引用源。[13]文献将这种拓扑结构映射到片上网络中~主要目标是通过增加路由器的基数从而减小网络的跳步数。是一个64节点的flattened butterfly的实现~它是在4-ary 3-n的butterfly 拓扑结构的基础上实现的。由16个基数为10的路由器组成连接2维的网络。路由器的10个端口~4个连接本地的处理节点~3个连接第一维度的路由器之间的互连~其余3个端口用于连接第二维度的路由器之间的互连。因此网络的最大跳步数减小到2。而cluster的mesh的最大的网络跳步为7~路由器的端口数是8个。但是这种结构带来的一个问题是相同的跳步~不同的线长度。 64节点的二维flattened butterfly 拓扑结构 文献提出了一种层次化的~混合式的网络拓扑结构~如所示。8个节点之间共享总线~由8个路由器将其连接起来。充分的利用CMP之间存储访问的局部性。这种网络的拓扑结构能够降低延迟和功耗积。也提出了多跳步超通道的网络拓扑结构,MECS,~采用了一对多的通信模型~从而利用高度的互连特性。如所示~在水平方向上~路由器的一个物理输出链路同时连接到其他三个路由器上。 在这些新型的网络拓扑结构中~都对传统的路由器的结构进行了改进~从而能够提高网络的性能。 层次化的网络拓扑结构 MECS网络拓扑结构 2.3. 低延迟的路由器结构 由于片上网络受到功耗~延迟和面积设计约束~片上网络中的新型的路由器的结构主要是针对这三个方面进行优化设计的。很多学者研究了路由器在3D集成中的映射和设计~基于CDMA传输协议的路由器也引起来关注。 , 减小延迟的路由器的优化设计 文献提出每个跳步的路由器的延迟等于关键路径上的总延迟~关键路径由以下四个部分组成:地址译码和路由~交叉开关的仲裁~交叉开关的传输~和虚拟通路的分配。通过门级网络的设计和得出在0.8um下路由器的延迟与设计参数之间的关系。 错误:未找到引用源。[20]文献提出了一种前瞻的虚拟通路路由器的结构~从而减小了通过路由器的延迟。如果预测错误的话~将会带来数据经过crossbar的功耗。但是当具有前瞻和非前瞻的请求crossbar的时候~ 错误:优先传输非前瞻的请求~因此不回影响整个体统的吞吐率。文献未找到引用源。[21]在此基础上~通过将路由计算和仲裁逻辑从关键路径中移除~从而最小化时钟周期和访问延迟。 错误:未找到引用源。[17]文献提出了一种激进的路由器的设计~为了减小集中式的仲裁带来的竞争开销~采用了分布式的仲裁结构。图 4给出了路由器的结构~路由器由两个独立的环组成~数据报文可以在环中按照顺时针或者逆时针进行循环。每个环通过一个双端口的FIFO buffer来实现。当数据报文达到指定的输出端口的时候~如果输出端口能够接受报文~那么该报文就离开环~进入下一个路由器。如果输出端口不能接受报文~那么该报文将会继续在环中循环。这种路由器的结构能够减小因为报文头的阻塞而引起的延迟的增加。但是也会带来由报文在环网中移动引起的功耗。 图 4 Rotary 路由器结构 , 减小功耗的路由器设计 错误:未找到引用源。[24]文献采用中继器~链路流水线和电压调整来优化全局互连线的功耗~并且将这些优化技术使用到2D mesh网络中全局数据链路的互连线中~对于1mm长的链路~能够节约35-50%的功耗。 错误:未找到引用源。[26]文献提出一种动态虚拟通道管理器来管理统一的缓冲器,dynamic Virtual Channel Regulator,~能够根据网络通信量的状况~动态的分配虚拟通道的数量和buffer资源。这种技术能够在buffer的 容量为原来的50%的条件下~获得相近的性能~因此能够节约34%的功耗和30%的面积。如图 5所示~左图是常规的虚拟通道的管理技术~右图是ViChaR管理的buffer。右图中的虚拟通道的最大数量是Vk个,统一的buffer的容量,。一个虚通道的buffer的容量最大也是Vk。 图 5 ViChaR 路由器的buffer结构 , 3D集成中的路由器设计 错误:未找到引用源。[25]随着3D集成技术的发展~有学者将传统的路由器分布在多个器件层~从而减小互连线的长度和减小Crossbar的复杂性。图 6给出了输入缓冲器在各个器件层的分布方式。 图 6 buffer在3D集成下的设计 3. 片上互连与片外互连的对比 片上网络与片外网络在以下几个方面存在不同 , 互连线的资源~NOC将多个IP核集成在一个芯片上~由于 采用了多层金属线互连结构~能够提供大量的物理互连线。 大量的互连线可以使得网络采用高基数的拓扑结构~也可以 增加路由节点之间的物理链路的数据总线宽度。在片外网络 中~处理器节点之间的互连需要通过一个专用的互连芯片~ 受到集成电路的封装技术的限制~路由器的芯片的引脚的数 量受到限制~因此一般采用低基数网络拓扑结构~窄数据链 路的互连。并且虚通道技术来实现物理链路的共享~提高链 路的利用率和有效带宽。 , 面积的约束~网络路由器的面积主要由buffer和crossbar占 据。同时采用的虚通道技术增加了buffer的数量和buffer的 使用效率。在片上网络中~虽然可以提供的晶体管的数量很 多~但由于路由器节点的数量很多~从而占据了大量的芯片 面积。而在片外网络的路由器中~可以提供丰富的片上存储 器资源~因此非常适合采用多路虚通道。 , 功耗约束~功耗已经成为制约集成电路发展的重要的因素。 路由器中的功耗主要由buffer的功耗和crossbar的功耗占据。 同时由于采用了大量的物理互连线~物理链路所消耗的功耗 [52]的比例逐渐的增加。文献~在提出的未来的256个处理器 的互连网络中~物理链路消耗的功耗将高达150w。而片外网 络中~物理链路消耗的功耗也很大~主要是由IO接口引起的。 同时由于片上网络的功耗密度增加~给散热系统的设计带来 了很大的挑战。 , 主要的设计目标~片上网络中尤其是在CMP的网络设计中~ 存储器的访问延迟成为制约IPC提高的一个主要瓶颈之一~ 片上网络中对延迟的要求要大于对网络带宽的要求。本课题 的一个研究目标是设计一个低延迟的网络拓扑结构。 , 通信的层次~片上网络中~数据的通信主要集中在处理器节 点的CACHE到CACHE之间的数据传输~而不需要经过片 外的主要存储器。而片外网路需要的数据通信需要访问片外 的存储器。 从两种网络的物理设计的挑战和机遇中~可以得到下面几个启 示~片上丰富的互连线资源提供给我们设计新型的网络拓扑结构和高 性能的路由器的可能性~但是必须面临功耗和面积的约束。
/
本文档为【片上互连网络(NOC)发展综述】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索