在经过多年的相对沉寂之后,嵌入到基于单元的芯片设计中的SRAM再次成为一场变革的中心。多种因素的综合(架构和工艺两方面的)正迫使SRAM知识产权(IP)供应商更新其技术,而这正在为系统级芯片(SoC)设计人员提供新的选择。不过,这也可能成为引发总是 不稳定的逻辑IP业务另一轮重组的决定性因素。
根据业内人士的说法,导致这一变革的推动力量来自以下两个方面。一方面,元件库开发人员在130和90纳米工艺下遇到的完全不同的设计环境已迫使他们重新思考SRAM阵列的生成方法。另一方面,随着130纳米工艺的成熟和CPU内芯IP供应商挖掘这些工艺的速度潜力,高速缓存SRAM正在替代CPU内芯中的一些临界控制通道成为提高处理器速度的制约因 素。这已经迫使SRAM IP供应商多年来首次必须明确地解决速度问题。
不同于定制设计,基于单元的设计中的SRAM通常要经过三个步骤才能做到芯片上。第一步发生在代工厂,代工厂器件设计人员创建并特征化各种SRAM位单元。第二步发生在IP供应商或ASIC开发商处,这里的电路设计人员和软件工程师创建一个阵列架构,它把单个SRAM单元编排成行和列,在该阵列的周围布置解码器和锁存器,通过该阵列把字线和 位线串成行,并将位线连接到检测放大器。
一旦该架构建立起来,就再创建一个精心制作的软件应用,它把速度、功率、尺寸和其它约束作为输入,并产生一个SRAM阵列的物理设计。它就是SRAM编译器。
第三步发生在芯片设计商处。这里的设计人员输入其要求,而编译器就为所需的物理阵列生成一个设计。由于受到不断增长的压力,这一过程的前两步正在改变。
新的尺寸
来自工艺特性和用户两方面的压力正迫使代工厂将重点转移到SRAM单元上来,一些业内 观察家说。
传统上,一个经过认证的SRAM单元设计针对每一工艺进行特征化。通常要求它面积小、速度快、功耗低、良品率高(至少当工艺成熟时是这样),而且抗软错误性能好。该单元必须在许多测试晶圆上制造过,进行过充分的特征化,而且对其Spice模型有完整的文档资 料。
但事情正在改变。工作电压已经降低到门限电压和电源电压之间相差无几的程度。对SRAM单元设计人员来说,漏电流也一直是一个主要的问题,这迫使他们必须在静态功耗 、性能和可靠性之间进行平衡。
其结果是,没有一个单一的优化单元,而是产生了一个单元系列:一种单元适合低功耗和中速应用;一种单元适合高速应用,但功耗明显要大一些;或许在不远的将来还会出现第三种,它具有很高的抗软错误性能。
此外,工艺变种的大幅度增加正在侵蚀对晶圆厂提供精确Spice模型能力的信任。"90纳米节点的现实是精确的Spice模型并不总是可能的,"Artisan Components公司技术行 销总监Herb Gebhart指出,"在单一的裸片上都可能有实质性的差异。"
设计规则(特别是所谓的推荐规则)的大幅增加也使这种局面变得更加复杂。因为传统上SRAM阵列有最好的特性,它们在大多数SoC芯片上所占的面积最小,但现在随着它们在SoC芯片上所占的面积越来越大,它们对良品率的影响已不容忽视。此外,SRAM阵列要求实质性采用分辨率增强技术(RET)辅助特性和移相器,而它们会带来一整套新的设计约束 。所有这些使得编排一个SRAM阵列远非一件易事。
编译器也在进步
这些压力已经为编译器市场带来了一个新的景象,作为响应,Artisan和Virage Logic 公司推出了新一代编译器。"现在是对前一代编译器进行革命性更改的时候了," Artisan公司的总裁兼首席执行官Mark Templeton指出,"如果你开始时以非常低的工作电压作为基本假设,并将注意力集中在解决漏电流问题上,那么你最终会作出一套非传统的决策来解决层分配、连线长度和检测放大器结构问题,你甚至可能会重新考虑库结构 和解码器设计一类问题。"
对RET的需要导致Artisan在其位单元版图中包括了移相器和其它一些辅助特性,Templeton说。内芯周围的电路远不是关键的,它无需显式地把RET特性编译进版图中就可简单地设计的'RET友好'。这导致送到掩模制造商处的版图的某些位单元可能被标识成'不用修改',但周围电路却需要在掩模制造商处进行RET设计。
工艺变种还促成了编译器技术的改变。例如,Artisan发现用于控制存储器访问时序的反相器链不能以足够的精度跟踪工艺变化,于是该公司采取了以下两个步骤:采用可以更密切跟踪位单元晶体管和位线阻抗差异的元件对延迟链进行重新设计,并加入一个能在窄范围内调整该延迟的可编程寄存器。其结果就是生成了一个自定时电路,它可以在一定程度上测量其自身的延迟,并针对当前状态在适当的时间自我调节检测放大器的箝位电压。
速度的挑战
除了工艺以外,另一个因素也在迫使编译器向前发展,即不断提高的CPU速度。在综合过的CPU内核中(也可能在许多硬内核设计中),需要编译高速缓存和高速缓存标记RAM,虽然供应商不急于讨论这个问题。不过,与SoC中的许多类似需要不同,在高速缓存应用中 ,SRAM访问时间可能结束在关键通道上。
"如果你考察一下大部分CPU管道设计,你会发现第一级高速缓存器的访问必须在一个时钟周期内完成,"MIPS Technologies公司的产品行销总监Tom Petersen评论说,"但SRAM并没有得到整个时钟周期:在该周期的地址生成期间也许会有一些逻辑阶段,而且 在该周期的末端有方式选择和负载调整逻辑阶段,因此实际上该SRAM访问时间不得不比CPU时钟周期短很多。"
Faraday Technology公司是一家ASIC供应商,其总裁Charlie Cheng估计,时钟速度达400MHz的ARM-11级别处理器可能需要1.3纳秒访问时间的高速缓存SRAM。"到了这样一些时候,即你必须考虑占用部分时钟周期的逻辑、考虑EDA工具引起的时钟插入延迟、以及考虑为时序发生器的内插误差和工艺差异留出一些保护时段,你或许已经用掉了三分之一的CPU时钟周期,"Cheng解释道,"一个用130纳米工艺设计的理想处理器可以实现500MHz的工作频率,但采用同样工艺编译生成的SRAM的最佳工作速度仅在150到266MHz 之间。而这正是问题之所在。"
这个问题同时困扰着编译器供应商和CPU供应商。MIPS公司对此的回应是推出了24K内芯设计。"我们对管道进行了彻底的重新设计,以便给高速缓存器更多的时间," Petersen说,"方式选择和负载调整在存储器访问周期之后的下一个周期进行。"
不过,单凭MIPS一家的努力是解决不了这个问题的。最近MIPS在演示24K内核时,选用了Virage公司设计的一种新型高速SRAM编译器来避免因高速缓存器而降低该CPU的时钟频率 。
关键通道
Artisan在用其新的Advantage编译器解决可制造性问题的同时,也开始着手解决速度问题。 "我们采用了一种全新的视角来考察关键通道在SRAM访问期间是如何工作的," Gebhart说,"例如,大约40%的访问时间花在位单元和检测放大器之间的交互上,在这段时间中,位单元把位线分开,检测放大器探测这种分开操作。我们最终的做法是把检测放大器从阵列的底部移到中部,从而显著地缩短了位线的长度。"
一些公司将SRAM编译器行业目前的状况看成是一个机会。Faraday公司就属于这个阵营。该公司决定开发其自己的高速缓存SRAM编译器,这样做的部分原因是支持即将发布的一 项CPUIP。"这是一种针对CPU应用进行了优化的工具,"Cheng表示,"通过不断地问自己'我们能够加快什么?如果我们只考虑CPU高速缓存,那么我们能够去掉什么?', 我们对传统方法进行了彻底改进。"
其结果是令人吃惊的。Faraday的设计消除了相当多的传统电路,简化了解码器,完全消除了传统上提供存储器阵列定时的反相器链,大大缩短了位线长度。其设计团队通过对形状因子的约束生成了短但非常宽的阵列。这不仅使字线短了很多,而且限制了其编译器输出不得不适应的纵横比范围,从而使有关规范可以更严格。
Cheng表示,这样做的结果是一种可以产生1K×16位阵列的编译器,在采用联华电子公司的130纳米HS工艺的情况下,其最糟的读和写周期时间分别为1,080和1,090皮秒。Cheng指出,联华电子正在改进其工艺里的离子注入设计以减少漏电流,而且它正在制造的新单 元应该允许这一编译器生成1GHz的时钟速度。
这是否是一个新趋势的开端目前还有很多争论。Faraday的编译器专门针对高速缓存器应用,而且可能已经打算专门用于支持一种未来的快速处理器IP。但Faraday同其母公司联华电子的密切关系可能已经使它在开发SRAM编译器方面处于一个非常有利的地位。
作者:蓝军