• IIANews微官网
    扫描二维码 进入微官网
    IIANews微信
    扫描二维码 关注微信
    移动客户端
  • English
2025机器人产业趋势论坛报名
传感器

多核多线程是未来处理器的发展方向

  2005年09月19日  

进入21世纪,人们的生活方式正在发生巨大的改变。人与人之间的交互越来越依赖于通讯网络。在这样的发展趋势下,通讯基础设施建设的发展就显得尤为重要。需求带来发展,而发展又是基于技术的。在目前的通讯网络架构中,骨干网的发展是最快的,现代光网络为骨干层提供了强大的传输能力,已经可以满足当前甚至将来一段时间的发展需要。在基本的用户接入层,光纤接入、ADSL接入、DDN等接入方式也基本满足了当前接入层的发展需要。然而,在从用户接入到骨干网之间的通讯基础设施建设,却面临着巨大的挑战。

一方面,越来越多的接入用户以及越来越多样化的业务需求使得各种网络设备必须提供足够的吞吐量,另一方面,由于网络应用不断更新和变化,新业务不断涌现,又要求服务提供商能快速地满足用户的需求,增多盈利模式,从而巩固和提高竞争力。在这样的背景下,传统的处理器在这些方面越来越显得力不从心。

传统单核处理器遭遇发展瓶颈

对于传统的单核处理器来说,其性能的提高主要依赖于主频的提高。但这无论在性价比还是性能功耗比方面都遭遇到令市场无法接受的发展瓶颈。

从图1可以看出,在性能提升方面,处理器主频,内存访问速度以及I/O访问速度的发展是十分不平衡的。处理器的主频每两年就要翻一番,而内存访问的速度要每六年才能提高一倍,而I/O访问的速度要提高一倍的话需要八年的时间。所以处理器与I/O的发展不均衡已经产生了很大的瓶颈,单纯依靠提高处理器主频来提升整个系统的性能已经不可行,反而会造成投资的浪费,因为大部分时间CPU都在等待内存或者I/O访问的返回才能继续下一步的工作。高频处理器的设计对工艺要求非常高,生产难道大,成品率也较低,因此造成生产的成本据高不下。所以市场上最新推出的高频单核处理器往往性能价格比是较低的。

另外,在系统设计时,功耗也是必须考虑的问题。实际上,性能功耗比对于整个系统的设计非常重要。相对于其提供的性能,高频的单核处理器在功耗上也是不适合大量集中式使用的。笔者曾经亲身体验过某大公司的刀片式服务器机房,成百上千片的Pentium-M刀片板同时运行,使得整个机房有如烤箱一般。

网络处理器力不从心

网络处理器是更加接近ASIC的处理器,期望能够达到接近ASIC的性能,同时又提供灵活的编程能力。在不是十分复杂的网络应用中,网络处理器是比较适合的。但是如果应用复杂的话,由于受限于一定的微码空间,网络处理器就比较被动了。当今网络应用的需求变化速度是非常快的,基本上以三个月的速度在更新,这也给采用网络处理器的产品在响应需求方面提出了挑战。加上微码编程有一定的技术门槛,缺乏相关经验的研发团队在设计初期需要花费更多的时间。总的来说,使用网络处理器设计整个系统会从一定程度上降低整个系统对于应该修改或者升级需求方面的响应速度,固定大小的微码空间也限制了复杂应用的设计。

希望:多核多线程通用处理器

从用户角度看,他们真正需要的是一种编程简单,针对市场需求升级容易,而且能提供强大吞吐量的处理器产品。RMI公司最新推出的XLR系列多核多线程处理器就是在这样的一个市场需求的背景下诞生的。

图1:关键的性能瓶颈:CPU主频、
内存访问速度以及I/O访问速度之间
的发展差距

RMI公司总裁Raza表示:“当时两大因素促使我有了再创业意愿:一是信息基础设施变得日益重要;二是大公司的反应没有小公司快,尤其是2002年市场不景气时,大公司不愿意在新项目研发上花钱。这两点结合在一起,就给了我们一个难得的市场机会。”

Raza接着说:“我们的XLR系列线程处理器采用SoC(系统级芯片)技术,将网络连接、负载平衡、安全、XML等功能集成在一个芯片上,采用台积电(TSMC)90纳米CMOS工艺制造,集成了3.33亿个晶体管,比英特尔的处理器复杂得多,处理能力也高出十倍。”

XLR的设计非常复杂,高端的XLR732具有8个核,每个核具有四个vCPU, 每个vCPU各自拥有完全独立的寄存器组,在线程调度时不需要进行上下文切换,从而保证32个vCPU十分高效的运行。举一个比较常见数据应用例子,使用XLR732中的20个vCPU进行三层转发处理,可以达到16Gbps的性能。目前XLR系列处理器可以支持Linux SMP和VxWorks等常见的操作系统。

RMI在XLR系列处理器的设计上有不少独到之处,我们可以从内核、内部总线、以及硬件加速器三个方面来了解为何XLR可以成为目前业界最高吞吐量的处理器。

从“内核”的角度看,现在业界普遍认为,多核多线程是解决内存及I/O延迟的唯一可行方案。XLR的多线程技术可以充分的利用访问内存或者I/O时所必须等待的时间来达到高性能。举例来说:假如XLR core0中的vCPU1在某一时刻对内存进行读操作,由于内存比CPU要慢的多,所以vCPU1需要等待该读操作的返回,在这个时候,core0中的vCPU2假如处于就绪状态就可以立刻执行,如果vCPU2也遇到访问外设或者内存的操作,那么Core0中的vCPU3或者vCPU4就可能会被调度执行。由于每个vCPU都具有各自独立的寄存器组,所以调度切换十分高效,从而尽可能的发挥了CPU的处理性能,屏蔽了访问慢设备所需等待的时间。

从“内部总线”的角度来看,内部总线的设计对于一个芯片的性能影响是非常大的,而对于具有多核的SoC处理器就更为重要了。因为各个核之间,核与外部接口之间的通讯效率对系统的整个性能至关重要。XLR采用了RMI公司独特的FMN(Fast Message Network)技术用来把XLR中的多个核,多个网络接口,DMA,安全引擎连接起来。FMN是64bit宽度的消息环,带宽=核的主频×64bit(举例:1.5Ghz的XLR,FMN的带宽为96Gbps)。FMN可以使得各个核,核与接口(网络接口,安全引擎,DMA)之间在同一时间各自并行的传递数据,避免了通常的总线所必须的“仲裁”阶段,使得效率极大的提高。XLR中的内存分布互连技术,采用点对点方式(无需仲裁),提供最大3.84Tbps的带宽。

从“硬件加速器”的角度来看,XLR内置的网络加速器可以对从网络接口进入XLR的数据包进行高速预处理。拿以太网包举例,XLR的网络加速器可以对以太网包2层、3层、4层的内容进行辨析,提取特征串,自动完成校验和验证,把包DMA到内存,构造以太网包描述符,然后可以基于多种策略把以以太网描述符快速均衡的分流到指定的vCPU。整个过程自动完成,不需要CPU的参与。XLR内建的安全引擎,硬件支持AES,DES/3DES,SHA-1,SHA-256,MD5算法,可以提供10Gbps的加密解密运算能力。

XLR系列处理器的目标市场包括:多业务交换机、路由器、防火墙/VPN/IDS/Content-aware网络。

多核多线程是未来处理器的发展趋势

毫无疑问,多核多线程是未来处理器的发展方向。回首处理器的发展历程,并行技术从指令级的超标量发展到线程级的超线程或者并发多线程,再到今天处理器级的多内核,整个过程历历在目。英特尔、Sun和IBM等大公司目前已经投身到多核或者多线程技术的浪潮之中。当今的网络应用日趋复杂,对性能的要求不断提高,无论是需求推动技术,还是技术激发了新的需求,并行技术都将是未来信息基础设施建设的必然选择。以XLR为代表的多核多线程技术,必将给信息基础设施的高速发展带来新的动力。

作者:吕振宇


Raza Microelectronics公司

最新视频
伊顿Bussmann:百年品牌 以创新驱动发展   
欧姆龙光电传感器E3AS | 角度特性演示:高反光不锈钢工件稳定检出   
研祥金码
专题报道
《我们的回答》ABB电气客户故事
《我们的回答》ABB电气客户故事 ABB以电气问题解决专家之志,回答未来之问。讲述与中国用户携手开拓创新、引领行业发展、推动绿色转型的合作故事,共同谱写安全、智慧和可持续的电气化未来。
企业通讯
研祥IPC-310准系统,5月28日冰点底价限时开抢
研祥IPC-310准系统,5月28日冰点底价限时开抢

疯狂星期三,研祥IPC-310准系统,5月28日冰点底价限时开抢!

优傲机器人新品巡展 NVITATION 邀请函
优傲机器人新品巡展 NVITATION 邀请函

优傲机器人将于2025年6月5日在北京亦庄举办新品巡展活动。届时,您将有机会近距离品鉴优傲新品成为首批见证 UR15 中

在线会议
热门标签

社区