斯坦福大学的一位杰出研究者最近在2003年超级计算会议上宣布,他已经设计出了一种名为Merrimac的新型处理器。他声称,这种处理器可以构造出多种功能强大但相对便宜的科学计算机。不过,有关Merrimac CPU会否被制造出来的问题已变成一场争论的中心,即如何为市场规模小但具有高度战略意义的超级计算领域提供下一代皮塔级(peta=10^15)计算系统。
Merrimac与目前常见的使用数千个低成本最新X86办CPU来构建超级计算机的做法完全不同。目前全球最新的前500台超级计算机大都采用这样的系统架构,但也有人说,这样的系统无法满足对计算量要求最高的科学和政府应用的需要。为将这样的群集系统的计算能力推向一个新的水平,英特尔公司最近宣布投入3600万美元启动一个为期三年的研究项目。
斯坦福大学计算机科学系教授William Dally在一篇文章中也指出,今天的CPU之所以效率低下,是因为它们花在计算上的时间太少和在等待内存响应上花费了太长的时间。Merrimac试图通过将应用程序改写成所谓的流(stream)来改变微处理器的设计。这些流使得Merrimac CPU上的多个算术单元可以并行进行工作,并提供毋需利用片外存储器就可以处理更多计算的机制。
“今天的最新处理器存在很多问题,其中之一就是它们浪费了很多带宽,”Dally在一次有关皮塔级浮点运算(Pflop)架构的讨论会上指出,“能不能实现皮塔级浮点运算其实关系不是很大,关键的问题是要充分利用带宽。”
Merrimac设计含有64个64位浮点乘加单元, 它们由多层寄存器馈入数据,并由独立的片上控制器管理。Dally估计,一块10×11mm的90纳米芯片可以提供128Gflop的浮点运算速度,而其成本只需200美元,功耗也仅在31毫瓦左右。一个差不多大小的96端口路由器芯片可以连接到16个在一块单板上的Merrimac节点或512个机柜中的节点。HSPACE=12 ALT="图1:Merrimac CPU设计含有64个64位浮点乘加单元, 它们由多层寄存器馈入数据,并由独立的片上控制器管理。">
根据Dally的文章,由此得到的系统架构可以2万美元成本制造出一个每秒2万亿次浮点运算(2Tflop)的工作站或以2000万美元的成本制造出一台每秒2千万亿次浮点运算(2Pflop)的超级计算机。
为了以仿真方式来展示该处理器的性能,他领导的斯坦福小组用手工方式编制了三个流(streaming)应用程序。不过,他们还需要为这个系统设计出一个编译器。
迄今为止, Dally发现,在五家最大的计算机制造商中,还没有一家愿意制造这种把需要大量并行数据处理的应用系统作为目标的芯片。“这些公司大多希望建造数据库服务器,并附带地把它们作为科学计算用机器销售出去,”他说。但在Dally看来,“拒绝为超级计算建造定制型处理器是不明智的。”
Cray公司和Sandia国家实验室的执行官参加了这次讨论会。这两个组织目前正在使用数千个AMD Opteron 处理器来建造所谓的红色风暴(Red Storm)系统,估计成本为1亿美元。
“红色风暴是一个定制系统,但他们不会另外再花费1000万到1200万美元来建造一个定制型处理器,”Dally在会后的一次谈话中指出,“实际上,同建造定制型处理器相比,这种保守的方法风险更大,因为它们把真正昂贵的东西(带宽)浪费掉了。”
市场太小而无法定制
在今天的高性能计算机市场上,有很多因素迫使人们采取保守策略。“整个技术计算市场太小了,以至于即使是IBM也无法为它开发一个完全定制型系统,”国际数据公司市场研究部副总裁Earl C. Joseph说。
这个由大约6万个系统组成的市场在2002年下滑了7.2%,总额下降到47亿美元,这是其在15年的连续增长之后的第二次年度衰退。IDT公司把下滑的原因归咎于经济低迷和群集系统的上升。在这些系统中,大约250个是单台价值100万美元或更高的超级计算机,这个市场的年度总额为10亿美元,并一般保持稳定。
其它经济因素也促使进一步紧缩研发资金。“在20多年的时间里,风险投资群体向15到20家公司投入了20亿到30亿美元的资金,” 路由器制造商Chiaro 网络公司技术副总裁Steven J. Wallach说,“在过去的5年里,没有风险资金投入,而且在最近一段时期内也不会有投入。还有,我们在微处理器架构上经历了一次兼并的过程。这两件事对超级计算机的发展冲击很大。”
皮塔级计划HSPACE=12 ALT="Dally:关键的问题是要充分利用带宽。">
不过,为了在2010年提供新型皮塔级计算机,Cray、IBM公司和Sun微系统公司正在启动另外一些计划,它们每一家都得到了政府高生产率计算系统(HPCS)计划5000万美元的支持。这三家公司对其计划的细节都缄口不言,但据悉它们将包含新的系统级芯片、互连架构和软件架构。
尽管并不打算使用Merrimac CPU,Cray公司已聘请Dally担任其名为Cascade 的HPCS设计的顾问。“我们认为流将是一个非常重要的概念,但我们将采用其它实现方式,”Cray公司的首席科学家 Burton Smith表示。他说,现在群集系统和专用系统(如Cascade)之间的紧张关系,正日益把这两类超级计算机分开,但对我们来说,这是一件大好事。
IBM的系统致力于同PowerPC相兼容,并适应各种不同的技术/商业工作任务,该公司的HPCS项目负责人Mootaz Elnozahy说:“我们将拥有一个新的微架构,它不是一个传统意义上的内核。在这个时间框架下,内核的概念已变得模糊不清。”
Elnozahy强调,IBM小组正在“推进一些雄心勃勃的想法,但面临很多困难。我每天醒来之后都在考虑是否把这个研发计划继续下去。同时,我感到畏惧的是,有一天我们将有能力在Dell公司的网站上配置一台超级计算机。”
英特尔新的“先进计算计划”希望能推动这个技术准确地向那个方向发展。这个计划被看成是对HPCS计划的反应,但其细节还未见披露。英特尔公司的高性能计算室的市场经理Rick Herrmann表示,他们将把精力集中在一系列系统和软件项目上,包括多线程CPU的编程模型、小形状因子系统的功率和热封装、以及系统互连(如Infiniband)。
“我们要加速批量(volume)技术在高性能计算中的应用,”Herrmann说。
其他一些公司希望通过采用改进现行架构的方法,以渐进方式向皮塔级系统发展。
Sandia公司红色风暴计划负责人Jim Tomkins说,使用以45纳米设计规则生产的25000个处理器,可以在2010年设计出皮塔级浮点运算(Pflop)的系统。在那个时候,每个裸片上将包含四个对称的以10GHz时钟运行的多重处理CPU,从而每个芯片可提供40Gflop的运算能力。“我们可以建造出这样的Pflop系统,其复杂程度同今天的系统相近,但所使用的处理器数量是现在的4或5倍,”Tomkins表示。
与此类似,富士通实验室可能也会采取一种渐进的方法。富士通公司的Kenichi Miura描绘了一种发展到皮塔级的方案:即把该公司的Sparc处理器提升到在一个裸片上放置两个内核的4GHz处理器,然后,组建每节点安装有128个处理器的共有256个节点的光学网络。
作者:麦利
京公网安备 11011202001138号
